文本生成,文本數(shù)據(jù)增強怎么做?

向AI轉型的程序員都關注了這個號??????
機器學習AI算法工程?? 公眾號:datayx
textgen, Text Generation models. 文本生成,包括:UDA,Seq2Seq,ERNIE-GEN,BERT,XLNet,GPT-2等模型實現(xiàn),開箱即用。
Solution
UDA,非核心詞替換
EDA,簡單數(shù)據(jù)增廣技術:相似詞、同義詞替換,隨機詞插入、刪除、替換
回譯(bt, back translate),中文-英文-中文
生成模型,seq2seq,gpt
UDA(非核心詞替換)
基于Google提出的UDA(非核心詞替換)算法,將文本中一定比例的不重要詞替換為同義詞,從而產(chǎn)生新的文本。
BT(回譯)
基于百度翻譯API,把中文句子翻譯為英文,再把英文翻譯為新的中文。
Seq2Seq
基于Encoder-Decoder結構,序列到序列生成新的文本。
GPT2
基于Transformer的decode結果的自回歸生成模型。
TGLS
無監(jiān)督文本生成模型:本文提出TGLS——一種基于“先搜索后學習”的無監(jiān)督文本生成方法,模型反復迭代,最終能生成較高質量的文本。
https://www.jiqizhixin.com/articles/2020-08-11-5
Install
pip3 install textgen項目代碼?獲取方式:
關注微信公眾號 datayx ?然后回復?文本生成?即可獲取。
Usage
download pretrained vector file
以下詞向量,任選一個下載:
輕量版騰訊詞向量?百度云盤-密碼:tawe?
https://pan.baidu.com/s/1La4U4XNFe8s5BJqxPQpeiQ
二進制,111MB放到?
~/.text2vec/datasets/light_Tencent_AILab_ChineseEmbedding.bin騰訊詞向量-官方全量, 6.78G放到:?
~/.text2vec/datasets/Tencent_AILab_ChineseEmbedding.txt
download pretrained language model file
bert模型
EDA文本數(shù)據(jù)增強

output:

text generation base seq2seq

output:

text generation base ernie-gen

機器學習算法AI大數(shù)據(jù)技術
?搜索公眾號添加:?datanlp
長按圖片,識別二維碼
閱讀過本文的人還看了以下文章:
基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測
《深度學習入門:基于Python的理論與實現(xiàn)》高清中文PDF+源碼
python就業(yè)班學習視頻,從入門到實戰(zhàn)項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼
PyTorch深度學習快速實戰(zhàn)入門《pytorch-handbook》
【下載】豆瓣評分8.1,《機器學習實戰(zhàn):基于Scikit-Learn和TensorFlow》
《Python數(shù)據(jù)分析與挖掘實戰(zhàn)》PDF+完整源碼
汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計學習方法》最新資源全套!
《神經(jīng)網(wǎng)絡與深度學習》最新2018版中英PDF+源碼
重要開源!CNN-RNN-CTC 實現(xiàn)手寫漢字識別
【Keras】完整實現(xiàn)‘交通標志’分類、‘票據(jù)’分類兩個項目,讓你掌握深度學習圖像分類
VGG16遷移學習,實現(xiàn)醫(yī)學圖像識別分類工程項目
特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊
如何利用全新的決策樹集成級聯(lián)結構gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在線識別手寫中文網(wǎng)站
中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特征工程
不斷更新資源
深度學習、機器學習、數(shù)據(jù)分析、python
?搜索公眾號添加:?datayx??
