向AI轉型的程序員都關注了這個號??????

機器學習AI算法工程?? 公眾號：datayx

textgen, Text Generation models. 文本生成，包括：UDA，Seq2Seq，ERNIE-GEN，BERT，XLNet，GPT-2等模型實現(xiàn)，開箱即用。

Solution

UDA，非核心詞替換
EDA，簡單數(shù)據(jù)增廣技術：相似詞、同義詞替換，隨機詞插入、刪除、替換
回譯（bt, back translate），中文-英文-中文
生成模型，seq2seq，gpt

UDA(非核心詞替換)

基于Google提出的UDA(非核心詞替換)算法，將文本中一定比例的不重要詞替換為同義詞，從而產(chǎn)生新的文本。

BT(回譯)

基于百度翻譯API，把中文句子翻譯為英文，再把英文翻譯為新的中文。

Seq2Seq

基于Encoder-Decoder結構，序列到序列生成新的文本。

GPT2

基于Transformer的decode結果的自回歸生成模型。

TGLS

無監(jiān)督文本生成模型：本文提出TGLS——一種基于“先搜索后學習”的無監(jiān)督文本生成方法，模型反復迭代，最終能生成較高質量的文本。

https://www.jiqizhixin.com/articles/2020-08-11-5

Install

pip3 install textgen

項目代碼?獲取方式：

關注微信公眾號 datayx ?然后回復?文本生成?即可獲取。

Usage

download pretrained vector file

以下詞向量，任選一個下載：

輕量版騰訊詞向量?百度云盤-密碼:tawe?
https://pan.baidu.com/s/1La4U4XNFe8s5BJqxPQpeiQ
二進制，111MB放到?~/.text2vec/datasets/light_Tencent_AILab_ChineseEmbedding.bin
騰訊詞向量-官方全量, 6.78G放到：?~/.text2vec/datasets/Tencent_AILab_ChineseEmbedding.txt

download pretrained language model file

bert模型

EDA文本數(shù)據(jù)增強

output:

text generation base seq2seq

output:

text generation base ernie-gen

機器學習算法AI大數(shù)據(jù)技術

?搜索公眾號添加：?datanlp

長按圖片，識別二維碼

閱讀過本文的人還看了以下文章：

TensorFlow 2.0深度學習案例實戰(zhàn)

基于40萬表格數(shù)據(jù)集TableBank，用MaskRCNN做表格檢測

《基于深度學習的自然語言處理》中/英PDF

Deep Learning 中文版初版-周志華團隊

【全套視頻課】最全的目標檢測算法系列講解，通俗易懂！

《美團機器學習實踐》_美團算法團隊.pdf

《深度學習入門：基于Python的理論與實現(xiàn)》高清中文PDF+源碼

《深度學習：基于Keras的Python實踐》PDF和代碼

特征提取與圖像處理(第二版).pdf

python就業(yè)班學習視頻，從入門到實戰(zhàn)項目

2019最新《PyTorch自然語言處理》英、中文版PDF+源碼

《21個項目玩轉深度學習：基于TensorFlow的實踐詳解》完整版PDF+附書代碼

《深度學習之pytorch》pdf+附書源碼

PyTorch深度學習快速實戰(zhàn)入門《pytorch-handbook》

【下載】豆瓣評分8.1,《機器學習實戰(zhàn):基于Scikit-Learn和TensorFlow》

《Python數(shù)據(jù)分析與挖掘實戰(zhàn)》PDF+完整源碼

汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)

李沐大神開源《動手學深度學習》，加州伯克利深度學習（2019春）教材

筆記、代碼清晰易懂！李航《統(tǒng)計學習方法》最新資源全套！

《神經(jīng)網(wǎng)絡與深度學習》最新2018版中英PDF+源碼

將機器學習模型部署為REST API

FashionAI服裝屬性標簽圖像識別Top1-5方案分享

重要開源！CNN-RNN-CTC 實現(xiàn)手寫漢字識別

yolo3 檢測出圖像中的不規(guī)則漢字

同樣是機器學習算法工程師，你的面試為什么過不了？

前海征信大數(shù)據(jù)算法：風險概率預測

【Keras】完整實現(xiàn)‘交通標志’分類、‘票據(jù)’分類兩個項目，讓你掌握深度學習圖像分類

VGG16遷移學習，實現(xiàn)醫(yī)學圖像識別分類工程項目

特征工程(一)

特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊

特征工程(三):特征縮放,從詞袋到 TF-IDF

特征工程(四): 類別特征

特征工程(五): PCA 降維

特征工程(六): 非線性特征提取和模型堆疊

特征工程(七)：圖像特征提取和深度學習

如何利用全新的決策樹集成級聯(lián)結構gcForest做特征工程并打分？

Machine Learning Yearning 中文翻譯稿

螞蟻金服2018秋招-算法工程師（共四面）通過

全球AI挑戰(zhàn)-場景分類的比賽源碼(多模型融合)

斯坦福CS230官方指南：CNN、RNN及使用技巧速查（打印收藏）

python+flask搭建CNN在線識別手寫中文網(wǎng)站

中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特征工程

不斷更新資源

深度學習、機器學習、數(shù)據(jù)分析、python

?搜索公眾號添加：?datayx??

国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频

文本生成，文本數(shù)據(jù)增強怎么做？

Solution

UDA(非核心詞替換)

BT(回譯)

Seq2Seq

GPT2

TGLS

Install

Usage

国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频

文本生成，文本數(shù)據(jù)增強怎么做？

Solution

UDA(非核心詞替換)

BT(回譯)

Seq2Seq

GPT2

TGLS

Install

Usage

文本生成，文本數(shù)據(jù)增強怎么做？