基于tensorflow 1.x 的bert系列預訓練模型工具

向AI轉型的程序員都關注了這個號??????
機器學習AI算法工程 公眾號:datayx
tfbert
基于tensorflow 1.x 的bert系列預訓練模型工具
支持多GPU訓練,支持梯度累積,支持pb模型導出,自動剔除adam參數(shù)
采用dataset 和 string handle配合,可以靈活訓練、驗證、測試,在訓練階段也可以使用驗證集測試模型,并根據(jù)驗證結果保存參數(shù)。
源代碼獲取方式
關注微信公眾號 datayx 然后回復 tf 即可獲取。
AI項目體驗地址 https://loveai.tech
說明
config、tokenizer參考的transformers的實現(xiàn)。
內(nèi)置有自定義的Trainer,像pytorch一樣使用tensorflow1.14,具體使用下邊會介紹。
目前內(nèi)置 文本分類、文本多標簽分類、命名實體識別例子。
內(nèi)置的幾個例子的數(shù)據(jù)處理代碼都支持多進程處理,實現(xiàn)方式參考的transformers。
內(nèi)置代碼示例數(shù)據(jù)集百度網(wǎng)盤提取碼:rhxk
支持模型
bert、electra、albert、nezha、wobert、ChineseBert(GlyceBert)
requirements
tensorflow==1.x
tqdm
jieba
目前本項目都是在tensorflow 1.x下實現(xiàn)并測試的,最好使用1.14及以上版本,因為內(nèi)部tf導包都是用的
import tensorflow.compat.v1 as tf
使用說明
Config 和 Tokenizer
使用方法和transformers一樣

多卡運行方式,需要設置環(huán)境變量CUDA_VISIBLE_DEVICES,內(nèi)置trainer會讀取參數(shù):
CUDA_VISIBLE_DEVICES=1,2 python run.py
詳情查看代碼樣例
XLA和混合精度訓練訓練速度測試
使用哈工大的rbt3權重進行實驗對比,數(shù)據(jù)為example中的文本分類數(shù)據(jù)集。開啟xla和混合精度后剛開始訓練需要等待一段時間優(yōu)化,所以第一輪會比較慢, 等開啟后訓練速度會加快很多。最大輸入長度32,批次大小32,訓練3個epoch, 測試環(huán)境為tensorflow1.14,GPU是2080ti。

開啟混合精度比較慢,base版本模型的話需要一兩分鐘,但是開啟后越到后邊越快,訓練步數(shù)少的話可以只開啟xla就行了,如果多的話 最好xla和混合精度(混合精度前提是你的卡支持fp16)都打開。
可加載中文權重鏈接

機器學習算法AI大數(shù)據(jù)技術
搜索公眾號添加: datanlp
長按圖片,識別二維碼
閱讀過本文的人還看了以下文章:
基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測
《深度學習入門:基于Python的理論與實現(xiàn)》高清中文PDF+源碼
python就業(yè)班學習視頻,從入門到實戰(zhàn)項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼
PyTorch深度學習快速實戰(zhàn)入門《pytorch-handbook》
【下載】豆瓣評分8.1,《機器學習實戰(zhàn):基于Scikit-Learn和TensorFlow》
《Python數(shù)據(jù)分析與挖掘實戰(zhàn)》PDF+完整源碼
汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計學習方法》最新資源全套!
《神經(jīng)網(wǎng)絡與深度學習》最新2018版中英PDF+源碼
重要開源!CNN-RNN-CTC 實現(xiàn)手寫漢字識別
【Keras】完整實現(xiàn)‘交通標志’分類、‘票據(jù)’分類兩個項目,讓你掌握深度學習圖像分類
VGG16遷移學習,實現(xiàn)醫(yī)學圖像識別分類工程項目
特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊
如何利用全新的決策樹集成級聯(lián)結構gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在線識別手寫中文網(wǎng)站
中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特征工程
不斷更新資源
深度學習、機器學習、數(shù)據(jù)分析、python
搜索公眾號添加: datayx
