文本相似度,文本匹配模型歸納(附代碼)

向AI轉型的程序員都關注了這個號??????
人工智能大數據與深度學習 ?公眾號:datayx
本文將會整合近幾年來比較熱門的一些文本匹配模型,并以QA_corpus為測試基準,分別進行測試,代碼均采用tensorflow進行實現,每個模型均會有理論講解與代碼實現。
項目代碼與論文講解都在持續(xù)更新中
DSSM詳解
https://blog.csdn.net/u012526436/article/details/90212287
ESIM詳解
https://blog.csdn.net/u012526436/article/details/90380840
ABCNN詳解
https://blog.csdn.net/u012526436/article/details/90179481
BiMPM詳解
https://blog.csdn.net/u012526436/article/details/88663975
DIIN詳解
https://blog.csdn.net/u012526436/article/details/90710925
DRCN詳解
https://blog.csdn.net/u012526436/article/details/90757018

數據集為QA_corpus,訓練數據10w條,驗證集和測試集均為1w條
其中對應模型文件夾下的args.py文件是超參數
訓練:?python train.py
測試:?python test.py
詞向量:不同的模型輸入不一樣,有的模型的輸入只有簡單的字向量,有的模型換成了字向量+詞向量,甚至還有靜態(tài)詞向量(訓練過程中不進行更新)和 動態(tài)詞向量(訓練過程中更新詞向量),所有不同形式的輸入均以封裝好,調用方法如下
靜態(tài)詞向量,請執(zhí)行?python word2vec_gensim.py,該版本是采用gensim來訓練詞向量
動態(tài)詞向量,請執(zhí)行?python word2vec.py,該版本是采用tensorflow來訓練詞向量,訓練完成后會保存embedding矩陣、詞典和詞向量在二維矩陣的相對位置的圖片, 如果非win10環(huán)境,由于字體的原因圖片可能保存失敗
測試集結果對比:

閱讀過本文的人還看了以下文章:
基于40萬表格數據集TableBank,用MaskRCNN做表格檢測
《深度學習入門:基于Python的理論與實現》高清中文PDF+源碼
python就業(yè)班學習視頻,從入門到實戰(zhàn)項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼
PyTorch深度學習快速實戰(zhàn)入門《pytorch-handbook》
【下載】豆瓣評分8.1,《機器學習實戰(zhàn):基于Scikit-Learn和TensorFlow》
《Python數據分析與挖掘實戰(zhàn)》PDF+完整源碼
汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計學習方法》最新資源全套!
【Keras】完整實現‘交通標志’分類、‘票據’分類兩個項目,讓你掌握深度學習圖像分類
如何利用全新的決策樹集成級聯結構gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特征工程
不斷更新資源
深度學習、機器學習、數據分析、python
?搜索公眾號添加:?datayx??
機大數據技術與機器學習工程
?搜索公眾號添加:?datanlp
長按圖片,識別二維碼
