基于序列標注的信息抽取模型(已申請專利)

向AI轉型的程序員都關注了這個號??????
人工智能大數(shù)據(jù)與深度學習 公眾號:datayx
實體-關系抽取模型
基于標注模型,百度SAOKE語料庫實現(xiàn)的關系抽取模型。
代碼 獲取方式:
分享本文到朋友圈
關注微信公眾號 datayx 然后回復 信息抽取 即可獲取。
AI項目體驗地址 https://loveai.tech
使用簡介
依賴環(huán)境
requirements.txt 存儲該模型所需依賴包。
使用 pip install -r requirements.txt 安裝所有依賴環(huán)境。
輸入
將帶抽取關系的句子,每句一行存放于項目根目錄的input.txt文件中。
標注、抽取
命令行輸入./ie.sh tag 進行標注。
之后命令行輸入./ie.sh ie 進行分組,并儲存結果。
結果儲存于facts.json 文件中。
結果格式

每個句子生成一個list,每個list包含0或多個dictionary,每個dictionary代表每個六元祖。六元祖包含主語、謂語、賓語、時間、地點、約束條件。
Server: WEB_API的使用
web_api 工作在: host: 0.0.0.0:8010
使用方法:
輸入
GET方法傳遞待抽取的句子/片段: localhost:8010\ie?s=我愛吃蘋果
或是
localhost:8010\ie?s=澤文公司不服一審判決,于1997年6月28日提起上訴。|澤文公司系設在青島保稅區(qū)的日商獨資企業(yè)。|國家工商行政管理局為其頒發(fā)的營業(yè)執(zhí)照中載明,澤文公司的經(jīng)營范圍是:國際貿易、轉口貿易、生產(chǎn)加工、汽車零配件。
若是片段,則后臺會根據(jù)符號|分割成單句,再進行抽取。
輸出
每個dic代表一個關系,是一個六元組。每個句子可能會抽取出多條關系,由一個list包含這多個dic。最外邊一個list包含所有的句子。
例如,
單句

段落


閱讀過本文的人還看了以下文章:
基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測
《深度學習入門:基于Python的理論與實現(xiàn)》高清中文PDF+源碼
python就業(yè)班學習視頻,從入門到實戰(zhàn)項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼
PyTorch深度學習快速實戰(zhàn)入門《pytorch-handbook》
【下載】豆瓣評分8.1,《機器學習實戰(zhàn):基于Scikit-Learn和TensorFlow》
《Python數(shù)據(jù)分析與挖掘實戰(zhàn)》PDF+完整源碼
汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計學習方法》最新資源全套!
《神經(jīng)網(wǎng)絡與深度學習》最新2018版中英PDF+源碼
重要開源!CNN-RNN-CTC 實現(xiàn)手寫漢字識別
【Keras】完整實現(xiàn)‘交通標志’分類、‘票據(jù)’分類兩個項目,讓你掌握深度學習圖像分類
VGG16遷移學習,實現(xiàn)醫(yī)學圖像識別分類工程項目
特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊
如何利用全新的決策樹集成級聯(lián)結構gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在線識別手寫中文網(wǎng)站
中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特征工程
不斷更新資源
深度學習、機器學習、數(shù)據(jù)分析、python
搜索公眾號添加: datayx
機大數(shù)據(jù)技術與機器學習工程
搜索公眾號添加: datanlp
長按圖片,識別二維碼

