2020 LIC競賽冠軍團隊經驗分享!

語言是人類信息傳遞最重要的媒介,讓機器理解語言并進行交互是人工智能的基本挑戰(zhàn)。為了推動語言理解與交互技術發(fā)展,中國中文信息學會、中國計算機學會和百度公司聯(lián)合舉辦“2020語言與智能技術競賽”。
比賽歷時3個月,共吸引了來自海內外知名企業(yè)、高校及科研機構的5307支隊伍報名,收到近1.5萬份結果提交,五大任務的系統(tǒng)效果較基線提升平均約90%。
在精彩紛呈的角逐中,云知聲智能科技股份有限公司、國防科技大學、深圳追一科技有限公司、京東方智能物聯(lián)首席技術官組織、深思考人工智能機器人科技(北京)有限公司和大連理工大學脫穎而出,獲得了比賽的冠軍。作為冠軍隊伍,他們的方法和思路,對于相關方向的研究者們有著借鑒意義。
11月7日,五大任務冠軍團隊將親臨直播間做評測報告,為大家?guī)肀荣惤涷灥姆窒?!機器閱讀理解、面向推薦的對話、語義解析、關系抽取和事件抽取五個核心任務全面覆蓋,干貨滿滿,精彩不容錯過!
直播時間:11月7日10:00-12:00
10:00-10:25 機器閱讀理解任務
針對過敏感和過穩(wěn)定問題,分別從相似問句構建和相似篇章構建兩個角度提出兩種數(shù)據(jù)增強方式,針對領域內和未知領域問題使用增量和二階段訓練增強模型性能,有效增強了模型的魯棒性。
10:25-10:50 ?面向推薦的對話任務
任務是在給定的知識庫下,針對目標完成多輪對話。在該任務目標下,基于預訓練模型,采用分桶的編碼方式和多源信息融合的解碼器,將知識按長度分桶、獨立編碼,大大減少了內存占用,構建了一個端到端的對話模型,在自動和人工評測均取得第一的好成績。
10:50-11:15 ?語義解析任務
相較于Seq2Seq的傳統(tǒng)方案,新方法將Seq2Seq與模板填充進行結合,首先使用Seq2Seq生成SQL模板,然后采用模板填充技術對模板中的細節(jié)部分進行預測填充,有效地解決了傳統(tǒng)Seq2Seq所具有的SQL組件順序敏感、計算資源依賴較高、SQL生成效率較低等問題,在最終測試集上取得了76.5%的成績
11:15-11:40 ?關系抽取任務
相對于先抽取實體再關系分類的傳統(tǒng)方法,把實體抽取任務分為主語抽取、賓語抽取、關系分類三個步驟,輸出層采用機器閱讀理解中的指針網(wǎng)絡作為基本結構,有效解決了實體進行兩兩匹配帶來的大量負樣本,用引入虛擬節(jié)點的方式解決復雜賓語的問題,用PU Learning解決遠監(jiān)督召回率較低的問題。
11:40-12:05 ?事件抽取任務
針對限定領域的事件抽取任務,不同于先進行觸發(fā)詞抽取再進行事件角色抽取的傳統(tǒng)方案,該方案采用基于BERT的多層標簽指針網(wǎng)絡,對事件角色進行端到端的標注,并有效解決了事件抽取任務中的角色重疊和元素重疊等問題。
直播地址
掃描長圖中的二維碼進入交流群獲取直播鏈接,周六早10點,不見不散!

