自然語言處理的研究方向
自然語言處理
自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向,研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法,涉及的領(lǐng)域較多,主要包括機(jī)器翻譯、機(jī)器閱讀理解和問答系統(tǒng)等。
機(jī)器翻譯
機(jī)器翻譯技術(shù)是指利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)從一種自然語言到另外一種自然語言的翻譯過程?;诮y(tǒng)計(jì)的機(jī)器翻譯方法突破了之前基于規(guī)則和實(shí)例翻譯方法的局限性,翻譯性能取得巨大提升。基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯在日??谡Z等一些場(chǎng)景的成功應(yīng)用已經(jīng)顯現(xiàn)出了巨大的潛力。隨著上下文的語境表征和知識(shí)邏輯推理能力的發(fā)展,自然語言知識(shí)圖譜不斷擴(kuò)充,機(jī)器翻譯將會(huì)在多輪對(duì)話翻譯及篇章翻譯等領(lǐng)域取得更大進(jìn)展。目前非限定領(lǐng)域機(jī)器翻譯中性能較佳的一種是統(tǒng)計(jì)機(jī)器翻譯,包括訓(xùn)練及解碼兩個(gè)階段。訓(xùn)練階段的目標(biāo)是獲得模型參數(shù),解碼階段的目標(biāo)是利用所估計(jì)的參數(shù)和給定的優(yōu)化目標(biāo),獲取待翻譯語句的最佳翻譯結(jié)果。統(tǒng)計(jì)機(jī)器翻譯主要包括語料預(yù)處理、詞對(duì)齊、短語抽取、短語概率計(jì)算、最大熵調(diào)序等步驟。基于神經(jīng)網(wǎng)絡(luò)的端到端翻譯方法不需要針對(duì)雙語句子專門設(shè)計(jì)特征模型,而是直接把源語言句子的詞串送入神經(jīng)網(wǎng)絡(luò)模型,經(jīng)過神經(jīng)網(wǎng)絡(luò)的運(yùn)算,得到目標(biāo)語言句子的翻譯結(jié)果。在基于端到端的機(jī)器翻譯系統(tǒng)中,通常采用遞歸神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)對(duì)句子進(jìn)行表征建模,從海量訓(xùn)練數(shù)據(jù)中抽取語義信息,與基于短語的統(tǒng)計(jì)翻譯相比,其翻譯結(jié)果更加流暢自然,在實(shí)際應(yīng)用中取得了較好的效果。
語義理解
語義理解技術(shù)是指利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)對(duì)文本篇章的理解,并且回答與篇章相關(guān)問題的過程。語義理解更注重于對(duì)上下文的理解以及對(duì)答案精準(zhǔn)程度的把控。隨著MCTest數(shù)據(jù)集的發(fā)布,語義理解受到更多關(guān)注,取得了快速發(fā)展,相關(guān)數(shù)據(jù)集和對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)模型層出不窮。語義理解技術(shù)將在智能客服、產(chǎn)品自動(dòng)問答等相關(guān)領(lǐng)域發(fā)揮重要作用,進(jìn)一步提高問答與對(duì)話系統(tǒng)的精度。在數(shù)據(jù)采集方面,語義理解通過自動(dòng)構(gòu)造數(shù)據(jù)方法和自動(dòng)構(gòu)造填空型問題的方法來有效擴(kuò)充數(shù)據(jù)資源。為了解決填充型問題,一些基于深度學(xué)習(xí)的方法相繼提出,如基于注意力的神經(jīng)網(wǎng)絡(luò)方法。當(dāng)前主流的模型是利用神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)篇章、問題建模,對(duì)答案的開始和終止位置進(jìn)行預(yù)測(cè),抽取出篇章片段。對(duì)于進(jìn)一步泛化的答案,處理難度進(jìn)一步提升,目前的語義理解技術(shù)仍有較大的提升空間。
問答系統(tǒng)
問答系統(tǒng)分為開放領(lǐng)域的對(duì)話系統(tǒng)和特定領(lǐng)域的問答系統(tǒng)。問答系統(tǒng)技術(shù)是指讓計(jì)算機(jī)像人類一樣用自然語言與人交流的技術(shù)。人們可以向問答系統(tǒng)提交用自然語言表達(dá)的問題,系統(tǒng)會(huì)返回關(guān)聯(lián)性較高的答案。盡管問答系統(tǒng)目前已經(jīng)有了不少應(yīng)用產(chǎn)品出現(xiàn),但大多是在實(shí)際信息服務(wù)系統(tǒng)和智能手機(jī)助手等領(lǐng)域中的應(yīng)用,在問答系統(tǒng)魯棒性方面仍然存在著問題和挑戰(zhàn)。自然語言處理面臨四大挑戰(zhàn):一是在詞法、句法、語義、語用和語音等不同層面存在不確定性;二是新的詞匯、術(shù)語、語義和語法導(dǎo)致未知語言現(xiàn)象的不可預(yù)測(cè)性;三是數(shù)據(jù)資源的不充分使其難以覆蓋復(fù)雜的語言現(xiàn)象;四是語義知識(shí)的模糊性和錯(cuò)綜復(fù)雜的關(guān)聯(lián)性難以用簡單的數(shù)學(xué)模型描述,語義計(jì)算需要參數(shù)龐大的非線性計(jì)算。
公眾號(hào)粉絲禮包: 后臺(tái)關(guān)鍵詞:python大禮包 禮包內(nèi)容:Matlab,數(shù)據(jù)分析與機(jī)器學(xué)習(xí)實(shí)戰(zhàn),數(shù)據(jù)科學(xué)概率基礎(chǔ),數(shù)學(xué)基礎(chǔ),算法講解視頻 整理不易,還請(qǐng)點(diǎn)擊在看與分享,謝謝。
我就知道你“在看”

