国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频

文本挖掘?qū)嵅僬n!手把手教你用文本挖掘剖析54萬(wàn)首詩(shī)歌

共 13498字,需瀏覽 27分鐘

 ·

2020-09-05 00:30

大數(shù)據(jù)文摘投稿作品

作者:高長(zhǎng)寬


歷史上有名的“東坡續(xù)詞”,是文學(xué)史上的一段佳話,這也引發(fā)了作者的深思。他在這詩(shī)詞創(chuàng)作的過(guò)程中,看到了數(shù)理思維的影子,就好比在求解一個(gè)“最優(yōu)化問(wèn)題”:


在一定的約束條件下,如詩(shī)詞要遵守的平仄、押韻、對(duì)仗/對(duì)偶、五七變式、詞譜、情境等,詩(shī)詞創(chuàng)作者需要用文字將自己內(nèi)心的真實(shí)感動(dòng)用語(yǔ)言文字表達(dá)出來(lái)。


因此,作者認(rèn)為,詩(shī)詞之精美和數(shù)理之嚴(yán)密是可以完美結(jié)合的。


既然詩(shī)歌的創(chuàng)作是有規(guī)律的,那么,通過(guò)一定的數(shù)據(jù)挖掘手段,我們是能夠從中發(fā)現(xiàn)一些insight的。


在本文中,作者循著這個(gè)思路,將運(yùn)用若干文本挖掘方法對(duì)手頭的詩(shī)歌語(yǔ)料庫(kù)(該詩(shī)歌原始語(yǔ)料庫(kù)地址為https://github.com/Werneror/Poetry)進(jìn)行深入挖掘和分析,該詩(shī)歌語(yǔ)料庫(kù)的基本統(tǒng)計(jì)數(shù)據(jù)如下:


從上表可以看到,該詩(shī)歌語(yǔ)料庫(kù)中共計(jì)近85萬(wàn)余首詩(shī)歌,詩(shī)歌作者數(shù)量達(dá)29377位之多;其中,字段包括“題目”、“朝代”、“作者”和“內(nèi)容(詩(shī)歌)”。


為了方便后續(xù)的分析,筆者僅取其中的律詩(shī)和絕句,且僅取其中的五言和七言,排律(如《春江花月夜》、《長(zhǎng)恨歌》等)、雜言(如李白的將進(jìn)酒)等就不在本文的分析范圍之內(nèi)。經(jīng)過(guò)數(shù)據(jù)清洗后,最終得詩(shī)504,443,占到原數(shù)據(jù)庫(kù)的59.1%。以下分別是清洗后的詩(shī)歌數(shù)據(jù)統(tǒng)計(jì)結(jié)果和部分樣例:



針對(duì)上述數(shù)據(jù),筆者在本文中主要有兩個(gè)大目標(biāo):


  • 構(gòu)建一個(gè)包含熱門(mén)題材標(biāo)簽的詩(shī)歌語(yǔ)料庫(kù),用于后續(xù)的詩(shī)歌題材分類和詩(shī)歌生成任務(wù);
  • 基于上述詩(shī)歌語(yǔ)料庫(kù)的各類文本挖掘和語(yǔ)義分析,以期得到有趣味的發(fā)現(xiàn)。

針對(duì)上述目標(biāo),本文的實(shí)現(xiàn)路線圖,同時(shí)也是本文的行文脈絡(luò),如下所示:


值得注意的是,上述實(shí)現(xiàn)路徑中,涉及到自然語(yǔ)言處理的兩大組成部分,即自然語(yǔ)言理解(分詞、語(yǔ)義建模、語(yǔ)義相似度、聚類和分類等)和自然語(yǔ)言生成(詩(shī)歌生成和詩(shī)歌翻譯),?看完也會(huì)對(duì)自然語(yǔ)言處理有一定的了解。信息量大,請(qǐng)耐心享用~

1 詩(shī)歌分詞和熱詞發(fā)現(xiàn)

給定一首詩(shī)歌文本,在其中隨機(jī)取一個(gè)片段,如何判斷這個(gè)片段是否是一個(gè)有意義的詞匯呢?如果這個(gè)片段左右的搭配變化較多、很豐富,同時(shí)片段內(nèi)部的成分搭配很固定,那么,我們可以認(rèn)為這個(gè)片段是一個(gè)詞匯,比如下圖中所示的“摩詰”就是符合這個(gè)定義,那么它就是一個(gè)詞匯。


在具體實(shí)施的算法中,衡量片段外部左右搭配的豐富程度的指標(biāo)叫“自由度”,可以用(左右)信息熵來(lái)度量;而片段內(nèi)部搭配的固定程度叫“凝固度”,可以用子序列的互信息來(lái)度量。

在這里,筆者利用Jiayan(甲言)對(duì)這54余萬(wàn)首詩(shī)歌進(jìn)行自動(dòng)分詞,在結(jié)果中按照詞匯出現(xiàn)頻率從高到低進(jìn)行排序,最終從語(yǔ)料庫(kù)中抽取若干有意義的高頻詞。其中,詞匯的長(zhǎng)度從1到4。抽取結(jié)果如下:


筆者觀察其中部分結(jié)果,發(fā)現(xiàn)一字詞、二字詞才能算得上一般意義上的詞匯,如“不”、“爍”、“歲寒”、“留滯”等 ;三字詞和四字詞一般是多類詞性詞匯的組合,嚴(yán)格上講,應(yīng)該算作短語(yǔ)或者固定表達(dá),如“隨流水”、”云深處”、“人間萬(wàn)事”、“江湖萬(wàn)里”等。但本文為了表述方便,筆者將它們統(tǒng)一稱之為詞。

下面,筆者分別展示詞長(zhǎng)從1到4的TOP100的高頻詞詞云(點(diǎn)擊圖片可放大查看)。


一字高頻詞中,除去“不”、“無(wú)”、“有”這類“虛詞”,單看“人山風(fēng)日天云春花年月水”這11個(gè)高頻字,暗合了中國(guó)天人合一哲學(xué)傳統(tǒng),作詩(shī)如作畫(huà),作詩(shī)者是把人放到自然環(huán)境、天地歲月這個(gè)時(shí)空大畫(huà)卷中,七情六欲、天人感應(yīng),詩(shī)情畫(huà)意就由感而生,詩(shī)意盎然了!

“詩(shī)畫(huà)本一律”,古人誠(chéng)不我欺!


二字高頻詞中,較為顯眼的是“萬(wàn)里”、“千里”,它們描繪出巨大的空間感,在詩(shī)歌中經(jīng)常跟“宏景”“貶謫”、“思鄉(xiāng)”、“閨怨”等主題捆綁在一起。

此外,“明月”、“故人”、“白云”、“功名”、“人間”、“平生”和“相逢”等詞匯也是橫亙古今的熱門(mén)用語(yǔ)。


三字高頻詞中,數(shù)字的使用很是常見(jiàn),如“二三子”、“二十四”、“一樽酒”、“二千石”等。其中,最值得一提的是詩(shī)人們用數(shù)詞對(duì)時(shí)空的描繪:表達(dá)時(shí)間跨度的,如“二十年”、“四十年”、“五百年”、“十年前”、“千載后”等;表達(dá)空間距離的,如“千里外”、“三百里”、“百尺樓”...

古人總是喜歡把自己置身于浩瀚渺茫的時(shí)空之中,去思考自己匆匆的人生。正如東坡在《赤壁賦》的感慨:“寄蜉蝣于天地,渺滄海之一粟。哀吾生之須臾,羨長(zhǎng)江之無(wú)窮!”


在四字高頻詞中,空間方位的詞匯較多,如“南北東西”、“江南江北”、“東西南北”等詞。因四字詞詞長(zhǎng)較長(zhǎng),像“人間萬(wàn)事”、“千巖萬(wàn)壑”、“明月清風(fēng)”、“白云深處”、“相逢一笑”等詞就擁有較高的信息量,能夠還原大部分的詩(shī)歌意境了。

2 訓(xùn)練含納詩(shī)歌詞匯語(yǔ)義關(guān)聯(lián)性的詞嵌入模型

詞嵌入模型可以從海量的詩(shī)歌文本中自動(dòng)學(xué)習(xí)到字詞之間的關(guān)聯(lián)關(guān)系,據(jù)此可實(shí)現(xiàn)字詞關(guān)聯(lián)度分析、字詞相似度分析、聚類分析等任務(wù)。然而,計(jì)算機(jī)程序不能直接處理字符串形式的文本數(shù)據(jù),所以筆者首當(dāng)其沖的一個(gè)步驟就是將詩(shī)歌文本數(shù)據(jù)分詞,之后再“翻譯”為計(jì)算機(jī)可以處理的數(shù)據(jù)形式,這由一個(gè)名為“文本向量化”的操作來(lái)實(shí)現(xiàn)。先談分詞,它跟前面的高頻詞挖掘有聯(lián)系,是后續(xù)所有分析任務(wù)的起始點(diǎn)。結(jié)合前面積累的詞庫(kù),再基于有向無(wú)環(huán)詞圖、句子最大概率路徑和動(dòng)態(tài)規(guī)劃算法對(duì)這54萬(wàn)首詩(shī)歌進(jìn)行分詞操作。

現(xiàn)試舉一例:

分詞前:“萬(wàn)物生蕓蕓,與我本同氣。氤氳隨所感,形體偶然異。丘岳孰為高,塵粒孰為細(xì)。忘物亦忘我,優(yōu)游何所覬?!?/span>

分詞后:

['萬(wàn)物', '生', '蕓蕓', ',', '與', '我', '本', '同', '氣', '。','氤氳', '隨', '所', '感', ','

,'形體', '偶然', '異', '。', '丘岳', '孰', '為', '高', ',', '塵', '粒', '孰', '為', '細(xì)', '。', ?????????????
?'忘', '物', '亦', '忘我', ',', '優(yōu)游', '何', '所', '覬', '。']

分詞之后再做適當(dāng)處理就可以“喂給”詞嵌入模型(這里是Word2vec)進(jìn)行訓(xùn)練了。

基于Word2vec詞嵌入模型能從大量未標(biāo)注的文本數(shù)據(jù)中“學(xué)習(xí)”到字/詞向量,而且這些字/詞向量包含了字詞之間的語(yǔ)義關(guān)聯(lián)關(guān)系(可以是語(yǔ)義相關(guān)或句法相關(guān)),正如現(xiàn)實(shí)世界中的“物以類聚,類以群分”一樣,字詞可以由它們身邊的字(上下文語(yǔ)境)來(lái)定義,而Word2vec詞嵌入模型恰恰能學(xué)習(xí)到這種詞匯和語(yǔ)境之間的關(guān)聯(lián)性。

其基本原理如下圖所示:


訓(xùn)練完該模型后,將其訓(xùn)練結(jié)果投射到三維空間,則是如下景象:


在訓(xùn)練Word2vec的過(guò)程中,模型會(huì)從大量的詩(shī)歌文本數(shù)據(jù)中學(xué)習(xí)到詞匯之間的2類關(guān)聯(lián)關(guān)系,即聚合關(guān)系和組合關(guān)系。

聚合關(guān)系:如果詞匯A和詞匯B可以互相替換,則它們具有聚合關(guān)系。換言之,如果詞匯A和詞匯B含有聚合關(guān)系,在相同的語(yǔ)義或者句法類別中可以利用其中一個(gè)來(lái)替換另一個(gè),但不影響對(duì)整個(gè)句子的理解。例如,“蕭蕭”、“瀟瀟”都是象聲詞,多用于描述雨聲,具有聚合關(guān)系,那么“山下蘭芽短浸溪,松間沙路凈無(wú)泥,蕭蕭暮雨子規(guī)啼”中的“蕭蕭”可以換做“瀟瀟”。

組合關(guān)系:如果詞匯A和詞匯B可以在句法關(guān)系上相互結(jié)合,那么它們具有組合關(guān)系。例如,“雨打梨花深閉門(mén),忘了青春,誤了青春。賞心樂(lè)事共誰(shuí)論?”中的“忘了”和“誤了”都和“青春”存在組合關(guān)系,都是“動(dòng)詞+名詞”的動(dòng)賓結(jié)構(gòu)。

現(xiàn)在來(lái)尋找與“兵燓”存在語(yǔ)義關(guān)聯(lián)性的若干詞匯:


結(jié)果大都是跟“戰(zhàn)爭(zhēng)”&“創(chuàng)傷”相關(guān)的詞匯,語(yǔ)義關(guān)聯(lián)關(guān)系捕獲能力較強(qiáng),后續(xù)的熱門(mén)詩(shī)歌體裁挖掘任務(wù)也會(huì)用到詞嵌入模型的這個(gè)特性。

3 度量詩(shī)歌詞匯之間的語(yǔ)義關(guān)聯(lián)關(guān)系

3.1 利用余弦相似性度量詩(shī)歌詞匯關(guān)聯(lián)度

度量詞匯之間的相似度或者關(guān)聯(lián)度,我們一般會(huì)使用兩個(gè)詞匯的詞向量之間的余弦值,詞向量之間的夾角越小,則余弦值越大,越接近1,則語(yǔ)義相關(guān)度越高;反之,相關(guān)度越低。如下圖所示,展示了“甲兵”、“兵戈”和“烽火”之間的余弦相似度的可視化示意圖:


通過(guò)上述詞嵌入模型,similarity(“甲兵”,“兵戈”) = 0.75,similarity(“甲兵”,“烽火”) = 0.37,similarity(“兵戈”,“烽火”) = 0.48。則在這三個(gè)詞匯中,“甲兵”和“兵戈”之間的語(yǔ)義相關(guān)度最高,其次是“兵戈”和“烽火”,最次的“甲兵”和“烽火”。

這種給一個(gè)數(shù)值來(lái)識(shí)別詞匯相關(guān)不相關(guān)的方法優(yōu)點(diǎn)在于表達(dá)簡(jiǎn)潔、計(jì)算高效,比如接下來(lái)將要進(jìn)行的熱門(mén)詩(shī)歌題材發(fā)現(xiàn)/聚類。但是,這種詞匯相關(guān)度的計(jì)算沒(méi)有把詞匯之間的相關(guān)度的“因果路徑”直觀的反映出來(lái)。

那么,有沒(méi)有一種直觀的方法來(lái)展示詞匯之間的語(yǔ)義相關(guān)性,并且能看到為什么它們是存在這樣的關(guān)聯(lián)關(guān)系(也就是找到詞匯關(guān)聯(lián)路徑或者語(yǔ)義演變路徑)?

答案是---當(dāng)然有。

我們需要把這個(gè)找尋詞匯語(yǔ)義演變路徑的任務(wù)轉(zhuǎn)換成一個(gè)TSP問(wèn)題(旅行商問(wèn)題)。

3.2 利用A*算法找尋詞匯之間的語(yǔ)義演變路徑

TSP問(wèn)題(Traveling Salesman Problem)又譯為旅行推銷員問(wèn)題,是數(shù)學(xué)領(lǐng)域中著名問(wèn)題之一。假設(shè)有一個(gè)旅行商人要拜訪n個(gè)城市,他必須選擇所要走的路徑,路徑的限制是每個(gè)城市只能拜訪一次,而且最后要回到原來(lái)出發(fā)的城市。路徑的選擇目標(biāo)是要求得的路徑路程為所有路徑之中的最小值。

回到詞匯相關(guān)度度量的問(wèn)題上來(lái),如果我們能在上述訓(xùn)練得到的詞嵌入空間中找到兩個(gè)詞匯之間的最短“語(yǔ)義演變”線路,我們就能直觀的呈現(xiàn)出這2個(gè)詞匯之間產(chǎn)生語(yǔ)義關(guān)聯(lián)的“前因后果”。

要實(shí)現(xiàn)這個(gè)目的,有一個(gè)很棒的算法可以實(shí)現(xiàn) --- A*算法(A* search algorithm)。

A*算法,也叫A*(A-Star)算法,是一種靜態(tài)路網(wǎng)中求解最短路徑最有效的直接搜索方法,也是解決許多搜索問(wèn)題的有效算法。算法中的距離估算值與實(shí)際值越接近,最終搜索速度越快。

下圖中,網(wǎng)狀結(jié)果即是之前構(gòu)建的word2vec詞嵌入空間,節(jié)點(diǎn)是其中分布的詞匯,邊由字詞之間的余弦相關(guān)度構(gòu)成。


筆者基于上面的詞嵌入模型,結(jié)合A*算法來(lái)計(jì)算兩個(gè)詞匯之間的最短語(yǔ)義路徑,部分結(jié)果如下所示:


在上圖的5個(gè)詞匯對(duì)中,“漁樵”和“躬耕”之間的語(yǔ)義距離最短,也就是語(yǔ)義相關(guān)度最高,它們之間的語(yǔ)義演變路徑也就越短,中間只隔了2個(gè)詞匯;“燕市”和“寶婺”的語(yǔ)義距離最大,語(yǔ)義相關(guān)度最小,二者的語(yǔ)義演變路徑隔了12個(gè)詞匯。

可以看到,語(yǔ)義關(guān)聯(lián)性越弱(distance值越大)的兩個(gè)詞匯之間的最短語(yǔ)義演變路徑就越長(zhǎng),反之越短,所以語(yǔ)義距離與語(yǔ)義演變路徑長(zhǎng)度呈正相關(guān)關(guān)系,語(yǔ)義關(guān)聯(lián)度與語(yǔ)義演變路徑呈負(fù)相關(guān)關(guān)系。

有了前面的詞嵌入模型和語(yǔ)義相關(guān)度做“鋪墊”,后續(xù)的熱門(mén)詩(shī)歌題材發(fā)現(xiàn)就水到渠成了~

4 用文本聚類進(jìn)行熱門(mén)詩(shī)歌題材發(fā)現(xiàn)

先開(kāi)宗明義,在本文中,關(guān)于“詩(shī)歌題材”中的“題材”二字的定義,筆者認(rèn)為是:

作為詩(shī)歌創(chuàng)作材料的社會(huì)生活的某些方面,亦特指詩(shī)人用以表現(xiàn)作品主題思想的素材,通常是指那些經(jīng)過(guò)集中、取舍、提煉而進(jìn)入作品的生活事件或生活現(xiàn)象。一言以蔽之,寫(xiě)景、摹物、抒情、記事、明理皆是“題材”。

因?yàn)槭孪炔恢肋@54萬(wàn)余首詩(shī)歌中到底會(huì)存在多少個(gè)題材,所以筆者選取的聚類算法沒(méi)有預(yù)設(shè)聚類數(shù)這個(gè)參數(shù),且兼顧運(yùn)行效率和節(jié)省計(jì)算資源,能利用前面訓(xùn)練好的word2vec詞嵌入模型和語(yǔ)義關(guān)聯(lián)度計(jì)算。此時(shí),有個(gè)很好的選擇 --- 社區(qū)發(fā)現(xiàn)算法中的Infomap。

4.1 基于社區(qū)發(fā)現(xiàn)的熱門(mén)詩(shī)歌題材發(fā)現(xiàn)

字詞是承載詩(shī)歌題材的最小語(yǔ)義單元,如“五云山上五云飛,遠(yuǎn)接群峰近拂堤。若問(wèn)杭州何處好,此中聽(tīng)得野鶯啼”,看到其中的“五云山”和“群峰”,則可以給該詩(shī)打上一個(gè)“山川巍峨”的題材標(biāo)簽。由此,筆者接下來(lái)會(huì)基于社區(qū)發(fā)現(xiàn)算法,結(jié)合“詞匯簇群--->詞匯簇群語(yǔ)義特征--->題材標(biāo)簽”的思路來(lái)發(fā)現(xiàn)熱門(mén)詩(shī)歌題材。

先說(shuō)說(shuō)基于社區(qū)發(fā)現(xiàn)的大致原理。

我們知道,在社交網(wǎng)絡(luò)中,每個(gè)用戶相當(dāng)于每一個(gè)點(diǎn),用戶之間通過(guò)互相的關(guān)注關(guān)系構(gòu)成了整個(gè)線上人際網(wǎng)絡(luò)。在這樣的網(wǎng)絡(luò)中,有的用戶之間的連接較為緊密,有的用戶之間的連接關(guān)系較為稀疏。其中連接較為緊密的部分可以被看成一個(gè)社區(qū),其內(nèi)部的節(jié)點(diǎn)之間有較為緊密的連接,而在兩個(gè)社區(qū)間則相對(duì)連接較為稀疏。

如何去劃分上述的社區(qū)便稱為社區(qū)發(fā)現(xiàn)的問(wèn)題。

基于社區(qū)發(fā)現(xiàn)算法的話題聚類/發(fā)現(xiàn),在于挖掘詞匯語(yǔ)義網(wǎng)絡(luò)中居于頭部的大型“圈子”。

將詞匯擬人化,詞匯之間存在的相似度/關(guān)聯(lián)度可以視為詞匯之間的親密程度,那么,詩(shī)歌題材發(fā)現(xiàn)任務(wù)可以看做是找到不同成員組成的“圈子”,圈子的特性可以根據(jù)其中的成員特征來(lái)確定,換言之,題材的名稱可以根據(jù)其中聚合的詞匯的內(nèi)涵來(lái)擬定,比如某個(gè)詞匯簇群中包含“衛(wèi)霍”、“甲兵”、“征戰(zhàn)”等詞匯,那么這個(gè)題材可以命名為“戰(zhàn)爭(zhēng)”。示意圖如下所示:


運(yùn)行社區(qū)發(fā)現(xiàn)算法后,居于頭部的熱門(mén)題材詞匯簇群的可視化呈現(xiàn)如下(點(diǎn)擊圖片可放大查看):



其中,不同顏色表征不同的題材,字體大小代表其出現(xiàn)頻次,詞匯之間的距離遠(yuǎn)近表征其相關(guān)程度大小。經(jīng)聚類得到634個(gè)題材,根據(jù)熱度(題材下轄詞匯數(shù)量)的降序排列呈現(xiàn)最終結(jié)果,如下所示:


4.2 甄別熱門(mén)詩(shī)歌題材

在這一環(huán)節(jié)中,筆者的在于根據(jù)一些詩(shī)歌領(lǐng)域知識(shí),找到上述運(yùn)行結(jié)果中熱門(mén)題材及其下轄的題材專屬性詞匯。其中,“題材專屬性詞匯”的內(nèi)涵主要有以下兩點(diǎn):

  • 詞匯不能再做進(jìn)一步切割,否則詞義會(huì)發(fā)生變化,比如,“丈夫”在古漢語(yǔ)中的意義是“男子漢”,在一個(gè)獨(dú)立的詞匯,若將其切割為“丈”和 “夫”,則原意喪失殆盡;
  • 詞匯僅在一個(gè)題材中出現(xiàn),具有排他性,如“杖藜”只出現(xiàn)在“云游四方”這個(gè)題材中,不會(huì)出現(xiàn)在“金戈鐵馬”、“對(duì)酒當(dāng)歌”、“悼亡故人”等其他詩(shī)歌題材中。

根據(jù)筆者在前文中的定義,寫(xiě)景、摹物、抒情、記事、明理皆是“題材”,這里的熱門(mén)題材甄別采取“抓大放小”的原則。

此外,雖然聚類出的結(jié)果較為理想,但還是存在些許噪音,比如,出現(xiàn)少許跟題材相關(guān)性不強(qiáng)的詞匯、題材區(qū)分度較低的詞匯、詞匯簇群中的詞匯過(guò)少(如低于10個(gè))等,這些都是需要被刨除掉的情況。

經(jīng)過(guò)筆者的仔細(xì)甄別,共甄別出23個(gè)熱門(mén)詩(shī)歌題材,分別是山川巍峨、田園躬耕、羈旅思鄉(xiāng)、金戈鐵馬、詠史懷古、詠物抒懷、贈(zèng)友送別、愛(ài)情閨怨、悼亡故人、樓船畫(huà)舫、花開(kāi)荼蘼、對(duì)酒當(dāng)歌、騏驥駿馬、得道修仙、世事變遷、靜悟禪機(jī)、壯懷激烈、云游四方、黯然神傷、星宿璀璨、報(bào)效君恩、嚶嚶鳥(niǎo)語(yǔ)、蓑笠綸竿等,當(dāng)然這些并不是全部的題材,限于筆者學(xué)識(shí),仍然有大量題材沒(méi)有發(fā)掘出來(lái)。枚舉部分結(jié)果如下:


在這一環(huán)節(jié),筆者根據(jù)對(duì)詩(shī)歌背景知識(shí)的了解,篩選出部分熱門(mén)詩(shī)歌題材,并形成題材對(duì)應(yīng)的關(guān)鍵詞規(guī)則體系,后續(xù)可用于對(duì)這54萬(wàn)余首詩(shī)歌進(jìn)行基于關(guān)鍵詞的詩(shī)歌題材分類。

值得注意的是,由于這一環(huán)節(jié)挑選關(guān)鍵詞過(guò)于苛刻,導(dǎo)致數(shù)量較少,規(guī)則體系不甚健全。所以,在對(duì)詩(shī)歌語(yǔ)料庫(kù)進(jìn)行正式的詩(shī)歌題材分類前,筆者需要使用一些“小手段”,對(duì)上述熱門(mén)題材的關(guān)鍵詞規(guī)則進(jìn)行擴(kuò)充。

5 根據(jù)線性分類器特征延伸關(guān)鍵詞

在這里,筆者先利用已得到的熱門(mén)題材分類體系及其關(guān)鍵詞規(guī)則給這54萬(wàn)余首詩(shī)歌打上題材標(biāo)簽,允許出現(xiàn)同一首詩(shī)歌命中多個(gè)標(biāo)簽的情形。除去其中未命中題材標(biāo)簽的數(shù)據(jù),共計(jì)443,589行,其中多數(shù)詩(shī)歌打上了2個(gè)及以上的題材標(biāo)簽。

部分結(jié)果如下所示:


有了帶標(biāo)簽的數(shù)據(jù)以后,筆者將多標(biāo)簽問(wèn)題轉(zhuǎn)換為單標(biāo)簽問(wèn)題,再將上述詩(shī)歌文本及其對(duì)應(yīng)的標(biāo)簽“喂進(jìn)”線性分類器,根據(jù)線性分類器的權(quán)重來(lái)找到每個(gè)類別下最具代表性的詞匯,也就是題材專有性詞匯。這里選擇線性分類器而不是時(shí)下流行的深度學(xué)習(xí)分類器的原因就在于它的可解釋性,能讓我們清楚的知道是哪些顯著的特征(此處是詞匯)讓詩(shī)歌分到這個(gè)題材類別下的。其大致原理如下圖所示:


在筆者測(cè)試的眾多線性分類器中,即RandomForestClassifier、Perceptron、PassiveAggressiveClassifier、MultinomialNB、RidgeClassifier、SGDClassifier,RidgeClassifier的區(qū)分效果最好,其F1_score為0.519,鑒于是詞袋模型,語(yǔ)義表示較為簡(jiǎn)單,且原本是多標(biāo)簽分類任務(wù),這個(gè)結(jié)果尚可接受。

基于RidgeClassifier的特征詞匯權(quán)重的降序排列結(jié)果,可得到上述23個(gè)熱門(mén)詩(shī)歌題材分類中的若干題材專有性詞匯,部分結(jié)果展示如下:


這樣,各個(gè)類別各取TOP500詞匯,經(jīng)過(guò)筆者的甄別和梳理后,各個(gè)題材關(guān)鍵詞規(guī)則得到了不同程度的擴(kuò)充,使得該分類標(biāo)簽體系可以較好的輔助完成詩(shī)歌題材多標(biāo)簽分類任務(wù),且后續(xù)可以結(jié)合分類結(jié)果做不斷的擴(kuò)充。

基于這個(gè)更加完善的詩(shī)歌題材分類體系,筆者運(yùn)行完之后得到58W+行數(shù)據(jù),在之前的基礎(chǔ)上增加了14W+行數(shù)據(jù),數(shù)據(jù)規(guī)模提升明顯!

至此,筆者第一個(gè)目標(biāo),即熱門(mén)詩(shī)歌題材標(biāo)簽語(yǔ)料庫(kù)構(gòu)建完畢,后續(xù)的文本挖掘任務(wù)可以在此基礎(chǔ)上進(jìn)行。

由分類標(biāo)簽及其分類模型反向推導(dǎo)其中最具代表性的特征詞匯,這是一個(gè)“數(shù)據(jù)--->規(guī)律”的歸納過(guò)程,很好的體現(xiàn)了數(shù)據(jù)驅(qū)動(dòng)思維;而模型將學(xué)習(xí)歸納得到的“經(jīng)驗(yàn)”推廣到新樣本的標(biāo)簽預(yù)測(cè)任務(wù)中,則體現(xiàn)了“規(guī)則--->數(shù)據(jù)”的演繹過(guò)程。


6 基于分類標(biāo)簽的各類統(tǒng)計(jì)分析

針對(duì)上述58W+行數(shù)據(jù)構(gòu)成的詩(shī)歌題材語(yǔ)料庫(kù),將其中的題材分類標(biāo)簽和各類meta data(如風(fēng)格、朝代、作者等)做交叉分析,得到很多有意思的分析結(jié)果。

6.1 詩(shī)歌題材&風(fēng)格分析

將詩(shī)歌數(shù)據(jù)集的風(fēng)格標(biāo)簽和題材標(biāo)簽進(jìn)行交叉列表的成分占比分析,得到的結(jié)果如下:


其中,可以發(fā)現(xiàn)一些明顯的統(tǒng)計(jì)描述性特征:

  • “贈(zèng)友送別”和“嚶嚶鳥(niǎo)語(yǔ)”這兩個(gè)題材在所有詩(shī)歌風(fēng)格中的占比都較高,是兩個(gè)較為“熱門(mén)”的題材;
  • “悼亡故人”和“壯懷激烈”這兩個(gè)題材在所有詩(shī)歌風(fēng)格中的占比都較低,是兩個(gè)較為“冷門(mén)”的題材。

6.2 題材標(biāo)簽共現(xiàn)分析

前面的詩(shī)歌題材分類是多標(biāo)簽分類,也就是可能會(huì)出現(xiàn)同一首詩(shī)歌對(duì)應(yīng)多個(gè)題材標(biāo)簽的情況。在這種情況下,我們可以進(jìn)行題材標(biāo)簽的共現(xiàn)分析,也就是多次同時(shí)出現(xiàn)的題材標(biāo)簽,它們之間會(huì)存在一定的關(guān)聯(lián)性?,F(xiàn)對(duì)標(biāo)簽共現(xiàn)的情況進(jìn)行建模,得到的結(jié)果可視化呈現(xiàn)如下所示:


上圖中,線條的粗細(xì)表示共現(xiàn)的頻次多寡,越粗表示共現(xiàn)頻次越高,反之越低。其中,有幾對(duì)標(biāo)簽對(duì)的共現(xiàn)頻率較高:

世事變遷 - 黯然神傷
羈旅思鄉(xiāng) - 世事變遷
詠史懷古 - 蓑笠綸竿
世事變遷 - 金戈鐵馬
對(duì)酒當(dāng)歌 - 世事變遷
悼亡故人 - 世事變遷

其中,“黯然神傷”和“世事變遷”的相關(guān)性最高,這個(gè)很好理解,畢竟“物是人事事休,欲語(yǔ)淚先流”,類似因感嘆逝事而傷感的詩(shī)句還有“人世幾回傷往事,山形依舊枕寒流”、“一生事業(yè)總成空,半世功名在夢(mèng)中”;“羈旅思鄉(xiāng)”和“世事變遷”之間的相關(guān)性第二高,此類的詩(shī)句有“少小離家老大回,鄉(xiāng)音無(wú)改鬢毛衰”、“去日兒童皆長(zhǎng)大,昔年親友半凋零”等。

此外,我們也可以發(fā)現(xiàn),在出現(xiàn)2個(gè)及兩個(gè)以上題材標(biāo)簽的詩(shī)歌中,“世事變遷”和其他題材同時(shí)出現(xiàn)的概率很大:世事變遷可能導(dǎo)致詩(shī)人黯然神傷;也可能是戰(zhàn)爭(zhēng)導(dǎo)致兵連禍結(jié),產(chǎn)生出“興,百姓苦,亡,百姓苦”的感慨;抑或是“桃李春風(fēng)一杯酒,江湖夜雨十年燈”的對(duì)酒當(dāng)歌。

6.3 詩(shī)歌題材趨勢(shì)分析

筆者將詩(shī)歌數(shù)據(jù)集中的朝代按照時(shí)間順序由遠(yuǎn)及近進(jìn)行排列,并合并其中年代接近的朝代,將其與23個(gè)熱門(mén)詩(shī)歌題材做(占比)交叉分析,得到下圖:


在上圖中,可以分別從橫向維度(朝代)和縱向(詩(shī)歌題材)維度來(lái)看。從橫向維度上看,有兩個(gè)題材經(jīng)久不衰,即“贈(zèng)友送別”和“嚶嚶鳥(niǎo)語(yǔ)”。古時(shí)候由于交通不便,通信極不發(fā)達(dá),親人朋友之間往往一別數(shù)載難以相見(jiàn),所以古人特別看重離別。

離別之際,人們往往設(shè)酒餞別,折柳相送,有時(shí)還要吟詩(shī)話別,因此“贈(zèng)友送別”就成為古代文人吟詠的一個(gè)永恒的題材。

在這濃濃的感傷之外,往往還有其他寄寓:或用以激勵(lì)勸勉,如“莫愁前路無(wú)知己,天下誰(shuí)人不識(shí)君”;或用以抒發(fā)友情,如“桃花潭水深千尺,不及汪倫送我情”;或用于寄托詩(shī)人自己的理想抱負(fù),如“洛陽(yáng)親友如相問(wèn),一片冰心在玉壺”;甚至洋溢著積極向上的青春氣息,充滿希望和夢(mèng)想,如“海內(nèi)存知己,天涯若比鄰”。

“嚶嚶鳥(niǎo)語(yǔ)”題材的詩(shī)歌一般用“比興”的手法來(lái)寄寓自己的情感,筆者所了解的有兩類:一是通過(guò)寫(xiě)鳥(niǎo)語(yǔ)描摹詩(shī)人淡薄、回歸山野自然的平靜心境,這方面的詩(shī)王摩詰寫(xiě)的最多,如“月出驚山鳥(niǎo),時(shí)鳴春澗中”、“漠漠水田飛白鷺,陰陰夏木囀黃鸝”、“雉雊麥苗秀,蠶眠桑葉稀”等;二是通過(guò)子規(guī)(杜鵑)、鴻雁等意象來(lái)表達(dá)詩(shī)人淡淡的憂傷,如“楊花落盡子規(guī)啼,聞道龍標(biāo)過(guò)五溪”的依依惜別之情、“兩邊山木合,終日子規(guī)啼”的思鄉(xiāng)歸家之情、“雁盡書(shū)難寄,愁多夢(mèng)不成”的思君心切...從縱向維度上看,隋末唐初時(shí)期除了上述提及的兩大熱門(mén)題材外,關(guān)于“報(bào)效君恩”題材的詩(shī)歌占比較高。

彼時(shí)適逢華夏第三次大一統(tǒng),“貞觀之治”、“開(kāi)元之治”這兩大盛世榮耀大唐在“朕即國(guó)家”的時(shí)代,廣大熱血青年渴望馳騁疆場(chǎng),建功立業(yè),報(bào)效國(guó)家。

此外,筆者也注意到,從金代到到當(dāng)代,“花開(kāi)荼蘼”、“羈旅思鄉(xiāng)”、“金戈鐵馬”和“靜悟禪機(jī)”等題材就一直葆有較高的熱度,結(jié)合前面提及的2大經(jīng)久不衰的詩(shī)歌題材,這表明這段時(shí)期的詩(shī)歌創(chuàng)作方向具有一定的延續(xù)性。

從上表中,我們能有一些發(fā)現(xiàn),但如果想更獲取一些更深層次、潛藏在表層數(shù)據(jù)中的信息,我們還需要用高階的數(shù)據(jù)挖掘方法將其轉(zhuǎn)換一下。

在這里,筆者使用多元對(duì)應(yīng)分析的方法將其高維表示(也就是上面的21*23維的圖表)映射為二維表示(分解為2個(gè)二維矩陣,題材為23*2,朝代為21*2),從而更直觀的揭示出詩(shī)歌題材之間、詩(shī)歌題材與朝代之間的關(guān)聯(lián)關(guān)系,如下圖所示:


在上圖中,有兩類坐標(biāo)---外圍有半徑圓圈的紅色點(diǎn)是朝代的,“x”的詩(shī)歌題材的坐標(biāo)。漢代的坐標(biāo)“孤懸海外”是因?yàn)閿?shù)據(jù)量過(guò)小,統(tǒng)計(jì)特征不甚明顯,故筆者在這里不做分析。

在圖的左上角,魏晉、南北朝、隋末唐初、隋這幾個(gè)朝代的圓圈重合度較高,說(shuō)明它們的詩(shī)歌題材數(shù)量分布較為相似,聯(lián)想到這幾個(gè)朝代前后相繼,這又一次體現(xiàn)了詩(shī)歌創(chuàng)作具有時(shí)代延續(xù)性的特征。

同樣,唐代及其以后的圓圈呈“扎堆狀”,標(biāo)明它們的詩(shī)歌寫(xiě)作題材的數(shù)量分布較為相似,反映出唐以降的朝代在詩(shī)歌創(chuàng)作題材方面的差異度較小,題材創(chuàng)作方向的創(chuàng)新性不高。

究其原因,在于詩(shī)歌在唐代已經(jīng)進(jìn)化到“究極狀態(tài)”:唐詩(shī)的題材和意境也幾乎無(wú)所不包,修辭手段的運(yùn)用已達(dá)到爐火純青的程度。它不僅繼承了漢魏民歌、樂(lè)府傳統(tǒng),并且大大發(fā)展了歌行體的樣式;不僅繼承了前代的五、七言古詩(shī),并且發(fā)展為敘事言情的長(zhǎng)篇巨制;不僅擴(kuò)展了五言、七言形式的運(yùn)用,還創(chuàng)造了風(fēng)格特別優(yōu)美整齊的近體詩(shī)。

近體詩(shī)是當(dāng)時(shí)的新體詩(shī),它的創(chuàng)造和成熟,是唐代詩(shī)歌發(fā)展史上的一件大事。它把我國(guó)古曲詩(shī)歌的音節(jié)和諧、文字精煉的藝術(shù)特色,推到前所未有的高度,為古代抒情詩(shī)找到一個(gè)最典型的形式,至今還特別為人民所喜聞樂(lè)見(jiàn)。

唐詩(shī)代表了中華詩(shī)歌的最高成就,無(wú)疑是中華以及世界文壇上濃墨重彩的筆觸!這對(duì)于想要另辟新境的宋代詩(shī)人來(lái)說(shuō)無(wú)疑是巨大的壓力。正如王安石和魯迅所言:“世間好語(yǔ)言,已被老杜道盡;世間俗語(yǔ)言,已被樂(lè)天道盡”,“我以為一切好詩(shī),到唐朝已被做完,此后倘非翻出如來(lái)掌心之‘齊天大圣’,大可不必再動(dòng)手了”。

7 通過(guò)GPT-2生成表達(dá)流暢的詩(shī)歌

從某種程度上講,詩(shī)歌生成是從另一維度對(duì)詩(shī)歌進(jìn)行深度分析。

生成什么詩(shī)歌,跟詩(shī)歌生成模型“吃下去”什么是息息相關(guān)的。詩(shī)歌生成模型的“生成”不是“無(wú)源之水”、“無(wú)本之木”,它是在充分學(xué)習(xí)和吸收前人的若干詩(shī)作后,習(xí)得了一定的“創(chuàng)作手法”,因而能生成效果尚可的詩(shī)歌。

同時(shí),我們也能從生成的結(jié)果中發(fā)現(xiàn)詩(shī)歌創(chuàng)作的一些規(guī)律,做一些深入探究。

7.1 詩(shī)歌生成示例分析

在這一部分,筆者用于訓(xùn)練詩(shī)歌生成模型的語(yǔ)料庫(kù)是基于熱門(mén)題材標(biāo)簽體系得到的帶有題材標(biāo)簽(目前是23個(gè))的律詩(shī)(七言和五言)和絕句(七言和五言),它們都滿足詩(shī)歌的結(jié)構(gòu)性、音調(diào)性和語(yǔ)義性的要求。

這里筆者采用的是GPT2(Generative Pre-Training 2nd),它是一個(gè)無(wú)監(jiān)督語(yǔ)言模型,能夠生成具有連貫性的文本段落,在許多語(yǔ)言建模任務(wù)基準(zhǔn)中取得了領(lǐng)先級(jí)表現(xiàn)(數(shù)據(jù)量級(jí)和參數(shù)量級(jí)擺在那里,當(dāng)然跟它的后浪GPT3不能比...)。

而且該模型在沒(méi)有任務(wù)特定訓(xùn)練的情況下,能夠做到初步的閱讀理解、機(jī)器翻譯、問(wèn)答和自動(dòng)摘要。其核心思想可以總結(jié)為“給定越多參數(shù)以及越多樣、越大量的文本,無(wú)監(jiān)督訓(xùn)練一個(gè)語(yǔ)言模型或許就可讓該模型具備更強(qiáng)的自然語(yǔ)言理解能力,并在沒(méi)有任何監(jiān)督的情況下開(kāi)始學(xué)會(huì)解決不同類型的 NLP 任務(wù)”。

在文本的詩(shī)歌生成任務(wù)中,筆者從零到一訓(xùn)練一個(gè)詩(shī)歌生成的GPT2模型,力求讓該模型學(xué)習(xí)到詩(shī)歌數(shù)據(jù)集中的各類顯性特征(題材與詩(shī)歌的關(guān)系、詩(shī)歌與風(fēng)格的關(guān)系、藏頭字和詩(shī)歌的關(guān)系等)和隱性特征(主要是詩(shī)歌的韻律),其大致原理如下圖所示:


相比3年前筆者寫(xiě)《用文本挖掘剖析近5萬(wàn)首<全唐詩(shī)>》時(shí)用的LSTM詩(shī)歌生成模型,GPT2模型進(jìn)步巨大:

  • 生成的詩(shī)歌更加通順,每一聯(lián)的出句和入句的銜接也顯得更為自然
  • 能成全局(即整首詩(shī))著眼,記憶能力好,考慮上下文語(yǔ)境,前后生成的詩(shī)句緊密關(guān)聯(lián),不會(huì)出現(xiàn)“跳題材”的情況
  • 能學(xué)習(xí)到詩(shī)歌數(shù)據(jù)中較為隱性的特征,如押韻、平仄、對(duì)仗、疑問(wèn)語(yǔ)氣等
  • 因擁有上述3個(gè)優(yōu)勢(shì),生成的詩(shī)歌“廢品率”大大降低

下面,筆者將呈現(xiàn)GPT2的詩(shī)歌生成能力:

例如,生成的詩(shī)歌可能會(huì)和前人寫(xiě)的詩(shī)句有一定的相關(guān)性,但是GPT2模型可以進(jìn)行“魔改”,很難看出直接的“抄襲對(duì)象”,例如以下由GPT2模型生成的七言律詩(shī),每一聯(lián)都能在語(yǔ)料庫(kù)中找到語(yǔ)義最為接近的一句:

戰(zhàn)鼙傳響徹神州,萬(wàn)里中原一白頭。
兵后英雄誰(shuí)不死,眼前豪杰已無(wú)憂。
乾坤納納歸天地,歲月悠悠老斗牛。
安得扁舟成獨(dú)往,五湖煙浪是東流。

7.2 人機(jī)詩(shī)歌創(chuàng)作的差異比較

詩(shī)歌生成建模大致的原理是:通過(guò)大量詩(shī)歌語(yǔ)料,詩(shī)歌生成模型能學(xué)習(xí)到任一詩(shī)句中相鄰的字詞之間的依賴關(guān)系,比如出現(xiàn)一個(gè)“漠”,GPT2按照學(xué)習(xí)到的經(jīng)驗(yàn),會(huì)猜測(cè)接下來(lái)會(huì)出現(xiàn)哪個(gè)字,這些字都會(huì)以概率的形式“存放”在GPT2模型的“記憶”之中,如:

“漠”:0.1205,
“北”:0.0914
“然”:0.0121,
“視”:0.00124
...

一般情況下,機(jī)器“作詩(shī)”時(shí)會(huì)選擇過(guò)往出現(xiàn)幾率最高的字,以此類推,直到碰到“終止符”才結(jié)束,逐漸生成整首詩(shī)歌。


這是最簡(jiǎn)單的情形,生成的效果也就非常一般,很多時(shí)候是文理不通。

為了保證生成效果,一般會(huì)(同時(shí))用到一些復(fù)雜的生成策略,如Beam Search、Top-k sampling、Top-p sampling(NUCLEUS SAMPLING,核采樣)、Repetition_penalty(對(duì)重復(fù)性進(jìn)行懲罰)、Length_penalty(對(duì)生成過(guò)長(zhǎng)的詩(shī)句進(jìn)行懲罰)等,這樣會(huì)兼顧詩(shī)歌生成的一些其他因素,如流暢度、豐富度、一致性等,詩(shī)歌生成的效果也能得到較大的提升。

筆者基于哈佛大學(xué)的GLTR( Statistical Detection and Visualization of Generated Text)來(lái)探究下機(jī)器和人作詩(shī)時(shí)的一些差異,該工具輸入的是詩(shī)歌,輸出的是機(jī)器和人作的詩(shī)歌的字出現(xiàn)概率分布統(tǒng)計(jì),我們從中可以發(fā)現(xiàn)詩(shī)歌“煉字”的一些奧秘。筆者試舉一例:


在上圖中,色塊的顏色代表的是字所在的概率區(qū)間,紅色代表出現(xiàn)概率TOP10的字,黃色的是TOP100,綠色的是TOP1000,紫色的是TOP10000。

從結(jié)果中,我們可以看到機(jī)器作詩(shī)時(shí),紅色和黃色的字概率分布區(qū)間占比較大,逐字生成時(shí)一般是從頭部的字概率分布中來(lái)取,從而導(dǎo)致會(huì)詩(shī)句生成較為常見(jiàn)的表達(dá);人創(chuàng)作詩(shī)歌時(shí),各顏色代表的字概率分布區(qū)間占比較為接近,至少是差異不大,最終導(dǎo)致詩(shī)歌的表達(dá)千變?nèi)f化,不落俗套。

古時(shí)詩(shī)人作詩(shī),重在“煉字”。煉字,指錘煉詞語(yǔ),指詩(shī)人經(jīng)過(guò)反復(fù)琢磨,從詞匯寶庫(kù)中挑選出最貼切、最精確、最形象生動(dòng)的詞語(yǔ)來(lái)描摹事物或表情達(dá)意。

從這個(gè)角度來(lái)看,具有統(tǒng)計(jì)學(xué)意義的“選字”策略基本不可取 --- 不是詞不達(dá)意就是容易落“俗套”。比如,陶淵明的那句“采菊東籬下,悠然見(jiàn)南山”中“見(jiàn)”換成“望”就不好。

雖然按從詩(shī)歌數(shù)據(jù)集學(xué)到的概率來(lái)講,“望”在過(guò)往出現(xiàn)的概率遠(yuǎn)大于“見(jiàn)”,但“見(jiàn)”通“”現(xiàn),有“無(wú)意中看見(jiàn)”的含義,標(biāo)明作者是不經(jīng)意間抬起頭來(lái)看見(jiàn)南山,表達(dá)了整個(gè)詩(shī)句中那種悠然自得的感觸,好像在不經(jīng)意間看到了山中美景,符合“山氣日夕佳,飛鳥(niǎo)相與還”這種非常自然的、非常率真的意境,而“望”則顯得有些生硬。

8 將詩(shī)歌翻譯成通俗易懂的白話文

詩(shī)歌翻譯,也就是將文言文色彩濃重、一般人不易看懂的詩(shī)歌翻譯成現(xiàn)代人容易理解的白話文。筆者此處用到的模型是兩個(gè)BERT構(gòu)成的Encoder-Decoder,目標(biāo)是輸入一句或者一首詩(shī)歌,生成相應(yīng)的白話文翻譯。

考慮到古現(xiàn)代漢語(yǔ)存在大量詞匯方面的語(yǔ)義延續(xù)性,不像中英互譯這樣,源語(yǔ)句和目標(biāo)語(yǔ)句之間的語(yǔ)義和語(yǔ)法結(jié)構(gòu)差異極大,它們會(huì)有很多共享詞匯,所以訓(xùn)練的語(yǔ)料數(shù)量可以適當(dāng)少些。詩(shī)歌翻譯模型會(huì)從大量的翻譯語(yǔ)句對(duì)中學(xué)習(xí)到它們之間的語(yǔ)義對(duì)應(yīng)關(guān)系,而且是以較為流暢(較理想的情況下)的形式進(jìn)行輸出。以下是簡(jiǎn)要原理圖:


筆者編寫(xiě)爬蟲(chóng)采集了某詩(shī)歌分享網(wǎng)站上的若干詩(shī)歌及其翻譯數(shù)據(jù),經(jīng)清洗后,得到3萬(wàn)條訓(xùn)練語(yǔ)句。部分訓(xùn)練數(shù)據(jù)如下表所示:


訓(xùn)練模型后,筆者選取部分未出現(xiàn)在訓(xùn)練集中的語(yǔ)句作為文本翻譯的示例,部分示例如下:


【詞】問(wèn)君何事輕離別,一年能幾團(tuán)圓月。楊柳乍如絲,故園春盡時(shí)。(菩薩蠻·問(wèn)君何事輕離別,清,納蘭性德)
【翻譯1】你在什么時(shí)候才能夠回家?只有那美麗的桃花已經(jīng)過(guò)去了。
【翻譯2】請(qǐng)你問(wèn)我為什么這樣的輕易消失呢?一年里正是三次月下的清明之夜。楊柳剛像絲絲般柔軟,就好似在家鄉(xiāng)春天已經(jīng)快要過(guò)去了。

【對(duì)聯(lián)】帝道真如,如今都成過(guò)去事。民心所向,自古都是往來(lái)人。(楊度自挽聯(lián),上聯(lián)作者是民國(guó),楊度,下一聯(lián)作者是GPT2)
【翻譯】京城大道實(shí)在了解我的知識(shí),就像當(dāng)年地方一樣經(jīng)歷過(guò)了。百姓心里依舊保護(hù)著百姓生活世界,自古以來(lái)都是從前人們來(lái)往的人間吧!

從結(jié)果上來(lái)看,3萬(wàn)來(lái)句的效果還馬馬虎虎,很多翻譯不是直譯過(guò)來(lái)的,更傾向于“意譯”,機(jī)器翻譯的時(shí)候會(huì)“腦補(bǔ)”一些場(chǎng)景,如對(duì)“山抹微云,...,詩(shī)心韻動(dòng)江樓”的翻譯,機(jī)器能夠“揣摩”出“這時(shí)節(jié)讓人肝腸寸斷”,開(kāi)始“有內(nèi)味”了。如果采用一些手段擴(kuò)充下語(yǔ)料,如將整首詩(shī)歌和對(duì)應(yīng)翻譯逐句拆分、對(duì)白話文部分進(jìn)行文本增強(qiáng)(同義詞替換、隨機(jī)插入、隨機(jī)交換等)和將意譯改為直譯等,訓(xùn)練處的模型可能會(huì)更強(qiáng)大些,翻譯效果能提升不少。結(jié)語(yǔ)通過(guò)上述詩(shī)歌語(yǔ)料庫(kù)分析流程,筆者想說(shuō)一下對(duì)于(文本)數(shù)據(jù)挖掘的一些看法:

所謂挖掘,通常帶有“發(fā)現(xiàn)、尋找、歸納、提煉”等內(nèi)涵,既然需要去發(fā)現(xiàn)和提煉,那么,所要找尋的內(nèi)容往往都不是顯而易見(jiàn)的,而是“隱蔽”和“藏匿”于文本之中,或者是人無(wú)法直接在大范圍內(nèi)發(fā)現(xiàn)和歸納出來(lái)的。如果要抽絲剝繭,需要結(jié)合領(lǐng)域知識(shí)(如文中的詩(shī)歌常識(shí)),運(yùn)用多種分析手段(如文中的各類NLU和NLG方法),有時(shí)甚至需要逆向思維(如文中的詩(shī)歌生成),且各類分析最好是一個(gè)前后相繼、互為補(bǔ)充有機(jī)整體,這樣才能以最高的效率來(lái)完成文本數(shù)據(jù)的探索任務(wù)。

作者介紹:

高長(zhǎng)寬,筆名“蘇格蘭折耳喵”,前新浪微熱點(diǎn)數(shù)據(jù)pm,達(dá)觀數(shù)據(jù)VOC(客戶之聲)產(chǎn)品負(fù)責(zé)人,專注于NLP、文本挖掘、社交媒體數(shù)據(jù)挖掘。


注:本文略有刪減,詳見(jiàn)原文:

https://mp.weixin.qq.com/s/bo14ICYO3G4LCouxXi3ceA


參考資料:

《數(shù)學(xué)與文學(xué)的共鳴》,丘成桐?

《迦陵說(shuō)詩(shī).嘉瑩說(shuō)詩(shī)講稿》, 葉嘉瑩

《文本數(shù)據(jù)管理與分析》,翟成祥

《文本數(shù)據(jù)挖掘》,宗成慶

《古代漢語(yǔ)基礎(chǔ)》,吳鴻清

《詩(shī)詞格律》,王力

《語(yǔ)言的科學(xué)》,諾姆.喬姆斯基

《現(xiàn)代漢語(yǔ)詞匯學(xué)教程》,周薦

《語(yǔ)言的認(rèn)知研究和計(jì)算分析》,袁疏林

《自然語(yǔ)言處理的認(rèn)知方法》,Bernadette Sharp

《自然語(yǔ)言處理入門(mén)》,何晗

https://github.com/Werneror/Poetry

https://github.com/kpu/kenlm
https://github.com/jiaeyan/Jiayan

《Catching a Unicorn with GLTR: A tool to detect automatically generated text》,http://gltr.io

《Better Language Models and Their Implications》,https://openai.com/blog/better-language-models/

《自由度+凝固度+統(tǒng)計(jì)的新詞發(fā)現(xiàn)》,https://blog.csdn.net/qq_39006282/article/details/91357603




實(shí)習(xí)/全職編輯記者招聘ing

加入我們,親身體驗(yàn)一家專業(yè)科技媒體采寫(xiě)的每個(gè)細(xì)節(jié),在最有前景的行業(yè),和一群遍布全球最優(yōu)秀的人一起成長(zhǎng)。坐標(biāo)北京·清華東門(mén),在大數(shù)據(jù)文摘主頁(yè)對(duì)話頁(yè)回復(fù)“招聘”了解詳情。簡(jiǎn)歷請(qǐng)直接發(fā)送至[email protected]




點(diǎn)「在看」的人都變好看了哦!
瀏覽 74
點(diǎn)贊
評(píng)論
收藏
分享

手機(jī)掃一掃分享

分享
舉報(bào)
評(píng)論
圖片
表情
推薦
點(diǎn)贊
評(píng)論
收藏
分享

手機(jī)掃一掃分享

分享
舉報(bào)

感谢您访问我们的网站,您可能还对以下资源感兴趣:

国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频 99久久精品国产成人一区二区| 日韩在线一| 中文字幕无吗| 午夜操逼| 三级片在线视频| 91ThePorn国产在线观看 | 成人在线免费电影| 青青草狠狠干| 亚州精品成人片| 亚洲精品综合| 亚洲欧美视频在线观看| 国产主播在线播放| 久操免费观看| 亚洲中文无码av| AV一二区| 青娱乐超碰| 六月激情婷婷| 国产五月婷婷| 玖玖爱在线精品视频| 青春草在线视频免费观看| 波多野结衣vs黑人巨大| 日韩不卡在线| 九九热在线观看| 在线观看免费A片| 日韩第1页| 97人妻人人澡人人| 日本久久精品| 国产色五月视频| 成人精品在线视频| 麻豆免费成人视频| 69国产精品成人无码视频色| 亚洲无码一区在线| 国产一区二区波多野结衣| 午夜黄色影视| 自慰喷水流白浆中文字幕| 在线观看免费无码视频| 7777影视电视剧在线观看官网| 亚洲AA| 亚洲午夜成人精品一区二区| 国产91www| 日韩在线欧美在线| 国产美女被操| 99内射| 在线免费观看毛片| 亚欧洲精品在线视频免费观看| 日B视频在线观看| 俺来也俺去也www色官| 动漫操逼视频| 蜜臀AV成人| 草久美女| 亚洲在线观看视频| 日日干日日操| 国产在线成人| 欧美日韩三区| 日韩经典无码| 老婆中文字幕乱码中文乱码| 国产精品黄色片| 婷婷五月天色播| 日韩1234区| 1024手机在线视频| av在线影院| 国产精品无毛五区六区| 日韩99| 午夜激情av| 懂色av,蜜臀AV粉嫩av| 琪琪色在线视频| 国产黄色视频在线观看免费| 免费成人三级片| 亚洲精品秘一区二区三区影| 久久一级A片| 动漫操逼视频| 美女少妇激情BBBB| 欧美久久一区二区三区四区视频| 无码字幕| 中文字幕++中文字幕明步| 五月久久婷婷| 欧美一级性爱| 日韩视频免费在线观看| 亚洲精品国产精品国自产在线| 美女自慰网站在线观看| 中文无码电影| 午夜av福利| 最新日韩无码| 在线无码中文| 高清无码二区| 婷婷五月天色色| AV先锋资源| 国产香蕉在线视频| 9l视频自拍九色9l视频成人| 熟女少妇一区二区| 黄色电影视频在线| 欧美在线一级片| 国产成人精品免高潮在线观看 | 成人黄色一级| 精品无码在线观看视频| 白丝久久| 北条麻妃视频在线播放| 日韩日日操| 日韩99热| 好逼123| 国产免费成人在线观看| 青青精品视频| 色久悠悠综合网| 成人精品A片免费网站| 国产手机AV在线| 色999在线播放视频| 美女性爱3P视频| 国产精品免费av在线| 精品视频在线观看| 免费一区二区三区| 国产亚洲午夜久久久成人电影| 日韩在线| 国产AV无码区亚洲| 欧美老女人操逼群| 国产一区二区久久| 98无码人妻精品一区二区三区| 亚洲国产成人精品综合99| 午夜色色影院| 日韩v欧美v日本v亚洲v国产v| 国产精品系列视频| 天天干少妇| 爽爽午国产浪潮AV性色www| 艹逼视频免费观看| 11一12周岁女毛片| 翔田千里一区二区三区精品播放 | 水果派解说AV无码一区| 337P大胆粉嫩银噜噜噜| 少妇搡BBBB搡BBB搡18禁| 久久久久无码国产精品一区| 久久久91人妻无码精品蜜桃ID| 国产色婷婷精品综合在线播放| 人人摸天天| 最近中文字幕无码| chinese高潮老女人| 亚洲成人av在线播放| 欧美在线视频a| 黄在线免费观看| 国产手机拍视频推荐2023| 免费啪啪网| 婷婷天堂网| aaa午夜| 熟妇人妻中文AV无码| 一级黄色免费电影| 亚洲精品视频无码| 高清无码黄片| 狼友初视频在线观看| 亚洲国产一区二区三区四区| 中文无码日本高潮喷水| 人人肏人人射| 老熟女搡BBBB搡BBBB视频| 五月天婷婷无码| 丰滿人妻-区二区三区| 日本69视频| 综合操逼网| 五月婷婷丁香在线| 日韩午夜福利| 婷婷在线观看视频| 露脸丨91丨九色露脸| 91香蕉视频在线| 日日撸视频| 青青草大香蕉在线| 一级特黄大片录像i| 在线高清无码视频| 婷婷五月天大香蕉| 大香蕉男人天堂| 在线天堂av| 17c.白丝喷水自慰| 五月网| 国产精品秘久久久久久网站| 一级黄色录相片| 99国产精品久久久久久久| 先锋AV资源站| 亚洲黄色电影在线| 久久久久久久大香蕉| 在线免费看a片| 免费一区| 日韩一级片在线观看| 欧美曰皮免费看| 亚洲国产成人精品激情在线| 97免费在线观看视频| 免费黄色视频网站在线观看| 日韩无码人妻久久一区二区三区 | 日日夜夜拍| 色xxxx| 成人无码中文字幕| 成人av小说网站| 天堂久久av| 伊人大香蕉网站| 校园春色亚洲无码| 欧美午夜精品成人片在线播放| 大荫蒂HD大荫蒂视频| 内射毛片| 亚洲无码激情在线| 综综综综合网| 91porn在线观看| 国产三级片精品| 久久男人天堂| 樱桃码一区二区三区| 操逼AV无码| 黄色福利网| 成人免费A片在线观看直播96 | 国产在线a| 国产又粗又长的视频| 中文字幕成人电影| 天天色网站| 麻豆999| 天堂久久久久| 亚洲精品999| 国产91无码精品秘入口新欢| 國產美女AV操逼網站| 肉色超薄丝袜脚交一区二区| 首屈一指视频在线观看| 伊人影院在线观看| 东京热AV在线| 日本成人性爱视频网站一区| 日日骚亚洲| 日韩无码AV一区二区三区| 日逼中文字幕| 免费无码国产在线观看快色| 成人午夜黄色| A片操逼| 大香蕉色伊人| 日韩精品一区在线观看| 山东熟妇搡BBBB搡BBBB| 51亚洲精品| 日本黄色免费在线观看| 日韩性爱小视频| 午夜欧美| 六月丁香五月婷婷| 亚洲aaa在线| 午夜ww| 另类色综合| 成人无码一区二区| 免费看毛片中文字幕| 神马午夜影院| 69式荫蒂被添全过程| 久草热在线| 国产日逼视频| 粉嫩AV在线| 国产com| 蜜桃传媒一区二区亚洲| 久久精品美臀| 青青操青青干| 91香蕉视频免费在线观看| AV片在线观看| 日皮做爱视频网站| 色悠悠中文字幕| 伊人性爱网| 97人人插| 久草在在线视频| 丰满熟妇高潮呻吟无码| 色综合天天综合| 成人无码一区| 亚洲无吗在线播放| 99视频在线免费播放| 91精品在线观看视频| 国产A视频| 一本到在线观看午夜剧场| 欧美一级三级| 久久77777| 精品国产乱子伦一区二区三区最新章| 国产成人视频在线播放| 悠悠久久久| 国产主播福利| 精品久久久久久AV2025| 日韩一区二区三区无码电影 | 中文字幕无码在线播放| 日韩网站在线| 特黄AAAAAAAA片免费直播| 国产porn| 在线免费人成视频| 日本黄色免费在线观看| 久久噜噜噜精品国产亚洲综合| 国产视频久久| 人妻无码中文字幕蜜桃| 国产又大又粗| 人人草人人摸| 国产欧美日韩综合在线视频| 成人h视频| 国产精品视频| 久艹99| 我要操影院| 午夜福利大片| 麻豆精品一区二区三区| 黄色片国产| 亚洲黄片免费观看| 在线观看中文字幕视频| 欧美一级在线免费观看| 久久不卡| 色哟哟一区| 青青草91视频| 国产无码免费| AV在线资源观看| 99国产精品99久久久久久粉嫩 | www黄色视频| 国产女人18毛片水18精品软件| 国产成人高清视频| 亚洲成人免费| 黄色福利网| 黄片无码在线观看| 狼友视频在在观看| 97国产精品手机| 国产AV一区二区三区精品| 麻豆AV电影| 中文一区在线| 国产午夜成人福利在线| 霸道总裁雷总各种姿势白浆爱情岛论坛| 日比视频网站| 国产一区在线视频| 91国产精品在线视频| 九九精品视频在线观看| 操逼日爱| 免费无码婬片AAAA片在线蜜芽| 亚洲无aV在线中文字幕| 五月天无码av| 亚洲无码在线视频观看| 亚洲精品成人无码| 亚洲婷婷综合网| 成人福利网站| 大香蕉伊人免费| 99精品热视频| 亚洲AV官方网站| 亚洲vs无码秘蜜桃| 欧美成人激情| 豆花视频在线播放| 国产激情视频在线播放| 日韩黄色A级片| 超碰在线精品| 国产欧美日韩| 国产性猛交╳XXX乱大交| 久久久一区二区三区四区| 热久久视频| 日韩a级毛片| 日韩在线观看网站| 国产成人精品一区| 操操操操操操| 欧洲精品在线免费观看| 小黄片在线看| 久久撸视频| 成人中文字幕在线观看| 欧美日韩在线免费观看| 国产激情在线观看视频| 五月天黄色网| 天天爽夜夜爽夜夜爽| 北条麻妃无码视频在线观看| 久久久精品999| 色99视频| 天堂v在线观看| 欧洲成人午夜精品无码区久久 | 一级视频免费观看| 国产真实露脸乱子伦对白高清视频 | 蜜桃网一区二区| 日韩av在线电影| 天天操天天操免费视频| 欧美日韩精品一区二区三区视频播放| 亚洲欧美成人在线| 日本视频免费| 农村A片婬片AAA毛片| 粉嫩99精品99久久久久久特污| 青草青草| 国产最新AV| 人人操人人操人人操| 黄色毛片在线播放| 加勒比无码在线播放| 黄色视频在线免费观看高清视频| 少妇婷婷| 亚洲精品视频在线观看网站| 中文字幕在线不卡视频| 翔田千里被操120分钟| 91人人操人人| 欧美色性乐汇操日本娘们| 日韩熟妇视频| 91麻豆免费视频网站| 久久er99| 日韩无码高清视频| 中文在线一区| 91久久| 天干夜天干天天天爽视频| 柠檬福利第一导航| 一本色道久久综合无码| 懂色av一区蜜桃| 亚洲性爱在线播放| 青青草人人| 韩国三级av| 天堂在线视频免费| 日本毛片视频| 狠狠操狠狠插| 欧美成人三级在线观看| 天堂成人av| 久在线观看| 男人的天堂视频在线| 97国产在线视频| 日韩精品在线一区| 亚洲狼友| 欧美成人国产| 3D动漫精品啪啪一区二区免费| 91国产精品在线| 欧美中文字幕在线观看| 东北操逼视频| 国产91视频| 猫咪AV大香蕉| 亚洲AV无码一区毛片AV| 成人精品毛片| 日韩精品免费一区二区在线观看| 91网站在线看| 仓井空一区二区三区| 成人777| 午夜综合在线| 国产AV无码区亚洲| 97大香蕉视频| 嫩BBB搡BBBB搡BBBB| seseav| 波多野结衣无码一区| 日韩高清AV| 亚洲码成人| 成人抽插视频| 四虎成人精品无码永久在线的客服| 中文字幕在线欧美| 亚洲成人小说| 91人妻中文字幕| 日韩欧美在线播放| 久久大奶| 久久久999精品视频| 最近2019中文字幕mv第三季歌词| 国产欧美综合在线观看| 伊人精品视频| 欧美MV日韩MV国产网站| 日逼视频免费看| 婷婷久久综合久| 91人妻无码视频| 国产艹逼视频| 三级爱爱| 91中文字幕| 骚虎av| 自慰一区| 三级片欧美| 无码动漫av| 四川少妇搡bbbb搡bbbb| 爱搞搞视频| 先锋影音AV资源站| a无码| 中文字幕无码人妻在线视频| 91一区二区在线播放精品| 色婷婷一区| 亚洲在线中文| 亚洲性爱片| 丰滿人妻一区二区三区| 精品91在线视频| 中文字幕++中文字幕明步| 又大又黄又爽| 亚洲第一黄| 国产一级18片视频| 91国语又粗又大对白| 欧美操大逼| 精品在线免费观看| 国产精品揄拍100视频| 尤物视频网站在线观看| 久久久久久成人电影| 亚洲无码婷婷| 国产一区二区三区18| 国产真实露脸乱子伦对白高清视频 | 国产精品码ls字幕影视| 老妇性BBWBBWBBWBBW| 91精品久久久久久粉嫩| av一区在线观看| 成人小说视频在线社区| 99热黄| www.xxx国产| 丝袜制服中文字幕无码专区 | 米奇色色色| www.操逼| 成人啪啪网站| 久久国产热| 日韩欧美一区二区三区不卡| 日韩在线视频免费| 人妻夜夜爽天天爽| 欧美色色色网| 青青草免费在线| 台湾久久| 操美逼| 久久精品国产视频| 日韩成人网站在线观看| 午夜福利h| 成人在线视频观看| 午夜精品影院| 久久久久久久久毛片| 91成人片| 中文字幕久久人妻无码精品蜜桃| 国产网站精品| 青青草免费福利视频| 51妺嘿嘿午夜福利| 欧美成在线视频| 国产丝袜AV| 免费黄色一级片| 成人午夜在线视频| 在线观看亚洲无码视频| 日韩a| 伊人视频在线观看| 天堂在线9| av天天日| 欧美精品黄片| 成人小说一区二区三区| 91亚洲国产成人精品一区二区三| 亚洲欧洲有码在线| 免费AV片| 黄色草逼视频| 高潮91PORN蝌蚪九色| 国产99热| 91爱爱网| 69式荫蒂被添全过程| 91在线无码精品入口电车| 无码高清视频| 操逼影片| 12一15女人A片毛| 三级乱伦视频| 一级调教看片| 人成在线免费视频| 码人妻免费视频| 精品国产香蕉| 五月天婷婷操逼视频| 欧美国产精品一二三产品在哪买| 久久牛牛| aV一区二区三区| 天天干强奸视频在线综合| 亚洲区视频| 北条麻妃在线视频聊天| 欧美成人国产| 亚洲激情成人| 麻豆精品| 丰满人妻一区二区三区不卡二| 无码人妻一区二区三区在线视频不卡| 日本中文字幕乱伦| 蜜桃视频一区二区三区| 免费无码成人片在线播放| 亚洲AV无码精品久久一区二区 | 黄色草逼视频| 国产精品美女久久久| 久久91av| 国产A区| 影音先锋在线视频| 特级西西人体444www高清大胆| 精品久久三级片| 三级丁香在线| 成人电影91| 国产精品日韩无码| 无码成人在线| 成人才看的在线视频| 激情麻豆论坛| 一级性爽A√毛片| 成人免费视频网站| 97精品人妻麻豆一区二区| 亚洲中文字幕av| 中文av字幕| 中文字幕不卡视频| 国产乱子伦-区二区三区熟睡91 | 能看的AV网站| 97超碰资源总站| 国产成人精品a视频一区| 亚洲激情偷拍| 撸一撸成人在线做爱视频。| 亭亭五月天| 亚洲AV资源| 狠狠躁18三区二区一区免费人| 国产成人午夜高潮毛片| 超碰在线观看免费版| 亚洲无人禁区| 成人av黄色三级片在线观看| 神马午夜福利视频| 久久人人爱| 欧美日韩国产精品成人| 成人黄色免费看| 亚洲精品国产精品国自产A片同性| 成人中文字幕网站| 婷婷丁香人妻天天爽| 丁香六月婷婷| 成人免费毛片AAAAAA片| 性爱福利社| 亚洲黄色影视| 青青草日逼视频| 人人操人人模| 91人人妻人人爽| 日本性爱网址| 激情五月天小说网| 中文字幕浅井香舞被黑人俘虏| 97无码精品人妻| 国产成人免费在线观看| 天天日天天干天天干| 四虎成人网址| 老熟女91| 婷婷午夜精品久久久久久| 综合合一品道| 影音先锋久久久久AV综合网成人| 午夜精品成人| 精品欧美激情精品一区| 99视频在线| 日韩无码视频一区| 97国产在线视频| 国产又爽又黄A片| 久久久97| 日韩人妻中文| 撒尿BBw搡BBwBBw| 91大神在线观看入口| 五月天福利影院| 国产小视频在线看| 亚洲AV永久无码精品国产精| 婷婷五月免费视频| 国产美女操逼网站| aa人人操夜夜操人人| 在线看片a| 嫩BBB槡BBBB槡BBBB撒尿-百度 | 精品人妻午夜| 精品国产va久久久久久久| 91在线成人电影| 亚洲乱伦av| 久久久久久久久久久久成人| 人妻体体内射精一区二区| 午夜福利电影无码| 亚洲无码激情在线| 手机看片福利一区二区| 国产欧美综合视频一区二区在线 | 操逼在线观看| 国产www| 五月天成人社区| jizz在线观看视频| 久草免费在线视频| 天天爽视频| 亚洲成人av在线观看| 国产综合精品久久久久成人AV| 黄色成人网站在线播放| 色99视频| 亚洲香蕉在线视频| 成人毛片100免费观看| 婷婷亚洲天堂| 色婷婷视频网站| 精品无码一区二区三区的天堂| 国产丝袜av| 人人干97| 日韩偷拍网| 亚洲激情图| 一二三四区视频| 高清无码视频18| 天天干天天色| 久久久精品午夜人成欧洲亚洲韩国| 激情六月丁香| 黄片无码免费| 大香久久| 好男人WWW一区二区三区| 亚洲中文欧美| 午夜福利1000| 国产精品大全| 天天综合7799| 久久不射| 婷婷六月综合| 亚洲精品人伦一区二区| 91九色91蝌蚪91窝成人| 九哥草逼网| 亚洲一区二区三区在线| 色婷婷一区二区| 做爱网| 一道本无吗一区| 日韩国产av| 国产乱伦免费| 影音先锋成人AV| 黄片无码| 俺来也操逼| 黄色视频在线观看亚洲一区二区三区免费 | 粉嫩小泬BBBBBB免费| 四虎精品一区二区| 91丨国产丨精品丨丝袜| 豆花av| 乱伦三区| 国产美女高潮| 人人精品| 成年人在线视频| 巨い巨乳の少妇あジed2k| xxx国产精品| 久久99久久视频| 一级a片在线免费观看| 久久婷婷青青| 国产日韩欧美久久| 最新中文| 尤物网站在线观看| 国产操逼大片| 日韩性爱在线观看| 国产欧美日韩一区二区三区| 罗莉AV| 操人网站| 中文字幕一区二区三区四虎在线| 成人一区二区三区四区| 尤物av| 无码秘蜜桃一区二区| 五月天毛片| 日韩网站在线| 好逼天天操| 国产成人自拍网| 秋霞福利影院| 国产无套进入免费| Japanese在线观看| 天天爽夜夜爽人人爽| 国产AⅤ爽aV久久久久成人| 日朝无码| 高清无码黄片| 熟女探花精选| 亚洲不卡免费视频| 97av视频| 国产欧美综合一区二区| 又色又爽| 国产香蕉精品视频| 春宵福利导航| 女人一级A片色黄情免费| 麻豆视频在线观看| 91成人片| 久热最新| 成人做爰黄级A片免费看土方| 人妻18无码人伦一区二区三区精品 | 免费精品黄色网页| 国产传媒av| 国产精品美女久久久久久久久 | 中文字幕+乱码+中文乱码电影 | 一级黄色生活片| 国产成人午夜精品无码区久久麻豆 | www高清无码| 中文成人无字幕乱码精品区| 台湾成人综合网| 久久99热这里只频精品6学生| 中文字幕有码在线观看| 国精品无码人妻一区二区三区免费| 国产精品无码久久久久成人app| 四川性BBB搡BBB爽爽爽小说| 伊人影院99| 少妇人妻精品| 中文字幕在线网址| 久久精品视频免费观看| 波多野结衣一区| 国内成人精品网站| 免费看黄色电影| 日本黄色电影在线播放| 夜夜撸日日| 肏屄视频免费| 日韩中文字幕久久| 中文字幕乱码亚洲无线码在线日噜噜| 翔田千里被操120分钟| 成人免费无码A片免费| 免费污视频在线观看| 暖暖高清无码| 成人h视频| 国产一区二区三区免费| 国产精品九九九| 超碰护士| 日韩高清无码免费观看| 三级内射| 亚洲精品999| 大香蕉久久爱| 国产成人精品视频| 777性爱| 天天操超碰| 国产v在线观看| 日韩三级在线观看| 欧美性爱综合网| 欧美日韩国产不卡视频| 日韩AV成人无码久久电影| 一区二区三区水蜜桃| 91视频中文字幕| 国产一级a毛一级a毛视频在线网站 | WWW久久| 成人做爰黄A片免费看直播室动漫| 日韩另类| 欧美aⅤ| 欧美性成人| 微熟女地址导航| 亚洲欧美另类在线| 影音先锋资源| 99国产精品久久久久久久| 九九热视频99| 超碰97在线免费| 一区二区三区无码在线观看| 亚洲精品成人| 亚洲一区黄色| 午夜三区| 羞羞视频com.入口| 国产高清无码视频在线观看| 91麻豆国产在线观看| 久久久久久久久久久国产精品| 亚洲一本之道| 欧美日韩在线视频播放| 亚洲无码性爱| 亚洲乱码一区| 国产成人精品免高潮在线观看 | H片免费在线观看| 国产成人高清无码| 性无码专区| 亚洲日韩国产AV| 亚洲天天在线| 久久精品99久久久久久| 特黄毛片| 少妇激情网站| 成人丁香五月天| 亚洲一区二区AV| 高清无码视频在线免费观看| 亚洲视频在线观看| 亚洲第一黄| 蜜桃传媒av| 国产精品6| 午夜做爱福利视频| 精品无人区无码乱码毛片国产 | 五月开心婷婷| 日韩欧美在线中文| 日韩午夜在线观看| 自拍偷拍综合网| 成人在线一区二区| 日韩AV无码网站| 青草久久网| 人人艹人人| 日本18禁网站| 性欧美XXXX| 69视频在线播放| 无码AV大香线蕉伊人| 久久久久国产| www天天日| 91天堂在线| 成人无码区免费AV毛片| 久操免费在线| 国产一级自拍| 18av在线观看| 黄色视频日本| 大香蕉玖玖| 色综合欧美| 国产熟女乱伦视频| 午夜老司机福利| av六月天| 亚洲电影av| 国产福利视频| 狠狠做深爱婷婷久久综合一区| 人人爽久久涩噜噜噜网站| 婷婷丁香激情五月天| 18成人毛片| 一区二区三区日本| 激情久久婷婷| 91国黄色毛片在线观看| av无码av天天av天天爽| 亚洲自拍网站| 国产激情自拍| 97性爱视频| 国产成人午夜高潮毛片| 中文字幕视频在线播放| 国产精品视频一区二区三| 大香蕉色视频| 一区二区成人电影| 91水蜜桃| 午夜性爱网址| 日本在线视频一区二区| 国产群交| 日韩第三页| 日一日射一射| 欧美黄色网| 国产a片视频| 日韩中文字幕网站| 国产成人a| 超碰v| 黄片免费看网站| 黄色片免费| 亚洲第一黄| 男人天堂视频在线观看| 91精品无码| 亚洲Av无码午夜国产精品色软件 | 国产精品一区二区不卡| 亚洲无码在线免费观看| 制服.丝袜.亚洲.中文.豆花| 亚洲精品人人| 黄色A级片| 欧美最猛黑A片黑人猛交蜜桃视频 色噜噜狠狠一区二区三区300部 | 69人妻人人澡人人爽久久| 国产一区二区AV| 97色在线视频| 国产精品婷婷久久久| 国产suv精品一区二区6| 日韩三级片网址| 九九视频免费观看| 乱伦精品| 亚洲熟妇在线观看| 亚洲黄色小视频| 欧美日韩狠狠操在线观看视频| 91久久无码一区人妻A片蜜桃| 精品国产一区二区三区久久久蜜月 | 欧美性爱在线观看| 嫩草在线播放| 91九色91蝌蚪91窝成人| 欧美性爱永久| 91精品成人电影| 特级西西WWW888| 艹逼视频免费观看| 婷婷成人综合| 外国成人视频| 美女久久久久| 日韩成人在线播放| 人操人人人操| 欧美性BBB槡BBB槡BBB | 日逼无码视频| 色哟哟无码| 草久美女|