想做語音識(shí)別的你,真的了解語音嗎?

本文節(jié)選自《語音識(shí)別基本法:Kaldi實(shí)踐與探索》一書!

--正文--
從起初的一聲巨響,到梵音天籟,到耳旁的竊竊私語,到媽媽喊我回家吃飯,總離不開聲音。
聲音是這個(gè)世界存在并運(yùn)動(dòng)著的證據(jù)。
假設(shè)我們已經(jīng)知道了聲音是什么。
我們可以找到很多描述聲音的詞語,如“抑揚(yáng)頓挫”“余音繞梁”。
當(dāng)我們在腦海中搜索這類詞語時(shí),描述對象總繞不過這兩個(gè):人的聲音和物的聲音。
人的聲音,就是語音;物的聲音,多數(shù)是指音樂。
這樣的選擇源于人的先驗(yàn)預(yù)期:語音和音樂最可能有意義,有意義的事情人們才會(huì)關(guān)注。估計(jì)不會(huì)有人樂于用豐富的辭藻來描述毫無意義的聲音。所以,語音研究的意義在于語音本身所傳遞的意義是什么,以及語音為什么能夠傳遞意義。
聲音有很多,每時(shí)每刻每次的振動(dòng)都能產(chǎn)生聲音,可是有意義的聲音實(shí)在不多。
我們可以使用機(jī)器隨機(jī)生成一段聲音,心想著也許這段聲音可以產(chǎn)生一些文字內(nèi)涵。這個(gè)想法與很多年前就開始忙不迭地敲打莎士比亞巨著的大猩猩沒有差別。不管重復(fù)多少次,這些隨機(jī)的聲音聽起來都是噪聲,沒意思。
很顯然,在這樣一個(gè)龐大的聲音空間中,有意義的語音和音樂只是其中極微小的一點(diǎn),這也是“大音希聲”的一種解釋吧。偏偏人類就能毫不費(fèi)力地找到那個(gè)點(diǎn),并且能說會(huì)道,這種搜索能力也是千百年來積攢下來的。不過就算是這么一個(gè)小點(diǎn),古往今來的文學(xué)和音樂經(jīng)典也并未占據(jù)多少地盤,這也使得語音語言的研究、文學(xué)音樂的創(chuàng)作有著廣闊的發(fā)揮空間。
從大音希聲中,我們可以得到以下一些啟示:
語言是高度概括和規(guī)范化的產(chǎn)物,它的熵值(簡單理解為系統(tǒng)的混亂程度)極低,所以語言本身反映了一種思維方式,比如,不同語言對“過去時(shí)”“現(xiàn)在時(shí)”“將來時(shí)”的處理方式體現(xiàn)了對時(shí)間的不同感受,不同語言對主謂賓的排序體現(xiàn)了對空間層次的不同感知;還有,語音在聲音空間中是高度集中的,這使得我們在解析一段語音時(shí)不用搜索整個(gè)聲音空間,少了一些盲目性(不過語言本身的博大精深已讓人嘆為觀止了)。
聲音以波的形式傳播,即聲波(Sound Wave)。
當(dāng)我們以波的視角來理解聲音時(shí),卻又大繁若簡起來:僅憑頻率(Frequency)、幅度(Magnitude)、相位(Phase)便構(gòu)成了波及其疊加的所有,聲音的不同音高(Pitch)、音量(Loudness)、音色(Timbre)也由這些基本“粒子”組合而來。
下圖展示了幾種簡單的波形,世上形形色色的聲波都可以“降解”到基本波形上,這也是傅里葉變換(Fourier Transform)的基本思想。

不同的聲波有不同的頻率和幅度(決定音量),人耳也有自己的接收范圍。
人耳對頻率的接收范圍大致為 20 Hz ~ 20 kHz,于是以人為本地(其他動(dòng)物可以聽到不同范圍的聲音)將更高頻率的聲波定義為超聲波(Ultrasound Wave)、更低頻率的聲波定義為次聲波(Infrasound Wave);人耳對音量的接收范圍已經(jīng)進(jìn)化到適應(yīng)了地球上的常規(guī)聲音,小到呼吸聲、飛蟲聲,大到飛機(jī)起飛、火箭發(fā)射的聲音(已經(jīng)不是地球的默認(rèn)配置),再往上,人的身心就越來越承受不住了,為了衡量音量的大小,再一次以人為本地將人耳所能聽到的 1 kHz 純音的音量下限定義為 0 dB。
語言是人類的標(biāo)志性能力之一,是一項(xiàng)發(fā)明,只不過這個(gè)發(fā)明是人類群體在長遠(yuǎn)的歷史中不斷打磨而成的,趨近于穩(wěn)定而不得穩(wěn)定,因?yàn)樾碌氖挛锖托碌乃枷肟偸遣粩嘤楷F(xiàn),語言隨之進(jìn)化,根據(jù)社會(huì)的需要不斷做出改變,比如小到每年產(chǎn)生的新詞,大到一種語言的消亡和另一種語言的誕生(計(jì)算機(jī)語言也是一種情形)。
當(dāng)語言通過聲音的形式表達(dá)出來時(shí),即為“語音”,它是指由人類發(fā)出的、承載特定語義的聲音,其中語義不僅可以借助文字本身來傳遞,也可以借助聲音的音高、音強(qiáng)、音長、音色及其組合來表示不同的情感、態(tài)度等信息。
語音是新一代人機(jī)交互方式,語音識(shí)別是實(shí)現(xiàn)這一方式的關(guān)鍵環(huán)節(jié),也是實(shí)現(xiàn)人工智能的基本步驟之一。
想要了解更多語音識(shí)別基本法方面的內(nèi)容,可以閱讀《語音識(shí)別基本法:Kaldi實(shí)踐與探索》一書!


▊《語音識(shí)別基本法:Kaldi實(shí)踐與探索》
湯志遠(yuǎn) 等 著
清華語音團(tuán)隊(duì)打造!
全彩印刷,圖文并茂!
語音技術(shù)全景圖速覽!
本書結(jié)合當(dāng)下廣泛使用的 Kaldi 工具,對語音識(shí)別的基本概念和流程進(jìn)行了全方位的講解,包括 GMM-HMM、DNN-HMM、端對端等常用結(jié)構(gòu),并探討了語音識(shí)別在實(shí)際應(yīng)用中的問題,包括說話人自適應(yīng)、環(huán)境魯棒性、小語種語音識(shí)別、關(guān)鍵詞識(shí)別與嵌入式應(yīng)用等方面,也對語音技術(shù)的相關(guān)前沿課題進(jìn)行了介紹,包括說話人識(shí)別、語種識(shí)別、語音情緒識(shí)別、語音合成等方向,從而為讀者構(gòu)建一個(gè)完整的語音技術(shù)全景圖。
本書的寫作以讓讀者快速、直觀理解概念為目標(biāo),只展示最基本的數(shù)學(xué)公式,同時(shí)本書注重理解與實(shí)踐相結(jié)合,在對語音技術(shù)各個(gè)概念的講解中都展示了相應(yīng)的 Kaldi 語音處理命令,以讓讀者進(jìn)一步融會(huì)貫通。
(掃碼了解本書詳情)
如果喜歡本文 歡迎 在看丨留言丨分享至朋友圈 三連 熱文推薦
▼點(diǎn)擊閱讀原文,獲取本書詳情~
