1. GitHub 3.1K,語音合成|語音識別|聲紋識別一次性全開源!

        共 3473字,需瀏覽 7分鐘

         ·

        2022-05-27 19:08

        智能語音技術(shù)已經(jīng)在生活中隨處可見,常見的智能應用助手、語音播報、近年來火熱的虛擬數(shù)字人,這些都有著智能語音技術(shù)的身影。智能語音是由語音識別,語音合成,自然語言處理等諸多技術(shù)組成的綜合型技術(shù),對開發(fā)者要求高,一直是企業(yè)應用的難點。


        飛槳語音模型庫 PaddleSpeech ,為開發(fā)者提供了語音識別、語音合成、聲紋識別、聲音分類等多種語音處理能力,代碼全部開源,各類服務一鍵部署,并附帶保姆級教學文檔,讓開發(fā)者輕松搞定產(chǎn)業(yè)級應用!


        PaddleSpeech 自開源以來,就受到了開發(fā)者們的廣泛關(guān)注,關(guān)注度持續(xù)上漲。



        在此過程中,我們也根據(jù)用戶的反饋不斷升級,推陳出新,優(yōu)化用戶體驗。
        ?
        本次, PaddleSpeech 1.0 版本正式發(fā)布,為開發(fā)者帶來了四項重要升級
        • 全新發(fā)布 PP-TTS?:業(yè)界首個開源端到端流式語音合成系統(tǒng),支持流式聲學模型與流式聲碼器,開源一鍵式流式語音合成服務部署方案。

        • 全新發(fā)布 PP-ASR?:開源基于上萬小時數(shù)據(jù)的流式語音識別系統(tǒng),開源一鍵式流式語音識別服務部署方案。支持 Language Model 解碼和個性化語音識別。
        • 全新發(fā)布 PP-VPR?:開源全鏈路聲紋提取與檢索系統(tǒng),10分鐘輕松搭建產(chǎn)業(yè)級系統(tǒng)。
        • 一鍵服務化能力:語音識別、語音合成、聲紋識別、聲音分類、標點恢復,一鍵部署五項核心語音服務。

        ? 項目傳送門??
        點擊文末閱讀原文一鍵GET!
        https://github.com/PaddlePaddle/PaddleSpeech
        ?

        以下為本次發(fā)布內(nèi)容詳細解讀。


        01


        PP-TTS


        業(yè)界首個開源端到端流式語音合成系統(tǒng)






        語音合成是機器“說話”的“嘴巴”。隨著深度學習技術(shù)的發(fā)展,采用端到端神經(jīng)網(wǎng)絡進行語音合成的效果相較于傳統(tǒng)技術(shù)有了極大的提升,但是端到端語音合成的響應時間長,在實時性要求較高的場景中難以滿足業(yè)務需求。
        ?
        如在實時交互的虛擬數(shù)字人應用中, 需要虛擬人對用戶指令快速做出應答,否則會消耗用戶的耐心、降低用戶體驗,此時就需要流式語音合成系統(tǒng),在保障合成質(zhì)量的同時,提高響應速度、提升交互體驗。



        PaddleSpeech 全新發(fā)布的 PP-TTS ,提供了一鍵式部署流式語音合成系統(tǒng)的方案,解決了在語音合成技術(shù)應用過程中,響應時間長、落地困難的問題。




        流式推理結(jié)構(gòu),降低平均響應時延

        以聲學模型 FastSpeech2 、聲碼器 HiFi-GAN 為例, PP-TTS 對 FastSpeech2 的 Decoder 模塊進行了創(chuàng)新,替換了 FFT-Block 為卷積結(jié)構(gòu),創(chuàng)新性地提出了基于 FastSpeech2 結(jié)合 HiFi-GAN 的流式推理結(jié)構(gòu), 以 Chunk 的方式進行流式推理,可以使聲學模型和聲碼器的輸出與非流式推理保持一致。



        PP-TTS 的流式語音合成可以在保證合成質(zhì)量的前提下,大幅降低平均響應時延:



        測試環(huán)境:測試用例為 CSMSC 數(shù)據(jù)集后100條, CPU 為 Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz


        相較于端到端非流式合成, PP-TTS 流式合成的平均響應時延降低了97.4%,即使在普通的 CPU 筆記本上也能夠?qū)崟r響應。




        文本前端優(yōu)化

        PP-TTS 提供了針對中文場景的語音合成文本前端優(yōu)化方案:針對時間、日期、電話、溫度等常見非標準詞進行了文本正則化處理;開源了針對中文場景的輕聲變調(diào)、三聲變調(diào)和“一”“不”變調(diào)等字音轉(zhuǎn)換( G2P )解決方案。在自建的文本正則化測試集上, CER 低至0.73%;以 CSMSC 數(shù)據(jù)集的拼音標注為 Ground Truth ,字音轉(zhuǎn)換( G2P )的 WER 低至 2.6%。



        基于 PP-TTS 優(yōu)越的文本前端優(yōu)化,語音合成的輸出可以像真人一樣自然、優(yōu)雅,舉個例子大家體驗一下:


        不一會兒,我就在跑馬場買了1頭牛,它的編號是556。


        02


        PP-ASR


        基于上萬小時數(shù)據(jù)的流式語音識別系統(tǒng)






        如果說語音合成是機器的“嘴巴”,那語音識別就是機器的“耳朵”,擁有一個識別準確的“耳朵”,才能讓機器變得更加聰明。端到端非流式語音識別模型的優(yōu)勢在于識別效果更好,但是劣勢是系統(tǒng)延遲大,無法滿足實時交互場景的需求。針對這個問題, PaddleSpeech 1.0 版本給大家?guī)砹薖P-ASR:基于 WenetSpeech 上萬小時數(shù)據(jù)的流式語音識別系統(tǒng)。



        PP-ASR 流式語音識別在保障識別效果的前提下,響應時延顯著降低,可以實時得到識別結(jié)果,提升用戶的使用體驗。




        測試數(shù)據(jù)集:Conformer 模型,測試數(shù)據(jù)集為 AIShell-1 ,流式識別分塊長度為 640ms , GPU: Tesla V100-SXM2-32GB,CPU:80 Core Intel(R) Xeon(R) Gold 6271C CPU@ 2.60GHz??




        個性化識別方案

        基于 WFST 的個性化識別方案,支持特定場景的語音識別任務。例如交通報銷場景,針對通用語音識別對 POI 、日期、時間等實體識別效果差,通過基于 WFST 的個性化識別可以提升識別的準確率。在打車報銷內(nèi)部測試集上,通用識別 CER 為5.4%,優(yōu)化后 CER 為1.32%,絕對提升4.08%。


        演示效果見文末示例
        ?
        03


        PP-VPR


        全鏈路聲紋識別與音頻檢索系統(tǒng)






        聲紋特征作為生物特征,具有防偽性好,不易篡改和竊取等優(yōu)點,配合語音識別與動態(tài)密碼技術(shù),非常適合于遠程身份認證場景。在聲紋識別技術(shù)的基礎上,配合音頻檢索技術(shù)(如演講、音樂、說話人等檢索),可在海量音頻數(shù)據(jù)中快速查詢并找出相似聲音(或相同說話人)片段。


        其中聲紋識別作為一個典型的模式識別問題,其基本的系統(tǒng)架構(gòu)如下:


        ?
        PaddleSpeech 這次開源的 PP-VPR 聲紋識別與音頻檢索系統(tǒng),集成了業(yè)界領(lǐng)先的聲紋識別模型,使用 ECAPA-TDNN 模型提取聲紋特征,識別等錯誤率( EER , Equal error rate )低至0.83%,并且通過串聯(lián) MySQL 和 Milvus ,可以搭建完整的音頻檢索系統(tǒng),實現(xiàn)毫秒級聲音檢索。




        04


        一鍵部署五項核心語音服務


        語音識別、語音合成、聲紋識別、聲音分類和標點恢復






        在產(chǎn)業(yè)應用中,將訓練好的模型以服務的形式提供給他人使用可以更方便。考慮到搭建一套完整的網(wǎng)絡服務應用是一件繁瑣的工作, PaddleSpeech 為大家提供了一鍵式部署服務,命令行一行代碼即可同時啟動語音識別,語音合成,聲紋識別,聲音分類和標點恢復五大服務。




        Demo使用及展示

        進入 demo/speech_server 目錄下,一鍵啟動語音識別、語音合成、聲紋識別、聲音分類和標點恢復服務。



        此時服務已經(jīng)掛載到了配置的8090端口了,我們可以通過命令行對服務進行調(diào)用。


        客戶端調(diào)用,以語音識別為例:



        識別結(jié)果:



        語音合成、聲紋識別、聲音分類和標點恢復的服務使用類似,可以參考對應的文檔。
        ?
        這么好的項目,歡迎大家star鼓勵
        并前來體驗,送上鏈接:
        https://github.com/PaddlePaddle/PaddleSpeech


        ?歡迎更多熱愛語音技術(shù)的開發(fā)者們,一起加入 PaddleSpeech 的社區(qū)交流。



        直播課預告




        5.25-5.27日每晚20:30,百度資深算法工程師將帶來直播課程,詳解 PP-TTS 、 PP-ASR 、 PP-VPR 的設計思路和項目實戰(zhàn),歡迎大家掃碼進群,獲取課程鏈接!


        //? 掃碼報名? //
        加入技術(shù)交流群




        入群福利

        • 獲取 PaddleSpeech 團隊整理的接近20G重磅學習大禮包



        • 獲取5月25-27日直播課程鏈接





        更多開發(fā)者應用案例

        PaddleSpeech 作為飛槳智能語音模型庫,可以與其它的一些基于飛槳的深度學習套件一起,搭建有趣的應用。
        • 智能語音工單報銷

          (基于 PaddleSpeech 和 PaddleNLP )


        ?
        • 虛擬數(shù)字人
        ? ? ?(基于 PaddleSpeech 和 PaddleGAN )
        B站視頻地址:https://b23.tv/qCCZmT9

        了解更多 PaddleSpeech 信息,可以參看我們在 NAACL 2022 發(fā)表的論文:
        PaddleSpeech: An Easy-to-Use All-in-One SpeechToolkit.


        ? 論文鏈接??
        https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/paddlespeech.pdf

        瀏覽 32
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
          
          

            1. 尤物视频免费在线观看 | 日本精品黄色视频 | 天天曰天天干天天射Av | 日本操逼视频 | 啊啊啊啊啊啊网站 |