化工行業(yè)如何用語音識(shí)別技術(shù)提高工作效率?
文章摘要:語音識(shí)別的本質(zhì)是一種基于語音特征參數(shù)的模式識(shí)別,即通過學(xué)習(xí),系統(tǒng)能夠把輸入的語音按一定模式進(jìn)行分類,進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。
本文目錄
什么是語音識(shí)別技術(shù)?
語音識(shí)別的本質(zhì)是一種基于語音特征參數(shù)的模式識(shí)別,即通過學(xué)習(xí),系統(tǒng)能夠把輸入的語音按一定模式進(jìn)行分類,進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。
目前,模式匹配原理已經(jīng)被應(yīng)用于大多數(shù)語音識(shí)別系統(tǒng)中。一般的模式識(shí)別包括預(yù)處理,特征提取,模式匹配等基本模塊。首先對(duì)輸入語音進(jìn)行預(yù)處理,其中預(yù)處理包括分幀,加窗,預(yù)加重等。其次是特征提取,因此選擇合適的特征參數(shù)尤為重要。常用的特征參數(shù)包括:基音周期,共振峰,短時(shí)平均能量或幅度,線性預(yù)測(cè)系數(shù)(LPC),感知加權(quán)預(yù)測(cè)系數(shù)(PLP),短時(shí)平均過零率,線性預(yù)測(cè)倒譜系數(shù)(LPCC),自相關(guān)函數(shù),梅爾倒譜系數(shù)(MFCC),小波變換系數(shù),經(jīng)驗(yàn)?zāi)B(tài)分解系數(shù)(EMD),伽馬通濾波器系數(shù)(GFCC)等。在進(jìn)行實(shí)際識(shí)別時(shí),要對(duì)測(cè)試語音按訓(xùn)練過程產(chǎn)生模板,最后根據(jù)失真判決準(zhǔn)則進(jìn)行識(shí)別。
語音識(shí)別,以目前的主流ASR-自動(dòng)語音/語言識(shí)別技術(shù)為例,實(shí)現(xiàn)的功能是把音頻波形(模擬信號(hào))轉(zhuǎn)換為文字(符號(hào))。其原理可以理解為一個(gè)計(jì)算機(jī)系統(tǒng),輸入語音,并分解為詞、字、音節(jié)等元素,通過與軟件內(nèi)部存儲(chǔ)好的特征元素(模型)進(jìn)行模式匹配,找到最可能接近的文字、詞語或語句并輸出。
沃豐科技ASR語音識(shí)別系統(tǒng)功能優(yōu)勢(shì)
場(chǎng)景化識(shí)別
基于transformer結(jié)構(gòu)+self-attention機(jī)制的端到端語音識(shí)別模型,采用數(shù)萬小時(shí)行業(yè)精標(biāo)數(shù)據(jù),結(jié)合知識(shí)庫、FAQ等信息,重現(xiàn)對(duì)話情景,自動(dòng)讓機(jī)器人在場(chǎng)景化領(lǐng)域做識(shí)別
多樣化信息
定制化場(chǎng)景豐富的識(shí)別結(jié)果輸出,不僅能夠輸出one-best結(jié)果,同時(shí)輸出n-best多候選以及音素,為自然語言理解提供豐富多樣化信息
可讀易懂
采用大規(guī)??头?duì)話數(shù)據(jù),基于深度學(xué)習(xí)的方法,對(duì)語音內(nèi)容理解并進(jìn)行智能斷句,讓結(jié)果更可讀與可懂
準(zhǔn)確率領(lǐng)先
基于上下文語義,采用大數(shù)據(jù)分析,對(duì)內(nèi)容實(shí)時(shí)動(dòng)態(tài)糾錯(cuò),自動(dòng)過濾敏感詞等;提供自定義聲學(xué)以及語言模型優(yōu)化
沃豐科技ASR語音識(shí)別系統(tǒng)采用國際前沿的端到端語音語義一體化建模算法,將語音快速準(zhǔn)確識(shí)別為文字,支持一句話識(shí)別、語音內(nèi)容分析、機(jī)器人對(duì)話、智能質(zhì)檢等多個(gè)場(chǎng)景。
》》免費(fèi)試用/預(yù)約演示——智能語音識(shí)別,優(yōu)勢(shì)一試便知
相關(guān)詞條推薦:ASR語音識(shí)別 | 語音識(shí)別技術(shù) | 語音識(shí)別質(zhì)檢
文章為沃豐科技原創(chuàng),轉(zhuǎn)載需注明來源:http://m.gototw.com.cn/ucm/faq/36650
