自動(dòng)語音識(shí)別的工作原理
文章摘要:沃豐科技GaussMind基于自研原心引擎語音語義融合方案,打通業(yè)務(wù)領(lǐng)域數(shù)據(jù),實(shí)現(xiàn)業(yè)務(wù)定制化的效果體驗(yàn),自然場景識(shí)別率超過95%,個(gè)性化詞匯識(shí)別超過97%,同時(shí)為語義模塊提供豐富的識(shí)別結(jié)果輸出,使語義識(shí)別率提升5個(gè)點(diǎn)以上。
過去幾十年里,由于強(qiáng)大的人工智能和機(jī)器學(xué)習(xí)算法,ASR的發(fā)展速度迅猛。如今,大多ASR程序仍使用定向?qū)υ?,但一些?yōu)化版本已開始利用自然語言處理技術(shù),這是人工智能的子領(lǐng)域。
定向?qū)υ扐SR
當(dāng)您打電話給銀行時(shí),您可能體驗(yàn)過定向?qū)υ挕H绻且恍┐笮豌y行,您通常需要先與計(jì)算機(jī)互動(dòng),然后才聯(lián)系到相應(yīng)的人員。計(jì)算機(jī)可能會(huì)要求您簡單地回答“是”或“否”來確認(rèn)身份,或直接讀出您的卡號(hào)。無論是哪一種情況,您都是通過直接對(duì)話式ASR來互動(dòng)。這些ASR程序只限于簡短的口頭回答,因此詞匯量有限。這些ASR程序適用于簡單的客戶互動(dòng),無法勝任復(fù)雜的溝通。
基于自然語言處理的ASR
如上所述,NLP是人工智能的一個(gè)子領(lǐng)域。NLP是指一種教會(huì)計(jì)算機(jī)理解人類語音或自然語言的方法。在下文中,我們使用了通俗易懂的語言,簡要介紹了基于NLP語音識(shí)別程序的工作原理:
您向ASR程序說出一個(gè)指令,或提出一個(gè)問題。
該程序?qū)⒛恼Z音轉(zhuǎn)換為頻譜圖,這是機(jī)器可讀的音頻文件。
一個(gè)聲學(xué)模型通過消除任何背景噪聲(例如,狗叫聲或靜電)來清理您的音頻文件。
算法將清理后的音頻文件分解成音素。音素是聲音的基本組成部分。例如,在英語中,“ch”和“t”是音素。
算法分析音素的序列,并使用統(tǒng)計(jì)概率來確定序列中的單詞和句子。
NLP模型可以將語境應(yīng)用到句子中,例如,確定您說的是“write”還是“right”。
一旦ASR程序理解了您說的內(nèi)容,ASR程序就可以給予您合理的答復(fù),并通過“文本-語音”轉(zhuǎn)換技術(shù)來回復(fù)您。
雖然根據(jù)所使用的算法類型,上述流程會(huì)發(fā)生變化,但這并不妨礙我們理解ASR程序的工作原理?;贜LP的ASR沒有限制,并且能夠模擬真實(shí)對(duì)話,是迄今為止最先進(jìn)的版本。例如,一個(gè)基于NLP的ASR系統(tǒng)的典型詞庫可以涵蓋6萬多個(gè)單詞。評(píng)估ASR有兩個(gè)維度,即單詞錯(cuò)誤率和響應(yīng)速度;在理想條件下,ASR系統(tǒng)在理解人類語音方面可以達(dá)到接近99%的準(zhǔn)確率。但是,大多數(shù)情況都不滿足理想條件。
沃豐科技GaussMind基于自研原心引擎語音語義融合方案,打通業(yè)務(wù)領(lǐng)域數(shù)據(jù),實(shí)現(xiàn)業(yè)務(wù)定制化的效果體驗(yàn),自然場景識(shí)別率超過95%,個(gè)性化詞匯識(shí)別超過97%,同時(shí)為語義模塊提供豐富的識(shí)別結(jié)果輸出,使語義識(shí)別率提升5個(gè)點(diǎn)以上。
文章為沃豐科技原創(chuàng),轉(zhuǎn)載需注明來源:http://m.gototw.com.cn/ucm/faq/17303
