沃豐科技AI科普|什么是ASR語(yǔ)音識(shí)別?(附ASR技術(shù)應(yīng)用案例)
文章摘要:在過(guò)去的十年里,人工智能驅(qū)動(dòng)的語(yǔ)音識(shí)別系統(tǒng)已經(jīng)慢慢成為我們?nèi)粘I畹囊徊糠?,本篇文章從幾個(gè)部分科普一下什么是ASR技術(shù),以及沃豐科技在其中的成功案例。
本文目錄
在過(guò)去的十年里,人工智能驅(qū)動(dòng)的語(yǔ)音識(shí)別系統(tǒng)已經(jīng)慢慢成為我們?nèi)粘I畹囊徊糠郑瑥恼Z(yǔ)音搜索到客服中心、汽車(chē)、醫(yī)院和餐廳里的虛擬助理。許多行業(yè)都在使用自動(dòng)語(yǔ)音識(shí)別(ASR)來(lái)提高業(yè)務(wù)生產(chǎn)力、應(yīng)答效率以及在線業(yè)務(wù)滿意度。
接下來(lái),小編通過(guò)本篇文章來(lái)講述一下這背后的技術(shù)以及流程。
首先什么是ASR技術(shù)?
語(yǔ)音識(shí)別技術(shù)是一種將人的語(yǔ)音轉(zhuǎn)換為文本的技術(shù)。其目標(biāo)是將人類(lèi)的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話人識(shí)別及說(shuō)話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話人而非其中所包含的詞匯內(nèi)容。簡(jiǎn)單來(lái)說(shuō),ASR技術(shù)就是將人的語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的文字的過(guò)程。
語(yǔ)音識(shí)別過(guò)程一般包括三個(gè)部分:
????① 聲學(xué)模型:描述在給定詞的情況下,對(duì)應(yīng)聲學(xué)信號(hào)的概率。
????② 語(yǔ)言模型:描述語(yǔ)言序列關(guān)系的模型,關(guān)注序列產(chǎn)生的概率。
③ 解碼器:根據(jù)聲學(xué)模型和語(yǔ)言模型,搜索出最有可能的詞序列,其本質(zhì)是一個(gè)動(dòng)態(tài)
規(guī)劃算法。
語(yǔ)音識(shí)別的一般流程為根據(jù)輸入的語(yǔ)音,提取語(yǔ)音特征,通過(guò)解碼器融合訓(xùn)練好的語(yǔ)言模型和聲學(xué)模型,得到最終的詞序列結(jié)果。字典的作用根據(jù)聲學(xué)模型識(shí)別出來(lái)的音素(漢語(yǔ)中一般為聲韻母),來(lái)找到對(duì)應(yīng)的漢字(詞)或者單詞,用來(lái)在聲學(xué)模型和語(yǔ)言模型建立橋梁,將兩者聯(lián)系起來(lái)。
ASR技術(shù)的發(fā)展歷程
語(yǔ)音識(shí)別技術(shù)在10年以前是統(tǒng)計(jì)模型;10年到20年,運(yùn)用的模型包括了特征提取、聲學(xué)模型,語(yǔ)言模型等模塊,是一個(gè)pipeline的系統(tǒng),而到了20年以后,end-to-end從輸入到輸出只用一個(gè)算法模型,輸入是語(yǔ)音信號(hào),輸出就是最終的詞序列的結(jié)果,也叫做端到端技術(shù);另外這一階段也將圖像、翻譯技術(shù)融入到語(yǔ)音識(shí)別中,滿足多種場(chǎng)景的需求。
另外模型訓(xùn)練方面,其模型分為通用領(lǐng)域和垂直領(lǐng)域兩種。近年來(lái),根據(jù)語(yǔ)音識(shí)別在不同場(chǎng)景中的應(yīng)用效果顯示,通用模型識(shí)別準(zhǔn)確率遠(yuǎn)低于垂直模型的識(shí)別準(zhǔn)確率,所以許多相關(guān)技術(shù)公司都在轉(zhuǎn)向垂直領(lǐng)域的模型訓(xùn)練。
ASR技術(shù)應(yīng)用中遇到的難點(diǎn)
在自動(dòng)語(yǔ)音識(shí)別應(yīng)用場(chǎng)景中,那句“抱歉,我聽(tīng)不懂您在說(shuō)什么”或者“不好意思,請(qǐng)您再重復(fù)一遍”大概是所有使用者以及開(kāi)發(fā)者的噩夢(mèng)吧。這兩句話代表的對(duì)話的失敗,而導(dǎo)致這種問(wèn)題出現(xiàn)的原因大概是以下幾個(gè)方面,這也是ASR技術(shù)在落地應(yīng)用中需要克服的難點(diǎn)問(wèn)題。
- 噪音問(wèn)題
在實(shí)際應(yīng)用中,用戶在于語(yǔ)音機(jī)器人溝通的過(guò)程中,所處的空間是具備多樣性的。比如外賣(mài)員、快遞員在送貨的過(guò)程中,會(huì)有風(fēng)噪聲、喇叭噪聲、行駛聲等,這對(duì)于語(yǔ)音識(shí)別就會(huì)有一定的影響,比如大促期間,顧客在地鐵上、超市中的聲音也會(huì)對(duì)語(yǔ)音識(shí)別構(gòu)成影響。
- 口音問(wèn)題
口音問(wèn)題包含方言以及口音不準(zhǔn)的問(wèn)題。所謂“十里不同音,百里不同俗”。作為一個(gè)幅員遼闊的多民族國(guó)家,我國(guó)56個(gè)民族使用的語(yǔ)言分屬五大語(yǔ)系,共有80種以上語(yǔ)言。其中,漢語(yǔ)的使用人數(shù)最多,分為標(biāo)準(zhǔn)語(yǔ)(普通話)和方言。漢語(yǔ)方言通常分為十大方言,各方言區(qū)內(nèi),又分布著若干次方言和許多種土語(yǔ)。部分方言之間差異很大,無(wú)法通話。為了消除語(yǔ)言隔閡,國(guó)家在全社會(huì)大力推廣普通話。然而,來(lái)自天南海北的人們,又賦予普通話五花八門(mén)的口音。而對(duì)于語(yǔ)音識(shí)別來(lái)說(shuō),這就是一個(gè)極其困難的事情。
- 實(shí)體識(shí)別
通俗來(lái)說(shuō),語(yǔ)音識(shí)別模型就是一個(gè)概率模型,當(dāng)語(yǔ)音傳入語(yǔ)音識(shí)別模型中,輸出為日常生活中常用到的詞語(yǔ)與句子的概率是高于其他稀疏詞的,日常生活中人名、地名、機(jī)構(gòu)名、專(zhuān)有名詞、藥名等,這種在不常用到,所以輸出為它本身的人名、地名的概率比較小,因此對(duì)這些詞的識(shí)別準(zhǔn)確率是決定該模型識(shí)別準(zhǔn)確率高低的關(guān)鍵因素。
?目前應(yīng)用的前沿技術(shù)是什么?(以沃豐科技相關(guān)技術(shù)為例)?
- 垂直領(lǐng)域數(shù)據(jù)訓(xùn)練
相較于通用數(shù)據(jù),沃豐科技專(zhuān)注于客服領(lǐng)域,已經(jīng)為超過(guò)60家世界500強(qiáng)、200家中國(guó)500強(qiáng)客戶提供服務(wù),沉淀了大量的可用于模型訓(xùn)練的客服數(shù)據(jù),能夠支撐沃豐科技對(duì)模型進(jìn)行深度的優(yōu)化。
- 端到端技術(shù)方案
與BAT企業(yè)相比,沃豐科技率先完成了從pipeline到端到端到技術(shù)改進(jìn),能將輸入語(yǔ)音直接進(jìn)行轉(zhuǎn)化,而傳統(tǒng)pipeline串聯(lián)過(guò)程中會(huì)有信息的遺失,信息轉(zhuǎn)化,轉(zhuǎn)化鏈路長(zhǎng)。端到端的技術(shù)則轉(zhuǎn)化鏈路短、速度快,目前沃豐科技在這一過(guò)程中也實(shí)現(xiàn)了模型深度優(yōu)化。?
- 語(yǔ)言與聲學(xué)模型結(jié)合
熱詞優(yōu)化方面,行業(yè)內(nèi)對(duì)詞語(yǔ)進(jìn)行少量的優(yōu)化的情況下,都會(huì)用這個(gè)熱詞的方案,比如優(yōu)化姓名、地址、藥名等無(wú)實(shí)際意義且不常見(jiàn)的詞,這種詞用傳統(tǒng)的語(yǔ)言模型的方式或者熱詞方式是無(wú)法解決的。而沃豐科技通過(guò)語(yǔ)言模型與聲學(xué)模型結(jié)合的方式解決了這種問(wèn)題,準(zhǔn)確率得到大幅提升。
通過(guò)上述方式,沃豐科技GaussMind語(yǔ)音識(shí)別技術(shù)達(dá)到了行業(yè)先進(jìn)水平,識(shí)別率可達(dá)95%。能夠進(jìn)行語(yǔ)音實(shí)時(shí)轉(zhuǎn)寫(xiě),邊接收語(yǔ)音,邊返回文字;識(shí)別效果優(yōu)化,個(gè)性化準(zhǔn)確率提升
附錄:
贈(zèng)送幾個(gè)沃豐科技在ASR識(shí)別過(guò)程中的成功案例,用來(lái)佐證其在目前垂直行業(yè)中的高識(shí)別準(zhǔn)確率,也為其他企業(yè)相關(guān)場(chǎng)景的識(shí)別率提升提供一個(gè)解決思路。
- 96123
96123 是北京地鐵服務(wù)熱線,于2021年3月31日上線試運(yùn)行,業(yè)務(wù)范圍覆蓋北京城市軌道交通全路網(wǎng)范圍內(nèi)的運(yùn)營(yíng)、票務(wù)和站內(nèi)服務(wù)等相關(guān)信息咨詢等服務(wù),如乘車(chē)線路,票價(jià)查詢等日常乘坐軌道交通伴隨的問(wèn)題。
痛點(diǎn)問(wèn)題
1.日常咨詢量較大,人工處理工單量大、工單流轉(zhuǎn)效率有待提升
2.環(huán)境噪音、背景噪音及高地鐵站名稱(chēng)相似度,數(shù)字與漢字并存,給語(yǔ)音識(shí)別帶來(lái)挑戰(zhàn)
3.北京作為首都,人員范圍廣,五湖四海的人群口音給語(yǔ)音識(shí)別帶來(lái)難度
4.用戶表達(dá)多樣性高,路線信息語(yǔ)義識(shí)別困難
解決方案
全面定制化:自研的GaussMind“原心引擎”進(jìn)行全面定制化識(shí)別、理解,快速、高效地打造96123智能語(yǔ)音機(jī)器人
ASR(自動(dòng)語(yǔ)音識(shí)別):“聽(tīng)清”用戶說(shuō)的“是什么”,準(zhǔn)確識(shí)別來(lái)自五湖四海的口音
NLP(自然語(yǔ)言處理):“聽(tīng)懂”用戶說(shuō)的是“什么意思”,準(zhǔn)確理解出發(fā)地、目的地
對(duì)接業(yè)務(wù)系統(tǒng):為用戶快速提供查詢結(jié)果信息,讓北京地鐵出行查詢更加智能、便捷
- 松果出行
松果出行成立于2017年9月,在全國(guó)各縣域運(yùn)營(yíng)共享電單車(chē)(松果電單車(chē))及新能源汽車(chē)租賃(松果租車(chē))等業(yè)務(wù),已在全國(guó)24個(gè)省近千個(gè)縣級(jí)區(qū)域成功運(yùn)營(yíng),成為縣域城市公共交通系統(tǒng)重要組成部分,是下沉市場(chǎng)共享電單車(chē)的領(lǐng)航企業(yè)。
痛點(diǎn)問(wèn)題:
1、面對(duì)縣域用戶,需多樣化口音支持:面向全國(guó)27個(gè)省的縣域城市,主要集中在三四五線城市用戶,各地用戶的普通話往往帶有當(dāng)?shù)乜谝?,需要做到支持口音識(shí)別。
2、多系統(tǒng)對(duì)接:松果出行自有呼叫中心、短信平臺(tái)、訂單管理、車(chē)輛管理等系統(tǒng),需要將機(jī)器人與多個(gè)系統(tǒng)對(duì)接,完成訂單、車(chē)輛的自動(dòng)管理,支持特定業(yè)務(wù)自動(dòng)生成工單。
3、業(yè)務(wù)問(wèn)題廣泛且普遍共享電單車(chē)在使用過(guò)程中遇到的問(wèn)題比較普遍,涉及問(wèn)題場(chǎng)景較多,例如車(chē)輛問(wèn)題:車(chē)輛故障、停車(chē)失敗;訂單問(wèn)題:訂單費(fèi)用、訂單退費(fèi);賬戶押金問(wèn)題:賬戶余額、押金等。
解決方案
- 定制化識(shí)別:松果出行縣域城市客戶群體規(guī)模大,多數(shù)客戶帶有口音,客戶極其看重ASR識(shí)別轉(zhuǎn)寫(xiě)能力,沃豐科技經(jīng)過(guò)ASR模型定制化,識(shí)別準(zhǔn)確率遠(yuǎn)高于訊飛等其他供應(yīng)商。
- 多方系統(tǒng)協(xié)調(diào)對(duì)接:基于以往對(duì)接其他呼叫中心的豐富經(jīng)驗(yàn),語(yǔ)音機(jī)器人與松果已有呼叫中心通過(guò)IP點(diǎn)對(duì)點(diǎn)方式直接對(duì)接,同時(shí)在機(jī)器人話術(shù)流程中增加查詢訂單、車(chē)輛自動(dòng)關(guān)鎖 、創(chuàng)建工單及發(fā)送短信等外部接口,觸發(fā)某些特定業(yè)務(wù)后自動(dòng)進(jìn)行,實(shí)現(xiàn)多個(gè)系統(tǒng)間的連接。
- 語(yǔ)音標(biāo)注及聲學(xué)模型訓(xùn)練:打通松果問(wèn)題話術(shù)、知識(shí)庫(kù)等行業(yè)歷史數(shù)據(jù),通過(guò)原心引擎 ,輸出識(shí)別結(jié)果,基于深度學(xué)習(xí)NLU模型,融合ASR輸出最優(yōu)結(jié)果,在對(duì)話詳情中嵌入語(yǔ)音標(biāo)注,支持錄音轉(zhuǎn)寫(xiě)問(wèn)題標(biāo)注,不斷優(yōu)化原心引擎,使得三線城市帶口音的普通話轉(zhuǎn)寫(xiě)正確率達(dá)到95 %以上。同時(shí),基于業(yè)務(wù)需求標(biāo)準(zhǔn)化,語(yǔ)音機(jī)器人系統(tǒng)內(nèi)置的變量類(lèi)型支持實(shí)體識(shí)別,對(duì)語(yǔ)義進(jìn)行定制化識(shí)別,實(shí)現(xiàn)與客戶的良好交互。
想了解ASR技術(shù)應(yīng)用下的語(yǔ)音機(jī)器人可直接戳下方圖片免費(fèi)咨詢
文章為沃豐科技原創(chuàng),轉(zhuǎn)載需注明來(lái)源:http://m.gototw.com.cn/ucm/report/20695
AI智能電話機(jī)器人AI機(jī)器人AI聊天機(jī)器人AI語(yǔ)音機(jī)器人ASR
