ASR語音識別技術(shù)是怎么工作?
作者:duyong 1699文章閱讀時間:1分鐘
文章摘要:機器要與人實現(xiàn)對話,那就需要實現(xiàn)三步:對應(yīng)的便是“耳”、“腦”、“口”的工作,機器要聽懂人類說話,就離不開語音識別技術(shù)(ASR)。語音識別技術(shù)拆分下來,主要可分為“輸入——編碼——解碼——輸出”4個流程。...
機器要與人實現(xiàn)對話,那就需要實現(xiàn)三步:
對應(yīng)的便是“耳”、“腦”、“口”的工作,機器要聽懂人類說話,就離不開語音識別技術(shù)(ASR)。
語音識別技術(shù)拆分下來,主要可分為“輸入——編碼——解碼——輸出 ”4個流程。
那語音識別是怎么工作的呢?
首先聲音的本身是一種波,就像我們常常用一段段波形來表示音頻一樣。
接下來按步驟:
給音頻進行信號處理后,便要按幀(毫秒級)拆分,并對拆分出的小段波形按照人耳特征變成多維向量信息
將這些幀信息識別成狀態(tài)(可以理解為中間過程,一種比音素還要小的過程)
再將狀態(tài)組合形成音素(通常3個狀態(tài)=1個音素)
最后將音素組成字詞(dà jiā hǎo)并串連成句 。于是,這就可以實現(xiàn)由語音轉(zhuǎn)換成文字了。
文章為沃豐科技原創(chuàng),轉(zhuǎn)載需注明來源:http://m.gototw.com.cn/ucm/faq/17355
