ASR語音識別技術(shù)是怎么工作？

2022/03/16作者：duyong 1699文章閱讀時間：1分鐘

文章摘要：機器要與人實現(xiàn)對話，那就需要實現(xiàn)三步：對應(yīng)的便是“耳”、“腦”、“口”的工作，機器要聽懂人類說話，就離不開語音識別技術(shù)（ASR）。語音識別技術(shù)拆分下來，主要可分為“輸入——編碼——解碼——輸出”4個流程。...

機器要與人實現(xiàn)對話，那就需要實現(xiàn)三步：

對應(yīng)的便是“耳”、“腦”、“口”的工作，機器要聽懂人類說話，就離不開語音識別技術(shù)（ASR）。

語音識別技術(shù)拆分下來，主要可分為“輸入——編碼——解碼——輸出 ”4個流程。

那語音識別是怎么工作的呢？

首先聲音的本身是一種波，就像我們常常用一段段波形來表示音頻一樣。

接下來按步驟：

給音頻進行信號處理后，便要按幀（毫秒級）拆分，并對拆分出的小段波形按照人耳特征變成多維向量信息

將這些幀信息識別成狀態(tài)（可以理解為中間過程，一種比音素還要小的過程）

再將狀態(tài)組合形成音素（通常3個狀態(tài)=1個音素）

最后將音素組成字詞（dà jiā hǎo）并串連成句。于是，這就可以實現(xiàn)由語音轉(zhuǎn)換成文字了。

文章為沃豐科技原創(chuàng)，轉(zhuǎn)載需注明來源：http://m.gototw.com.cn/ucm/faq/17355

欧美,日韩中文字幕在线,蓝男色蓝摄gay裸男china,老汉精品免费av在线播放,女女女女bbbbbb毛片在线,美女脱了内裤张开腿让男人桶