語音識別技術(shù)的發(fā)展歷史
文章摘要:1952年,貝爾學會發(fā)明了一種能夠辨認10個英文數(shù)字的語音識別系統(tǒng)。但是,在六十年代后期和七十年代早期,真正有了實質(zhì)性的進步,并且把它當作一個主要的主題來進行研究。這主要是由于計算機技術(shù)的發(fā)展,使得...
1952年,貝爾學會發(fā)明了一種能夠辨認10個英文數(shù)字的語音識別系統(tǒng)。
但是,在六十年代后期和七十年代早期,真正有了實質(zhì)性的進步,并且把它當作一個主要的主題來進行研究。這主要是由于計算機技術(shù)的發(fā)展,使得語音識別的軟硬件結(jié)合起來,尤其是語音的線性預(yù)測編碼(LPC)和 DTW (Dynamic Transmission, DTW)技術(shù),可以很好地解決語音信號的特征抽取和不等長度的匹配問題。這一階段的語音識別技術(shù)是以模板匹配為基礎(chǔ),研究范圍僅限于具體人群,單字單字的識別,并以線性預(yù)測倒譜和 DTW技術(shù)為基礎(chǔ),建立了一套針對具體人的單字語音識別系統(tǒng);同時給出了 VQ和 HMM (HumanMulti-Multiple Multimechanism, HMM)兩種方法。
由于使用范圍的擴展,詞匯表、特定人、孤立詞等都有必要放松對語音識別的限制,但同時也給人們帶來了一些新的問題:
一、詞表的擴展,使模板的選擇和構(gòu)建變得很困難;
二、在連續(xù)語音中,每個音素、音節(jié)和單詞之間沒有明確的界限,每個音素單元都有一個共同的發(fā)音,這是受到語境的強烈影響;
三、在不同的人群中,不同的人說著同樣的語言,其音色特點也會有很大的不同,甚至不同的時間,不同的生理,不同的心理狀態(tài),不同的人,所說的內(nèi)容也會有很大的不同;
四、語音識別存在著背景噪音和其它干擾。所以,傳統(tǒng)的模板匹配算法已經(jīng)不能滿足要求。
在實驗室里,語音識別技術(shù)取得了重大突破:在實驗室里,人們首先打破了詞匯量大、連續(xù)語音和非特定人群三大難題,并首次將三種特征整合到一個系統(tǒng)中,其中最具代表性的是卡耐基梅隆大學的 Sphinx系統(tǒng),該系統(tǒng)是首款針對非特定人群、大詞匯量連續(xù)語音識別的高性能系統(tǒng)。
在此期間,語音識別技術(shù)得到了進一步的發(fā)展, HMM模式和 ANN技術(shù)的應(yīng)用成為了一個新的發(fā)展趨勢。HMM模式的推廣,得益于美國 AT& TBell Labiner等人的努力,他們將 HMM的復(fù)雜的純數(shù)學模型轉(zhuǎn)化為工程化,讓更多的研究者認識和理解,使得統(tǒng)計技術(shù)在語音識別中占據(jù)了主導(dǎo)地位。
統(tǒng)計分析的視角由微觀到宏觀,沒有刻意去追求精確性,而更傾向于從總體上(統(tǒng)計學)的觀點來構(gòu)建最優(yōu)的語音識別系統(tǒng)。在語音模型上,基于 Markov鏈的語音序列建模技術(shù) HMM (Multi-Markov鏈)能夠較好地克服短時穩(wěn)定、長時變的特點,能夠?qū)⒛承┗镜慕挝粯?gòu)建為連續(xù)的語句模型,具有較高的準確性和靈活性。在語言層次,采用 N元統(tǒng)計方法,對實際大規(guī)模語料庫中詞語的同現(xiàn)概率進行統(tǒng)計,以區(qū)別不同的語音和同音語音。此外,基于語法規(guī)則的人工神經(jīng)網(wǎng)絡(luò)和基于語法規(guī)則的語言加工方法也被廣泛地用于語音識別。
20世紀90年代早期, IBM,蘋果, AT& T, NTT等知名公司都投入了大量資金用于實際應(yīng)用的語音識別系統(tǒng)。在20世紀90年代中期和晚期的實驗室研究中,語音識別技術(shù)具有良好的評價機制。具有代表性的是 IBM公司的 ViaVoice和 DragonSystem的 Nuance語音平臺、微軟的 Whisper、 Sun的 VoiceTone等。
IBM公司在1997年研發(fā)了漢語 ViaVoice語音識別系統(tǒng),并在第二年推出了ViaVoice'98,該系統(tǒng)具有上海方言,廣東話,四川方言等方言。該詞典包含32,000字的基礎(chǔ)詞匯表,可擴充至65,000字。此外,還包含了辦公室常用詞條,并具備“糾錯機制”,平均識別率可達95%。本系統(tǒng)是漢語連續(xù)語音識別的典型代表。我國的語音識別技術(shù)是從50年代開始的,但是在最近幾年里卻得到了快速的發(fā)展。從實驗室到實用化的研究。自1987年實施863計劃以來,國家863智能計算機專家小組對語音識別技術(shù)進行了專項立項。目前,國內(nèi)的語音識別技術(shù)已基本趕上國外,漢語語音識別技術(shù)也具有自身的特色和優(yōu)越性,處于世界領(lǐng)先地位。中科院自動化所,聲學所,清華大學,北京大學,哈爾濱工業(yè)大學,上海交通大學,中國科技大學,北京郵電大學,華中科技大學等科研機構(gòu),以清華大學電子工程系和中科院自動化研究所模式識別國家重點實驗室為代表。
由清華大學電子工程系的語音技術(shù)和特殊芯片設(shè)計團隊研制的漢語數(shù)字串連續(xù)語音識別系統(tǒng),其識別準確率為94.8%,固定長度字符串為96.8%。當拒絕率為5%時,該方法的識別率為96.9%,定長字符串為98.7%,其性能已接近實際應(yīng)用。研制的5000字信封校驗非特定人群的連續(xù)語音識別系統(tǒng),其識別率分別為98.73%和99.96%;能區(qū)分普通話和四川方言,滿足實際需要。
中科院自動化所及其下屬的模特科公司于2002年發(fā)布了一款“天語”中文語音系統(tǒng),該系列產(chǎn)品是針對各種計算平臺與應(yīng)用而開發(fā)的 PattekASR,終結(jié)了1998年以來中文語音識別領(lǐng)域被外國公司壟斷的局面。
沃豐科技GaussMind語音識別技術(shù)基于自研原心引擎語音語義融合方案,打通業(yè)務(wù)領(lǐng)域數(shù)據(jù),實現(xiàn)業(yè)務(wù)定制化的效果體驗,自然場景識別率超過95%,個性化詞匯識別超過97%,同時為語義模塊提供豐富的識別結(jié)果輸出,使語義識別率提升5個點以上。
文章為沃豐科技原創(chuàng),轉(zhuǎn)載需注明來源:http://m.gototw.com.cn/ucm/faq/19507
