日本不卡二区三区,麻豆一二三产区,无码二区视频日本

　　簡介

　　語音識別技術的應用包括語音撥號、語音導航、室內(nèi)設備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合，可以構建出更加復雜的應用，例如語音到語音的翻譯。

　　語音識別技術所涉及的領域包括：信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。

　　歷史

　　早在計算機發(fā)明之前，自動語音識別的設想就已經(jīng)被提上了議事日程，早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產(chǎn)的"Radio Rex"玩具狗可能是最早的語音識別器，當這只狗的名字被呼喚的時候，它能夠從底座上彈出來。最早的基于電子計算機的語音識別系統(tǒng)是由AT&T貝爾實驗室開發(fā)的Audrey語音識別系統(tǒng)，它能夠識別10個英文數(shù)字。其識別方法是跟蹤語音中的共振峰。該系統(tǒng)得到了98%的正確率。到1950年代末，倫敦學院(College of London)的Denes已經(jīng)將語法概率加入語音識別中。

　　1960年代，人工神經(jīng)網(wǎng)絡被引入了語音識別。這一時代的兩大突破是線性預測編碼Linear Predictive Coding (LPC)，及動態(tài)時間規(guī)整Dynamic Time Warp技術。

　　語音識別技術的最重大突破是隱馬爾科夫模型HIDden Markov Model的應用。從Baum提出相關數(shù)學推理，經(jīng)過Labiner等人的研究，卡內(nèi)基梅隆大學的李開復最終實現(xiàn)了個基于隱馬爾科夫模型的大詞匯量語音識別系統(tǒng)Sphinx。此后嚴格來說語音識別技術并沒有脫離HMM框架。

　　盡管多年來研究人員一直嘗試將“聽寫機”推廣，語音識別技術在目前還無法支持無限領域，無限說話人的聽寫機應用。

　　模型

　　目前，主流的大詞匯量語音識別系統(tǒng)多采用統(tǒng)計模式識別技術。典型的基于統(tǒng)計模式識別方法的語音識別系統(tǒng)由以下幾個基本模塊所構成

　　信號處理及特征提取模塊。該模塊的主要任務是從輸入信號中提取特征，供聲學模型處理。同時，它一般也包括了一些信號處理技術，以盡可能降低環(huán)境噪聲、信道、說話人等因素對特征造成的影響。統(tǒng)計聲學模型。典型系統(tǒng)多采用基于一階隱馬爾科夫模型進行建模。發(fā)音詞典。發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。語言模型。語言模型對系統(tǒng)所針對的語言進行建模。理論上，包括正則語言，上下文無關文法在內(nèi)的各種語言模型都可以作為語言模型，但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的N元文法及其變體。解碼器。解碼器是語音識別系統(tǒng)的核心之一，其任務是對輸入的信號，根據(jù)聲學、語言模型及詞典，尋找能夠以最大概率輸出該信號的詞串。從數(shù)學角度可以更加清楚的了解上述模塊之間的關系。首先，統(tǒng)計語音識別的最基本問題是，給定輸入信號或特征序列，符號集(詞典)，求解符號串使得：

　　W = argmaxP(W | O) 通過貝葉斯公式，上式可以改寫為

　　由于對于確定的輸入串O，P(O)是確定的，因此省略它并不會影響上式的最終結果，因此，一般來說語音識別所討論的問題可以用下面的公式來表示，可以將它稱為語音識別的基本公式。 W = argmaxP(O | W)P(W)

　　從這個角度來看，信號處理模塊提供了對輸入信號的預處理，也就是說，提供了從采集的語音信號(記為S)到特征序列O的映射。而聲學模型本身定義了一些更具推廣性的聲學建模單元，并且提供了在給定輸入特征下，估計P(O | uk)的方法。

　　為了將聲學模型建模單元串映射到符號集，就需要發(fā)音詞典發(fā)揮作用。它實際上定義了映射的映射。為了表示方便，也可以定義一個由到U的全集的笛卡爾積，而發(fā)音詞典則是這個笛卡爾積的一個子集。并且有：

　　最后，語言模型則提供了P(W)。這樣，基本公式就可以更加具體的寫成：

　　對于解碼器來說，就是要在由,,ui以及時間標度t張成的搜索空間中，找到上式所指明的W。

　　語音識別是一門交叉學科，語音識別正逐步成為信息技術中人機接口的關鍵技術，語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤，通過語音命令進行操作。語音技術的應用已經(jīng)成為一個具有競爭性的新興高技術產(chǎn)業(yè)。

　　與機器進行語音交流，讓機器明白你說什么，這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹母呒夹g。語音識別是一門交叉學科。近二十年來，語音識別技術取得顯著進步，開始從實驗室走向市場。人們預計，未來10年內(nèi)，語音識別技術將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務、消費電子產(chǎn)品等各個領域。語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發(fā)展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域*重要的科技發(fā)展技術之一。

<1 2 >閱讀全文