引論:我們?yōu)槟砹?3篇語音識(shí)別技術(shù)范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時(shí)的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

篇1
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
語音識(shí)別技術(shù):是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高級(jí)技術(shù)。語音識(shí)別以語音為研究對(duì)象,它是語音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支,涉及到生理學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語言(如人在說話時(shí)的表情、手勢(shì)等行為動(dòng)作可幫助對(duì)方理解),其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語言通信。
不同的語音識(shí)別系統(tǒng),雖然具體實(shí)現(xiàn)細(xì)節(jié)有所不同,但所采用的基本技術(shù)相似,一個(gè)典型語音識(shí)別系統(tǒng)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。此外,還涉及到語音識(shí)別單元的選取。
(一) 語音識(shí)別單元的選取
選擇識(shí)別單元是語音識(shí)別研究的第一步。語音識(shí)別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,由具體的研究任務(wù)決定。
單詞(句)單元廣泛應(yīng)用于中小詞匯語音識(shí)別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫太龐大,訓(xùn)練模型任務(wù)繁重,模型匹配算法復(fù)雜,難以滿足實(shí)時(shí)性要求。
音節(jié)單元多見于漢語語音識(shí)別,主要因?yàn)闈h語是單音節(jié)結(jié)構(gòu)的語言,而英語是多音節(jié),并且漢語雖然有大約1300個(gè)音節(jié),但若不考慮聲調(diào),約有408個(gè)無調(diào)音節(jié),數(shù)量相對(duì)較少。因此,對(duì)于中、大詞匯量漢語語音識(shí)別系統(tǒng)來說,以音節(jié)為識(shí)別單元基本是可行的。
音素單元以前多見于英語語音識(shí)別的研究中,但目前中、大詞匯量漢語語音識(shí)別系統(tǒng)也在越來越多地采用。原因在于漢語音節(jié)僅由聲母(包括零聲母有22個(gè))和韻母(共有28個(gè))構(gòu)成,且聲韻母聲學(xué)特性相差很大。實(shí)際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。由于協(xié)同發(fā)音的影響,音素單元不穩(wěn)定,所以如何獲得穩(wěn)定的音素單元,還有待研究。
(二) 特征參數(shù)提取技術(shù)
語音信號(hào)中含有豐富的信息,但如何從中提取出對(duì)語音識(shí)別有用的信息呢?特征提取就是完成這項(xiàng)工作,它對(duì)語音信號(hào)進(jìn)行分析處理,去除對(duì)語音識(shí)別無關(guān)緊要的冗余信息,獲得影響語音識(shí)別的重要信息。對(duì)于非特定人語音識(shí)別來講,希望特征參數(shù)盡可能多的反映語義信息,盡量減少說話人的個(gè)人信息(對(duì)特定人語音識(shí)別來講,則相反)。從信息論角度講,這是信息壓縮的過程。
線性預(yù)測(cè)(LP)分析技術(shù)是目前應(yīng)用廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。但線性預(yù)測(cè)模型是純數(shù)學(xué)模型,沒有考慮人類聽覺系統(tǒng)對(duì)語音的處理特點(diǎn)。
Mel參數(shù)和基于感知線性預(yù)測(cè)(PLP)分析提取的感知線性預(yù)測(cè)倒譜,在一定程度上模擬了人耳對(duì)語音的處理特點(diǎn),應(yīng)用了人耳聽覺感知方面的一些研究成果。實(shí)驗(yàn)證明,采用這種技術(shù),語音識(shí)別系統(tǒng)的性能有一定提高。
也有研究者嘗試把小波分析技術(shù)應(yīng)用于特征提取,但目前性能難以與上述技術(shù)相比,有待進(jìn)一步研究。
(三)模式匹配及模型訓(xùn)練技術(shù)
模型訓(xùn)練是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配則是根據(jù)一定準(zhǔn)則,使未知模式與模型庫中的某一個(gè)模型獲得最佳匹配。
語音識(shí)別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)。
DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長(zhǎng)不等的難題,在孤立詞語音識(shí)別中獲得了良好性能。但因其不適合連續(xù)語音大詞匯量語音識(shí)別系統(tǒng),目前已被HMM模型和ANN替代。
HMM模型是語音信號(hào)時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過程共同描述信號(hào)的統(tǒng)計(jì)特性,其中一個(gè)是隱蔽的(不可觀測(cè)的)具有有限狀態(tài)的Markor鏈,另一個(gè)是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過程(可觀測(cè)的)。隱蔽Markor鏈的特征要靠可觀測(cè)到的信號(hào)特征揭示。這樣,語音等時(shí)變信號(hào)某一段的特征就由對(duì)應(yīng)狀態(tài)觀察符號(hào)的隨機(jī)過程描述,而信號(hào)隨時(shí)間的變化由隱蔽Markor鏈的轉(zhuǎn)移概率描述。模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)、狀態(tài)轉(zhuǎn)移概率及描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù)。按照隨機(jī)函數(shù)的特點(diǎn),HMM模型可分為離散隱馬爾可夫模型(采用離散概率密度函數(shù),簡(jiǎn)稱DHMM)和連續(xù)隱馬爾可夫模型(采用連續(xù)概率密度函數(shù),簡(jiǎn)稱CHMM)以及半連續(xù)隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點(diǎn))。一般來講,在訓(xùn)練數(shù)據(jù)足夠的,CHMM優(yōu)于DHMM和SCHMM。HMM模型的訓(xùn)練和識(shí)別都已研究出有效的算法,并不斷被完善,以增強(qiáng)HMM模型的魯棒性。
人工神經(jīng)元網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類神經(jīng)元活動(dòng)的原理,具有自學(xué)、聯(lián)想、對(duì)比、推理和概括能力。這些能力是HMM模型不具備的,但ANN又不個(gè)有HMM模型的動(dòng)態(tài)時(shí)間歸正性能。因此,現(xiàn)在已有人研究如何把二者的優(yōu)點(diǎn)有機(jī)結(jié)合起來,從而提高整個(gè)模型的魯棒性。 二、語音識(shí)別的困難與對(duì)策
目前,語音識(shí)別方面的困難主要表現(xiàn)在:
(一)語音識(shí)別系統(tǒng)的適應(yīng)性差,主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng),即在某種環(huán)境下采集到的語音訓(xùn)練系統(tǒng)只能在這種環(huán)境下應(yīng)用,否則系統(tǒng)性能將急劇下降;另外一個(gè)問題是對(duì)用戶的錯(cuò)誤輸入不能正確響應(yīng),使用不方便。
(二)高噪聲環(huán)境下語音識(shí)別進(jìn)展困難,因?yàn)榇藭r(shí)人的發(fā)音變化很大,像聲音變高,語速變慢,音調(diào)及共振峰變化等等,這就是所謂Lombard效應(yīng),必須尋找新的信號(hào)分析處理方法。
(三)語言學(xué)、生理學(xué)、心理學(xué)方面的研究成果已有不少,但如何把這些知識(shí)量化、建模并用于語音識(shí)別,還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識(shí)別中是非常重要的。
(四)我們對(duì)人類的聽覺理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等分面的認(rèn)識(shí)還很不清楚;其次,把這方面的現(xiàn)有成果用于語音識(shí)別,還有一個(gè)艱難的過程。
(五)語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化過程中還有許多具體問題需要解決,識(shí)別速度、拒識(shí)問題以及關(guān)鍵詞(句)檢測(cè)技術(shù)等等技術(shù)細(xì)節(jié)要解決。
三、語音識(shí)別技術(shù)的前景和應(yīng)用
語音識(shí)別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98%,對(duì)特定人語音識(shí)別系統(tǒng)的識(shí)別精度就更高。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語音識(shí)別系統(tǒng)也已經(jīng)完全可以制成專用芯片,大量生產(chǎn)。在西方經(jīng)濟(jì)發(fā)達(dá)國(guó)家,大量的語音識(shí)別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域。一些用戶交機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語音識(shí)別撥號(hào)功能,還有語音記事本、語音智能玩具等產(chǎn)品也包括語音識(shí)別與語音合成功能。人們可以通過電話網(wǎng)絡(luò)用語音識(shí)別口語對(duì)話系統(tǒng)查詢有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。
語音識(shí)別是一門交叉學(xué)科,語音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語音識(shí)別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進(jìn)行操作。語音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。
參考文獻(xiàn)
[1]科大訊飛語音識(shí)別技術(shù)專欄. 語音識(shí)別產(chǎn)業(yè)的新發(fā)展.企業(yè)專欄.通訊世界,2007.2:(總l12期)
[2]任天平,門茂深.語音識(shí)別技術(shù)應(yīng)用的進(jìn)展.科技廣場(chǎng).河南科技,2005.2:19-20
[3]俞鐵城.科大訊飛語音識(shí)別技術(shù)專欄.語音識(shí)別的發(fā)展現(xiàn)狀.企業(yè)專欄.通訊世界,2006.2 (總122期)
篇2
目前上海地鐵
一、
二、
三、
五、
六、八號(hào)線在車輛信息顯示系統(tǒng)的設(shè)計(jì)上缺少實(shí)用性和操作性,對(duì)乘客來講缺少在實(shí)時(shí)報(bào)站時(shí)的人性化。如:地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng)。如果在每個(gè)車門的上方安裝車站站名動(dòng)態(tài)顯示地圖,實(shí)時(shí)顯示與車廂廣播同步的信息,以及在每節(jié)車廂外側(cè)顯示列車的終點(diǎn)站,良好的工業(yè)設(shè)計(jì)不僅能給廣大的乘客帶來非常大的幫助,而且能夠提升上海地鐵服務(wù)的形象。由于在設(shè)計(jì)以上地鐵列車時(shí),受科技發(fā)展的限制。現(xiàn)在上海地鐵4號(hào)線在車輛信息顯示系統(tǒng)的設(shè)計(jì)上滿足了廣大的乘客的需求,
增加了車站站名動(dòng)態(tài)顯示地圖。
如何在現(xiàn)有的地鐵車輛上增加地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng),如圖1、2,首先考慮其實(shí)用性和性價(jià)比,同時(shí)安裝、操作要方便,在不影響列車的性能的前提下,完成本乘客信息顯示系統(tǒng)的應(yīng)用,設(shè)計(jì)方案的選擇極其重要,目前的乘客信息顯示系統(tǒng)比較復(fù)雜,例如:對(duì)于應(yīng)用在某條線路上的聲音識(shí)別系統(tǒng),不僅要修改原語音文件,而且聲音識(shí)別器不容易操縱,
對(duì)使用者來講仍然存在比較多的問題。對(duì)于應(yīng)用在某條線路上數(shù)字傳輸顯示系統(tǒng),其操作方法不僅給司機(jī)帶來了任務(wù),每站需要手動(dòng)操作二次,同時(shí)顯示的相關(guān)內(nèi)容沒有實(shí)時(shí)性,總之乘客信息顯示系統(tǒng)比較落后。
設(shè)計(jì)一種符合現(xiàn)代化要求的乘客信息顯示系統(tǒng)是非常必要。
2.設(shè)計(jì)
地鐵車輛乘客信息顯示系統(tǒng)的設(shè)計(jì),采用CMOS語音識(shí)別大規(guī)模集成電路,識(shí)別響應(yīng)時(shí)間小于300ms。HM2007芯片采用單片結(jié)構(gòu),如圖3。將語音識(shí)別需要的全部電路:CPU、A/D、ROM、語音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內(nèi),這樣電路就非常少,外接64K非易失性SRAM,最多能識(shí)別40個(gè)車站站名語音(字長(zhǎng)0.9秒),或(字長(zhǎng)1.92秒)但識(shí)別僅20個(gè)車站站名語音。按正常人的講話速度,0.9秒一般每秒吐字1到3個(gè)為宜。
針對(duì)目前上海地鐵列車在車廂內(nèi)外無LED動(dòng)態(tài)站名顯示而設(shè)計(jì),通過將列車車廂廣播的模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),自動(dòng)控制LED發(fā)光二極管,在列車在車廂內(nèi)使得廣播的內(nèi)容(每個(gè)車站站名)與發(fā)光二極管顯示面板聲光同步,將顯示面板放置地鐵車輛的每扇車門上方,并且顯示面板以地鐵運(yùn)營(yíng)線路為背景,達(dá)到列車進(jìn)站和出站時(shí)能分別指示。在列車車廂外讓乘客非常直觀地、一目了然地了解車輛的終點(diǎn)站方向,從而方便乘客的上下車,提高了地鐵服務(wù)水平。在國(guó)外的地鐵列車上應(yīng)用已相當(dāng)普遍。
語音識(shí)別顯示器①的輸入端與車載廣播功放器相連接,實(shí)現(xiàn)廣播模擬信號(hào)發(fā)出的語音進(jìn)行車站名的自動(dòng)識(shí)別。不需要編程技術(shù)和修改文件等方法,全部采用硬件方法設(shè)計(jì)。整個(gè)系統(tǒng)分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語言識(shí)別部分;(4)執(zhí)行顯示部分;(5)錄音功能部分。
(1)輸入控制部分:
通過麥克風(fēng)或(結(jié)合器)連接,如圖4所示,要求模擬語音輸入點(diǎn)的電壓必須控制在大約20mv左右,以確保后期語音識(shí)別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號(hào)轉(zhuǎn)變成數(shù)字方波信號(hào),對(duì)語音輸入進(jìn)行開關(guān)量的控制,確保在T<0.9秒內(nèi)的正確輸入語音字長(zhǎng)。
(2)語音識(shí)別部分:
利用語音識(shí)別芯片HM2007和外接6264SRAM存儲(chǔ)器組成為主要部分,(HM2007中ROM已經(jīng)固化了語音語法技術(shù))對(duì)語音的存儲(chǔ)及語音語法算法進(jìn)行控制。HM2007的詳細(xì)內(nèi)容見產(chǎn)品說明書。
(3)噪音濾波部分:
濾波功能是自動(dòng)識(shí)別(阻擋)我們?cè)谠O(shè)計(jì)階段設(shè)計(jì)好的各個(gè)工況的語音情況,例如:司機(jī)的講話及車輛雜音等(在麥克風(fēng)的工況下),以確保輸入語音的可靠性、穩(wěn)定性,特采用UM3758串行編譯碼一體化進(jìn)行濾波電路。如圖5。
(4)執(zhí)行顯示部分:
將車廂廣播喇叭的模擬信息通過語音識(shí)別器轉(zhuǎn)變成數(shù)字信息,最終經(jīng)過譯碼電路、4/16多路數(shù)據(jù)選擇器及RS485接口,去控制車廂內(nèi)車門上十個(gè)LED顯示面板,如圖6。
(5)錄音功能部分:
在進(jìn)行廣播內(nèi)容更改時(shí),本項(xiàng)目最大的特點(diǎn)是:不需要任何手段的手工軟件編程的修改,而是通過遠(yuǎn)程音頻電路控制技術(shù)進(jìn)行按動(dòng)相關(guān)按鈕,選擇地址然后自動(dòng)錄入內(nèi)容,如圖6。
3.結(jié)論
語音識(shí)別器及LED顯示面板的設(shè)計(jì),能應(yīng)用到以前沒有LED顯示面功能的地鐵車輛上,與其他所設(shè)計(jì)的方式相比較,語音識(shí)別控制簡(jiǎn)單、可靠性好、安裝方便、相對(duì)投資最小和不改動(dòng)車廂內(nèi)任何電器為特點(diǎn),僅提供110VDC電源和音頻輸入接口。
本項(xiàng)目的開發(fā)具有一定社會(huì)效益,得到國(guó)內(nèi)外乘客和殘疾人員的歡迎,提高了地鐵服務(wù)質(zhì)量。
參考文獻(xiàn):
1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007
2.555集成電路實(shí)用大全上海科技普及出版社
3.①獲得“2003年上海市優(yōu)秀發(fā)明選拔賽三等獎(jiǎng)”
篇3
近年來,隨著科學(xué)技術(shù)的進(jìn)步,語音識(shí)別技術(shù)的發(fā)展,通過語言操縱機(jī)器的夢(mèng)想正在逐步變?yōu)楝F(xiàn)實(shí)。語音識(shí)別是語音信號(hào)處理的一個(gè)重要的研究方向,經(jīng)過50多年的積累研究,尤其是近20年來,語音識(shí)別技術(shù)取得了顯著進(jìn)步,并且廣泛應(yīng)用于商業(yè),比如蘋果的siri系統(tǒng)。本文從語音識(shí)別的發(fā)展歷史、發(fā)展方向來著重分析未來語音識(shí)別技術(shù)的發(fā)展趨勢(shì)。
1 語音識(shí)別技術(shù)的發(fā)展歷史
1.1 語音識(shí)別技術(shù)在國(guó)際的發(fā)展
早在三四十年前,美國(guó)的一些大學(xué)和實(shí)驗(yàn)室就開始了語音識(shí)別技術(shù)的研究,50年代的AT& T Bell實(shí)驗(yàn)室研發(fā)的Audry系統(tǒng)第一個(gè)實(shí)現(xiàn)了可識(shí)別十個(gè)英文數(shù)字。60和70年代,提出了線性預(yù)測(cè)分析技術(shù)(LP)等相關(guān)理論并深入研究,創(chuàng)造出可以實(shí)現(xiàn)特定人孤立語音識(shí)別系統(tǒng);80年代和90年代是語音識(shí)別技術(shù)應(yīng)用研究方向的,HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)的成功應(yīng)用,使得語音識(shí)別系統(tǒng)的性能比以往更優(yōu)異;伴隨著多媒體時(shí)代的來臨,微軟,Apple等著名公司都研發(fā)出相當(dāng)成功的商業(yè)應(yīng)用語音識(shí)別系統(tǒng),比如,Apple的Siri系統(tǒng),微軟的Phone Query (電話語音識(shí)別)引擎等。
1.2 語音識(shí)別技術(shù)在國(guó)內(nèi)的發(fā)展
我國(guó)的語音識(shí)別研究工作雖然起步較晚,但由于國(guó)家的重視,研究工作進(jìn)展順利,相關(guān)研究緊跟國(guó)際水平。由于中國(guó)有不可忽視的龐大市場(chǎng),國(guó)外對(duì)中國(guó)的語音識(shí)別技術(shù)也非常重視,漢語語音語義的特殊性也使得中文語音識(shí)別技術(shù)的研究更具有挑戰(zhàn)。但是,國(guó)內(nèi)研究機(jī)構(gòu)在進(jìn)行理論研究的同時(shí),應(yīng)注重語音識(shí)別系統(tǒng)在商業(yè)中的應(yīng)用,加快從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化。
現(xiàn)如今,許多用戶已經(jīng)能享受到語音識(shí)別技術(shù)帶來的方便,比如智能手機(jī)的語音操作等。但是,這與實(shí)現(xiàn)真正的人機(jī)交流還有相當(dāng)遙遠(yuǎn)的距離。目前,計(jì)算機(jī)對(duì)用戶語音的識(shí)別程度不高,人機(jī)交互上還存在一定的問題,語音識(shí)別技術(shù)還有很長(zhǎng)的一段路要走,必須取得突破性的進(jìn)展,才能做到更好的商業(yè)應(yīng)用,這也是未來語音識(shí)別技術(shù)的發(fā)展方向。
2 語音識(shí)別技術(shù)的技術(shù)實(shí)現(xiàn)及困難
語音識(shí)別技術(shù)的實(shí)現(xiàn)方式是聲音通過轉(zhuǎn)換裝置進(jìn)入機(jī)器,而機(jī)器配有“語音辨識(shí)”程序,程序?qū)⒌玫降穆曇魳颖九c數(shù)據(jù)庫存儲(chǔ)的樣本進(jìn)行比對(duì),輸出最匹配的結(jié)果,轉(zhuǎn)化為機(jī)器語言,進(jìn)而執(zhí)行命令。真正建立辨識(shí)率高的語音辨識(shí)程序組,是非常困難而專業(yè)的,專家學(xué)者們研究出許多破解這個(gè)問題的方法,如傅立葉轉(zhuǎn)換、倒頻譜參數(shù)等,使目前的語音辨識(shí)系統(tǒng)已達(dá)到一個(gè)可接受的程度,并具有較高辨識(shí)度。
2.1 語音識(shí)別的技術(shù)實(shí)現(xiàn)方式
語音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面,其中,最基礎(chǔ)的就是語音識(shí)別單元的選取。
(1)語音識(shí)別單元的選取。語音識(shí)別研究的基礎(chǔ)是選擇語音識(shí)別單元。語音識(shí)別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種語音識(shí)別單元由具體研究任務(wù)的類型決定:
單詞(句)單元在中小詞匯語音識(shí)別系統(tǒng)中應(yīng)用廣泛,但由于模型庫過于龐大,模型匹配算法復(fù)雜,實(shí)時(shí)性不強(qiáng),所以不適合大詞匯系統(tǒng);
音節(jié)單元主要應(yīng)用于漢語語音識(shí)別,因?yàn)闈h語是單音節(jié)結(jié)構(gòu)的語言,雖然有大約1300個(gè)音節(jié),但無調(diào)音節(jié)共408個(gè),相對(duì)較少,所以音節(jié)單元在中、大詞匯量的漢語語音識(shí)別系統(tǒng)上是可行的。
音素單元之前曾廣泛應(yīng)用于英語語音識(shí)別,也越來越多的應(yīng)用于中、大詞匯量漢語語音識(shí)別系統(tǒng)中。原因在于漢語音節(jié)僅由22個(gè)聲母和28個(gè)韻母構(gòu)成,把聲母細(xì)化,雖然增加了模型數(shù)量,但是提高了易混淆音節(jié)的區(qū)分能力
(2)特征參數(shù)提取技術(shù)。特征提取就是對(duì)語音信號(hào)進(jìn)行分析處理,把豐富的語音信息中的冗余信息去除,獲得對(duì)語音識(shí)別有用的信息。這是一個(gè)對(duì)語音信號(hào)進(jìn)行信息壓縮的過程,目前經(jīng)常采用的特征參數(shù)提取技術(shù)是線性預(yù)測(cè)(LP)分析技術(shù)。基于LP技術(shù)提取的倒譜參數(shù)再加上Mel參數(shù)和基于感知線性預(yù)測(cè)(PLP)分析提取的感知線性預(yù)測(cè)倒譜對(duì)人耳處理聲音的模擬,進(jìn)一步提高了語音識(shí)別系統(tǒng)的性能。
(3)模式匹配及模型訓(xùn)練技術(shù)。早期的語音識(shí)別應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)是動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW),它在孤立詞語音識(shí)別中獲得了良好性能,但是由于對(duì)大詞匯量以及連續(xù)語音識(shí)別的不準(zhǔn)確,目前已經(jīng)被隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)所取代。
2.2 語音識(shí)別遇到的困難
目前,語音識(shí)別研究工作進(jìn)展緩慢,困難具體表現(xiàn)在:
(一)語音識(shí)別系統(tǒng)對(duì)環(huán)境敏感,采集到的語音訓(xùn)練系統(tǒng)只能應(yīng)用于與之對(duì)應(yīng)的環(huán)境,而且當(dāng)用戶輸入錯(cuò)誤時(shí)不能正確響應(yīng),應(yīng)用起來相對(duì)困難;(二)必須采取新的新號(hào)處理方法來處理人在高噪聲環(huán)境下的發(fā)音變化的問題;(三)語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識(shí)別中無法正確、合理的運(yùn)用,需要有效地利用語言學(xué)、心理學(xué)及生理學(xué)等方面的研究成果;現(xiàn)階段的科學(xué)技術(shù)對(duì)人類生理學(xué)諸如聽覺系統(tǒng)分析理解功能、大腦神經(jīng)系統(tǒng)的控制功能等還不夠,更無法應(yīng)用于語音識(shí)別;語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)向商品的轉(zhuǎn)化過程中還有許多具體細(xì)節(jié)技術(shù)問題需要解決。
3 語音識(shí)別技術(shù)的發(fā)展趨勢(shì)
3.1 進(jìn)一步提高可靠性
目前語音識(shí)別系統(tǒng)很難做到排除各種聲學(xué)環(huán)境因素的影響,而人類語言在日常生活中的隨意性和不確定性給語音識(shí)別系統(tǒng)造成極大的識(shí)別困難。所以,要應(yīng)用現(xiàn)代技術(shù)智能化語音識(shí)別系統(tǒng),以達(dá)到更好的識(shí)別效果;
3.2 增加詞匯量
目前語音識(shí)別系統(tǒng)使用的聲學(xué)模型和語音模型過于局限,需要通過改進(jìn)系統(tǒng)建模方法、提高搜索算法的效率來做到詞匯量無限制和多重語言混合,減少詞匯量對(duì)語音識(shí)別系統(tǒng)的限制;
3.3 微型化并降低成本
語音識(shí)別系統(tǒng)在商業(yè)上的用途相當(dāng)廣泛,利用先進(jìn)的微電子技術(shù),將具有先進(jìn)功能和性能的語音識(shí)別應(yīng)用系統(tǒng)固化到更加微小的芯片或模塊上,可以縮減成本,更方便的推廣和使用。語音識(shí)別系統(tǒng)和微電子芯片技術(shù)的發(fā)展將引領(lǐng)信息技術(shù)革命到一個(gè)新的臺(tái)階。語音識(shí)別系統(tǒng)使人溝通更加自由,使人可以方便地享受到更多的社會(huì)信息資源和現(xiàn)代化服務(wù)。這必然會(huì)成為語音識(shí)別技術(shù)研究和應(yīng)用的重要發(fā)展趨勢(shì)。
4 結(jié)束語
21世紀(jì),信息和網(wǎng)絡(luò)飛速發(fā)展,信息和網(wǎng)絡(luò)的時(shí)代已經(jīng)來臨,人與人之間的距離隨著Internet和移動(dòng)電話網(wǎng)的連接和普及變得越來越近,信息資源擴(kuò)散的越來越迅速,人與機(jī)器的交互顯得尤為重要。語音識(shí)別技術(shù)的研究和應(yīng)用可以讓人無論何時(shí)何地都可以通過語音交互的方式實(shí)現(xiàn)任何事,可以使人更方便的享受更多的社會(huì)信息資源和現(xiàn)代化服務(wù),所以,如何將這一技術(shù)可靠的、低成本的應(yīng)用于商業(yè)和日常生活,是語音識(shí)別技術(shù)的發(fā)展方向和趨勢(shì)。
參考文獻(xiàn):
[1]劉鈺.語音識(shí)別技術(shù)概述[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2010:14-17.
[2]盛青.語音自動(dòng)識(shí)別技術(shù)及其軟件實(shí)時(shí)實(shí)現(xiàn)[J].西北工業(yè)大學(xué),2001:45-47.
[3]廖锎.淺析語音識(shí)別技術(shù)的發(fā)展及趨勢(shì)[J].科技傳播,2010:34-36.
篇4
1 引言
語音識(shí)別起源于20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它第一次實(shí)現(xiàn)了10個(gè)英文數(shù)字的語音識(shí)別,這是語音識(shí)別研究工作的開端。作為一門交叉學(xué)科,它正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),被認(rèn)為是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。語音識(shí)別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,取而代之的是以語音輸入這樣便于使用的、自然的、人性化的輸入方式。
2 相關(guān)技術(shù)簡(jiǎn)介
2.1 語音識(shí)別技術(shù)
所謂語音識(shí)別技術(shù)就是讓計(jì)算機(jī)(或機(jī)器)通過識(shí)別和理解過程把人類的語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),屬于多維模式識(shí)別和智能計(jì)算機(jī)接口的范疇。語音識(shí)別技術(shù)的終極目標(biāo)就是研制出一臺(tái)能聽懂任何人、任何內(nèi)容的講話的機(jī)器。語音識(shí)別按發(fā)音方式分為孤立詞、連接詞和連續(xù)語音的語音識(shí)別系統(tǒng);按詞匯量大小分為小詞表、中詞表和大詞表以及無限詞匯量語音識(shí)別;按說話人適應(yīng)范圍分為特定人、限定人和非特定人語音識(shí)別。
2.2 多Agent技術(shù)
Agent的研究起源于人工智能領(lǐng)域,Agent具有自治性、社會(huì)性、反應(yīng)性和能動(dòng)性。智能Agent對(duì)自己的狀態(tài)和行為有完全的控制能力,它能夠在沒有人或者在其他Agent的直接干預(yù)下,對(duì)復(fù)雜的刺激進(jìn)行響應(yīng)并產(chǎn)生內(nèi)部狀態(tài)的控制和適應(yīng)性的行為,外界通過Agent的接口對(duì)Agent實(shí)現(xiàn)功能調(diào)用和通信,而無需知道Agent內(nèi)部的具體工作過程。多Agent系統(tǒng)(MAS)由多個(gè)自主或半自主的智能體組成,每個(gè)Agent或者履行自己的職責(zé),或者與其他Agent通信獲取信息互相協(xié)作完成整個(gè)問題的求解。語音識(shí)別技術(shù)本就是人工智能的一個(gè)應(yīng)用方面,而將人工智能的前沿理論―多Agent技術(shù)引入語音識(shí)別技術(shù)中是一項(xiàng)有意義的工作。
3 在語音識(shí)別中引入多Agent技術(shù)
3.1 多Agent語音識(shí)別原理
傳統(tǒng)的語音識(shí)別存在自適應(yīng)問題,對(duì)環(huán)境條件的依賴性強(qiáng);噪聲問題,講話人產(chǎn)生情緒或心里上的變化,導(dǎo)致發(fā)音失真、發(fā)音速度和音調(diào)改變,產(chǎn)生Lombard/Loud效應(yīng);其它如識(shí)別速度問題、拒識(shí)問題以及關(guān)鍵詞檢測(cè)問題。而多Agent技術(shù)中自治智能和分布協(xié)同的特性能夠在一定程度上解決這些問題。多Agent語音識(shí)別其基本原理就是將輸入的語音,經(jīng)過處理后,將其和語音模型庫進(jìn)行比較,從而得到識(shí)別結(jié)果,具體原理見圖1。
該圖中語音輸入Agent就是待識(shí)別語音的原始輸入,語音采集Agent指話筒、電話等設(shè)備的語音輸入;數(shù)字化預(yù)處理Agent的功能包括語音信號(hào)采樣、反混疊帶通濾波、去除個(gè)體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響等;特征提取Agent用于提取語音中反映本質(zhì)特征的聲學(xué)參數(shù),常用的特征有短時(shí)平均能量或幅度、短時(shí)平均跨零率、線性預(yù)測(cè)系數(shù)、基音頻率、倒譜和共振峰等。在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的處理后,為每個(gè)詞條建立一個(gè)模型,保存為模板庫。在識(shí)別階段,語音信號(hào)經(jīng)過相同的通道得到語音特征參數(shù),生成測(cè)試模板,通過模型匹配Agent和規(guī)則判別Agent將匹配分?jǐn)?shù)最高的參考模板作為識(shí)別結(jié)果。同時(shí)在模式匹配和規(guī)則判別時(shí)還可以在很多專家知識(shí)的幫助下,以便提高識(shí)別的準(zhǔn)確率。
3.2 多Agent語音識(shí)別流程
加入了多Agent技術(shù)的語音識(shí)別系統(tǒng)具體實(shí)現(xiàn)細(xì)節(jié)與傳統(tǒng)的語音識(shí)別系統(tǒng)有所不同,加入了更多的智能協(xié)作的因素,但所應(yīng)用的識(shí)別過程大致相似,具體流程見圖2。
首先是系統(tǒng)中的協(xié)調(diào)Agent確定語音識(shí)別單元的選取。語音識(shí)別單元有單詞(句)、音節(jié)和音素三種。然后在特征提取Agent中去除語音中對(duì)識(shí)別無關(guān)緊要的冗余信息,目前廣泛應(yīng)用的有基于線性預(yù)測(cè)分析技術(shù)提取的倒譜參數(shù)和基于感知線性預(yù)測(cè)分析提取的感知線性預(yù)測(cè)倒譜。接著采用適當(dāng)?shù)恼Z音識(shí)別方法,通過對(duì)確定的語音特征進(jìn)行模型訓(xùn)練、智能學(xué)習(xí)后得到模板庫,然后用若干個(gè)特征提取Agent將待識(shí)別的輸入語音信號(hào)的各個(gè)量化的特征通過分工協(xié)作的方式進(jìn)行提取,最后模型匹配Agent將量化的語音特征與模板庫進(jìn)行模式匹配,通過友好的人機(jī)界面把識(shí)別結(jié)果輸出。
4 多Agent語音識(shí)別技術(shù)在軍事上的應(yīng)用
最近十年內(nèi)語音識(shí)別技術(shù)軍事化應(yīng)用非常廣泛,目前研究比較多的有語音識(shí)別技術(shù)在智能武器裝備開發(fā)領(lǐng)域的應(yīng)用、在軍事作戰(zhàn)文書自動(dòng)化過程中的應(yīng)用、在軍事測(cè)試設(shè)備和軍隊(duì)話務(wù)臺(tái)的應(yīng)用。下面重點(diǎn)介紹多Agent語音識(shí)別技術(shù)在軍事作戰(zhàn)文書自動(dòng)化過程中的應(yīng)用。
作戰(zhàn)文書句式變化不大、語法簡(jiǎn)單、使用人群范圍可定、語音識(shí)別模板庫易于建立且要求不高,其語音識(shí)別易于實(shí)現(xiàn)。總體方案是:盡可能統(tǒng)一各軍兵種作戰(zhàn)文書類型;收集不同類型作戰(zhàn)文書實(shí)例;構(gòu)造作戰(zhàn)文書詞匯庫;針對(duì)標(biāo)圖地域構(gòu)造地名數(shù)據(jù)庫;建立不同類型作戰(zhàn)文書的句型庫;分析軍隊(duì)標(biāo)號(hào)的涵義建立模板庫;將作戰(zhàn)文書編譯成標(biāo)圖指令來完成軍事地圖的標(biāo)繪。其一般過程為作戰(zhàn)文書的詞處理、作戰(zhàn)文書的語法分析、作戰(zhàn)文書標(biāo)圖指令的形成,最后通過API接口傳輸給計(jì)算機(jī)完成自動(dòng)標(biāo)繪工作,如圖3所示。
5 結(jié)束語
語音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù),有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景,為網(wǎng)上會(huì)議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓(xùn)等各個(gè)領(lǐng)域帶來了極大的便利。隨著人工智能技術(shù)的發(fā)展,把多Agent技術(shù)應(yīng)用到語音識(shí)別系統(tǒng)中,通過自治智能和分布協(xié)同的特性較好地解決了傳統(tǒng)語音識(shí)別技術(shù)中存在的突出問題,這必將成為語音識(shí)別系統(tǒng)發(fā)展的主流。
參考文獻(xiàn):
[1] 胡斌,湯偉,劉曉明.基于自然語言理解的文本標(biāo)圖系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].理工大學(xué)學(xué)報(bào):自然科學(xué)版,2005,6(2):132-136.
[2] 趙力.語音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003:215-240.
[3] 王作英,肖熙.基于段長(zhǎng)分布的HMM語音識(shí)別模型[J].電子學(xué)報(bào),2004,32(1):46-49.
[4] 曹承志.智能技術(shù)[M].北京:清華大學(xué)出版社,2004.
[5] 杜琳.基于COM技術(shù)的軍事標(biāo)圖組件的設(shè)計(jì)與實(shí)現(xiàn)[D].鄭州:信息工程大學(xué),2006.
[6] 朱民雄,聞新,黃健群,等.計(jì)算機(jī)語音技術(shù)[M].北京:北京航空航天大學(xué)出版社,2002.
[7] 方敏,浦劍濤,李成榮,等.嵌入式語音識(shí)別系統(tǒng)的研究和實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2004(6):73-78.
篇5
語音作為語言的聲學(xué)體現(xiàn),也是人類進(jìn)行信息交流最自然、和諧的手段。與機(jī)械設(shè)各進(jìn)行語音的溝通,讓機(jī)器可以明白人類在說什么,并理解這是人類長(zhǎng)期的夢(mèng)想。語音識(shí)別技術(shù),也被稱為自動(dòng)語音識(shí)別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。語音識(shí)別技術(shù)的應(yīng)用包括語音撥號(hào)、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡(jiǎn)單的聽寫數(shù)據(jù)錄入等。語音識(shí)別技術(shù)與其他自然語言處理技術(shù)如機(jī)器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,語音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。
二、語音信號(hào)分析與特征提取
1.基于發(fā)音模型的語音特征。(1)發(fā)音系統(tǒng)及其模型表征。其發(fā)聲過程就是由肺部進(jìn)行收縮,并進(jìn)行壓縮氣流由支氣管通過聲道和聲門引起的音頻振蕩所發(fā)生的。氣流通過聲門時(shí)使得聲帶的張力剛好使聲帶發(fā)生比較低的頻率的振蕩,從而形成準(zhǔn)周期性的空氣脈沖,空氣脈沖激勵(lì)聲道便會(huì)產(chǎn)生一些濁音;聲道的某處面積比較小,氣流沖過時(shí)便會(huì)產(chǎn)生湍流,會(huì)得到一種相似噪聲的激勵(lì),對(duì)應(yīng)的則是摩擦音;聲道完全閉合并建立起相應(yīng)的氣壓,突然進(jìn)行釋放就是爆破音。(2)語音信號(hào)線性預(yù)測(cè)倒譜系數(shù)。被廣泛應(yīng)用的特征參數(shù)提取技術(shù)的就是線性預(yù)測(cè)分析技術(shù),很多成功的應(yīng)用系統(tǒng)都是選用基于線性預(yù)測(cè)技術(shù)進(jìn)而提取的LPC倒譜系數(shù)作為應(yīng)用系統(tǒng)的特征。LPC倒譜就是復(fù)倒譜。復(fù)倒譜就是信號(hào)通過z進(jìn)行變換以后再取其對(duì)數(shù),求反z變換所得到的譜。線性預(yù)測(cè)分析方法其實(shí)就是一種譜的估計(jì)方法,所以其聲道模型系統(tǒng)函數(shù)H(z)反映的就是聲道頻率激勵(lì)和信號(hào)的譜包絡(luò),對(duì)IHg(z)作反z變換就可以得出其復(fù)倒譜系數(shù)。改復(fù)倒譜系數(shù)是依據(jù)線性預(yù)測(cè)模型直接獲得的,而又被稱為L(zhǎng)PC倒譜系數(shù)(LPCC)。
2.基于聽覺模型的語音特征。(1)聽覺系統(tǒng)模型。一是人類的聽覺系統(tǒng)對(duì)于聲音頻率高低和聲波實(shí)際的頻率高低不是線性的關(guān)系,它對(duì)不同聲音頻率信號(hào)的敏感度是不一樣的,也可看成是對(duì)數(shù)關(guān)系。二是關(guān)于掩蔽效應(yīng)指的就是聲音A感知的閉值因?yàn)榱硗獾纳碛暗某霈F(xiàn)出現(xiàn)增大的現(xiàn)象。其生理依據(jù)主要是頻率群,對(duì)頻率群進(jìn)行劃分會(huì)出現(xiàn)許多的很小的部分,每一個(gè)部分都會(huì)對(duì)應(yīng)一個(gè)頻率群,掩蔽效應(yīng)就發(fā)生在這些部分過程中。所以在進(jìn)行相應(yīng)的聲學(xué)測(cè)量時(shí),頻率刻度一般取非線性刻度。語音識(shí)別方面,主要的非線性頻率刻度有Mel刻度、對(duì)數(shù)刻度和Kon~nig刻度。其中Mel刻度被廣泛的應(yīng)用,其是最合理的頻率刻度。(2)語音信號(hào)Mcl頻率倒譜系數(shù)。Mel頻率倒譜系數(shù)利用人們耳朵的聽覺特性,在頻域?qū)㈩l率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數(shù)。MFCC參數(shù)的計(jì)算過程:
篇6
由于生活節(jié)奏的加快,汽車已經(jīng)成為了人們生活中重要的工具,人們?cè)谲噧?nèi)的時(shí)間也更多。同時(shí)也希望能夠在車內(nèi)接收到外界的信息繼續(xù)進(jìn)行工作,還要求汽車有娛樂功能,因此促進(jìn)了車載多媒體的發(fā)展。而車載多媒體傳統(tǒng)的人機(jī)交互方式會(huì)增加潛在的駕駛危險(xiǎn),為此將語音識(shí)別應(yīng)用于車載多媒體系統(tǒng)中,將會(huì)是車載多媒體發(fā)展的重要方向。端點(diǎn)檢測(cè)、特征參數(shù)提取以及識(shí)別是語音識(shí)別的主要內(nèi)容,本文也將從這三個(gè)方向?qū)囋诙嗝襟w系統(tǒng)的語音識(shí)別進(jìn)行研究。
1、端點(diǎn)檢測(cè)
在進(jìn)行語音識(shí)別時(shí),首先需要通過端點(diǎn)檢測(cè)來對(duì)語音信號(hào)中的無聲片段和有聲片段進(jìn)行分割。目前,語音端點(diǎn)識(shí)別已經(jīng)從開始的單一門限發(fā)展到了基于模糊理論的判決。但是對(duì)于車載多媒體而言,計(jì)算量較大、識(shí)別響應(yīng)時(shí)間較長(zhǎng)端點(diǎn)檢測(cè)的方法顯然不使用,所以主要采用基于短平均過零率和短時(shí)間平均幅度的方法來進(jìn)行語音端點(diǎn)檢測(cè),這種方法利用短時(shí)間內(nèi)幅度的檢測(cè)和過零率來作為語音端點(diǎn)的檢測(cè)。
首先,利用短時(shí)幅度可以有效判斷語音端點(diǎn),同時(shí)語音的濁音部分平均幅度會(huì)明顯大于噪聲的平均幅度,然后同時(shí)再輔以短時(shí)過零率的方法來判斷語音開始的濁音,從而進(jìn)一步對(duì)端點(diǎn)檢測(cè)進(jìn)行校準(zhǔn),兩者的結(jié)合能夠更加精確的判斷語音端點(diǎn),并且兩種算法都較為簡(jiǎn)單,能夠滿足車在多媒體的需求。
2、特征參數(shù)提取
在完成語音的端點(diǎn)檢測(cè)之后,需要提取語音的特征參數(shù),然后進(jìn)行語音識(shí)別。目前用于語音特征參數(shù)提取的算法主要有LPCC(線性預(yù)測(cè)倒譜系數(shù))和MFCC(Mel頻率倒譜),由于MFCC具有更強(qiáng)的抗干擾能力等特點(diǎn),更適合與噪聲較多、司機(jī)不能離輸入設(shè)備很近的車載環(huán)境。
分析MFCC的語音特征參數(shù)提取可以分成預(yù)加重、加窗、FFT(快速傅里葉變換)、濾波、自然對(duì)數(shù)提取、自然對(duì)數(shù)DCT計(jì)算這六個(gè)步驟。由于MFCC其計(jì)算精度以及計(jì)算量都較大,因此,使用MFCC作為車載系統(tǒng)的語音特征參數(shù)提取時(shí),需要進(jìn)行相應(yīng)的改進(jìn):
(1)在MFCC實(shí)現(xiàn)的六個(gè)步驟中,例如加窗等步驟就可以實(shí)現(xiàn)進(jìn)行計(jì)算,然后存儲(chǔ)在數(shù)組中,在使用時(shí)進(jìn)行查表提取,從而避免每一次語音識(shí)別時(shí)重復(fù)計(jì)算,從而加快了計(jì)算速度。
(2)FFT需要花費(fèi)大量的時(shí)間(據(jù)統(tǒng)計(jì),F(xiàn)FT需要花費(fèi)MFCC56.32%的時(shí)間[2]),由于FFT算法是對(duì)復(fù)數(shù)進(jìn)行處理,而語音信號(hào)的處理只涉及到實(shí)數(shù)部分,其虛數(shù)部分為零,因此增加了運(yùn)算時(shí)間,因此可以利用文獻(xiàn)3所提出的FFT運(yùn)算方法,將長(zhǎng)度為N的FFT預(yù)算降低到長(zhǎng)度為N/2的FFT運(yùn)算,從而提高了語音特征參數(shù)提取效率。
3、識(shí)別模式
語音識(shí)別的原理是模式匹配,通過計(jì)算現(xiàn)有語音模式與語音模板庫中的模板的距離,來獲得最佳的匹配模式。匹配的方法主要有DTW(動(dòng)態(tài)時(shí)間規(guī)整)、HMM(隱馬爾科夫模型)和ANN(人工神經(jīng)元網(wǎng)絡(luò))。由于ANN計(jì)算量較大,因此不適合用于車載多媒體系統(tǒng)中,HMM需要繁雜的程序結(jié)構(gòu),包含眾多功能模塊,需要大量的計(jì)算。因此, DTW模式更適合用于車載多媒體系統(tǒng)中。能夠滿足車載系統(tǒng)孤立詞、小詞匯量的語音識(shí)別。
為了更好的在車在多媒體系統(tǒng)中的嵌入式平臺(tái)上實(shí)現(xiàn)DTW,對(duì)DTW進(jìn)行進(jìn)一步的改進(jìn):
(1)由于在語音識(shí)別匯總,對(duì)音頭和音尾的判斷存在一定的誤差,因此,使用傳統(tǒng)DTW方法在進(jìn)行固定端點(diǎn)匹配時(shí)會(huì)存在一定的誤差,從而降低了語音匹配成功率。為此,可以采用放寬端點(diǎn)限制的方法來使用DTW進(jìn)行語音識(shí)別。其主要的思路是取消傳統(tǒng)DTW中對(duì)音頭和音尾嚴(yán)格對(duì)其的限制。從而,只要兩次語音在開始的W幀內(nèi)能夠匹配成功,同時(shí)在結(jié)束的W幀內(nèi)匹配成功,即認(rèn)為兩次語音匹配成功。在降低了對(duì)端點(diǎn)檢測(cè)的精度要求,符合車載系統(tǒng)小詞匯量的特點(diǎn),不會(huì)降低車載系統(tǒng)語音識(shí)別效率。
(2)在使用DTW進(jìn)行語音模板匹配時(shí),需要計(jì)算兩個(gè)模板各幀的距離來計(jì)算模板之間的距離。加入模板庫中的某個(gè)模板T有N幀,待識(shí)別的語音R有M幀,那么通常需要申請(qǐng)M×N長(zhǎng)度的空間,再根據(jù)兩個(gè)模板所有幀間距離計(jì)算整體長(zhǎng)度。但是在實(shí)際的應(yīng)用中,只需要M長(zhǎng)度的空間來存放模板T第n-1幀與模板R中M幀之間的距離,在計(jì)算完第n幀與模板R中M幀之間的距離對(duì)M長(zhǎng)度空間的數(shù)據(jù)進(jìn)行替換,從而進(jìn)行模板T第n+1幀與模板R中M幀之間的距離,從而節(jié)省了(N-1)×M的存儲(chǔ)空間,這對(duì)車載系統(tǒng)有限存儲(chǔ)空間的系統(tǒng)中有著非常重要的意義。
4、結(jié)語
相比于傳統(tǒng)的按鈕式、觸摸屏式人機(jī)交互系統(tǒng),語音識(shí)別對(duì)于車載多媒體系統(tǒng)有著非常重要的意義,將是車載多媒體系統(tǒng)重要的發(fā)展方向,本文針對(duì)車載多媒體系統(tǒng)對(duì)低CPU運(yùn)算時(shí)間和地存儲(chǔ)空間的特點(diǎn),對(duì)語音識(shí)別中的端點(diǎn)檢測(cè)、語音特征參數(shù)提取以及識(shí)別模式的實(shí)現(xiàn)和優(yōu)化進(jìn)行了研究。
參考文獻(xiàn)
[1]方敏,浦劍濤,李成榮.嵌入式語音識(shí)別系統(tǒng)的研究和實(shí)現(xiàn)[J].中國(guó)信息學(xué)報(bào),2004,(6):73~78.
[2]萬春,黃杰圣,曹煦暉.基于DTW的孤立詞語音識(shí)別研究和算法改進(jìn)[J].計(jì)算機(jī)與現(xiàn)代化,2005,(13):4~6.
篇7
隨著廣播電視管理的不斷完善,對(duì)電視節(jié)目?jī)?nèi)容的監(jiān)管也越來越嚴(yán)格,對(duì)音頻搜索等技術(shù)的需求也在逐漸增加。但是,音頻搜索技術(shù)還有很多難題尚未解決,如中文分詞瓶頸、第三方數(shù)據(jù)存儲(chǔ)量限制、數(shù)據(jù)處理分析瓶頸和音頻識(shí)別準(zhǔn)確度等等,這樣在應(yīng)用時(shí)會(huì)出現(xiàn)很多問題,相關(guān)部門需加大研發(fā)力度,讓音頻識(shí)別技術(shù)更加完善和規(guī)范。
1 語音識(shí)別關(guān)鍵技術(shù)介紹
1.1 語音模型自適應(yīng)技術(shù)
因?yàn)榄h(huán)境、人的性別和口音等因素的干擾,語音數(shù)據(jù)會(huì)產(chǎn)生較大變化,在特殊條件下的訓(xùn)練無法推廣應(yīng)用,而自適應(yīng)就可以根據(jù)測(cè)試數(shù)據(jù)進(jìn)行調(diào)整避免誤判。在變換的自適應(yīng)中,采用相同的變換更新參數(shù),當(dāng)自適應(yīng)模型參數(shù)確定后,就可以用少量自適應(yīng)數(shù)據(jù)變換方程,利用變換方程來重新估計(jì)模型參數(shù)[1]。一般來說,變換方程的數(shù)目小于目標(biāo)模型參數(shù),所以使用少量自適應(yīng)數(shù)據(jù)就可以估計(jì)出變換方程。但是變換方程并不能探測(cè)出單個(gè)模型的特征,其漸進(jìn)性較差,無法估計(jì)特征相近人模型。
1.2 說話人識(shí)別技術(shù)
說話人識(shí)別也被稱為聲紋識(shí)別,通過語音信號(hào)來識(shí)別說話人的身份。說話人識(shí)別主要分為兩類,即開集識(shí)別和閉集識(shí)別,兩者主要通過是否需要拒識(shí)來區(qū)別。開集識(shí)別更具普遍性,相比閉集識(shí)別技術(shù)更難。比如說,我們同時(shí)監(jiān)聽多個(gè)人說話,開集識(shí)別需要在多個(gè)說話人中找到指定的說話人。開集說話有兩大缺陷:虛警錯(cuò)誤和漏報(bào)錯(cuò)誤,兩者之間互相制約互相影響。在應(yīng)用過程中,可調(diào)整識(shí)別模塊更傾向于少虛警錯(cuò)誤或漏報(bào)錯(cuò)誤。研究中會(huì)通過等錯(cuò)誤率去判斷說話人識(shí)別系統(tǒng)的性能是否達(dá)標(biāo),如果虛警錯(cuò)誤率和漏報(bào)錯(cuò)誤率相等就是等錯(cuò)誤率[2]。等錯(cuò)誤率會(huì)受到測(cè)試語音長(zhǎng)短、樣本語音信道匹配度和說話人語音長(zhǎng)短等因素的影響,如果說話人語音越長(zhǎng),測(cè)試語音也就越長(zhǎng),兩者的差異也就越小,等錯(cuò)誤率也會(huì)相應(yīng)降低。
1.3 P鍵詞識(shí)別技術(shù)
關(guān)鍵詞識(shí)別技術(shù)分為單階段系統(tǒng)和兩階段系統(tǒng)兩大類,單階段系統(tǒng)識(shí)別主要是在關(guān)鍵詞系統(tǒng)中進(jìn)行識(shí)別,當(dāng)關(guān)鍵詞出現(xiàn)變化,系統(tǒng)就要重新識(shí)別。兩階段系統(tǒng)是將一般意義的連續(xù)語音轉(zhuǎn)換為文本,然后借助文本匹配途徑找到關(guān)鍵詞。這種系統(tǒng)比較靈活,可以隨時(shí)變換關(guān)鍵詞,是目前使用最多的關(guān)鍵詞識(shí)別技術(shù)。通過語音關(guān)鍵詞檢測(cè)特定內(nèi)容具有兩個(gè)優(yōu)勢(shì):首先是準(zhǔn)確率更高,其次是關(guān)鍵詞會(huì)多次出現(xiàn)。這樣在內(nèi)容監(jiān)管中就可以允許出現(xiàn)漏檢錯(cuò)誤,不必每次都準(zhǔn)確地識(shí)別關(guān)鍵詞。
2 語音識(shí)別技術(shù)的具體應(yīng)用
2.1 音頻模板匹配技術(shù)
在已知節(jié)目片頭曲的條件下,可以使用音頻模板匹配技術(shù)進(jìn)行自動(dòng)打點(diǎn)和分割。因?yàn)槭艿揭纛l壓縮和信號(hào)傳輸?shù)挠绊懀瑢?dǎo)致模板之間存在差異,就可以通過提取多頻帶能量相對(duì)比率,利用各個(gè)頻帶能量分布趨勢(shì)穩(wěn)定的特點(diǎn),就可以解決音頻信號(hào)扭曲造成的不穩(wěn)定問題。
2.2 音頻切分和分類技術(shù)
在處理廣播電視音頻信息的時(shí)候,例如語音識(shí)別和檢測(cè)關(guān)鍵詞,需要先對(duì)廣播電視的音頻進(jìn)行切分,一般都會(huì)采用靜音檢測(cè)法來切分,這樣可以準(zhǔn)確定位,為音頻分類工作奠定了基礎(chǔ)。對(duì)切分的音頻片段進(jìn)行分類,需要根據(jù)音頻類型采取不同的處理方法。非靜音主要分為語音和非語音兩類,而語音又分為純語音和非純語音,非語音分為音樂和環(huán)境音。
2.3 自動(dòng)發(fā)現(xiàn)技術(shù)
將廣告識(shí)別作為案例,利用音頻檢測(cè)獲取新廣告:首先是針對(duì)未知節(jié)目和廣告而設(shè)計(jì),因此需要去除已知模板,這樣可以減少計(jì)算量。接著是利用音頻向量的快速搜索算法確定重復(fù)片段的預(yù)留位置,因?yàn)橐纛l向量都是通過音頻段的信息展開檢索,就會(huì)出現(xiàn)音頻字分布相同、但排列不同的音頻片段,也會(huì)有一些錯(cuò)誤片段,所以需要篩選過濾一遍。最后是利用音頻指紋搜索找出音頻向量模型的重復(fù)片段。因?yàn)橐纛l指紋檢索技術(shù)是利用音頻幀的排列信息開展工作,所以準(zhǔn)確度更高,可以檢測(cè)出誤報(bào)片段。完成上述步驟以后,就可以通過圖像幀變化率來區(qū)分非廣告的重復(fù)部分。因?yàn)閺V告的播出費(fèi)用是按照播放時(shí)間來定的,所以廣告商需要在有限的時(shí)間內(nèi)向觀眾傳遞更多的信息,所以視頻幀的變化率就比較大,而電視劇的變化率較小,這樣就可以去除重播的非廣告類節(jié)目[3]。
3 結(jié)語
隨著科學(xué)技術(shù)的不斷發(fā)展,語音識(shí)別技術(shù)的應(yīng)用范圍也越來越廣,識(shí)別的準(zhǔn)確度也在不斷提高。廣播電視對(duì)語音監(jiān)管的要求也在提高,語音識(shí)別技術(shù)必須達(dá)到要求,這樣不僅可以提高節(jié)目的搜索速度,對(duì)關(guān)鍵內(nèi)容進(jìn)行快速定位,還可以減輕工作人員的工作壓力,提升監(jiān)管水平。
參考文獻(xiàn)
篇8
Research Status and Development Trend of Russian Speech Recognition Technology
MA Yan-zhou
(PLA University of Foreign Languages, Luoyang 471003, China)
Abstract: Abstract: Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition, this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition, speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition, it probes into possible way out strategies. Finally, it predicts future development direction and application prospects for Russian speech recognition technology.
Key words: speech recognition; hmm;russian acoustic models; russian language models
俄語(Русскийязык)[1]是俄羅斯和聯(lián)合國(guó)的官方語言,也是我國(guó)少數(shù)民族正式語言。在前蘇聯(lián)和俄羅斯使用,俄語在蘇聯(lián)時(shí)期具有很重要的地位,直到現(xiàn)在仍然有些獨(dú)聯(lián)體國(guó)家在廣泛使用,雖然這些國(guó)家已經(jīng)開始強(qiáng)調(diào)本地語言的重要性,但在這些國(guó)家之間依然使用俄語進(jìn)行交流。全球有超過一億四千萬把俄語作為母語使用,有近四千五百萬人以第二語言使用,使用俄語媒體的有3億多人。我國(guó)俄羅斯族使用俄語進(jìn)行交流,聚集地分布在新疆地區(qū)的阿勒泰、伊犁、塔城及內(nèi)蒙古呼倫貝爾市的額爾古納、滿洲里等地,
語音識(shí)別(Speech Recognition)[2]是指在各種情況下,識(shí)別出語音的內(nèi)容,讓機(jī)器聽懂人說的話,根據(jù)其信息而執(zhí)行人的不同意圖。它是一門交叉學(xué)科,涉及與計(jì)算機(jī)、語音語言學(xué)、通信、信號(hào)處理、數(shù)理統(tǒng)計(jì)、神經(jīng)心理學(xué)人工智能、和神經(jīng)生理學(xué)等學(xué)科。能夠能滿足不同需要的語音識(shí)別系統(tǒng)的實(shí)現(xiàn)已經(jīng)成為可能,它的前提是模式識(shí)別、信號(hào)處理技術(shù)、計(jì)算機(jī)技術(shù)和聲學(xué)技術(shù)等的發(fā)展。近年來,軍事、交通等領(lǐng)域,尤其在計(jì)算機(jī)、人工智能等領(lǐng)域得到廣泛應(yīng)用。
俄語語音識(shí)別是一個(gè)有巨大潛力的研究方向,不僅能夠?yàn)槿藗兊纳a(chǎn)生活、日常交往提供極大的便捷性和高效性,而且在政治、軍事、經(jīng)濟(jì)等各個(gè)領(lǐng)域都有著重要的研究?jī)r(jià)值和應(yīng)用前景。本文著重介紹語音識(shí)別發(fā)展歷程、闡述俄語語音識(shí)別關(guān)鍵技術(shù)、分析俄語語音識(shí)別未來的發(fā)展趨勢(shì)。
1 俄語語音識(shí)別的現(xiàn)狀
俄語連續(xù)語音識(shí)別取得快速發(fā)展,利益于技術(shù)的進(jìn)步。隨著語音識(shí)別在技術(shù)層面的不斷突破與創(chuàng)新,對(duì)英語的識(shí)別慢慢成熟,然后逐漸擴(kuò)展到其他語種如漢語、俄語等。
1.1語音識(shí)別技術(shù)的發(fā)展
20世紀(jì)50年代,語音識(shí)別的研究開始借助機(jī)器來實(shí)現(xiàn)。1952年,一個(gè)特定人獨(dú)立數(shù)字識(shí)別系統(tǒng)[3]由貝爾(Bell)實(shí)驗(yàn)室的Davis、Diddulph和Balashelk首次研制,該系統(tǒng)成功識(shí)別10個(gè)英語數(shù)字。1959年,英格蘭的Fry和Denes利用譜分析技術(shù)和模板匹配技術(shù),提高了音素的識(shí)別精度,建立了一個(gè)能夠識(shí)別9個(gè)輔音和4個(gè)元音的識(shí)別系統(tǒng)。20世紀(jì)60年代,經(jīng)過Faut和Stevens的努力,語音生成理論初步形成。動(dòng)態(tài)規(guī)劃方法[4]由蘇聯(lián)的Vintsyuk提出,并實(shí)現(xiàn)了對(duì)兩段語音進(jìn)行對(duì)齊。70年代取得一系列重大突破,基本實(shí)現(xiàn)孤立詞識(shí)別。俄羅斯推進(jìn)了模板匹配思想在語音識(shí)別中的應(yīng)用;利用動(dòng)態(tài)規(guī)劃方法實(shí)現(xiàn)語音識(shí)別也由日本的科學(xué)家實(shí)驗(yàn)成功。20世紀(jì)80年代,語音識(shí)別研究的一個(gè)主要特點(diǎn)是由模板匹配方法向統(tǒng)計(jì)建模方法的轉(zhuǎn)變,特別是隱馬爾可夫模型[5-6]。盡管HMM眾所周知,但是直到20世紀(jì)80年代中期HMM模型才廣泛被世界各地的語音識(shí)別實(shí)驗(yàn)室熟悉和采納。另一個(gè)新方向是利用神經(jīng)網(wǎng)絡(luò)解決語音識(shí)別問題,促進(jìn)了該技術(shù)在語音識(shí)別領(lǐng)域的應(yīng)用[7-9]。20世紀(jì)80年代后期,在DAPRA的支持下,對(duì)大詞匯連續(xù)語音識(shí)別系統(tǒng)的研制也取得了顯著的成果,研究機(jī)構(gòu)主要有CMU、BBN、林肯實(shí)驗(yàn)室、MIT、AT&T貝爾實(shí)驗(yàn)室。
20世紀(jì)90年代以來,語音識(shí)別開始實(shí)用化研究,并取得了突破性的進(jìn)展。其中算法的研究取得了非常明顯的效果,并提升了系統(tǒng)的性能,如最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR),最大后驗(yàn)概率準(zhǔn)則估計(jì)(MaximumA-Posteriori Estimation, MAP),以及用于模型參數(shù)綁定的決策樹狀態(tài)聚類等算法,這些算法的不斷優(yōu)化,也使得應(yīng)用于實(shí)際的語音識(shí)別不斷出現(xiàn)。最具有有代表性的系統(tǒng)有:Dragon System公司的NaturallySpeaking,Nuance公司的Nuance Voice Platform語音平臺(tái),IBM公司推出的ViaVoice, Sun的VoiceTone,Microsoft的Whisper,等。在美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)研究所(Nationa lInstitute of standardsand Technology,NIST) 和DARPA的不斷推動(dòng)下,各個(gè)研究機(jī)構(gòu)不斷嘗試語音識(shí)別任務(wù),目的是不斷提高識(shí)別的性能。進(jìn)入21世紀(jì),在向廣度和深度兩方面,自動(dòng)語音識(shí)別得到了更為廣泛的研究。魯棒性語音識(shí)別,進(jìn)行了了細(xì)致的調(diào)研,特別是在置信度和句子確認(rèn)方面非常有效,尤其對(duì)處理病句。在21世紀(jì)的前10年,信息技術(shù)領(lǐng)域最重要的十大科技發(fā)展技術(shù)之一就有語音識(shí)別技術(shù)的一席之地,人機(jī)接口關(guān)鍵的語音識(shí)別技術(shù),已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè),它的實(shí)用化研究將成為未來的方向。
1.2俄語語音識(shí)別技術(shù)的發(fā)展
語音技術(shù)的研究主要集中在幾個(gè)主要的語言,如英語,法語,西班牙語,漢語和西班牙語,一些其他語言尤其是東歐語言很少受到注意。但是近幾年在俄羅斯,捷克,波蘭,塞爾維亞,克羅地亞等俄語區(qū)對(duì)俄語語音技術(shù)的研究活動(dòng)正在穩(wěn)步上升。
俄羅斯科學(xué)院緊跟世界語音識(shí)別技術(shù)的發(fā)展,結(jié)合俄語自身的獨(dú)有發(fā)音特點(diǎn)進(jìn)行了卓有成效的研究并取得了一系列的成果。在開發(fā)聲學(xué),詞匯和語言模型時(shí)采取特別重視俄語的細(xì)節(jié),對(duì)于聲學(xué)模型,采用知識(shí)和基于統(tǒng)計(jì)的方法來創(chuàng)建幾個(gè)不同的音素集10。對(duì)于語言模型(LM),從不同網(wǎng)站自動(dòng)收集新聞文本語料,用統(tǒng)計(jì)分析的方法將訓(xùn)練文本數(shù)據(jù)和語法相結(jié)合,計(jì)算不同情況下n-gram中單詞的頻率,優(yōu)化n-gram模型,以建立更好的n-gram模型[11]。在基本語音識(shí)別單元的問題上采用距離最小信息不匹配的原則,建立語素級(jí)單元,顯著減少誤差概率[12]。
語料庫是語音識(shí)別最基本的支撐,文本語料和口語語料都是一個(gè)語料庫不可或缺的組成部分,任缺其一則語料庫就不能反映該語言的完整信息,也沒有辦法在此基礎(chǔ)上進(jìn)行大詞匯、非特定人連續(xù)俄語語音識(shí)別的研究[13]。俄羅斯對(duì)語料庫的研究起步比較晚,在20世紀(jì)一直落后于世界語料庫的發(fā)展,缺乏系統(tǒng)的理論研究和先進(jìn)的實(shí)踐成果。但近十年來,隨著俄羅斯國(guó)家語料庫建立和不斷完善,俄語語音技術(shù)的研究正在慢慢興起并取得了一些矚目的成就。
國(guó)內(nèi)對(duì)俄語語音的研究主要集中在教學(xué)方面。使用統(tǒng)計(jì)的方法,基于HMM對(duì)俄語語音進(jìn)行建模和識(shí)別研究,目前還沒有發(fā)現(xiàn)相關(guān)的文獻(xiàn)記錄。
2 語音識(shí)別技術(shù)
語音識(shí)別系統(tǒng)根據(jù)角度、范圍、性能等差別,有以下的分類。
根據(jù)詞匯量的大小分可為小詞匯量(10至100)、中詞匯量(100至500)和大詞匯量(大于500)。根據(jù)發(fā)音方式可分為孤立詞(isolated word)識(shí)別、連接詞(connected word)識(shí)別、連續(xù)語音(continuous word)識(shí)別等。根據(jù)說話人特征可分為特定(speaker-dependent)說話人和非特定(speaker-independent)說話人。根據(jù)語音識(shí)別的方法不同進(jìn)行了模板匹配、隨機(jī)模型和概率語法分析等分類方法。
2.1 語音識(shí)別基本原理
通過計(jì)算機(jī)的輔助功能把輸入的語音信號(hào)變換為對(duì)應(yīng)的文本和命令,并且能夠接受人類的語音、理解人類的意圖,是語音識(shí)別技術(shù)研究的根本目的。語音識(shí)別系統(tǒng)核心是一套語音取樣、識(shí)別、匹配的模式匹配系統(tǒng)[2],基本原理如圖1所示。
語音識(shí)別系統(tǒng)由三個(gè)基本單元組成,它包含特征提取、模式匹配和參考模式庫,雖然它是模式識(shí)別系統(tǒng),但它的結(jié)構(gòu)要比普通的模式識(shí)別系統(tǒng)要復(fù)雜,因?yàn)檎Z音所包含的信息是復(fù)雜多樣的語言信息,結(jié)構(gòu)也是多變的。首先對(duì)輸入的語音信號(hào)進(jìn)行預(yù)處理,預(yù)處理包括適當(dāng)放大信號(hào)功率并對(duì)增益進(jìn)行有效控制,之后進(jìn)行反混疊濾波以消除信號(hào)的干擾;然后將模擬信號(hào)轉(zhuǎn)化為數(shù)字信號(hào)即數(shù)字化處理,便于存儲(chǔ)和處理;然后進(jìn)行特征提取,并使用一些參數(shù)來表示的語音信號(hào)的特性;最后對(duì)其進(jìn)行識(shí)別。語音識(shí)別又分為兩階段:訓(xùn)練和識(shí)別。在訓(xùn)練階段,利用特征參數(shù)表示語音信號(hào)的相應(yīng)特征,得到標(biāo)準(zhǔn)數(shù)據(jù)即模板,將模板構(gòu)建成一個(gè)數(shù)據(jù)庫即模板庫;在識(shí)別階段,將語音特征與模板庫中的每一個(gè)模板進(jìn)行比較,找到了最相似的參考模板,這就是識(shí)別的結(jié)果。
2.2 HMM模型技術(shù)
語音識(shí)別早期采用的有矢量量化(Vector quantization, VQ)技術(shù)、動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping, DTW)技術(shù)等,從處理難度上看,最簡(jiǎn)單的是小詞匯量、特定人、孤立詞的語音識(shí)別,最難解決的是大詞匯量、非特定人、連續(xù)語音識(shí)別。當(dāng)今語音識(shí)別系統(tǒng)采用的主流算法是HMM模型技術(shù)。
HMM模型的狀態(tài)不能被直接觀察到,但可以通過觀測(cè)向量序列來觀察到,這些向量都是通過某些特定的概率密度分布來表現(xiàn)為各種狀態(tài)的,每個(gè)觀測(cè)向量都是由一個(gè)狀態(tài)序列產(chǎn)生的,這些狀態(tài)序列具有相應(yīng)的概率密度分布。HMM是一個(gè)雙重隨機(jī)過程:具有一定狀態(tài)數(shù)量的隱馬爾可夫鏈和顯示隨機(jī)函數(shù)集。HMM的基本問題及解決算法6-9
1)評(píng)估問題(前向算法)。
現(xiàn)有觀測(cè)序列O=O1O2O3…Ot以及模型參數(shù)λ=(π,A,B),如何計(jì)算觀測(cè)序列的概率,進(jìn)一步可對(duì)該HMM做出相關(guān)評(píng)估。利用forward算法分別以每個(gè)HMM產(chǎn)生給定觀測(cè)序列O的概率進(jìn)行計(jì)算,然后從其中選出最優(yōu)秀的HMM模型。
經(jīng)典應(yīng)用例子就是語音識(shí)別。在HMM的語音識(shí)別描述中,每個(gè)單詞對(duì)應(yīng)一個(gè)HMM,每個(gè)觀測(cè)序列全部由一個(gè)單詞的語音來構(gòu)成,單詞的識(shí)別可以通過評(píng)估而選出最可能的HMM,此HMM由產(chǎn)生觀測(cè)序列所代表的讀音實(shí)現(xiàn)。
2)解碼問題(Viterbi算法)
現(xiàn)有觀測(cè)序列O=O1O2O3…Ot以及模型參數(shù)λ=(π,A,B),如何尋找最優(yōu)的隱含狀態(tài)序列。此類問題比較關(guān)注馬爾科夫模型中的隱含狀態(tài),在這些狀態(tài)中雖然不能直接觀測(cè),但價(jià)值更大,可以利用Viterbi算法來解決。
實(shí)際例子是進(jìn)行分詞,分詞問題可以用HMM來解決。這句話的分割方法可以看做是一個(gè)隱式的狀態(tài),而這句話可以被視為一個(gè)給定的條件,從而找出基于HMM的可能正確的分割方法。
3)訓(xùn)練問題(Baum-Welch算法即前向后向算法)
此時(shí)HMM的模型參數(shù)λ=(π,A,B)未知,對(duì)這些參數(shù)進(jìn)行調(diào)整,使得觀測(cè)序列O=O1O2O3…Ot的概率最大,使用Reversed Viterbi算法以及Baum-Welch算法可以解決。
2.3 大詞匯量連續(xù)語言識(shí)別
在語音識(shí)別研究中難度和挑戰(zhàn)性最大為課題應(yīng)該是基于大詞匯量的、非特定人的連續(xù)語音識(shí)別[13]。在詞匯量大于1000詞的時(shí)候,比較容易混淆的詞數(shù)量增加,誤識(shí)率約為基于小詞匯量的、特定人的孤立詞識(shí)別系統(tǒng)的50倍左右。而且還帶來兩個(gè)重要的、不易解決的問題:語流的切分和連續(xù)語音的發(fā)音變化。此時(shí)采用統(tǒng)一框架可以有效解決這個(gè)問題。大詞匯量連續(xù)語音識(shí)別總體框架[14]如圖2所示。
俄語語音信號(hào)分析后,形成特征向量,并通過字典識(shí)別模型,然后,根據(jù)語言模型的語法,將輸入的語音與模板匹配,在句子層面進(jìn)行組合。從俄語聲學(xué)模型、俄語語言模型敘述大詞匯量連續(xù)語音識(shí)別的過程。
2.3.1聲學(xué)模型
設(shè)計(jì)俄語語音識(shí)別系統(tǒng)底層相應(yīng)的HMM子詞單元模型,需要充分考慮俄語聲學(xué)和語音學(xué)的特征。俄語基本聲學(xué)單元的選擇是聲學(xué)建模過程中一個(gè)基本而重要的問題。在俄語連續(xù)語音識(shí)別中,可供選擇的基本單元包括詞、音節(jié)、元輔音等。識(shí)別基本單元的選擇一般基于語音學(xué)知識(shí)。
俄語字母是語音的書面形式,每個(gè)俄語字母都有自己的字母名稱。元音字母的名稱和讀音相同,輔音字母的名稱是在該輔音后加一個(gè)元音[15-16]。如字母с的名稱為эс,字母б的名稱為бэ等。字母名稱通常用于讀某些縮寫詞。俄語字母共有33個(gè)字母如表1所示。
根據(jù)俄語詞的發(fā)音特征、音節(jié)的發(fā)音特征和字母的發(fā)音特征,選擇音素作為子詞單元,然后就可以進(jìn)行HMM訓(xùn)練,首先用一種很粗糙的方法進(jìn)行初始分段,然后向前向后算法或K-均值算法用于多次迭代,自動(dòng)收斂到一個(gè)最佳的模型,并實(shí)現(xiàn)了一個(gè)合理的子詞分割。這樣就可以初步完成俄語的聲學(xué)建模,建設(shè)一個(gè)俄語語音參考模式庫。
2.3.2 統(tǒng)計(jì)語言模型
自然語言處理問題必然要乃至統(tǒng)計(jì)語言模型[17],如語音識(shí)別、機(jī)器翻譯、分詞、詞性標(biāo)注等等。統(tǒng)計(jì)語言模型是計(jì)算概率的模型,即。使用語言模型,可以確定一個(gè)單詞序列的概率,或給定一個(gè)單詞的數(shù)目,它可以預(yù)測(cè)下一個(gè)最有可能的單詞。
那么如何計(jì)算一個(gè)句子的概率呢?給定句子(詞語序列),它的概率可以表示為:
由于上式中的參數(shù)過多,因此需要近似的計(jì)算方法。下面介紹適用于俄語的n-gram統(tǒng)計(jì)語言模型。
n-gram模型即n-1階馬爾科夫模型,首先假設(shè):當(dāng)前詞的出現(xiàn)概率僅僅與前面n-1個(gè)詞相關(guān)。因此(1)式可以近似為:
當(dāng)n值為1、2、3時(shí),n-gram模型分別稱為unigram、bigram和trigram語言模型。n-gram模型的參數(shù)就是條件概率。N取值越大,模型越準(zhǔn)確但計(jì)算越復(fù)雜計(jì)算量越大。在俄語語言模型的建立過程中,采用最多是二元模型和三元模型。
2.3.3 連續(xù)語音識(shí)別系統(tǒng)的性能評(píng)測(cè)
評(píng)定連續(xù)語音識(shí)別系統(tǒng)的優(yōu)劣,觀測(cè)系統(tǒng)的性能,一般都是針對(duì)不同的識(shí)別任務(wù),不同的任務(wù)單詞庫和任務(wù)語句庫,需要不同的評(píng)價(jià)標(biāo)準(zhǔn)。如果要想粗略地評(píng)估某個(gè)系統(tǒng),可以從兩個(gè)方面去考慮,一是系統(tǒng)識(shí)別任務(wù)的難易程度即復(fù)雜性;另一個(gè)是采用該系統(tǒng)的識(shí)別系統(tǒng)的識(shí)別方法對(duì)該難度的識(shí)別任務(wù)的識(shí)別效果即識(shí)別率。在連續(xù)語音識(shí)別系統(tǒng)中,通過對(duì)音素、音節(jié)或詞的識(shí)別率進(jìn)行識(shí)別性能評(píng)價(jià),常用的系統(tǒng)參數(shù)是正確率(正確率),錯(cuò)誤率和識(shí)別準(zhǔn)確率。
其中的正確數(shù)、轉(zhuǎn)換數(shù)、插入數(shù)和脫落數(shù),采用主觀的方法來目測(cè),馬可以通過統(tǒng)計(jì)的方法來得到。
2.4 HTK工具
語音識(shí)別過程涉及的算法復(fù)雜,其中最為著名的HTK由劍橋大學(xué)研發(fā),主要用來建立基于HMM的大規(guī)模連續(xù)語音識(shí)別系統(tǒng)。該軟件集為開放源代碼,可以在UNIX/Linux和Windows環(huán)境下運(yùn)行。HTK提供了一系列命令函數(shù)用于語音識(shí)別,包括一系列的運(yùn)行庫和工具,使用基于ASNIC模塊化設(shè)計(jì),可以實(shí)現(xiàn)語音錄制、分析、標(biāo)示、HMM的訓(xùn)練、測(cè)試和結(jié)果分析。整個(gè)HTK的工作過程包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和識(shí)別過程。
3 語音識(shí)別的應(yīng)用
隨著計(jì)算機(jī)技術(shù)的進(jìn)步、算法的不斷優(yōu)化、信息處理技術(shù)的智能化,俄語語音識(shí)別技術(shù)的發(fā)展會(huì)越來越光明。應(yīng)用的范圍也會(huì)越來越廣,可能會(huì)出現(xiàn)一些新的應(yīng)用。
1)俄語語音信息檢索
網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的迅速發(fā)展,數(shù)據(jù)量急劇增多,如何在海量數(shù)據(jù)中挑選出有用的信息,并進(jìn)行相應(yīng)的分類和檢索,對(duì)合理地利用信息資源具有重要的意義。多媒體檢索技術(shù)應(yīng)運(yùn)而生。
2)俄語發(fā)音自學(xué)技術(shù)
非母語語言學(xué)習(xí)成為目前教育領(lǐng)域的一個(gè)熱點(diǎn),而自學(xué)是語言學(xué)習(xí)的一個(gè)有效途徑,它具有不受時(shí)間和空間限制、靈活方便的特點(diǎn),一種稱為計(jì)算機(jī)輔助語言學(xué)習(xí)的技術(shù)誕生了。有幾個(gè)普通問題和關(guān)鍵技術(shù)是必須要考慮和解決的:標(biāo)準(zhǔn)發(fā)音語料庫和非標(biāo)準(zhǔn)發(fā)音語料庫、學(xué)習(xí)者發(fā)音的分級(jí)標(biāo)準(zhǔn)、語音對(duì)齊、衡量發(fā)音質(zhì)量的評(píng)判標(biāo)準(zhǔn)和發(fā)音矯正。
3)基于俄語語音情感處理
人與人的交流,除了語言信息外,非語言信息也起著非常重要的作用,包含在語音信號(hào)中的情感因素[18],也反映了信息的一個(gè)方面。情感的分析和識(shí)別也是一個(gè)非常困難的研究方向。
4)嵌入式俄語語音識(shí)別技術(shù)
后PC時(shí)代智能終端的飛速發(fā)展,為人機(jī)之間的自然、快捷交互提供了可能。當(dāng)前嵌入式語音識(shí)別的應(yīng)用領(lǐng)域還比較有限,未來應(yīng)用可能會(huì)更加廣泛。
4 總結(jié)
語音識(shí)別技術(shù)的實(shí)用研究是一項(xiàng)極具挑戰(zhàn)性的工作,雖然經(jīng)歷了近半個(gè)世紀(jì)的發(fā)展,取得了一些突破性的進(jìn)展。語音識(shí)別技術(shù)在俄語方面的應(yīng)用更是如此,不僅要解決語音識(shí)別技術(shù)本身的問題,還要解決高質(zhì)量的俄語語音語料庫和文本語料庫的問題,同時(shí)還要解決各種算法與俄語適應(yīng)和匹配等其他問題,如俄語自然語言的識(shí)別與理解、俄語語音信息的變化范圍與幅度、俄語語音的清晰度、俄語語音發(fā)音與環(huán)境噪聲及上下文的影響等等。雖然面臨諸多困難,但是隨著人類文明的不斷發(fā)展與科技的不斷進(jìn)步,相信這些問題會(huì)在不久的將來逐一得到解決,展現(xiàn)在人們面前的是更加流暢、更加智能的人機(jī)交互界面。
參考文獻(xiàn)
[1] 趙力.語音信號(hào)處理 [M].北京:機(jī)械工業(yè)出版社,2011:191-215.
[2] 韓紀(jì)慶,張磊,鄭鐵然.語音信號(hào)處理[M].北京:清華大學(xué)出版社,2013:241-255.
[3] Karpov,K. Markov,I. Kipyatkova, et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication,2014,56(1):213-228.
[4] Alex Waibel,ToshiyukiHanazawa,Geoffrey Hinton, et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1989,37(3):328-339.
[5] KH Davis,RBiddulph,SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637-642.
[6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE, 1989, 77(2):257-286.
[7] Leonard E Baum,JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc, 1967, 73(3):360-363.
[8] Leonard E Baum,TedPetrie,GeorgeSoules, et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics,1970(1):164-171.
[9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities, 1972, 3(1):1-8.
[10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект,2006(3):548-557.
[11] ВВ Савченко,ДЮ Акатьев,НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника,2007(4):35-42.
[12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.CРадиоэлектроника,2011(3):9-19.
[13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.CРадиоэ лектроника,2008(4):3-11.
[14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков, 2007(1):65.
[15] ВЯ Чучупал,КА Маковкин,АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект,2002,4(1):575-579.
篇9
1.1 項(xiàng)目背景
目前,固網(wǎng)用戶撥打電話,必須先查出被叫的號(hào)碼,并按鍵進(jìn)行撥叫。而隨著通信業(yè)的發(fā)展,要記的電話號(hào)碼越來越多,而目前大部分的固定電話都沒有號(hào)碼存儲(chǔ)的功能,所以很多時(shí)候使用固話打電話時(shí),要么從手機(jī)上查找被叫的電話,或者是從紙制電話簿去查找,既不方便,又浪費(fèi)時(shí)間。
“語音電話本”完全可以幫助用戶解決以上問題,用戶只需撥打一個(gè)號(hào)碼接入系統(tǒng)平臺(tái),說出聯(lián)系人的姓名,系統(tǒng)就可以自動(dòng)將話路轉(zhuǎn)到該人的電話上。整個(gè)過程通過自然的語音方式交互,即感到親切自然方便快捷,又節(jié)省時(shí)間,提高工作效率。
從服務(wù)管理的角度來看,隨著信息通信客服業(yè)務(wù)受理的不斷發(fā)展,座席客服話務(wù)量越來越多,用戶對(duì)服務(wù)的質(zhì)量要求也越來越高,傳統(tǒng)客服系統(tǒng)在傳統(tǒng)語音信息處理上的局限性制約了系統(tǒng)服務(wù)和管理能力的提升。
服務(wù)方面,由于業(yè)務(wù)的多樣性和復(fù)雜性帶來的海量數(shù)據(jù)信息不能得到快速、有效的關(guān)聯(lián)處理而產(chǎn)生的問題,影響了客戶服務(wù)體驗(yàn)。
運(yùn)營(yíng)管理方面,雇傭人工座席每天接聽大量的信息查詢電話,座席業(yè)務(wù)人員的更替帶來的培訓(xùn),消耗了部分運(yùn)維成本,影響了服務(wù)質(zhì)量。
1.2 建設(shè)目標(biāo)
本項(xiàng)目通過研究智能語音技術(shù)在國(guó)網(wǎng)遼寧公司信息通信客服系統(tǒng)中的應(yīng)用,將語音識(shí)別及客服查號(hào)業(yè)務(wù)相結(jié)合,使用先進(jìn)的語音識(shí)別技術(shù)來代替繁重的人工勞動(dòng),提高省公司內(nèi)部溝通的效率。目前,語音電話本技術(shù)實(shí)現(xiàn)主要包含:ASR 、TTS 、IVR 三項(xiàng)技術(shù),其中TTS和IVR技術(shù)對(duì)于語音電話本業(yè)務(wù)來說已經(jīng)非常成熟。
ASR語音識(shí)別技術(shù)近年來發(fā)展十分迅速,其應(yīng)用也逐步得到推廣,佳都新太也一直開發(fā)、調(diào)試、應(yīng)用這項(xiàng)重要的語音技術(shù),自2001年以來佳都新太先后在廣西、天津、廣東、河北、湖北、江蘇、遼寧等省的多個(gè)項(xiàng)目中使用了ASR 自動(dòng)語音識(shí)別系統(tǒng),佳都新太通過對(duì)ASR測(cè)試、改進(jìn),自動(dòng)語音識(shí)別率達(dá)到95%以上。
語音電話本業(yè)務(wù)可以說是CTI平臺(tái)上的典型應(yīng)用,佳都新太把ASR語音自動(dòng)識(shí)別技術(shù)、TTS語音合成技術(shù)與CTI 的IVR技術(shù)三者融合為一體,為語音電話本業(yè)務(wù)的技術(shù)實(shí)現(xiàn)提供了可靠的保障。
本項(xiàng)目可以達(dá)到目標(biāo):
1.2.1 對(duì)語音信息的自動(dòng)化處理
通過建立具備智能語音分析能力的語音識(shí)別平臺(tái),實(shí)現(xiàn)對(duì)用戶查號(hào)業(yè)務(wù)的語音實(shí)時(shí)識(shí)別及關(guān)聯(lián)處理,同時(shí)實(shí)現(xiàn)對(duì)語音文件的統(tǒng)一分析,提供支撐客服業(yè)務(wù)受理的有效工具。
1.2.2 文件分析處理
通過語音分析引擎對(duì)送入的語音進(jìn)行文字轉(zhuǎn)寫、維度結(jié)合后生成索引文件,這些結(jié)構(gòu)化的索引文件中包含了語音中的所有信息。索引文件存儲(chǔ)到數(shù)據(jù)倉庫中,通過對(duì)有效的海量錄音文件、音頻文件進(jìn)行分析處理。
1.2.3 實(shí)現(xiàn)自助查號(hào)功能
通過實(shí)現(xiàn)語音中的知識(shí)挖掘和語音文件的快速檢索,實(shí)現(xiàn)自動(dòng)語音查號(hào)功能。
2 項(xiàng)目技術(shù)方案
2.1 項(xiàng)目設(shè)計(jì)原則
本次項(xiàng)目是對(duì)省公司固定電話語音自動(dòng)查號(hào)系統(tǒng)的功能完善,使用先進(jìn)的語音識(shí)別技術(shù)來代替繁重的人工勞動(dòng),提高省公司內(nèi)部溝通的效率。
本次項(xiàng)目的關(guān)鍵點(diǎn)和技術(shù)難點(diǎn)在于語音識(shí)別,因此在方案設(shè)計(jì)過程中我們著重考慮了這個(gè)問題,選用了國(guó)內(nèi)領(lǐng)先的智能語音技術(shù)來作為語音識(shí)別引擎,結(jié)合座席客服系統(tǒng)的需求提供定制化專業(yè)服務(wù)。
2.2 整體架構(gòu)設(shè)計(jì)
如圖1,用戶通過撥打查號(hào)服務(wù)電話,系統(tǒng)為用戶播放自動(dòng)語音并引導(dǎo)用戶按鍵選擇功能和需要查號(hào)的人名,系統(tǒng)根據(jù)語音分析出內(nèi)容,并在數(shù)據(jù)庫中查詢對(duì)應(yīng)的號(hào)碼,系統(tǒng)將查到的號(hào)碼以自動(dòng)語音方式播報(bào)給用戶。
系統(tǒng)部署需新增接入網(wǎng)關(guān)1臺(tái),用于與電力內(nèi)部電話程控交換機(jī)對(duì)接,實(shí)現(xiàn)平臺(tái)電話呼入呼出。采用電信級(jí)語音接入網(wǎng)關(guān)Dialogic DMG2030,接入規(guī)模1E1(即30路通話),PRI信令,通過電路中繼上聯(lián)到遼寧電力內(nèi)部程控交換機(jī)。遼寧電力內(nèi)部程控交換系統(tǒng)為語音電話本系統(tǒng)分配一個(gè)內(nèi)部接入服務(wù)號(hào)碼和一個(gè)外部接入服務(wù)號(hào)碼。同時(shí)網(wǎng)關(guān)接入虛擬資源池虛機(jī)網(wǎng)絡(luò)。
新增虛擬資源池虛機(jī)1臺(tái),用于部署媒體處理軟件、CTI平臺(tái)、語音電話本業(yè)務(wù)應(yīng)用軟件、科大訊飛ASR軟件和TTS軟件、Oracle數(shù)據(jù)庫。
新增核心網(wǎng)絡(luò)交換機(jī)1臺(tái),用于系統(tǒng)組網(wǎng)。
2.3 系統(tǒng)邏輯結(jié)構(gòu)
IVR與TTS、ASR通過語音引擎實(shí)現(xiàn)整個(gè)語音交互過程的自動(dòng)識(shí)別、自動(dòng)播放功能。系統(tǒng)采用B/S結(jié)構(gòu),方便用戶對(duì)電話本的修改,也便于各營(yíng)業(yè)網(wǎng)點(diǎn)的開戶、受理以及對(duì)用戶的電話本進(jìn)行維護(hù)等。整個(gè)系統(tǒng)采用模塊化結(jié)構(gòu),具有很高的可靠性和可擴(kuò)充性。
邏輯結(jié)構(gòu)見圖2。
2.4 系統(tǒng)建設(shè)方案
新建“語音電話本”業(yè)務(wù)平臺(tái),其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖3所示。
設(shè)備組成說明:
系統(tǒng)平臺(tái)需要以下設(shè)備:
(1)IPS數(shù)字排隊(duì)機(jī);
(2)信令網(wǎng)關(guān)節(jié)點(diǎn);
(3)數(shù)據(jù)庫服務(wù)器: 實(shí)現(xiàn)用戶數(shù)據(jù)的存儲(chǔ)和系統(tǒng)認(rèn)證等功能;
(4)TTS服務(wù)器: 通過IPS平臺(tái)的MS模塊來實(shí)現(xiàn)資源調(diào)用;
(5)ASR服務(wù)器:通過IPS平臺(tái)的MS模塊來實(shí)現(xiàn)資源調(diào)用;
(6)WEB服務(wù)器:實(shí)現(xiàn)用戶通過互聯(lián)網(wǎng)對(duì)電話簿的維護(hù)管理功能;
(7)業(yè)務(wù)處理服務(wù)器:用于處理個(gè)人語音電話本業(yè)務(wù)流程;
(8)管理維護(hù)節(jié)點(diǎn);
(9)路由器和防火墻等網(wǎng)絡(luò)設(shè)備;
2.5 配置計(jì)算依據(jù)
2.5.1 中繼和語音的配置比例
語音電話本業(yè)務(wù),用戶報(bào)出要找的人的姓名后,ASR進(jìn)行識(shí)別,系統(tǒng)根據(jù)ASR識(shí)別出的名字,找出對(duì)應(yīng)的電話號(hào)碼并進(jìn)行外呼,被叫接通后,主被叫進(jìn)行通話的過程中,語音資源即可釋放。整個(gè)業(yè)務(wù)實(shí)現(xiàn)和呼叫卡類業(yè)務(wù)的資源配置非常相似,根據(jù)200業(yè)務(wù)的實(shí)際運(yùn)行經(jīng)驗(yàn)數(shù)據(jù),建議中繼和語音的比例為4:1。
2.5.2 中繼和ASR的配置比例
在一個(gè)呼叫的過程中,用戶說出要找人的姓名,ASR資源進(jìn)行識(shí)別,在識(shí)別完成系統(tǒng)呼通被叫后,ASR資源釋放,主被叫雙方進(jìn)行通話,按平均呼叫時(shí)長(zhǎng)為150秒,其中ASR識(shí)別的時(shí)間大概為30秒,而在一次通話中占用一入一出兩個(gè)通道,按上面的估算數(shù)據(jù),中繼和ASR的配比大約為 2×150/30=10:1。
2.5.3 中繼容量和所能支持的用戶數(shù)的比例
假設(shè)一些呼叫參數(shù)如下:
系統(tǒng)中繼容量A
用戶數(shù) B
每用戶每天使用次數(shù)C:8次
每次呼叫時(shí)長(zhǎng)D:150秒
忙時(shí)集中系統(tǒng)E:10%
忙時(shí)中繼Erl數(shù)F:0.8
根據(jù)公式:A=B*C*D*E/F/3600
則 A:B=8×150×10%/0.8/3600=1:24
因?yàn)檎Z音電話本業(yè)務(wù)每次呼叫要占用一入一出兩個(gè)端口,所以中繼容量和所支持的用戶數(shù)的比例約為1:10。
2.5.4 數(shù)據(jù)庫處理能力計(jì)算
忙時(shí)TPMC=(忙時(shí)呼叫次數(shù)×(平均每次呼叫數(shù)據(jù)庫訪問次數(shù)+其他應(yīng)用模塊平均每次呼叫事務(wù)訪問處理次數(shù)))/60
按4.3.3假設(shè)的數(shù)據(jù),當(dāng)使用語音電話本的用戶數(shù)為10,000用戶時(shí),系統(tǒng)的忙時(shí)呼叫次數(shù)為 10000×8×10%=8000次/小時(shí)
按每次呼叫對(duì)數(shù)據(jù)庫的訪問操作次數(shù)為10次來計(jì)算,則10,000用戶時(shí),對(duì)數(shù)據(jù)庫的TPMC值的要求為:
TPMC=8000×10/60=1333
2.6 業(yè)務(wù)系統(tǒng)功能
2.6.1 業(yè)務(wù)流程(如圖4)
2.6.2 聲控?fù)芴?hào)
用戶使用綁定電話撥打接入號(hào)碼“***”進(jìn)入系統(tǒng)后,系統(tǒng)直接會(huì)提示用戶報(bào)出用戶想找的人的姓名,并進(jìn)行呼叫。
(1)“聯(lián)系人名字” 選中默認(rèn)呼叫號(hào)碼:
(2)用戶撥打“語音電話本”服務(wù)號(hào)碼;
(3)說出對(duì)方姓名,如:張三;
(4)系統(tǒng)識(shí)別語音,查詢對(duì)應(yīng)的默認(rèn)電話號(hào)碼;
(5)系統(tǒng)通過語音播報(bào)查詢到的電話號(hào)碼。
(6)“聯(lián)系人名字+電話類型” 精確查詢:
(7)用戶撥打“語音電話本”服務(wù)號(hào)碼;
(8)說出對(duì)方姓名+電話類型,如:張三 手機(jī);
(9)系統(tǒng)識(shí)別語音,查詢對(duì)應(yīng)的電話類型的號(hào)碼;
系統(tǒng)通過語音播報(bào)查詢到的電話號(hào)碼。用戶通過綁定電話使用語音電話本業(yè)務(wù)流程如圖5所示。
用戶使用非綁定電話使用語音電話本業(yè)務(wù)時(shí),必須先通過輸入帳號(hào)和密碼,經(jīng)過系統(tǒng)鑒權(quán)后才能使用。
2.6.3 原始通訊錄的錄入
語音電話業(yè)務(wù)開展的一個(gè)關(guān)鍵問題,就是用戶申請(qǐng)?jiān)摌I(yè)務(wù)后首批通訊錄的錄入問題,首批通訊錄相對(duì)來說量比較大,錄入的方式建議采用營(yíng)業(yè)廳前臺(tái)填表錄入、通過WEB錄入的方式,也可以采用電話、傳真、信函的方式進(jìn)行錄入。在首批通訊錄錄入后,用戶在使用過程中做一些號(hào)碼本的修改和維護(hù),維護(hù)量都比較小,可以通過WEB方式、電話、短消息、傳真等多種方式進(jìn)行修改。
批量導(dǎo)入電話本:
通過Excel文件導(dǎo)入企業(yè)通訊錄,可以參考如表1格式。
可以根據(jù)實(shí)際需求增加其他列。
2.6.4 電話本維護(hù)(Web)
系統(tǒng)提供后臺(tái)管理界面,管理員登錄后臺(tái)對(duì)電話本進(jìn)行管理,如圖6。
個(gè)人電話本資料可通過Web、人工坐席、電話、傳真、短消息等多種方式進(jìn)行電話本資料的維護(hù)管理,包括修改用戶密碼等。
業(yè)務(wù)流程如圖7所示。
“增加、刪除、修改”用戶記錄:
系統(tǒng)提供對(duì)單個(gè)記錄的“增加”、“刪除”、“修改”功能,方便對(duì)電話本進(jìn)行靈活管理。
2.6.5 多個(gè)號(hào)碼優(yōu)先呼功能
當(dāng)用戶錄入的某個(gè)聯(lián)系人有多個(gè)通訊號(hào)碼時(shí),如有手機(jī)、小靈通、固定電話,可以把這些號(hào)碼都錄入在系統(tǒng)中,在呼叫時(shí),用戶可以自行設(shè)置優(yōu)先呼叫的號(hào)碼,在號(hào)碼不通時(shí)再按設(shè)置的優(yōu)先策略逐一呼叫被叫其他的聯(lián)系方式。
2.6.6 信息查詢(Web)
系統(tǒng)提供電話本查詢界面給座席和管理員使用。
座席和管理員可根據(jù)聯(lián)系人姓名,查詢聯(lián)系人對(duì)應(yīng)的所有電話信息。
該功能主要在座席提供人工服務(wù)時(shí)使用。
3 技術(shù)創(chuàng)新點(diǎn)
本次項(xiàng)目采用國(guó)內(nèi)領(lǐng)先的智能語音識(shí)別技術(shù)(ASR)結(jié)合客服后臺(tái)定制化查詢需求,在滿足用戶傳統(tǒng)的查詢基礎(chǔ)上,語音定制化為用戶報(bào)出相關(guān)信息,由用戶按鍵選擇即可,大大方便了用戶的操作和客服的工作時(shí)間。
4 總體性能指標(biāo)
通過研究智能語音技術(shù)在信息通信客服系統(tǒng)中的應(yīng)用,實(shí)現(xiàn)客服查號(hào)業(yè)務(wù)的自能化,實(shí)現(xiàn)語音的自動(dòng)識(shí)別及數(shù)據(jù)分析,減少人工運(yùn)維成本,提高客服服務(wù)質(zhì)量及服務(wù)效率。
5 技術(shù)展望
篇10
隨著科技的發(fā)展,語音交互逐步走了進(jìn)人們的生活中。例如蘋果手機(jī)中Siri和Win10系統(tǒng)中小娜都已被人們所熟悉,小米語音識(shí)別遙控器也給智能家居帶來新體驗(yàn)。考慮到智能語音識(shí)別技術(shù)在未來科技和生活中的普及是必然,我國(guó)在上世紀(jì)末期已開展對(duì)其的研究。因此,將非特定性語音識(shí)別技術(shù)運(yùn)用到智能家居中,并以語音控制方式進(jìn)行控制家具電器設(shè)備,為人們的生活帶來了很大的便捷[1]。
1 語音識(shí)別系統(tǒng)簡(jiǎn)介
語音識(shí)別技術(shù)其任務(wù)是將人類的聲音轉(zhuǎn)換成計(jì)算機(jī)可識(shí)別的信息。語音識(shí)別技術(shù)過程為:語音信號(hào)采集、預(yù)處理、特征信號(hào)提取、根據(jù)庫模板測(cè)度估計(jì)、語音識(shí)別、語音輸出[1]。
語音識(shí)別技術(shù)有兩方面的應(yīng)用[2]:一是連續(xù)語音大詞匯語音識(shí)別系統(tǒng),應(yīng)用于聽寫機(jī)及語言信息查詢服務(wù)系統(tǒng);二是體積小、方便攜帶的語音設(shè)備,如智能手機(jī)、玩具、家電遙控器等。
語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高級(jí)技術(shù)[3]。語音識(shí)別技術(shù)過程為:語音信號(hào)采集、預(yù)處理、特征信號(hào)提取、根據(jù)庫模板測(cè)度估計(jì)、語音識(shí)別、語音輸出。
2 系統(tǒng)主要硬件組成
2.1 語音識(shí)別系統(tǒng)的硬件總體設(shè)計(jì)
本系統(tǒng)包括語音信號(hào)采集模塊、語音信號(hào)調(diào)理模塊、單片機(jī)控制模塊、語音識(shí)別模塊、液晶顯示模塊、控制執(zhí)行模塊等[1]。
語音信號(hào)調(diào)理模塊包括自動(dòng)調(diào)整增益電路和帶通濾波電路。語音信號(hào)強(qiáng)度會(huì)隨傳播距離的增加成指數(shù)下降,為了防止近距離出現(xiàn)飽和限幅現(xiàn)象,因此采用自動(dòng)調(diào)整增益電路[1]。人類的語音信號(hào)主要分布在300Hz-3.4KHz,帶通濾波電路可以有效地防止造成干擾,提高識(shí)別效率[1]。
2.2 單片機(jī)控制模塊電路設(shè)計(jì)
市面上可用于語音識(shí)別的單片機(jī)多種多樣,文章所用的是HR7P194單片機(jī)。HR7P194單片機(jī)具有單時(shí)鐘周期短、運(yùn)行速度快、性能穩(wěn)定的特性,采用哈弗型RISC,66條精簡(jiǎn)指令集,工作頻率最高16MHz,支持硬件除法器,支持17個(gè)中斷處理,具有8KB Flash程序儲(chǔ)存器、496字節(jié)的SRAM、1路8位定時(shí)器T8N、3路8位PWM時(shí)基定時(shí)器T8P1/T8P2/T8P3、1路16位門控定時(shí)器T16G、10位模擬數(shù)字轉(zhuǎn)換器ADC、液晶顯示控制器LCDC、41根I/O口線以及1個(gè)全雙工異步串行口和1路IIC總線主控器IICM等。
HR7P194單片機(jī)控制模塊最小工作系統(tǒng)電路如圖1所示。
2.3 語音識(shí)別模塊
以LD3320為核心的語音識(shí)別技術(shù)有語音識(shí)別和聲音控制方面的優(yōu)勢(shì),其優(yōu)點(diǎn)是在不需要存儲(chǔ)器及模數(shù)轉(zhuǎn)換器的情況下,由HR7P194進(jìn)行獨(dú)立控制;此外LD3320是一款自定義關(guān)鍵詞進(jìn)行識(shí)別的芯片,用戶語音操作便捷。
2.4 液晶顯示系統(tǒng)
相較于其他顯示方式液晶顯示具有顯示便捷、功耗小、使用壽命長(zhǎng)的優(yōu)勢(shì)[4],基于液晶顯示的優(yōu)點(diǎn)文章采用LCD128*64液晶顯示屏。LCD128*64這種通用模塊其優(yōu)點(diǎn)主要在能夠顯示文字、數(shù)字、字母及圖形。利用該模塊主要顯示語音識(shí)別出的命令、處理器發(fā)出的控制指令及系統(tǒng)狀態(tài),同時(shí)利用其可以顯示圖形的特點(diǎn),可以模擬顯示人的聲音動(dòng)態(tài)波形,科技感更強(qiáng)。
3 系統(tǒng)軟件設(shè)計(jì)
主程序開始先對(duì)包括單片機(jī)在內(nèi)的所有元件進(jìn)行初始化[4],包括單片機(jī)控制模塊初始化、語音識(shí)別模塊初始化、液晶顯示模塊初始化、控制執(zhí)行模塊初始化。初始化之后進(jìn)行語音識(shí)別,通過對(duì)LD3320讀寫芯片的控制,獲取語音命令,根據(jù)識(shí)別情況判斷是否調(diào)用相應(yīng)的子程序并進(jìn)行數(shù)據(jù)處理,最后控制繼電器和液晶顯示。
4 系統(tǒng)測(cè)試
系統(tǒng)硬件實(shí)驗(yàn)平臺(tái)設(shè)計(jì)、組裝調(diào)試好后,通過東軟載波單片機(jī)開發(fā)工具HR10M將程序下載到HR7P194單片機(jī)中。然后分別在一個(gè)沒有噪音室內(nèi)環(huán)境中和具有一定噪音的室外環(huán)境中進(jìn)行語音訓(xùn)練。通過訓(xùn)練后分別在兩種環(huán)境中進(jìn)行測(cè)試:通過5人分別說出“開燈”“關(guān)燈”等命令來進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果為:語音識(shí)別系統(tǒng)對(duì)5種不同的聲音均可良好的識(shí)別并做出相應(yīng)的動(dòng)作,在外界環(huán)境良好的狀況下(無噪音的情況下),識(shí)別效率在92%以上;在具有一定噪音的室外環(huán)境中,識(shí)別效率有所降低,在85%以上。
經(jīng)過長(zhǎng)期、多次測(cè)試結(jié)果表明:本系統(tǒng)能夠識(shí)別語音信息,識(shí)別效率高、性能穩(wěn)定,適合智能家居環(huán)境的語音交互系統(tǒng)。
5 結(jié)束語
文章所構(gòu)建基于HR7P194單片機(jī)和LD3320芯片的智能家居語音識(shí)別系統(tǒng),能夠有效地識(shí)別人的聲音,實(shí)現(xiàn)語音控制電燈開關(guān)、風(fēng)扇轉(zhuǎn)速、電視及熱水器等家用電器,同時(shí)東軟載波單片機(jī)具有非常良好的穩(wěn)定性,在后期產(chǎn)品穩(wěn)定性測(cè)試中發(fā)揮重要作用。
參考文獻(xiàn)
[1]陳濤,高必梵,艾菊梅.語音識(shí)別技術(shù)在智能家居控制系統(tǒng)中的應(yīng)用研究[J].電子質(zhì)量,2015(3):1-3.
篇11
語音識(shí)別的研究工作始于20世紀(jì)50年代,1952年Bell實(shí)驗(yàn)室開發(fā)的Audry系統(tǒng)是第一個(gè)可以識(shí)別10個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。隱馬爾可夫模型是20世紀(jì)70年代引入語音識(shí)別理論的,它的出現(xiàn)使得自然語音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。目前大多數(shù)連續(xù)語音的非特定人語音識(shí)別系統(tǒng)都是基于HMM模型的。[1]
一般來說,語音識(shí)別的方法有三種:基于聲道模型和語音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。語音識(shí)別一個(gè)根本的問題是合理的選用特征。特征參數(shù)提取的目的是對(duì)語音信號(hào)進(jìn)行分析處理,去掉與語音識(shí)別無關(guān)的冗余信息,獲得影響語音識(shí)別的重要信息,同時(shí)對(duì)語音信號(hào)進(jìn)行壓縮。非特定人語音識(shí)別系統(tǒng)一般側(cè)重提取反映語義的特征參數(shù),盡量去除說話人的個(gè)人信息;而特定人語音識(shí)別系統(tǒng)則希望在提取反映語義的特征參數(shù)的同時(shí),盡量也包含說話人的個(gè)人信息。
而隨著時(shí)頻技術(shù)的研究發(fā)展,使人們?cè)谶M(jìn)行信號(hào)處理時(shí),可以將語音信號(hào)分解在一組完備的正交基上。從而,語音信號(hào)的能量在分解以后將分散分布在不同的基上。但是,語音信號(hào)是一種典型的非平穩(wěn)信號(hào),其性質(zhì)隨時(shí)間快速變化,在兩個(gè)不同的時(shí)間瞬間,在同一個(gè)頻率鄰域內(nèi),信號(hào)可以有完全不同的能量分布。因此,有必要找到一種精確表示語音信號(hào)時(shí)頻結(jié)構(gòu),便于特征提取的方法。[2]
立足于此,本文提出,通過平移窗口,用余弦基乘以窗口函數(shù),構(gòu)造出局部余弦基,分離不同時(shí)間區(qū)間,很適合于逼近語音信號(hào)。本文使用這種具有活動(dòng)窗口特性的局部余弦基表示語音信號(hào)。為了減少計(jì)算量,并進(jìn)一步提高局部余弦基原子時(shí)頻分布的分辨率,采用匹配追蹤(MP)算法分解信號(hào),并結(jié)合時(shí)頻分析技術(shù)得到最優(yōu)局部余弦基原子的魏格納-維利分布(WVD)[2],從而得到信號(hào)精確的時(shí)頻結(jié)構(gòu)[3],進(jìn)行特征提取。此外,結(jié)合語音信號(hào)的美爾頻率倒譜系數(shù)(MFCC)一起作為該信號(hào)的特征向量,通過隱馬爾科夫(HMM)模型進(jìn)行識(shí)別。實(shí)驗(yàn)證明。這種多參數(shù)語音識(shí)別算法提高了識(shí)別的準(zhǔn)確度和速度。
2.局部余弦基建模
通過光滑地劃分時(shí)間序列為任意長(zhǎng)度的子區(qū)間(如圖1),可使每一個(gè)時(shí)間段分別由重疊正交基表示,而整個(gè)時(shí)間序列的基函數(shù)又構(gòu)成時(shí)頻平面的正交鋪疊,因此局部余弦變換對(duì)在不同時(shí)間段有不同的波形的語音信號(hào)有很強(qiáng)的針對(duì)性。
圖1 重疊窗口劃分時(shí)間軸
Figure1 lapped window divides time axis
圖1中為重疊窗口函數(shù)[3]:
(1)
式中為單調(diào)遞增的輪廓函數(shù),定義為[3]:
(2)
局部余弦函數(shù)族構(gòu)成了實(shí)數(shù)軸上平方可積函數(shù)空間的規(guī)范正交基:
(3)
式中為窗口支集伸縮參數(shù);為第P段時(shí)間起點(diǎn);n()表示正交基序列號(hào)。
語音信號(hào)可表示為:
(4)
是余弦基原子,。其中是窗口支集邊界參數(shù),為窗口支集伸縮參數(shù),是輪廓函數(shù)的尺度參數(shù),這保證了窗口支集只與相鄰的具有適當(dāng)對(duì)稱性的窗口重合,達(dá)到局部余弦基精確覆蓋整個(gè)時(shí)頻平面的目的。
3.匹配追蹤法選取最佳基
由Mallat和Zhang引入的匹配追蹤算法運(yùn)用貪婪技巧減少了計(jì)算的復(fù)雜性。它從局部余弦基構(gòu)成的冗余字典中一個(gè)一個(gè)挑選向量,每一步都使信號(hào)的逼近更為優(yōu)化。
MP算法將信號(hào)分解成一簇時(shí)頻原子的線性表達(dá),這些原子選自高冗余度的函數(shù)字典中,且最好地符合內(nèi)在結(jié)構(gòu)。假設(shè)函數(shù)集是Hilbert空間中一個(gè)完備字典,滿足,最優(yōu)的M階近似為:
(5)
設(shè)由M個(gè)時(shí)頻函數(shù)近似的信號(hào)與的誤差最小,表達(dá)式如下:
(6)
其中代表所選函數(shù)的索引。
首先按照某個(gè)選擇函數(shù)(與的內(nèi)積最大)逐個(gè)挑選出時(shí)頻函數(shù),分解為:,設(shè)初始輸入信號(hào)為初始?xì)埐钚盘?hào),表示f(t)在方向上近似后的冗余部分。
假設(shè)已有表示經(jīng)過前M-1次迭代后,中未表達(dá)部分:選定為最匹配的時(shí)頻函數(shù),按如下公式分解為:
(7)
由于每步中與正交,如果字典是完備的,則迭代收斂于f,滿足:
(8)
這樣,可估算出(4)式中局部余弦基原子的參數(shù)。
文獻(xiàn)[4]中提出,選出最匹配信號(hào)的基,對(duì)每一個(gè)基求出其WVD分布,信號(hào)的WVD分布就表示其最優(yōu)基的WVD的線性組合,這樣就消除了交叉項(xiàng)的影響。由此得到的WVD分布:
(9)
是局部余弦基字典中被選中的最優(yōu)基的WVD分布。將等式左邊第二項(xiàng)交叉項(xiàng)組合去除,這樣在時(shí)頻面上就得到了干凈的時(shí)頻表示:
(10)
在語音信號(hào)稀疏分解過程中,每步分解都要從過完備原子庫中選出與待分解語音信號(hào)或語音信號(hào)分解殘余最為匹配的原子,原子是由參數(shù)公式(4)決定的。因此語音信號(hào)稀疏分解所得原子的參數(shù)可作為語音信號(hào)的特征。此外,根據(jù)公式(10),使用匹配追蹤法選取的最佳基的WVD分布,含有該語音信號(hào)重要且獨(dú)特的信息,也可作為該語音信號(hào)的特征。
4.基于HMM的語音識(shí)別算法
特征提取基于語音幀,即將語音信號(hào)分為有重疊的若干幀,對(duì)每一幀提取一次語音特片。由于語音特征的短時(shí)平穩(wěn)性,幀長(zhǎng)一般選取20ms左右。在分幀時(shí),前一幀和后一幀的一部分是重疊的,用來體現(xiàn)相鄰兩幀數(shù)據(jù)之間的相關(guān)性,通常幀移為幀長(zhǎng)1/2。本文為了方便做MP,采用的幀長(zhǎng)為512點(diǎn)(32ms),幀移為256點(diǎn)(16ms)。特征的選擇需要綜合考慮存儲(chǔ)量的限制和識(shí)別性能的要求。通常的語音識(shí)別系統(tǒng)使用24維特征矢量,包括12維MFCC和12維一階差分MFCC。本文提出的多參數(shù)語音識(shí)別算法,在此基礎(chǔ)上增加了原子參數(shù)公式(4)和最佳基的WVD分布公式(10),這兩維特征,構(gòu)成26維特征矢量。對(duì)MFCC和語音信號(hào)能量的WVD分布分別使用了倒譜均值減CMS(Ceps-trum Mean Subtraction)和能量歸一化ENM(Energy Normalization)的處理方法提高特征的穩(wěn)健性[5]。
在HMM模型中,首先定義了一系列有限的狀態(tài)S1,…,SN,系統(tǒng)在每一個(gè)離散時(shí)刻n只能處在這些狀態(tài)當(dāng)中的某一個(gè)Xn。在時(shí)間起點(diǎn)n=0時(shí)刻,系統(tǒng)依初始概率矢量π處在某一個(gè)狀態(tài)中,即:
(11)
以后的每一個(gè)時(shí)刻n,系統(tǒng)所處的狀態(tài)Xn僅與前一時(shí)刻系統(tǒng)的狀態(tài)有關(guān),并且依轉(zhuǎn)移概率矩陣A跳轉(zhuǎn),即:
(12)
且滿足:
(13)
系統(tǒng)在任何時(shí)刻n所處的狀態(tài)Xn隱藏在系統(tǒng)內(nèi)部,并不為外界所見,外界只能得到系統(tǒng)在該狀態(tài)下提供的一個(gè)Rq空間隨機(jī)觀察矢量On。On的分布P稱為輸出概率矩陣,只取決于On所處狀態(tài):
(14)
因?yàn)樵撓到y(tǒng)的狀態(tài)不為外界所見,因此稱之為“隱含馬爾科夫模型”,簡(jiǎn)稱HMM。在識(shí)別中使用的隨機(jī)觀察矢量就是從信號(hào)中提取的特征矢量。按照隨機(jī)矢量Qn的概率分布形時(shí),其概率密度函數(shù)一般使用混合高斯分布擬合。
(15)
其中,M為使用的混合高斯分布的階數(shù);Cm為各階高斯分布的加權(quán)系數(shù)。此時(shí)的HMM模型為連續(xù)HMM模型(Continuous density HMM),簡(jiǎn)稱CHMM模型[6]。在本識(shí)別系統(tǒng)中,采用孤立詞模型,每個(gè)詞條7個(gè)狀態(tài),同時(shí)包括首尾各一個(gè)靜音狀態(tài);每個(gè)狀態(tài)使用3階混合高斯分布擬合。
5.仿真實(shí)驗(yàn)
5.1 提取最佳基的WVD分布特征矢量
構(gòu)建局部余弦基字典,使用MP算法選取語音信號(hào)“A”的最佳基。如圖2所示。得到的時(shí)頻圖既保留了余弦基原子高時(shí)頻聚集性的優(yōu)點(diǎn),又削弱了WVD作為二次型時(shí)頻表示所固有的交叉項(xiàng)的影響,得到了干凈的時(shí)頻面。其結(jié)果更精確的反映出語音信號(hào)在頻率、音強(qiáng)方面的特征,具有良好的時(shí)頻聚集性。
圖2 “A“信號(hào)的WVD分布
Figure2 WVD of“A”
5.2 孤立詞識(shí)別
在語音識(shí)別實(shí)驗(yàn)中,采用信號(hào)長(zhǎng)度為1024的200個(gè)實(shí)際語音信號(hào)樣本,其中100個(gè)用于訓(xùn)練,100個(gè)用于測(cè)試。該實(shí)驗(yàn)用以識(shí)別出語音信號(hào)”A”。實(shí)驗(yàn)利用WaveCN2.0錄音系統(tǒng)進(jìn)行樣本采集,采樣率為8kHz。得到語音信號(hào)的有效部分后,提取樣本信號(hào)的MFCC參數(shù)作為語音信號(hào)的特征參數(shù)之一。Mel濾波器的階數(shù)為24,fft變換的長(zhǎng)度為256,采樣頻率為8kHz。MFCC的相關(guān)波形見圖3。
圖3 “A“信號(hào)的MFCC波形
Figure3 MFCC Waveform of“A”
然后利用MP算法將樣本信號(hào)分解為300個(gè)原子,將所得原子的參數(shù)和最佳基的WVD分布,作為該語音信號(hào)的特征參數(shù)之二。見圖2。通過HMM進(jìn)行識(shí)別。
在實(shí)驗(yàn)中,設(shè)語音”A”類值為1,其他的語音類值為-1。HMM模型的狀態(tài)數(shù)為7,高斯混合數(shù)為3。由第4節(jié)HMM訓(xùn)練的定義可知,重估過程中的輸出概率是隨著重估次數(shù)的遞增而增加的,圖4列出了“A”模型訓(xùn)練期間重估次數(shù)與總和輸出概率的log值之間的關(guān)系。由圖可以看出,“A”模型重估20次算法收斂,并且,輸出概率與重估次數(shù)成正比趨勢(shì)。
圖4 重估次數(shù)與總和輸出概率
Figure4 Iterations of EM and output like lihood
對(duì)語音進(jìn)行上述HMM訓(xùn)練之后,將其模型參數(shù)存貯,獲得了識(shí)別的HMM模型庫。在識(shí)別階段,對(duì)100個(gè)測(cè)試用數(shù)據(jù)進(jìn)行語音識(shí)別,以檢驗(yàn)本文系統(tǒng)的識(shí)別效果。如表1所示識(shí)別精度為89%,平均識(shí)別時(shí)間約為1.313秒,實(shí)驗(yàn)結(jié)果表明,系統(tǒng)識(shí)別率和運(yùn)算速度都比較理想。
表1 識(shí)別結(jié)果
語音類型 識(shí)別次數(shù) 識(shí)別結(jié)果 識(shí)別精度
A 其它
A 100 92 8 92%
增加了局部余弦基原子的參數(shù)和最佳基的WVD分布作為特征參數(shù),較單純的使用MFCC作為特征參數(shù)進(jìn)行HMM模型訓(xùn)練,識(shí)別率有一定提高,見表2。
表2 結(jié)果比較
特征參數(shù) 識(shí)別率%
MFCC、和特征參數(shù) 92
MFCC 89.5
6.結(jié)語
本文在傳統(tǒng)基于HMM模型的語音識(shí)別基礎(chǔ)上,通過匹配追蹤算法,提取出最佳基的原子參數(shù)和WVD分布。二者與MFCC一起,作為本文提出的多參數(shù)語音識(shí)別算法的特征向量。然后選擇了大量孤立詞樣本進(jìn)行仿真實(shí)驗(yàn),針對(duì)非特定人孤立詞進(jìn)行語音識(shí)別。結(jié)果表明,基于HMM和匹配追蹤的多參數(shù)語音識(shí)別算法,可提高語音識(shí)別的速度和準(zhǔn)確度,有一定的實(shí)用性。但是,由于算法的復(fù)雜性增加,運(yùn)算量相應(yīng)增大,簡(jiǎn)化算法運(yùn)算量仍是需要深入研究的課題。
參考文獻(xiàn)
[1]何方偉,青木由直.DP動(dòng)態(tài)匹配算法實(shí)現(xiàn)語音的實(shí)時(shí)識(shí)別[J].數(shù)據(jù)采集與處理,vol.4,no.1,Mar,1989.
[2]R.R.Coifman,M.V.Wickerhauser.Entropy-based algorithms for best basis selection[J].IEEE Trans.Info.Theory,38(2):713-718,March 1992.
[3]S Mallat,Z Zhang.Matching Pursuit with Time-Frequency Dictionaries[J].IEEE Trans.Signal Processing,1993,41(12):3397-3415.
篇12
1997年,美國(guó)麻省理工大學(xué)的Picard教授首先提出了情感識(shí)別的概念,隨后美國(guó)麻省理工大學(xué)、美國(guó)洛杉磯南加州大學(xué)、新加坡南陽理工大學(xué)等高校科研機(jī)構(gòu)陸續(xù)并展了情感識(shí)別領(lǐng)域的研究。在國(guó)內(nèi),東南大學(xué)、中科院自動(dòng)化研究所、清華大學(xué)、東南大學(xué)、西北工業(yè)大學(xué)、江蘇大學(xué)等高校和科研機(jī)構(gòu)也都開展了情感識(shí)別方面的研究。
二、語音情感識(shí)別模塊構(gòu)成
語音情感識(shí)別技術(shù)是根據(jù)人在不同情感下的語音信號(hào)非平穩(wěn)性特征等比較明顯的特點(diǎn),通過提取語音的音質(zhì)特征、韻律特征和頻譜特征等聲學(xué)特征來判斷情緒的變化,語音情感識(shí)別模塊大體包括語音采樣、語音預(yù)處理、語音特征提取、語音特征處理、特征識(shí)別、情緒判斷幾個(gè)部分。
首先可設(shè)定采樣的頻率和時(shí)間長(zhǎng)短,對(duì)語音進(jìn)行采樣并進(jìn)行去噪、加窗、分幀等預(yù)處理,然后根據(jù)對(duì)不同情緒判斷的需要分別提取語音的音質(zhì)特征、韻律特征和頻譜特征等聲學(xué)特征如基音頻率、共振峰、Mel頻率倒譜系數(shù)、能量、樣本熵等,再將提取的多種特征通過各種時(shí)頻分析方法進(jìn)行處理,如短時(shí)傅里葉變換(FFT)、希爾伯特變換(Hilbert transform)、經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)等,之后將特征參數(shù)送入相應(yīng)的函數(shù)識(shí)別器(常用的一般為支持向量機(jī)SVM)識(shí)別特征參數(shù)的歸屬范圍,最后根據(jù)多種語音特征融合后的識(shí)別結(jié)果來綜合判斷采樣語音的情感種類。
三、語音情感識(shí)別技術(shù)應(yīng)用的必要性
隨著社會(huì)進(jìn)步和生活水平的改善,客戶對(duì)呼叫中心熱線服務(wù)質(zhì)量的要求也在不斷提高,而呼叫中心主要通過電話與客戶交流,依賴語音獲取信息,與客戶的接觸渠道比較單一,這就需要我們結(jié)合國(guó)內(nèi)外發(fā)展的新形勢(shì)來積極尋求提升服務(wù)質(zhì)量及客戶感知的新方法以應(yīng)對(duì)如下問題。
1 海量錄音抽樣質(zhì)檢的限制性
客服質(zhì)檢人員每天從幾萬條錄音中只抽取幾百或幾十條錄音進(jìn)行質(zhì)檢,錄音抽取范圍一般是客戶做出滿意度參評(píng)或客服代表的專席轉(zhuǎn)接的錄音,無形中限制了錄音質(zhì)檢的范圍,而實(shí)際的問題是錄音可能客戶既沒有參評(píng)、客服代表也未進(jìn)行專席轉(zhuǎn)接,故此很難發(fā)現(xiàn)錄音背后隱藏的客戶實(shí)際問題,錄音質(zhì)檢的目的也會(huì)因此而大打折扣。
2 投訴處理缺少統(tǒng)一的標(biāo)準(zhǔn)
面對(duì)客戶各種不同情況的投訴錄音,不同的投訴處理人員會(huì)有不同的判斷標(biāo)準(zhǔn),繼而會(huì)執(zhí)行不同的處理流程,帶給客戶與客服代表的感知也會(huì)因此而有所差異,對(duì)客戶投訴的判責(zé)依賴于個(gè)人感知的成分較多,缺少說服力和理論依據(jù)。
3 客戶情緒感知的滯后性
若客戶帶著情緒或疑問撥入熱線卻在音調(diào)上故作平靜,客服代表將很難在第一時(shí)間了解客戶的切實(shí)想法和真實(shí)情感,無法對(duì)癥下藥、做出準(zhǔn)確的應(yīng)答,進(jìn)而會(huì)放大客戶的痛苦,激化客戶的不滿情緒,嚴(yán)重影響客戶的感知。
4 客服代表的服務(wù)熱情降低
客服代表常年工作在一線,每天面對(duì)大量不同客戶近乎相同的問題,重復(fù)給出近乎相似的答案,容易產(chǎn)生一定的職業(yè)疲勞,在與客戶的互動(dòng)中會(huì)出現(xiàn)語音語調(diào)平淡的問題,自己本身卻察覺不到,無形中影響了客戶的感知和呼叫中心的服務(wù)質(zhì)量。
四、語音情感識(shí)別的具體應(yīng)用
結(jié)合目前國(guó)內(nèi)外語音情感研究新興領(lǐng)域的語音情感識(shí)別技術(shù),可構(gòu)建語音情感分析模塊,針對(duì)以上提到的幾點(diǎn)問題,實(shí)現(xiàn)在客服代表與客戶人機(jī)交互的過程中的四項(xiàng)重要作用。
1 自動(dòng)將語音篩選分類
語音情感識(shí)別模塊可以將海量的錄音根據(jù)客戶情感的不同區(qū)分成不同的客戶情感錄音庫,質(zhì)檢人員可以根據(jù)質(zhì)檢的需要和目的將分類后的情感錄音庫做為抽檢錄音的來源,再輔以日常常用的抽檢標(biāo)準(zhǔn)進(jìn)行質(zhì)檢,這樣就精簡(jiǎn)了錄音的抽檢范圍,提高了錄音質(zhì)檢的針對(duì)性,增強(qiáng)了質(zhì)檢工作的目的性,更易于發(fā)現(xiàn)實(shí)際存在的問題。
2 投訴校準(zhǔn)
語音情感識(shí)別模塊可以通過采樣客戶的投訴錄音,綜合判斷客戶和客服代表情緒的歸屬類別,為投訴的判責(zé)提供標(biāo)準(zhǔn)和理論依據(jù),進(jìn)而規(guī)范和統(tǒng)一后續(xù)的處理流程,這樣,即使不同的投訴處理人員也會(huì)給客戶和客服代表做出相同的處理結(jié)果,使投訴處理工作更具有說服力。
3 客戶情緒及時(shí)識(shí)別
語音情感識(shí)別模塊可以通過實(shí)時(shí)采樣客戶的聲音,在客戶電話接入的前幾秒對(duì)客戶的情緒做出判斷,特別是針對(duì)客戶帶著情緒或疑問撥入熱線卻在音調(diào)上故作平靜、人耳難以識(shí)別的情況下,進(jìn)而通過情感識(shí)別系統(tǒng)的反饋信息及時(shí)提醒客服代表客戶情緒的異常,客服代表可以靈活轉(zhuǎn)變問題處理的方式從而縮小客戶的痛苦,提高客戶的滿意度。
篇13
隨著高科技手段的發(fā)展與應(yīng)用,依靠人的身體特征來進(jìn)行身份驗(yàn)證的生物識(shí)別技術(shù)很好地解決了這一問題。在人臉識(shí)別技術(shù)方面,計(jì)算機(jī)所探索的任務(wù)就是通過計(jì)算機(jī)來識(shí)別相機(jī)攝取的二維圖像,通過二維圖像來識(shí)別二維物體信息。這些信息不僅包括二維環(huán)境中物體的幾何信息,還包括物體的形狀、位置、姿態(tài)、運(yùn)動(dòng)等信息,都可以通過計(jì)算機(jī)來對(duì)它們進(jìn)行識(shí)別與理解。計(jì)算機(jī)利用各種成像系統(tǒng)代替視覺器官作為信息的輸入手段,由計(jì)算機(jī)來代替大腦完成處理和解釋。計(jì)算機(jī)技術(shù)、數(shù)字圖像處理、計(jì)算機(jī)圖形學(xué)、人工智能等學(xué)科的發(fā)展,為利用計(jì)算機(jī)實(shí)現(xiàn)模擬人類的視覺成為可能。人臉識(shí)別技術(shù)作為生物識(shí)別技術(shù)的一種,以其特有的穩(wěn)定性、唯一性和方便性等特征,被越來越廣泛地被應(yīng)用在需要身份識(shí)別的領(lǐng)域。
1 計(jì)算機(jī)在生物識(shí)別技術(shù)和人臉識(shí)別技術(shù)方面的應(yīng)用
1.1 生物識(shí)別技術(shù)
生物識(shí)別技術(shù)是利用人體的生物特征來進(jìn)行身份驗(yàn)證的一種識(shí)別技術(shù)。由于人的生物特征具有人體所固有的不可復(fù)制的唯一性,因此這一生物特征密鑰是無法復(fù)制、失竊或遺忘的。采用人體的生物特征作為密鑰,用戶不但可以不必?cái)y帶大串的鑰匙,也不用費(fèi)心去記或更換密碼,系統(tǒng)管理員更不必因忘記密碼而束手無策。目前,常用的生物識(shí)別技術(shù)有以下幾種:(1)人臉識(shí)別技術(shù)。人臉識(shí)別技術(shù)是人們最早使用的生物識(shí)別技術(shù)之一。該技術(shù)通過提取人臉圖像的某些特征并對(duì)這些特征進(jìn)行分析比較,從而達(dá)到識(shí)別身份的目的。(2)虹膜識(shí)別技術(shù)。虹膜識(shí)別技術(shù)利用世界上任何兩個(gè)人的虹膜都是不一樣的特征來進(jìn)行身份鑒別。識(shí)別系統(tǒng)利用一臺(tái)標(biāo)準(zhǔn)攝影機(jī)對(duì)用戶的眼睛進(jìn)行掃描,然后將掃描圖像轉(zhuǎn)化成數(shù)字信息與數(shù)據(jù)庫中的資料核對(duì),以驗(yàn)證身份。(3)語音識(shí)別技術(shù)。語音識(shí)別是對(duì)說話者聲音和語言學(xué)的綜合運(yùn)用,是一種行為鑒定。它并不對(duì)詞語本身進(jìn)行辨識(shí),而是通過分析語音的特征,例如發(fā)音的頻率等,來識(shí)別說話的人。(4)簽名識(shí)別技術(shù)。簽名識(shí)別是這樣一個(gè)過程:測(cè)量圖像本身以及整個(gè)簽名的動(dòng)作在每個(gè)字母以及字母之間不同的速度、順序和壓力。(5)指紋識(shí)別技術(shù)。指紋識(shí)別系統(tǒng)就充分利用了指紋的唯一性、穩(wěn)定性和再生性等特點(diǎn),通過比較輸入指紋和預(yù)先保存的模板指紋特征,進(jìn)行身份驗(yàn)證。由于上述身份識(shí)別技術(shù)中的缺陷,如虹膜識(shí)別技術(shù)中的虹膜識(shí)別系統(tǒng)的價(jià)格還比較昂貴,語音識(shí)別技術(shù)與簽名識(shí)別技術(shù)會(huì)隨著人的生理特征以及環(huán)境的變化而改變等,計(jì)算機(jī)人臉識(shí)別技術(shù)得以更廣泛的開發(fā)與應(yīng)用。
1.2 計(jì)算機(jī)人臉識(shí)別技術(shù)
計(jì)算機(jī)人臉識(shí)別技術(shù)是利用計(jì)算機(jī)分析人臉圖像,進(jìn)而從中提取出有效的識(shí)別信息,用來“辨認(rèn)”身份的一門技術(shù)。計(jì)算機(jī)的人臉識(shí)別所利用的是視覺數(shù)據(jù)。生理學(xué)的研究表明,人眼視網(wǎng)膜上存在著低層次和高層次的細(xì)胞。其中,低層次的細(xì)胞對(duì)空間的響應(yīng)和小波變換的結(jié)果相似;而高層次的細(xì)胞則依據(jù)一群低層次細(xì)胞的響應(yīng),而作出具體的線、面乃至物體模式的響應(yīng)。以此為依據(jù),在計(jì)算機(jī)人臉識(shí)別中,可以將那些通過對(duì)圖象數(shù)據(jù)簡(jiǎn)單處理后獲得的特征定義為低層次特征,而將線、面、模式等描述特征定義為高層次特征。因此,圖象KL變換后的系數(shù)特征、小波變換特征及一些統(tǒng)計(jì)特征均屬低層次特征的范疇,而人臉部件形狀分析的結(jié)果則為高層次特征。
2 關(guān)于人臉識(shí)別系統(tǒng)的組成
一個(gè)典型的人臉識(shí)別系統(tǒng)可以由如下的功能模塊構(gòu)成:(1)圖像的獲取。該模塊從外界獲取圖像,作為人臉識(shí)別系統(tǒng)的輸入。該模塊可以是一個(gè)攝像頭或者是掃描儀等設(shè)備。(2)人臉的檢測(cè)與定位。處理分析從圖像獲取模塊輸入的圖像,判斷其中是否存在人臉,如果存在人臉則找到人臉在圖像的位置,并且將人臉從背景圖像中分離出來。該模塊在整個(gè)人臉識(shí)別系統(tǒng)中具有非常重要的作用。(3)圖像預(yù)處理。預(yù)處理的主要作用在于盡可能的去除或減小光照、成像系統(tǒng)、外部環(huán)境等等對(duì)于待處理圖像的干擾,為后續(xù)處理提供高質(zhì)量的圖像。這部分對(duì)檢測(cè)到的人臉圖像進(jìn)行幾何的歸一化、消除噪聲、和灰度歸一化、水平與垂直位置的校正等處理。為后面的特征提取創(chuàng)造條件。(4)特征的提取和選擇。該模塊完成從經(jīng)過預(yù)處理模塊處理的圖像提取可以用來識(shí)別的特征,將原始圖像中的數(shù)據(jù)映射到特征空間。(5)訓(xùn)練,也可稱為分類器設(shè)計(jì)。此過程結(jié)束后將生成可用于識(shí)別的參數(shù),也就是可用于分類識(shí)別的分類器。事實(shí)上,模式識(shí)別問題可以看成是一個(gè)分類問題,即把待識(shí)別的對(duì)象歸到某一類中。在人像識(shí)別問題中就是把輸入的不同的人像歸入某個(gè)人這一類。這部分的基本做法是在樣本訓(xùn)練集基礎(chǔ)上確定某個(gè)判決規(guī)則,使按這種判決規(guī)則對(duì)被識(shí)別對(duì)象進(jìn)行分類所造成的錯(cuò)誤識(shí)別率最小或引起的損失最小。(6)識(shí)別。根據(jù)訓(xùn)練所得的參數(shù)完成人臉的判別工作,給出最后的識(shí)別結(jié)果,并做出相應(yīng)的判斷。
3 人臉識(shí)別技術(shù)在商業(yè)銀行方面的應(yīng)用
從應(yīng)用角度看,人臉確認(rèn)可應(yīng)用于自動(dòng)門禁系統(tǒng)、身份證件的鑒別、銀行ATM取款機(jī)以及家庭安全等領(lǐng)域。具體來看主要有:(1)公共安全:公安刑偵追逃、罪犯識(shí)別、邊防安全檢查。(2)信息安全:計(jì)算機(jī)和網(wǎng)絡(luò)的登錄、文件的加密和解密。(3)政府職能:電子政務(wù)、戶籍管理、社會(huì)福利和保險(xiǎn)。(4)商業(yè)企業(yè):電子商務(wù)、電子貨幣和支付、考勤。(5)場(chǎng)所進(jìn)出:軍事機(jī)要部門、金融機(jī)構(gòu)的門禁控制和進(jìn)出管理等。
3.1 商業(yè)銀行存在的網(wǎng)絡(luò)安全問題
隨著現(xiàn)代計(jì)算機(jī)技術(shù)在金融領(lǐng)域的應(yīng)用,為了實(shí)施金卡工程,我國(guó)建立了中國(guó)銀聯(lián)信息處理中心系統(tǒng)(China UnionPay System,縮寫為CUPS)。中國(guó)銀聯(lián)信息處理中心系統(tǒng),是我國(guó)為配合金卡工程的實(shí)施而建立的,是一個(gè)跨系統(tǒng)、跨地區(qū)、跨國(guó)界的龐大金融網(wǎng)絡(luò)系統(tǒng)。總體設(shè)計(jì)目標(biāo)是要建立起一個(gè)現(xiàn)代化的、實(shí)用的、比較完整的電子貨幣系統(tǒng)。CUPS是1993年提出任務(wù)而組織實(shí)施的、以電子貨幣應(yīng)用為重點(diǎn)啟動(dòng)的各類卡基應(yīng)用系統(tǒng)工程,當(dāng)時(shí)的技術(shù)規(guī)范是采用的CUPS V1. 0標(biāo)準(zhǔn)規(guī)范。入網(wǎng)機(jī)構(gòu)必須遵照CUPS V2. 0規(guī)范對(duì)網(wǎng)絡(luò)通信接口方面的要求,建設(shè)與銀聯(lián)新系統(tǒng)網(wǎng)絡(luò)的接口,保障各入網(wǎng)機(jī)構(gòu)和銀聯(lián)新系統(tǒng)網(wǎng)絡(luò)之間互聯(lián)互通,并提供銀聯(lián)銀行卡信息安全、穩(wěn)定、可靠的存取控制。由于網(wǎng)絡(luò)方面的高風(fēng)險(xiǎn)性,網(wǎng)絡(luò)安全問題日益引起人們的重視。
3.2 利用人臉識(shí)別技術(shù)防范網(wǎng)絡(luò)風(fēng)險(xiǎn)
對(duì)于我國(guó)廣泛使用的磁條銀行卡,雖然技術(shù)成熟,規(guī)范,但制作技術(shù)并不復(fù)雜,銀行磁條卡磁道標(biāo)準(zhǔn)已經(jīng)是公開的秘密,僅憑一臺(tái)電腦和一臺(tái)磁條讀寫器就可以順利“克隆”銀行卡。另外制卡機(jī)銷售管理不夠嚴(yán)格。不法分子利用銀行卡詐騙案件時(shí)有發(fā)生,主要手段就是通過各種方式“克隆”或者盜用銀行卡。目前,各家商業(yè)銀行也采取了一些技術(shù)手段防止偽造和克隆卡,如采用CVV (Check Value Verify)技術(shù),在生成卡磁條信息的同時(shí)產(chǎn)生一組校驗(yàn)值,該校驗(yàn)值與每個(gè)卡片本身的特性相關(guān)聯(lián),從而達(dá)到復(fù)制無效的功能。雖然采取了多種措施,但磁條卡本身固有的缺陷己嚴(yán)重威脅到客戶的利益。針對(duì)上述銀行網(wǎng)絡(luò)安全問題,我們可以利用人臉識(shí)別技術(shù)防范網(wǎng)絡(luò)風(fēng)險(xiǎn)。人臉識(shí)別技術(shù)就是通過圖像采集設(shè)備捕捉人的臉部區(qū)域,然后把捕捉到的人臉和數(shù)據(jù)庫中的人臉進(jìn)行匹配,從而完成身份識(shí)別的任務(wù)。利用人臉識(shí)別技術(shù)準(zhǔn)確認(rèn)定持卡人的真實(shí)身份,確保持卡人的資金安全。另外,還可以通過人臉識(shí)別技術(shù)進(jìn)一步鎖定不法分子,有利于公安機(jī)關(guān)快速破案。
3.3 人臉識(shí)別技術(shù)在治理假鈔方面的應(yīng)用
目前,我國(guó)商業(yè)銀行在自助設(shè)備方面存在的主要問題:一是部分自助設(shè)備安裝沒有達(dá)到要求。商業(yè)銀行的部分自助設(shè)備安裝沒有按照公安部門的要求對(duì)設(shè)備進(jìn)行與地面加固連接;有的電氣環(huán)境沒有達(dá)到要求:有的沒有設(shè)置110連動(dòng)報(bào)警或者沒有可視監(jiān)控報(bào)警,有的監(jiān)控錄象不夠清晰,監(jiān)控錄象保存時(shí)間沒有達(dá)到規(guī)定要求等,另外設(shè)備人為破壞現(xiàn)象嚴(yán)重等。二是自助設(shè)備端軟件設(shè)計(jì)缺陷。特別是某些國(guó)產(chǎn)設(shè)備軟件設(shè)計(jì)不夠合理,軟件變更隨意性大,存在漏洞,造成錯(cuò)帳可能性比較大。三是銀行的ATM機(jī)中沒有假鈔鑒別設(shè)備。由于我國(guó)商業(yè)銀行在自助設(shè)備方面存在的問題,目前,假鈔層出不窮。由于銀行的ATM機(jī)中沒有假鈔鑒別設(shè)備,只是清機(jī)人員放入現(xiàn)金前做了鑒別,這樣措施并不夠完善,且容易造成銀行與持卡人之間的糾紛。即使是現(xiàn)金存款機(jī)(CRS)有假鈔鑒別功能,但往往因?yàn)榧兮n識(shí)別特征提取的滯后,而被不法分子所利用。不法分子先存入假鈔,然后馬上在柜臺(tái)或其他自助設(shè)備上提取真鈔,以此手段謀取不法利益。
針對(duì)上述問題我們利用人臉識(shí)別技術(shù)鎖定不法分子。人臉識(shí)別具有自然性和不被察覺性的雙重優(yōu)點(diǎn)。自然性是指該識(shí)別方式同人類(甚至其他生物)進(jìn)行個(gè)體識(shí)別時(shí)所利用的生物特征相同。具體而言,人臉識(shí)別是通過觀察比較人臉來區(qū)分和確認(rèn)身份的。與語音識(shí)別、虹膜識(shí)別等相比較,指紋識(shí)別、虹膜識(shí)別則不具有自然性。指紋識(shí)別或者虹膜識(shí)別,需要利用電子壓力傳感器采集指紋,或者利用紅外線采集虹膜圖像,這些特殊的采集方式很容易被人察覺,從而更有可能被偽裝或欺騙。不被察覺的特點(diǎn)對(duì)于一種識(shí)別方法也很重要,這會(huì)使該識(shí)別方法不令人反感,并且因?yàn)椴蝗菀滓鹑说淖⒁舛蝗菀妆黄垓_。人臉識(shí)別便具有這方面的特點(diǎn),它完全利用可見光獲取人臉圖像信息。由此可見,利用人臉識(shí)別技術(shù)能更準(zhǔn)確、更快的鎖定不法分子。隨著人臉識(shí)別技術(shù)的不斷創(chuàng)新,人臉識(shí)別技術(shù)的應(yīng)用領(lǐng)域?qū)?huì)更加廣泛。
參考文獻(xiàn):
[1]王偉,張佑生,方芳.人臉檢測(cè)與識(shí)別技術(shù)綜述[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版)第二十九卷第二期,2006,6.
[2]奕勇.銀聯(lián)網(wǎng)絡(luò)中的安全技術(shù)研究及實(shí)現(xiàn),2007.