語音識別技術范文

時間:2023-04-04 17:21:53

導語:如何才能寫好一篇語音識別技術,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

語音識別技術

篇1

關鍵詞:語音識別 應用領域 熱點 難點

中圖分類號:TN912 文獻標識碼:A 文章編號:1007-3973 (2010) 03-062-02

1應用領域

如今,一些語音識別的應用已經應用到實際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統等。語音識別的應用領域非常廣泛,幾乎涉及到日常生活的方方面面。如語音撥號系統、、家庭服務、訂票系統、聲控智能玩具、醫療服務、銀行服務、聽寫機、計算機控制、工業控制、語音通信系統等。預計在不遠的將來,語音識別技術將在工業、家電、通信、、醫療、家庭服務等各個領域深刻改變人類現有的日常生活方式。語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之一。

2發展歷史

語音識別的研究工作開始于50年代,Bell實驗室實現了第一個可識別十個英文數字的語音識別系統―Audry系統。但真正取得實質性進展,并將其作為一個重要的課題開展研究則是在60年代末70年代初。60年代,提出了動態規劃(DP)和線性預測分析技術(LP),其中后者較好地解決了語音信號產生模型的問題,極大地促進了語音識別的發展。70年代,動態時間歸正技術(DTW)解決了語音特征不等長匹配問題,對特定人孤立詞語音識別十分有效,在語音識別領域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。

80年代語音識別研究進一步深入,HMM模型和人工神經網絡(ANN)在語音識別中成功應用。1988年,FULEE Kai等用VQ/I-IMM方法實現了997個詞匯的非特定人連續語音識別系統SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續語音識別系統。人們終于在實驗室突破了大詞匯量、連續語音和非特定人這三大障礙,并以此確定了統計方法和模型在語音識別和語言處理中的主流地位。使得借助人工智能中的啟發式搜索和語音模型自身的特點,高效、快捷的算法使得建立實時的連續語音識別系統成為可能。

90年代,人們開始進一步研究語音識別與自然語言處理的結合,逐步發展到基于自然口語識別和理解的人機對話系統。人工神經元網絡(ANN)也開始應用于語音識別,它和HMM模型建立的語音識別系統性能相當,在很多系統中還被結合在一起使用以提高識別率及系統的魯棒性。小波分析也開始用于特征提取,但目前性能不理想,其研究還在進一步深入中。

現在語音識別系統已經開始從實驗室走向實用,出現了比較成熟的已推向市場的產品。許多發達國家如美國、日本、韓國以及IBM、Apple、Microsoft、AT&T等著名公司都為語音識別系統的實用化開發研究投以巨資。

3研究的熱點與難點

目前語音識別領域的研究熱點包括:穩健語音識別(識別的魯棒性)、語音輸入設備研究 、聲學HMM模型的細化、說話人自適應技術、大詞匯量關鍵詞識別、高效的識別(搜索)算法研究 、可信度評測算法研究、ANN的應用、語言模型及深層次的自然語言理解。

目前研究的難點主要表現在:(1)語音識別系統的適應性差。主要體現在對環境依賴性強。(2)高噪聲環境下語音識別進展困難,因為此時人的發音變化很大,像聲音變高,語速變慢,音調及共振峰變化等等,必須尋找新的信號分析處理方法。(3)如何把語言學、生理學、心理學方面知識量化、建模并有效用于語音識別,目前也是一個難點。(4)由于我們對人類的聽覺理解、知識積累和學習機制以及大腦神經系統的控制機理等方面的認識還很不清楚,這必將阻礙語音識別的進一步發展。

4語音識別系統

一個典型的語音識別系統如圖所示:

輸入的語言信號首先要進行反混疊濾波、采樣、A/D轉換等過程進行數字化,之后要進行預處理,包括預加重、加窗和分幀、端點檢測等。我們稱之為對語音信號進行預處理。

語音信號的特征參數主要有:短時能量En,反映語音振幅或能量隨著時間緩慢變化的規律;短時平均過零率Zn,對于離散信號來講,簡單的說就是樣本改變符號的次數,可以粗略分辨清音和濁音;短時自相關函數;經過FFT或LPC運算得到的功率譜,再經過對數運算和傅里葉反變換以后得到的倒譜參數;根據人耳聽覺特性變換的美爾(MEL);線性預測系數等。通常識別參數可選擇上面的某一種或幾種的組合。

語音識別是語音識別系統最核心的部分。包括語音的聲學模型(訓練學習)與模式匹配(識別算法)以及相應的語言模型與語言處理2大部分。聲學模型用于參數匹配,通常在模型訓練階段按照一定的準則,由用語音特征參數表征的大量已知模式中通過學習算法來獲取代表該模式本質特征的模型參數而產生。在識別(模式匹配)時將輸入的語音特征同聲學模型(模式)根據一定準則進行匹配與比較,使未知模式與模型庫中的某一個模型獲得最佳匹配以得到最佳的識別結果。語言模型一般指在匹配搜索時用于字詞和路徑約束的語言規則,它包括由識別語音命令構成的語法網絡或由統計方法構成的語言模型,語言處理則可以進行語法、語義分析。

聲學模型是語音識別系統中最關鍵的一部分。目前最常用也最有效的幾種聲學識別模型包括動態時間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經網絡模型(ANN)等。

DTW是較早的一種模式匹配和模型訓練技術,它把整個單詞作為識別單元,在訓練階段將詞匯表中每個詞的特征矢量序列作為模板存入模板庫,在識別階段將待識別語音的特征矢量序列依次與庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。DTW應用動態規劃方法成功解決了語音信號特征參數序列比較時時長不等的難題,在小詞匯量、孤立詞語音識別中獲得了良好性能。但因其不適合連續語音大詞匯量語音識別系統,目前已逐漸被HMM和ANN模型替代。

HMM模型是語音信號時變特征的有參表示法。它由相互關聯的兩個隨機過程共同描述信號的統計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態的Markor鏈,另一個是與Markor鏈的每一狀態相關聯的觀察矢量的隨機過程(可觀測的)。HMM很好的模擬了人得語言過程,目前應用十分廣泛。HMM模型的模型參數包括HMM拓撲結構(狀態數目N、狀態之間的轉移方向等)、每個狀態可以觀察到的符號數M(符號集合O)、狀態轉移概率A及描述觀察符號統計特性的一組隨機函數,包括觀察符號的概率分布B和初始狀態概率分布 ,因此一個HMM模型可以由{N,M,A,B, }來確定,對詞匯表中的每一個詞都要建立相應的HMM模型。

模型參數得到后可以用Viterbi算法來確定與觀察序列對應的最佳的狀態序列。建好模型后,在識別階段就是要計算每個模型產生觀察符號序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識別結果。這個過程計算量很大,有人提出了前向-后向算法,大大減少了計算量,已經被廣泛采用,關于它們的各種改進方法也被大量提出。

ANN在語音識別中的應用是現在研究的又一熱點。ANN本質上是一個自適應非線性動力學系統,是由結點互連組成的計算網絡,模擬了人類大腦神經元活動的基本原理,具有自學習能力、記憶、聯想、推理、概括能力和快速并行實現的特點,同時還具備自組織、自適應的功能。這些能力是HMM模型不具備的,可用于處理一些環境信息十分復雜,背景知識不清楚,推理規則不明確的問題,允許樣品有較大的缺損、畸變,因此對于噪聲環境下非特定人的語音識別問題來說是一種很好的解決方案。目前大部分應用神經網絡的語音識別系統都采用了BP網并取得了較好的識別效果。

將ANN與HMM結合分別利用各自優點進行識別將是今后的一條研究途徑。二者結合的混合語音識別方法的研究開始于上世紀90年代,目前已有一些方法將ANN輔助HMM進行計算和學習概率參數。

語言模型主要分為規則模型和統計模型兩種。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型基于這樣一種假設:第n個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料庫中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

5總結

盡管語音識別技術已經取得了長足的進步,而語音識別系統也層出不窮,不斷的改變人類現有的生活方式,但其比較成功的應用也只是在某些特定的領域,談不上大規模廣泛的應用。只有建立從聲學、語音學到語言學的知識為基礎、以信息論、模式識別數理統計和人工智能為主要實現手段的語音處理機制,把整個語音識別過程從系統工程的高度進行分析構建,才有可能獲得能與人類相比的高性能的、完整的計算機語音識別系統。

參考文獻:

[1]易克初,田斌.付強.語音信號處理[M].國防工業出版社,2000.

[2]胡航.語音信號處理[M].哈爾濱工業大學出版社,2000.

[3]趙力.語音信號處理[M].機械工業出版社,2003.

篇2

語音識別算法雖然還有很多問題沒有解決,但語音識別技術已經開始逐步進入實用階段。在發達國家語音識別技術已經用于信息服務系統和查詢系統,人們可以通過電話網絡查詢有關的信息,并且取得很好的結果。用戶交換機、電話機、手機也包含了語音識別撥號功能。調查統計表明多達80%以上的人對這些服務表示滿意。中小詞匯量的語音識別系統(

語音芯片的應用

近年來語音芯片應用越來越廣泛,主要包括:

1.電話通信中的語音撥號。特別是在中、高檔移動電話上,現已普遍具有語音撥號的功能。隨著語音識別芯片的價格降低,普通電話上也將具備語音撥號的功能。

2. 汽車的語音控制。由于在汽車的行駛過程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語音撥號功能的免提電話通信方式。此外,對汽車的門、窗、空調、照明以及音響等設備,同樣也可以由語音來方便地進行控制。

3. 工業控制及醫療領域。當操作人員的眼或手已經被占用的情況下,在增加控制操作時,最好的辦法就是增加人與機器的語音交互界面。由語音對機器發出命令,機器用語音做出應答。

4. 個人數字助理(Personal Digital Assistant,PDA)的語音交互界面。PDA的體積很小,人機界面一直是其應用和技術的瓶頸之一。由于在PDA上使用鍵盤非常不便,因此,現多采用手寫體識別的方法輸入和查詢信息。但是,這種方法仍然讓用戶感到很不方便。現在業界一致認為,PDA的最佳人機交互界面是以語音作為傳輸介質的交互方法,并且已有少量應用。隨著語音識別技術的提高,可以預見,在不久的將來,語音將成為PDA主要的人機交互界面。

5. 智能玩具。通過語音識別技術,我們可以與智能娃娃對話,可以用語音對玩具發出命令,讓其完成一些簡單的任務,甚至可以制造具有語音鎖功能的電子看門狗。智能玩具有很大的市場潛力,而其關鍵在于語音芯片價格的降低。

6. 家電遙控。用語音可以控制電視機、VCD、空調、電扇、窗簾的操作,而且一個遙控器就可以把家中的電器皆用語音控制起來,這樣,可以讓令人頭疼的各種電器的操作變得簡單易行。

語音識別專用芯片系統有如下幾個特點: 1. 多為中、小詞匯量的語音識別系統,即只能夠識別10~100詞條。只有近一兩年來,才有連續數碼或連續字母語音識別專用芯片實現。2. 一般僅限于特定人語音識別的實現,即需要讓使用者對所識別的詞條先進行學習或訓練,這一類識別功能對語種、方言和詞條沒有限制。有的芯片也能夠實現非特定人語音識別,即預先將所要識別的語句碼本訓練好而裝入芯片,用戶使用時不需要再進行學習就可直接應用。但這一類識別功能只適用于規定的語種和方言,而且所識別的語句只限于預先已訓練好的語句。3. 由此芯片組成一個完整的語音識別系統。因此,除了語音識別功能以外,為了有一個好的人機界面和識別正確與否的驗證,該系統還必須具備語音提示(語音合成)及語音回放(語音編解碼記錄)功能。4. 多為實時系統,即當用戶說完待識別的詞條后,系統立即完成識別功能并有所回應,這就對電路的運算速度有較高的要求。5. 除了要求有盡可能好的識別性能外,還要求體積盡可能小、可靠性高、耗電省、價錢低等特點。

語音識別技術發展

在發達國家各種各樣基于語音識別技術的產品已經可以買到,如具有聲控撥號電話,語音記事本等等。語音電話服務、數據查詢服務也已經部分實現。基于特定任務和環境的聽寫機也已經進入應用階段。語音識別技術是非常重要的人機交互技術,有著非常廣泛的應用前景。

說話者自適應技術近年在語音識別系統的研究中也備受重視,這是由于與人有關的語音識別系統比與人無關的語音識別系統的識別率要高很多。通過有效的自適應手段可以很快地提高系統的識別能力。實際上說話人自適應技術和穩健語音自適應技術是相通的。由于不同的說話人在聲道長度,說話口音方式都很不一樣。說話者自適應技術也主要是從以下兩方面著手。

靜態處理方法。從特征提取或訓練階段就盡可能減少來自說話人的變化因素對模型的貢獻。可以進行聲道參數的歸一化處理或對說話人進行分類處理,如分男女聲的識別系統就是其中的一個典型,但實際上僅僅從男女聲上對模型分類還是太粗,可以通過有效的聚類方法進行分類。這類方法統稱為聲學歸一化處理方法。

動態處理方法。對預先訓練好的與人無關識別系統,通過臨時得到的特定人語音數據對系統的模板或特征參數進行自適應修正,從而在原有系統基礎上建立一個用于特定任務、特定環境或特定說話人的系統,這類方法統稱為自適應方法。自適應方法可分為: 批模式、累進模式、即時模式; 按自適應學習策略又分為無監督學習和有監督學習。從用戶使用的方便程度來看是由難到易,而算法實現則是由易到難。采用何種策略取決于應用背景,對識別率的要求等因素。對于聽寫機等應用來說,最具吸引力的是累進、無監督的自適應方式,也稱在線自適應。

語言模型也是目前研究的一個重要方面。目前的語言模型是與任務有關的,典型的統計語言模型是通過大量任務特定的語料訓練出來的。通過新聞語料訓練出來的模型不能很好地工作于法律方面的文件語音識別。有幾種方法用于解決這些問題。一種是使用自適應語言模型。在靜態語言模型的基礎上,通過一個高速緩沖存儲器對語言模型進行動態的修正; 另一種是先訓練多領域語言模型,然后通過混合高斯模型將這些模型結合在一起; 還有一種比較好的辦法是使用大顆粒的語言模型,如基于類的語言模型,而不是基于詞的語言模型,類可以是詞性類,詞義類,以及由一定的數據驅動的聚類算法產生的各種類。

由于不同詞可以屬于同一類,這樣類比較大,構成的語言模型就比較穩健。其關鍵的問題是如何決定詞的分類,由于詞的分類比較復雜,同一詞可能屬于不同的類,特別是解決如何通過計算機實現自動分類的算法,即使用數據驅動算法也還沒有很好地解決?;诮y計技術的計算語言學已經越來越受到重視,它解決了單獨規則語言模型不能解決的一些問題。當然統計語言模型也不能解決全部問題,因此如何把統計語言模型和基于規則的語言模型結合也是語言模型研究的重點之一。

目前不同快速語音識別算法都在開發中。其中包括對HMM狀態輸出的概率分布進行矢量量化,縮小搜索空間算法,減少計算機的內存需求方法,以及結合計算機結構特點的編程技術的應用。

鏈接:穩健語音識別技術

篇3

關鍵詞 機器人 語音識別 聲學模型 語音特征參數

中圖分類號:TP242 文獻標識碼:A

1語音識別技術的研究意義

人們使用的聲音語言是一種人在特定高度思維和意識活動下的產品。語言是人類最直接以及最理想的交流方式,也是人機通信是最方便的方式。在機器人發展的高級發展階段中,機器人的智能語音識別與人類的活動是密切相關的,有聲語言的人機交互信息成為重要的手段。例如,語音識別獲取外界信息很自然,沒有特殊的訓練方法,隨著機器人技術的發展和廣泛應用,有越來越多的機會來接觸人類和機器人,所以人們希望通過語音識別和機器人去處理,不管誰能能準確安全,方便地操縱機器人。機器人和人類之間的信息交互,表現在兩個方面,一是對更高層次的機器人操作,方便軟件的設計開發,這種多為教學機器人,另一種是在實際操作的要求下完成信息交互任務的機器人。智能機器人作為機器人技術發展的高級階段,其發展趨勢是:不僅要求機器人具有高度的自治能力,還要使機器人和人類之間的協調也具有一定的智能性。這就要求機器人具有不同的高性能主動做事能力,而不是被動地接受任務,為了實現這一目標,自然語言作為人機信息交換將發揮越來越重要的作用。目前,智能機器人已成為機器人研究領域的一個熱點。工業機器人是智能機器人的一個重要研究領域。當今,工業機器人的發展方興未艾,巨大的市場潛力,使真正的工業機器人的已經在市場上嶄露頭角,以滿足人們日益增長的需求,我們不能沒有一個高性能的語音識別系統。由于工業機器人是面向生產實際的需要,最好的工作方式是讓機器人能顧聽懂最常見的人類語言,完成指定的工作,并能與人交流。機器人語音識別是機器人研究領域中的語音識別應用,最終的目標是讓機器人了解人們的口頭語言,然后按照人們的命令來行動或反應,從而形成一個良好的人機對話系統。為了能夠進一步推動智能機器人的開發應用,因此,在語音識別機器人的研究領域中,機器人語音識別系統是工業機器人的實際推廣應用,具有重要的意義。

語音識別技術在智能機器人中的應用已經有很多年的歷史,作為智能機器人的一個分支,工業機器人得到了迅速發展,工業機器人通過語音識別從工業噪聲中提取有效的語音命令。為了實現機器人在一些特殊工業環境中工作的目的,機器人要能夠識別命令意圖。語音識別技術,可以實現人機對話,從而讓機器能模仿人類完成所有工作的分配,使其在各行各業中能夠得以應用。目前所面臨的實際問題是:噪聲和干擾環境下對大型工業機器人的語音識別有嚴重的影響。在機器人識別領域,工業環境中的實時性是一個非常重要的任務。機器人在工業環境下應用的聽覺識別是使智能機器人發展速率低的瓶頸。

2語音識別系統的發展

2.1語音識別系統的發展方向

語音識別系統是基于一套應用軟件系統的硬件平臺和操作系統的一些。語音識別一般分為兩個步驟。第一步是學習或培訓。這一階段的任務是建立基本單元的聲學模型來進行識別和模型的語音語法分析等。第二步是識別或測試。根據識別系統的類型可以滿足一個識別方法的要求,使用語音分析的方法來分析語音特征參數,并建立了比較和測量系統模型,根據一定的標準,鑒定結果。

語音識別系統的應用可分為兩個發展方向,其中一個是大詞匯連續語音識別系統,主要應用于計算機的聽寫機,以及結合電話網或互聯網的語音信息服務系統,這些系統是在計算機平臺上的一個重要發展方向。其次是應用的小型化,便攜式音頻產品,如無線移動電話的撥號,語音控制車載設備,智能玩具,家用電器和其他方面的應用的遠程控制,這些應用系統大多采用特殊的硬件系統來實現,特別是語音信號處理芯片和語音識別芯片,最近幾年快速發展,為其廣泛應用創造了極為有利的條件。

2.2語音識別系統的模型與模式

語音識別系統的核心是聲學模型和模式分類。首先通過學習算法,訓練語音聲學模型的特點是通過學習過程來生成聲學模型,這是識別潛在的模型的前提,是最關鍵的語音識別系統的一部分。聲學模型的目的是提供一種有效的方法來計算特征向量的聲音序列和每個發音模板之間的距離。人的發音在每一刻發音之前和之后都會受到影響。

為了模仿自然連續的協同發音和識別不同的發音,通常需要使用復雜的聲學模型。聲學模型和語言的發音特點的設計是密切相關的。聲學模型單元大小與單詞發音,音節模式和音位語音訓練數據大小有關,故要求其系統識別具有很大的靈活性。大詞匯量語音識別系統,通常采用較小的單元和少量的計算,該模型只有較小的存儲容量,減少訓練數據的數量,但相應的聲音定位和分割問題就顯得更加困難,規則識別模型變得越來越復雜。通常大型模型中識別單元包括協同發音,這有利于提高系統的識別率,但訓練數據也相對增加。必須根據不同語言的特點來識別詞匯,詞匯量大小決定單位大小。

參考文獻

篇4

關鍵詞:語音識別技術;計算機輔助語言;應用;綜述

中圖分類號:TP391.6 文獻標識碼:A 文章編號:1674-7712 (2014) 12-0000-02

隨著全球化的發展,越來越多的人想掌握一門外語,而傳統的語言教學已不能滿足人們的這一需求。計算機輔助語言學習(Computer Assisted Language Learning,縮寫CALL)伴隨著這一時代背景應運而生。CALL是在一定的語言學和心理學的理論基礎之上,利用計算機技術和信息技術輔助、推進語言學習。目前,許多CALL學習軟件大多是把各類資料集成在一起,基本上不能對學習者給出有效的反饋信息。語音識別技術的應用使得CALL系統可以具有發音評測的功能,能夠幫助學習者及時發現和糾正錯誤發音,避免重復錯誤發音形成習慣,從而極大提高了學習者的學習效率。

一、計算機輔助語言學習(CALL)及其特點

(一)計算機輔助語言學習(CALL)簡介

語言作為我們的日常交流工具,在經濟全球化發展的今天,它的社會功能也越來越凸顯。隨著國際交流的日益頻繁,越來越多的人想掌握一門第二語言,語言學習也成為了教育領域的一大熱點。

語言學習的直接目的就是提高學生的交際能力,而這一能力最直接的體現就是口語表達。傳統的師生教學是語言學習的主要方式,在這種教學方式下口語的教學主要是采用教師講解發音方式和發音演示,學生跟讀訓練的方法。可以說這樣的學習方式在口語學習中是至關重要且卓有成效的,但卻是不夠的。隨著計算機技術和信息技術的迅猛發展,CALL已成為當今外語教學發展的一個新趨勢。作為一種新的學習方式,它主要是在一定的語言學和心理學的理論基礎之上,利用計算機和信息技術輔助和推進外語的教學。

CALL是外語學習的新趨勢,它在中國的應用已經有近20年的歷史,但直到多媒體技術的出現,它才真正進入外語教學的課堂??梢灶A見CALL作為一種教育技術在教學中的運用是外語學習發展的必然趨勢。

(二)計算機輔助語言學習(CALL)的應用及其特點

CALL始于二十世紀五十年代的美國,在語言教學中的應用始于二十世紀六十年代。其發展大致經歷了行為主義階段、交際法階段、綜合法階段[1]。

1.行為主義階段(Behavioristic CALL)

60年代,當時的應用主要為CAI(Computer-Aided Instruction)課件(courseware)的開發與利用,課件以行為主義(behaviorism)為理論基礎。按照該理論,斯金納設計了便于及時強化的程序教學機器和便于進行程序教學的程序[2]。程序教學主張把教學目標和內容分解成很小的單元,按照嚴格的邏輯順序編制程序,將教學信息轉換成一系列問題與答案,電腦呈現一個問題(S),學生提供一個答案(R),答對給予獎勵,答錯給予懲罰,獎勵或懲罰緊隨反應之后,這樣通過一步步地強化使學生掌握教學內容,最終達到預期的目標。

這時CALL軟件的特點是:計算機僅作為提供素材和指令的工具,將各知識點以固定方式組織起來;允許學生根據自己的步調自定學習進度和速度,但學習過程完全由計算機程序控制;計算機向學生提供大量的練習,練習的答案往往是唯一的,學生的回答沒有自主性和靈活性。

2.交際法階段(Communicative CALL)

20世紀80年代,計算機的功能大大加強,微機(microcomputer,或稱個人電腦 personal computer)開始應用于教育。CAI課件的設計原則轉向以認知心理學為主導,強調學習者的心理特征和認知規律,遵循認知的信息加工理論,把學習看作是學習者根據自己的態度、興趣、愛好和需要,利用原有的認知結構,對當前外部刺激所提供的信息做出主動、有選擇的信息加工。這一時期CALL軟件的代表是著名學者安德遜(Aderson)根據認知學習理論,研制出的”高中幾何智能輔助教學系統”,它實現了對學生求解幾何問題思維過程的自動跟蹤和控制。

這一時期CALL軟件的特點是:計算機能夠根據學習者的需求和特點進行個別教學,但由于心理學對人類學習規律認識不全面和人工智能技術的發展不成熟,CALL軟件離個別化教學還有一段距離。

3.綜合法階段(Integrative CALL)

80年代后期并持續至今,多媒體技術與網絡技術取得突破性發展,尤其是因特網的出現及其迅猛發展不僅改變了傳統的生產方式、生活方式和思維方式,也改變了人們的教育觀念和學習方式,引起了一場教育革命。

同時期崛起的建構主義(constructivism)學習理論成為這場教育革命中革新傳統教學的理論基礎。建構主義學習理論與認知語言學、社會語言學、第二語言習得的理論等構成綜合法的理論基礎。其中社會語言學的影響尤為明顯,它強調在語言學習中要為學生提供真實的社會交際,使他們能夠掌握社會所需要的語言技能(Warshauer&Meskill,1998)。而實現這一目的的最好方法是使學生參與有意義的任務型學習(task-based learning)。通過專題學習(thematic learning)、項目型學習(project-based learning)、協作式學習(collaborative learning)、跨文化學習(cross-cultural learning)等多種方法,在兼學知識、文化的同時學習語言。

這一時期CALL軟件的特點是:(1)計算機作為認知工具、情感交流及協作學習工具,起到導師、伙伴的作用;(2)提倡為外語學習創造真實的情境,開展有意義的、有創造性的語言交際活動;(3)提倡將語言的學習與計算機技能的學習及使用結合起來,培養學生具有21世紀網絡時代所需要的外語交際能力(Warshauer,1996;Warshauer,Shetzer,&Meloni,2000)。

由此可以看出,CALL經歷的三個階段伴隨著教育學、心理學、計算機技術和信息技術的發展而發展,CALL系統的設計也向著交互性、個性化、針對性和創造性的方向發展。

二、語音識別技術在CALL系統的應用

(一)語音識別技術簡介

語音識別技術,也被稱為自動語音識別技術(Automatic Speech Recognition,ASR),其目標是讓機器也能夠像人一樣具有聽覺功能,直接接受人的語言,能理解人的意圖,并做出相應的反應。

最早的基于電子計算機的語音識別系統是50年代由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字[3];60和70年代,線性預測編碼(Linear Predictive Coding LPC)及動態時間規整(Dynamic Time Warp DTW)技術的提出有效的解決了語音信號的特征提取和不等長的匹配問題[4],實現了特定人孤立詞語音識別系統;80年代和90年代,隱馬爾科夫(HMM)模型和人工神經元網絡(ANN)的成功應用,使得語音識別系統的性能比以往更優異,實現了大詞匯量、連續語音和非特定人的語音識別。隨著多媒體時代的到來,語音識別技術逐漸從實驗室走向應用,其代表有:Via Voice、Whisper、Voice Tone、Voice Action、Siri等。

21世紀,互聯網和移動通信技術的發展給語音識別帶來了新的契機,語音識別應用已經延伸到各個方面,如通訊領域、計算機語音檢索系統、自動化控制等。語音識別技術已經成為一個具有競爭性的新興高技術產業,是一門既有理論價值又有實際意義的重要學科。

(二)語音識別技術的基本原理

從技術上看,語音識別屬于模式識別的范疇,其系統結構與模式識別具有相似之處。不同的語音識別系統在具體實現細節上有所不同,但所采用的原理基本是相似的。首先要對輸入的語音信號進行預處理,并抽取所需的語音特征,在此基礎上建立語音識別所需的語音模板。在識別過程中,將輸入的語音信號的特征與己存在的語音模板進行比較,并根據一定的搜索,找出最優的與輸入的語音相匹配的模板。最后,給出計算機的識別結果。其識別過程如圖1:

圖1

(三)語音識別技術在CALL中的應用

隨著計算機技術和信息技術的發展,CALL已成為現代教育技術在教育領域一個重要應用。但最初的CALL主要應用在文字閱讀和語言理解能力的訓練,現存的CALL系統也大多側重單詞、語法的學習[5],很少關注語言發音訓練。語音技術的不斷發展和成熟為學習者發音練習提供了可能,它在CALL中最直接的應用就是幫助用戶更好地練習語言發音。

CALL中引入語音識別技術,改變了傳統的語言學習方式,使得學習者能夠對自己的發音做出客觀的評價。基于語音識別技術的CALL已成為計算機輔助語言學習系統研究的熱點,不少公司和科研機構也投入了大量的人力、物力、財力在研究開發相關的發音學習系統,并且出現了一些較為成熟的產品。如“Pronunciation”、“Tell Me More”等,這些系統采用提供語音信號波形圖的方式讓學習者進行模仿,這種方式只是給學習者技術上的沖擊感,對改善他們的發音并沒有實際的幫助。國內許多英語學習軟件都是把各類英語資料(文本、圖片、音頻、視頻)累積在一起,基本上不能對學習者給出有效的反饋信息,即便加入了語音識別功能,其功能類似于復讀機,即只能給學習者提供發音演示、錄音跟讀的功能,如“說寶堂”、“e百分”等產品。由于很少有軟件會對學習者的發音做出一個整體的評分,也不能準確定位和檢測學習者的發音錯誤,更沒有對學習者的錯誤發音做出一個反饋和矯正,加之學習者因為自身水平限制,很難完全發現錯誤、糾正不正確的發音。故此,軟件發音錯誤矯正的功能顯得尤為重要。基于語音識別技術的CALL系統對于語言學習者來說是一個有效的輔助語言學習的平臺,為了有效的促進語言學習,它應該具備如圖2所示的功能。

圖2

通過分析我們可以發現,目前語音識別技術在CALL中的應用取得了一些進展,但是仍然有一些問題等待解決和克服。目前的一些困難和問題主要集中在產品設計理念和技術實現上兩個方面。

在產品設計理念上我們需要考慮以下幾個問題:(1)教育軟件的設計和開發應該應考慮學習者的需求,以學習者為中心;(2)教育軟件的設計應該考慮教育學和教育心理學的相關理論,避免書本知識的搬家;(3)考慮學習者認知的個體差異性,為學生提供多元化學習的認知工具。

在技術實現上我們需要考慮以下幾個問題:(1)選擇合適的識別基元以提高識別率;(2)對語音信號的端點更加精確的檢測,即判斷語音信號的開始和結尾以提高識別的準確率;(3)對給定的發音進行錯誤檢測和糾正,尋找合理的評分機制,并對學習者的發音進行及時、客觀的反饋;(4)提高預處理階段語音信號的信噪比;(5)選擇高效的識別算法以減少識別時的搜索范圍,提高識別速度。

四、結束語

本文分別介紹了語音識別技術和CALL,然后對語音識別技術在CALL中的應用進行了綜述,并探討了設計基于語音識別技術的CALL系統時需要考慮的問題。語音識別技術作為一種逐漸成熟的技術,它是基于語音識別技術的CALL系統的基礎與核心。基于語音識別技術的CALL是一種新的、有效的學習方式,它能夠有效的促進學習者口語水平的提高,也是CALL系統的一個重要發展方向。

參考文獻:

[1]楊芳,曹揚波.計算機輔助語言學習的發展與前景[J].中國科技信息,2011(02).

[2]何克抗,李文光.教育技術學[M].北京:北京師范大學出版社,2009.

[3]詹新明,黃南山,楊燦.語音識別技術研究進展[J].現代計算機,2008(09).

[4]馬莉,黨幼云.特定人孤立詞語音識別系統的仿真與分析[J].西安工程科技學院學報,2007(06).

篇5

關鍵字:形象識別;VI設計;餐飲服務;整合藝術

中圖分類號: S611 文獻標識碼: A

企業形象識別(CIS),是企業通過策劃和形象識別,讓被策劃的某品牌從大眾品牌中識別的技巧與理論統稱。它包括理念、行為與視覺識別三個部分,并且這三個部分相互作用、聯系、配合。根據服務的易逝性、無形性、異質性以及和消費、生產的同時性等特征影響,產品實物和服務生產表現出完全不同的特征,同時,統一、嚴謹的服務理論很大程度上也制約了它的發展。自上個世紀八十年代,顧客與服務提供者的服務接觸開始成為服務和管理的關鍵環節以來,餐飲服務藝術與形象識別理論越來越被重視。

一、VI在餐飲空間的整合傳播

(一)VI在餐飲空間的特點

VI是在企業經營理念下,通過平面設計將企業的市場定位和內在氣質形象化、視覺化的結果;同時它也是獨立法人和周邊經營、社會環境溝通、聯系、區別最常用、直接的平臺。在大力發展營銷的當下,如果企業沒有VI,不僅會影響視覺形象的清晰度,還會影響企業規模和文化。優秀的VI是和普通企業形成差異的主要因素,并且保障企業活動中的不可替代性和獨立性,幫助企業明確定位,所以說它屬于無形資產的關鍵元素。在傳達企業文化與經營理念的過程中,用生動的視覺效果進行企業文化宣傳,用自身的視覺系統吸引公眾,讓消費者對企業產品與服務形成忠誠度。

另外,它還能幫助企業提升認同感。基礎部分能廣泛應用到交通設備、員工服裝、櫥窗設計、建筑系統、外觀指示、戶外用品、辦公招牌、用品包裝、產品廣告、陳列宣傳、公務環境、企業禮品以及印刷等,具體到餐廳logo、環境、外觀、員工服飾、廣告用品等一系列和餐廳相關的設計因素,形象的VI設計,能讓餐廳空間具有空間感,并且和其他店面區別開來。

(二)VI在空間的文化與地域整合

從室內設計的特征來看,它是從空間色彩、形態、材料、陳設、肌理、裝飾和整體性空間意境表現的結果。地域形式主要由風俗人情、文化禮儀、生活形式、自然風情、歷史文化、自然環境以及本地用材等因素構成。利用VI進行餐廳形象設計、整體規劃、陳設布置,能幫助其擁有良好的品牌形象。主要表現在以下幾個方面:

1、空間形態

在空間形態上,通過改造與重現空間形式,給消費者特別的感受。例如:蒙古大營就可以利用本地的文化風俗,進行現代化設計,在彩繪、穹頂以及柱廊雕刻中,展現現代化的蒙古包特性。

2、色彩設計

在平面設計中,審美設計是在各種地理、政治、民族、習俗、宗教的發展中生成的,所以引發的色彩寓意和喜好也有很大差異。

3、設計陳設

在設計中,陳設又分成裝飾性與功能性陳設兩種。它的范圍包括墻壁懸掛的各種圖片、藝術、壁掛等,具體如:供奉的佛像、懸掛的樣品、各式器具等都能烘托餐飲空間和整體性主題。

4、視聽

在餐飲平面設計中,提升顧客體驗元素的形式主要表現在:體驗情境、觸動、回味和視聽上??梢試@當地的某個元素以及餐廳發展過程,將某個主題作為中心,進行材質、形態、聲響、色彩、觸感、裝飾等全方位的設計,從而達到深化用餐感受的效果。

二、形象識別在餐飲服務藝術中的應用

(一)VI在餐飲空間的應用

Logo不僅是某個企業文字與圖像的組合,同時也是以企業構造、類別、經營方式為理念,在接觸外部環境與對象的過程中,為其制定新型的視覺符號。它作為標志性符號,經常作為裝飾元素進行應用,印在菜牌、餐具、餐巾紙上。從整體來看,餐飲空間的內部裝潢、名字顏色、字體、桌椅風格以及大廳擺設等;從細節來看,餐廳服務員的菜單、服裝、桌牌、餐具、訂餐卡、員工名片等都在VI系統,過程就是導入過程。

在設計中,墻面、地面、隔斷、前臺、雅間、洗手間、大廳等,不管是什么形態、顏色都必須采用統一的設計方式進行,幫助企業塑造形象和品牌凝聚力。在VI設計中,不僅要體現在空間領域,還要整合環境色彩、材質、燈光配置、綠色植被、空間設置等,并且讓空間和VI有著緊密的搭配。

(二)企業形象識別系統優勢

在餐飲服務設計中,企業形象很注重個別系統的統一性與一體化,形象識別系統作為服務活動、經營活動、銷售等一系列行為構成的系統,它具有一體化特征,從企業思想、行為識別到視覺形象,形象識別都能展現行動、思想、視覺上的共同特征。同時這也是企業統一性、已提醒管理與經營必不可少的部分。例如:傳統餐飲管理主要從業務特征上進行考察,然后再設定各種規章、準則,這樣就會讓其缺乏精神與物質上的聯系。企業形象識別不只是管理手段,更是新型的文化體系。所以講企業形象引用到現代餐飲管理中,能拉近經營思想和企業管理之間的聯系,讓員工行為更具有凝聚力和統攝力。

企業形象識別作為整合性系統,它能充分發揮各個系統功能。當其作為整體系統發揮作用時,它具有單獨、孤立作用下沒有的特性,也就是整體大于部分之和。例如:在廣告中,將企業形象應用在餐飲廣告中,必然會涉及形象識別,所以,在廣告出現時,餐飲企業的服務質量、促銷配合、識別宣傳就能提高,通過為其鋪路、搭臺、烘托氛圍,逐步提高廣告效應,反之廣告活動也為餐飲公關、促銷、理念進行了宣傳。

(三)企業形象識別存在問題

從目前的餐飲業應用形象識別理論進程來看:企業形象識別還處于理論較松散、偏實踐的狀態。如:企業形象識別在美國是一種思想,在日本則是提高內部凝聚力的重要方法。從當前的企業形象識別體系來看,企業形象依然缺乏有效的信息反饋方式,這是企業形象識別需要考慮的問題,也是實踐探究必須正視的元素。因此,在現代餐飲形象識別中,必須注重自身不足,并且做好修正、彌補工作。

另外,企業形象識別也需要一定的實施條件。它的高起點策略,主要體現在市場發展和內部需求上,很多中高檔企業由于服務質量、企業管理起步相對較早,在經驗、資金、員工素質達標的情況,擁有實施形象識別的條件;而國內目前的餐飲企業,很多都不具有完備的條件,服務質量、組織結構都有待提高。

(四)企業形象識別應用必要性和方法

從餐飲業發展來看,為了適應市場需求,將企業形象應用到餐飲行業是時代的需要。隨著人口增加,第三產業比重上升,餐飲業將呈現出良好的發展空間和激烈的競爭形勢。在餐飲行業國際化的大趨勢下,國內餐飲業面臨著國外市場,所以必須快速和國際市場接軌。但是,我們也應該看到:國內餐飲業和國際還存在很大差距,不僅表現在監督、服務和投資上,還必須及時做好導入和設計工作,提高服務觀念,快速解決各種問題。因此,在實際工作中,餐飲企業必須正視餐飲識別系統,把握導入時機,在導入時,根據VI設計要求,強化工作進程。

結束語:

餐飲服務藝術作為一項系統、復雜的工作,將形象識別理論應用在餐飲業中,對提高服務質量與工作效益具有很大作用。因此,在實際工作中,必須把握VI設計特點以及實際情況,從各方面完善餐飲服務質量,促進餐飲企業發展。

參考文獻:

[1] 徐冉,陸曉云.基于形象識別理論的餐飲服務藝術淺析[J].黑龍江科技信息,2014,(19):287-287.

[2] 鮑堯.基于服務接觸視角的服務品牌權益影響因素研究[D].東南大學,2010.

[3] 嚴海岸.CIS中VI設計的數字化技術與應用[D].山東大學,2011.

篇6

關鍵詞:PCA變換;k近鄰法;數字識別

中圖分類號:TP391

1PCA的基本思想

PCA是采取一種數學降維的方法,找出幾個綜合變量來代替原來眾多的變量,使這些綜合變量能盡可能地代表原來變量的信息量,而且彼此之間互不相關。這種將把多個變量化為少數幾個互相無關的綜合變量的統計分析方法就叫做主成分分析或主分量分析。

PCA所要做的就是設法將原來眾多具有一定相關性的變量,重新組合為一組新的相互無關的綜合變量來代替原來變量。通常,數學上的處理方法就是將原來的變量做線性組合,作為新的綜合變量,但是這種組合如果不加以限制,則可以有很多,應該如何選擇呢?如果將選取的第一個線性組合即第一個綜合變量記為F1,自然希望它盡可能多地反映原來變量的信息,這里“信息”用方差來測量,即希望Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中所選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來p個變量的信息,再考慮選取F2即第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現在F2中,通過數學表達就是要求Cov(F1,F2)=0,稱F2為第二主成分,依此構造出第三、四……第p個主成分。

2k近鄰法

2.1模式識別方法

模式識別是指對事物、現象的相關信息進行分析、處理從而進行有效的辨認、描述的過程,首先,選擇一定的樣本,結合樣本間的相似度設計對識別樣本進行分類決策的分類器。由預處理、模式特征或基元選擇、識別組成,系統的簡單框圖如下圖所示:

模式識別簡單框圖

2.2K-近鄰法決策

一般意義上講,在知道系統分布密度的條件下,Bayes理論所設計的分類器性能最越優,然而,在實際應用過程中,繁瑣的系統分部密度求取經常給人們帶來很多的不方便,且很多時候,參數或概率密度函數未知,所以,Bayes方法沒能廣泛應用,非參數模式識別分類方法一般能更好的解決模式識別分類問題,實際應用廣泛。

k近鄰法是非數模式識別決策分類方法中最重要的方法之一,它無須估計概率、概密度函數而結合樣本特征信息進行決策的模式識別分類方法,如果準備了訓練樣本,該分類技術根據最近距離給識別模式給予分類,而不進行訓練,具有直觀、簡單、高效等諸多特點。

設:c個類別ω1,ω2,…ωc的模式識別問題,ωi類中有Ni個樣本向量xj(i),(i=1,2,…,c;j=1,2…,Ni),訓練樣本(所有類別)的總數: 。

在定義模式相似性測度后才能劃分模式的類別,并通過劃分模式類別來表征模式間的相似度。x、y之間的向量差可以度量模式特征向量x、y的相似度,記錄該向量差為距離d的歐式范數,即歐式距離:d(x,y)=||x-y||2=||x-y||。該距離具有平移不變性、旋轉不變性。

最近鄰法之模式識別分類思想為:待識別模式向量假設為x,計算x與各已知類別的樣本模式向量xj(i)的距離,把它判決為最短距離的樣本所屬類別。

由最近鄰法的分類思想給出定義ωi類的判斷識別函數為:

(1)

判別決策的規定原則為:如 ,則,把它判決為x∈ωm類。此方法研究距離x最近的訓練樣本的類別來判決x的類別,所以,定義此方法為最近鄰法。

如果就單個樣本,難免會有偶然性效應,為此,實際操作過程中,可以觀察待識別模式向量的k個臨近樣本,從而總結得出在這k個臨近樣本中所屬樣本最多的類別來決策類別,以增加分類的可靠性。設k1,k2,……,kc為x的最近鄰的k個樣本分別屬于ω1,ω2,…ωc類的樣本數,即 ;在ωi類中具備Ni個樣本訓練模式向量xj(i),(i=1,2,…,c;j=1,2…,Ni),訓練樣本(所有類別)的總數為 。

ωi類的判斷識別函數定義為gi(x)=ki,i=1,2,…,;判別決策的規定原則為:如 ,則,把它判決為x∈ωm類。此方法一般稱其為k-近鄰法。

k-近鄰法統計意義上的解釋由Cover和Hart給出,研究結果證明:當待識別模式向量x的最近鄰k和訓練樣本總數N和∞,且k/N0時,k-近鄰法的分類誤識別率與Bayes決策的分類誤識別率相等,當樣本數量N∞時,k-近鄰法性能表現。

當k值小于各類樣本的最小值時,k值與算法的穩健性成正比,即k值越大,算法越穩健,如果不具備k值小于各類樣本的最小值,近鄰就不是樣本的局部近鄰,有研究指出k取值為 或 。k-近鄰法以k值為數,像票決一樣,盡可能避免票數相等,難以決策。在N趨于無窮大時,k-近鄰法的準確率要明顯高于最近鄰法。

3基于PCA變換和k近鄰法的印刷體識別算法設計

主元個數 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

識別率 32% 78 86 90 88 86 90 88 86 86 88 90 88 92 92 92

4實驗結果及分析

通過PCA變換和k近鄰法的印刷體識別算法實驗可知,在主元個數在1-4時,識別率成明顯上升趨勢,主元個數在5-13時,識別率有上下波動的趨勢,主元個數大于14后,識別率趨于穩定,且識別率達到92%。

參考文獻:

[1]章慎鋒,楊淑瑩,王厚雪.基于Bayes決策的手寫體數字識別[J].天津理工大學學報,2006.

[2]胡合興.經驗模型分解在手寫體數字識別中的應用[J].湖南文理學院學報(自然科學版),2005.

[3]唐,劉波,蔡自興,謝斌.基于二維主成分分析的交通標志牌識別[J].計算機科學,2010.

篇7

關鍵詞:Speech SDK;語音識別;Voyager-IIA旅行家二號;教學平臺

中圖分類號:TP319 文獻標識碼:A 文章編號:1672-7800(2013)005-0096-02

0、引言

教學技術的進步關鍵在于構建一個良好的輔助教學支撐平臺,通過該平臺教師可以方便地展示教學課程信息,學生利用該教學平臺可以進行科學實驗和工程實踐,以獲取真實的實驗數據。

機器人學作為一門綜合了機械、電子、計算機及人工智能、仿生等諸多專業的新興學科,在工程研究和應用領域得到了越來越廣泛的重視。我國各大高等院校也紛紛開設與機器人相關的課程,這對普及機器人知識和加強其產業化進程無疑會起到重要的作用。

基于這種理念,設計了基于ARM11的智能語音識別機器人教學平臺。

1、語音識別機器人教學平臺現狀

教學技術平臺是開展各科教學的必要條件,是現代教育教學開展的基礎。從近年發展的情況看,各種教學平臺的設計與運用在教學過程中起著越來越重要的作用。如何設計滿足現代學習者需要的教學平臺?如何將計算機技術、通信技術、機器人技術發展優勢同現代教學的需求結合起來?這是現在教學平臺發展至關重要的方面。現代教學平臺在技術發展驅動和現代教育應用形態發展需求下,出現了許多不同的個性化教學技術平臺。

隨著人們對現代教育認識的加深和對傳統教育的反思,人們的知識觀和教育觀發生了很大變化。高校課程改革大舉推進,高等教育更要突出實踐、突出創新。高校課程要突出沉浸感、交互性、自主性等特征。教學平臺本身將從以教學機構為中心逐步走向以學生為中心,教學平臺從提供教學內容、教學產品轉向為學習服務的功能。

國內外許多高等院校都已開展了機器人教學工作。麻省理工學院開設了認知機器人學、機器人學導論、自控機器人設計競賽和機器人編程競賽等課程,分別在航空航天學、機械工程學和電氣工程與計算機科學專業中開設;北京郵電大學為本科生開設了工業機器人技術,相應的實驗課為機器人系統綜合性試驗;浙江大學自動控制系為本科生開設了機器人學,在校內組織了多種形式的機器人競賽活動,包括FIRA小型足球機器人競賽、開放性公共目標機器人競賽等。總之,國內外高校廣泛開展了以機器人為對象的教學平臺建設,開設機器人技術課程、開展本科畢業設計的機器人實踐活動以及多層次機器人競賽活動。

2、語音識別技術基本方法

語音識別技術目前的主流算法,主要有傳統的基于動態時間規整(DynamicTimeWarping,簡稱DTW)算法、基于非參數模型的矢量量化(Vector Quantization,簡稱VQ)方法、基于參數模型的隱馬爾可夫模型(Hidden Markov Mod—els,簡稱HMM)方法和基于人工神經網絡(Artificial NeuralNetwork,簡稱ANN)等語音識別方法。

3、語音識別機器人教學平臺研究與設計

3.1 設計思路

語音識別機器人教學平臺,將Windows CE6.O系統定制和移植到以ARM11為處理器的核心板上,并且在Windows CE6.O系統上實現對機器人的語音控制,從而擺脫基于PC機控制的不便。在實現過程中,將應用微軟公司開發的Speech SDK5.1為平臺,通過調用微軟的SpeechSDK語音識別引擎,使用開發板串口連接并驅動機器人執行一些簡單的行為動作。

3.2 語音識別機器人教學平臺系統架構

本教學系統采用的$3C6410是一款基于ARM11內核的微控制器,其主頻達667MHz,并具有豐富的接口。本控制器(如圖1)的硬件主要包括采用ARM11內核的$3C6410微處理器、機器人驅動器、電源、串口、麥克風、揚聲器等。

本語音識別機器人,主要由開發板的麥克風接口進行語音信號的采集,通過控制器擴展板進行語音信號的處理,處理時調用微軟的語音識別引擎進行語音信號的識別與合成,然后通過內部編程由擴展板的串口向機器人發送相關的指令來驅動電機的轉動,從而實現機器人的左轉、右轉、前進、后退、停止等語音控制。

3.3 教學平臺系統移植模型

系統移植模型(如圖2)協助WindowsCE實現廣泛的硬件支持,同樣使用了工具和軟件接口技術整合的形式。這一層的可移植性主要在3個層面:CSP支持不同的處理器系統結構;BSP支持不同的硬件主機板(I/0、總線等等);驅動程序支持不同的。從工具的角度看,開發工具主要是以指導手冊的形式協助開發者配置修改一個具體的OAL。驅動模型被包括在Windows CE的類別驅動程序中,這些類別驅動程序一般由Windows CE操作系統提供。

3.4 語音識別類封裝及算法實現流程

語音識別過程是將自然語言轉換為數據信息的過程,語音識別技術也可以簡單描述成Speech-to-Text的識別。該語音識別系統的處理過程是:學習者通過語音輸入設備輸入語音信號,然后通過語音接收器接收語音數據轉化為數字信號,傳入語音識別引擎進行處理,語音識別引擎處理完成后傳遞給相關語音識別程序去處理相關應用,從而達到利用語音來實現某種控制的效果。本系統的語音識別類封裝和語音識別算法實現流程如圖3所示。

篇8

14年前,志在語音識別的科大訊飛在合肥悄然成立,當時還被外界譏笑為“草臺班子”的這家本土創業公司,如今已經發展成為亞太地區最大的語音上市公司。作為中國語音識別的“領頭羊”,科大訊飛的這個標簽還能貼多久?在科大訊飛副總裁兼創始人之一江濤看來,科大訊飛的突破點在于,提供語音識別的技術和服務,解放人們的雙手。

“草臺班子”的摸索

創業之初,科大訊飛希望改變人類使用電腦的方式。但事實證明,時候未到。

上世紀90年代末,語音識別技術已經在全球范圍內掀起了一波熱潮,科大訊飛也是順著這股熱潮成立的?!氨藭r,IBM、英特爾等幾大主流科技公司也早已開始語音識別技術的研發和商業探索?!苯瓭嬖V《二十一世紀商業評論》(以下簡稱《21CBR》)。1998年IBM了第一個基于語音識別技術的產品。第二年全球科技十件大事之一便是IBM的語音識別技術,計算機第一次能夠進行語音輸入。除了IBM,英特爾、摩托羅拉、松下等很多國外巨頭也都開始在國內設立語音研發中心,希望在人機交互和信息錄入領域搶占先機。

“但是在后來證明,這個技術和產品在當時的條件下是不成熟的。”江濤認為有兩個方面原因:一個是當時的語音針對PC,而PC相對于鍵盤和鼠標這些交互設備比較成熟,語音的需求并不夠迫切。另外,“當時整個云計算、移動互聯網的環境和體系還沒有形成。全是單機,在一臺機器上安裝一個語音識別系統需要鍛煉很久,使用成本太高?!?/p>

即便如此,直到2000年前后,中國的語音技術基本都掌握在IBM等大公司手中。而像科大訊飛這樣的本土創業公司,空有實驗室技術,在當時的環境下不知道該如何面向市場,面向用戶。“我們一直到2004年才盈虧平衡,在這個過程中我們沒有錢,也不知道該怎么開拓市場,所有人都是技術出身,都沒有產業經驗?!苯瓭f。

創業之初,科大訊飛希望改變人類使用電腦的方式?!拔覀儺敃r做了一個叫做‘暢言2000’的產品??谔柺前焰I盤輸入的準確性、語音輸入的方便性、手寫輸入的隨意性融合在一起,它可以打開瀏覽器,打開Word,然后配合手寫板輸入內容。”這是科大訊飛的第一個產品,一套軟件當時的定價是1000多元人民幣。“但是去哪里推廣,怎么做推廣,我們完全不知道?!?/p>

隨著“暢言2000”以失敗告終,苦于推廣無門的科大訊飛第一次參加了當年的高交會?!爱敃r華為等一些做電信設備的廠商公司發現了我們,在他們的呼叫中心智能網中間有需要使用語音的地方,比如說語音合成,呼叫中心的語音播報,智能網中間的信息播報等?!焙芸?,迅飛便跟華為、中興等一些大的廠商對接上,成為它們的語音技術提供商。

“我們后來一想也是這樣,一個創業團隊沒有市場經驗,也沒有市場能力,沒有資金,不可能去做‘2C’的市場,那個時候的條件也不具備。做‘2B’的市場,做自己擅長的部分,把技術提供給合作伙伴,然后合作伙伴去做對應的應用更可行?!苯瓭f。這是科大迅飛的第一桶金,也是第一個商業模式?!耙揽窟@個模式,我們實現了盈虧平衡。到2004年,我們已經是中國最大的語音技術提供商?!?/p>

在嘗到了做“技術提供商”的甜頭后,2004年,手機彩鈴被引進中國,“在沒有智能手機的時代,面對幾十萬首歌,用戶在電話里怎么選?”江濤說,為此,迅飛開發了針對音樂的語音搜索,“想下載誰的彩鈴,聽誰的歌,直接在電話里面語音搜索?!痹谶@個基礎上,迅飛進一步把技術應用到跟音樂、彩鈴下載和搜索相關的其他領域?!艾F在聯通、電信,還有移動,相關于音樂的語音搜索技術全部由訊飛提供。”江濤說。

基于同樣的思路,迅飛開始把語音識別技術擴展到教育領域。“從技術上看,針對這兩個領域,迅飛所做的事情主要是語音合成,把語音轉換成文字。”江濤告訴《21CBR》,雖然在當時這個技術事實上已經沒有門檻,但迅飛的優勢在于做“技術提供商”的商業模式和針對細分領域提供的服務。目前,針對音樂和教育領域的收入依然是迅飛營收的主要來源之一?!艾F在音樂領域每年的收入大概在一個億左右?!?/p>

從技術到服務

語音識別不是完全靠算法能解決的,時間和數據積累才是最大的壁壘。

2008年前后,中國開始發放3G牌照,以蘋果、安卓為代表的智能機逐步興起。“我們覺得這個時候語音技術真正的機會才出現,因為智能手機相對于PC來說,屏幕更小,輸入更不方便,語音在人機交互過程中顯得更有價值。”江濤說。目前,訊飛所開發的手機應用訊飛語音已擁有超過2億用戶。

“我們現在最大的挑戰還是用戶的習慣,尤其是中國人覺得對著手機說話太傻了?!苯瓭f。好在隨著蘋果、谷歌加上騰訊的微信正在不斷地教育用戶的使用習慣,越來越多的人開始適應這種跟機器的交流方式。

科大訊飛在移動互聯網領域的另一個產品是訊飛輸入法?!拔覀儚?011年開始做這個產品,當時訊飛沒有任何知名度,沒有品牌,完全靠用戶口碑來推廣?!苯瓭f。目前,訊飛輸入法的用戶超過8000萬。

盡管移動互聯網來勢洶洶,江濤和他的團隊還是希望把自己定位為“語音服務提供商”。“我們一方面還會持續面向電視機、汽車、地圖等合作伙伴提供語音技術,另外一方面也會以輸入法這些產品為代表,面向用戶提供直接的交互服務和終端產品?!苯瓭嬖V《21CBR》記者。目前,康佳、海爾、創維、海信等電視廠商都采用了迅飛語音識別技術和開發平臺。訊飛也與國內主要汽車電子廠商及車廠等建立了合作,包括奇瑞、江淮、上汽、奧迪、德爾福、大陸電子、哈曼等,但這一領域對公司營收的貢獻微乎其微。

從技術的角度來看,語音識別在過去20年的發展和進化過程中早已不再擁有高門檻。在外界看來,科大訊飛缺乏足夠寬廣的護城河——掌握互聯網入口的企業百度、騰訊等巨頭,都在覬覦語音識別領域。而隨著3G網絡和智能終端的普及,這些條件又為語音識別打開了一扇新的大門。江濤也認為:“目前,就技術上的發展來講,語音識別的門檻的確不高,大數據云計算帶來了更加開闊的技術可能性和便利?!?/p>

篇9

上面這段并非筆者杜撰,而是著名的語音和圖像解決方案提供商Nuance公司研發工程總監張亞昕為大家描述的語音識別技術在車載系統中的應用情景。

其實,語音識別技術早已有之,1998年,飛利浦和摩托羅拉就將語音識別技術引入手機,但并沒有引起人們的關注,直到去年蘋果iphone 4里的Siri出現,才讓人們真正開始關注語音識別。張亞昕認為,這主要是因為以前的技術只能進行特定詞匯的語音識別,而如今的語音識別技術可以識別自然語言,真正讓用戶體會到了流暢自然的人機交互體驗。

也許是因為汽車內安全駕駛的重要性吧,語音識別技術特別受到了汽車市場的青睞。越來越多的汽車制造商開始在汽車中裝入語音識別接口,用于管理移動連接;同時提高駕駛安全系數。Strategy Analytics的統計表明,到2012年,中國原始設備制造商(OEM)所提供的具備語音人機接口的信息娛樂和車載信息通信系統(telematics)的出貨量將達到300萬臺,并預期在2018年達到20009萬臺。

但是,語音識別是非常耗費資源的一項工作,在目前的應用中,用戶接口依賴于通用型硬件和軟件,一般采用通用的應用處理器,語音識別只是眾多應用中的一個程序,系統硬件無法為語音處理做出優化,限制了處理速度和處理精度。例如,在車載GPS應用中,地圖軟件的運行就會占據處理器很多資源,這種情況下,啟用語音識別將會給CPU帶來很大負擔,處理能力上的不足會影響語音識別的速度和準確度,讓用戶體驗大打折扣。

篇10

關鍵詞:計算機仿真;語音識別;算法

引言

當下對于語音識別技術的研究處于初期階段,但現在市面上出現的大量語音識別的產品例如DragonDictation,Siri等表明語音識別技術還擁有巨大的發展與應用空間。

1提出背景

目前大多數的語音識別設備在算法上都是基于傳統的GMM方式,傳統的GMM方式的核心思想是利用多個高斯分布的概率密度函數組合來描述特征矢量在概率空間的分布狀況。傳統的GMM方法需要先計算所有說話人模型的識別概率p,然后取識別概率最大的說話人模型作為識別結果。而人類在進行說話人識別時,是一邊聽取語音,一邊做出判斷,同時排除掉絕對不可能的說話人,在若干相似說話人之間選擇,當有很大的把握性時,做出最終判定。這不同于目前的機器識別方法,總是取固定時長的語音數據,且對所有的說話人均同等對待。傳統的GMM模型在說話人集合很大時需要大量的數據收集和較長的處理時間,會影響到分辨說話人身份的準確性。所以我們需要一種更加高效,高可靠性的方式來改進當前主流的語音識別算法,更好的服務于當前信息化社會。

2自適應模型

自適應[1]是指處理和分析過程中,根據處理數據的數據特征自動調整處理方法、處理順序、處理參數、邊界條件或約束條件,使其與所處理數據的統計分布特征、結構特征相適應,以取得最佳的處理效果。在特征提取階段,根據不同的說話人,選取不同長度的語音提取特征,對于易于區分的說話人,只選取少量語音就可以正確識別,對于難于區分的說話人,提取大量語音進行識別,從而在整體上減少了提取特征的時間;在識別階段,只選取少量語音進行總體說話人識別模型的識別概率計算,而選取較多的語音,對前期選取的識別概率較高的說話人模型計算識別概率,從而一方面保證不降低識別率,一方面大幅度減少識別時間。

3研究目標及主要內容

3.1研究目標。我們研究的主要目標是通過MATLAB模型仿真功能,實現基于自適應的語音識別技術來確定說話人身份。在收集到語音信號的后,完成對信號的處理,主要是基于MFCC的特征提取實現語音庫的搭建,之后使用自適應的語音識別技術,將原先采集到的信息和后續說話人所說的語音在自適應的模型下進行比對,來確定說話人是否為本人,并且借助設別對結果進行顯示,最終實現一個輸入-處理--輸出的語音識別平臺搭建。

3.2研究內容。以MATLAB軟件為主要工具,配合所搭建的輸入設備,顯示設備完成一個可以應用的說話人身份識別系統的搭建。(1)深入研究語音信號的采集方式,能夠將通過設備將采集到的語音信號進行處理,并在MATLAB中實現編程,為后續的語音識別提供素材。(2)通過研究自適應模型的原理,設計基于其原理的算法,將(1)中經過處理后的語音信號與應用時輸入的語音信號進行識別,通過MATLAB完成計算,這一步是整個研究中最重要的部分,運算完成將給出處理結果。(3)搭建顯示設備,我們將MATLAB和單片機進行通信,MATLAB將識別結果傳輸給單片機,我們通過單片機來提供一個顯示說話人身份識別信息并與用戶交互的平臺。

4技術路線

4.1語音數據采集模塊。目前所有的語音識別方式都需要一個語音庫來進行匹配。基于自適應的語音識別也要在語音庫的搭建上進行如下操作。4.1.1采集說話人語音。使用錄音筆在消音室中采集到說話人的聲音,我們會將模擬信號轉成數字信號,并且進行處理。為了得到高質量的聲音信號,確保語音庫的精確性,我們選擇在消音室完成聲音采集工作。4.1.2特征提取及語音庫搭建。模擬信號進行A/D轉換后,我們要對數字信號進行處理,這里我們使用MFCC這種主流的語音信號特征提取方式來進行提取。MFCC[2]是基于了Mel頻率的倒譜系數,我們輸入樣本音頻,對樣本音頻預加重,分幀,加窗,再做傅里葉變換,進行Mel頻率濾波,進行Log對數能量提取等操作從而完成采集的語音的特征提取。這一步的核心還是將采集到的模擬信號按照A/D轉換使其成為可以通過MATLAB調用的數據。

4.2基于自適應模型的語音識別模塊設計。這個模塊是我們的研究最核心的部分,我們基于這個模型來實現主要功能。4.2.1當說話人為陌生人,先排除。傳統的語音識別主要是將采集到的信號和原來收集的所有信號進行比對從而確定說話人身份,但這樣做有時會浪費時間,也可能出現誤差。而自適應模型首先去做的就是特征抽取,將已經采集到的語音數據進行處理,尋找到他們的共同特征,當需要識別的信號不符合這種特性的時候,我們首先要將其排除,這樣,在排除陌生人說話時會更加簡便。在我們對說話人識別前先把陌生人給排除,在說話者不是陌生人的情況下,我們會減少很多干擾因素,能夠節約識別時間,提高識別精度。4.2.2當說話人已經在語音庫中,確定其身份。我們的算法主要是研究的對象是已經將語音信息導入到語音庫中的人群,這里我們要用到SVM[3]技術,SVM是一個可以把低維下線性不可分的問題變成一個高維線性可分問題的技術。在我們自適應語音識別說話人身份時,我們需要對收集到的語音數據進行分類。例如我們收集到1000組語音,按照收集到的語音特征分成250組,每組4個人。當說話人開始識別,我們先去找到這個說話人屬于哪個組,然后在這個4人小組里面在進行區分,這樣,我們把原先需要一一匹配的說話人識別僅僅需要幾步就可以實現。

4.3體現應用的結果顯示模塊。使用一塊單片機與一塊顯示屏,通過Matlab中的設備控制箱將識別結果傳送到單片機,單片機依據識別結果在顯示屏進行顯示。

5結語

和當前主流的傳統高斯混合模型相比,我們設計出的基于自適應的模型結構,可以很大程度上減少在聲音識別前所需要收集的數據量,節約空間,同時由于自適應算法的優越性我們也能夠在提高語音識別的可靠性,很大程度上減少在識別過程中由于外部因素所造成的誤差。

引用:

[1]丁博,王懷民,史殿習.構造具備自適應能力的軟件[J].軟件學報.2013(07)

[2]李澤,崔宣,馬雨廷等.MFCC和LPCC特征參數在說話人識別中的研究[J].河南工程學院學報.2010(06).