語音合成技術范文
時間:2023-03-15 13:26:55
導語:如何才能寫好一篇語音合成技術,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
關鍵字語音合成,文語轉換,語音人機界面
1引言
由人工通過一定的機器設備產生出語音稱為語音合成(SpeechSynthesis)。語音合成是人機語音通信的一個重要組成部分。語音合成研究的目的是制造一種會說話的機器,它解決的是如何讓機器象人那樣說話的問題,使一些以其它方式表示或存儲的信息能轉換為語音,讓人們能通過聽覺而方便地獲得這些信息。
語音合成從技術方式講可分為波形編輯合成、參數分析合成以及規則合成等三種。
波形編輯合成,這種合成方式以語句、短語、詞或音節為合成單元,這些單元被分別錄音后直接進行數字編碼,經適當的數據壓縮,組成一個合成語音庫。重放時,根據待輸出的信息,在語料庫中取出相應單元的波形數據,串接或編輯在一起,經解碼還原出語音。這種合成方式,也叫錄音編輯合成,合成單元越大,合成的自然度越好,系統結構簡單,價格低廉,但合成語音的數碼率較大,存儲量也大,因而合成詞匯量有限。
參數分析合成,這種合成方式多以音節、半音節或音素為合成單元。首先,按照語音理論,對所有合成單元的語音進行分析,提取有關語音參數,這些參數經編碼后組成一個合成語音庫;輸出時,根據待合成的語音的信息,從語音庫中取出相應的合成參數,經編輯和連接,順序送入語音合成器。在合成器中,通過合成參數的控制,將語音波形重新還原出來。
規則合成,這種合成方式通過語音學規則來產生目標語音。規則合成系統存儲的是較小的語音單位(如音素、雙音素、半音節或音節)的聲學參數,以及由音素組成音節、再由音節組成詞或句子的各種規則。當輸入字母符號時,合成系統利用規則自動地將它們轉換成連續的語音波形。由于語音中存在協同發音效應,單獨存在的元音和輔音與連續發音中的元音和輔音不同,所以,合成規則是在分析每一語音單元出現在不同環境中的協同發音效應后,歸納其規律而制定的如共振峰頻率規則、時長規則、聲調和語調規則等。由于語句中的輕重音,還要歸納出語音減縮規則。
現在展開大量研究和實用的是文語轉換系統[1](Text-To-SpeechSystem,TTSSystem),它是一種以文字串為輸入的語音合成系統。其輸入的是通常的文本字串,系統中的文本分析器首先根據發音字典,將輸入的文字串分解為帶有屬性標記的詞及其讀音符號,再根據語義規則和語音規則,為每一個詞、每一個音節確定重音等級和語句結構及語調,以及各種停頓等。這樣文字串就轉變為符號代碼串。根據前面分析的結果,生成目標語音的韻律特征,采用前面介紹的合成技術的一種或者是幾種的結合,合成出輸出語音。
本文所討論的語音合成應用系統就是一種面向TTS應用的語音系統。該系統的設計目標是作為人機交互的一種反饋手段,用于將計算機中的數據或狀態以語音的形式加以輸出。該系統的應用背景是作為衛星測試系統的一個子系統用于增強人機交互能力。通過引入語音合成技術,將原本需要測試人員主動觀察的數據、狀態或指令等內容以語音的形式即時播報出來,相應的測試人員只需被動收聽即可,只有在敏感內容出現時才加以主動觀察,從而降低測試人員的工作強度,改善工作環境和條件。在這樣的應用背景下,對語音合成系統的要求是響應速度快,計算復雜度和存儲空間復雜度低,具有良好的可擴展性和合成語音清晰度高、可懂性強,適于科學術語、符號和單位的發音合成等?;谝陨舷到y需求,我們開發了專門針對科學應用特別是航空航天領域內常見的科學術語、符號、計量單位和數學公式等文本分析模塊,以及新型的基于規則和參數的語音合成技術。
2系統結構
圖1中給出了本文討論的語音合成系統的結構框圖。
從外部接口上看,該系統的輸入為文本輸入接口,用戶將要發聲的文本內容通過此接口送入系統,輸入的文本不需特別的格式;輸出為音頻輸出接口,系統將合成的聲音以某種編碼方式由此輸出;此外系統中所有語音信息模型均存儲于語音模型庫文件中,各種符號、單位標注、單詞字母以及詞匯的發音等均存儲于詞庫文件中,這些庫文件作為語音合成系統的內部輸入。
圖1語音合成系統結構
從內部結構上看,輸入的文本主要通過規范化處理和符號轉化,將其中的特殊符號、縮寫、英文單詞以及計量單位等轉換為可識別的發聲單元標識。在分詞模型中,對輸入的文本按預置的分詞規律進行單詞的劃分,通過分詞處理就基本確定了句子的韻律結構以及多音字的發音。韻律預測決定各詞發音;協同發音決定了各詞之間的連接關系。選詞模塊按照韻律要求及詞的發音在詞庫中選擇最優的發音,經過語音重構將波形恢復出來。各詞的語音波形經過拼接模塊在拼接參數的控制下完成最終語句的合成。
3聲學單元的選擇及生成
為使合成語音具有較高的清晰度、可懂度以及自然度,通常采取基于波形的語音合成技術。波形拼接語音合成中的合成單元是從原始自然語音中切分出來的,保留了自然語音的一些韻律特征。根據自然語言的語音和韻律規律,存儲適當的語音基元,使這些單元在確定的存貯容量下具有最大的語音和韻律覆蓋率。合成時經過聲學單元選擇、波形拼接、平滑處理等步驟后輸出語音。通過精心設計語料庫,并根據語音和韻律規則從音庫中挑出最適合的聲學單元,使系統輸出高質量的語音。
常見的語音單元候選可以有詞組、音節、音素和雙音素等。就詞組而言,無論是中文還是西方語系,都和確定的語義相對應,因此使用詞組作為聲學單元可以比較容易的解決合成語音的可懂度問題[2],但是由于詞組的類別非常多,而且在不同韻律環境下有著明顯不同的表現,這樣會造成所需的聲學單元趨向于無窮大。所謂音節,一般都是由元音和輔音構成的,元音是音節的主干部分[3]。以漢語為代表的一些東方語系,音節數目較少,而且音節基本上是“輔音-元音”結構,但是對于一些西方語言,音節數目較多,結構比較復雜,而且使用它并不但不能避免大多數協同發音的影響,而且會引起音庫容量的急劇增大。音素是最小發音單位,可以使語料庫設計時的靈活性好,但由于音素受相鄰語音環境的協同發音影響很大,對這些影響考慮的不合理時,就會造成音庫在語音和韻律上的不平衡。另外在挑選單元時,由于音素的聲學變體很多,所選擇的樣本不合適時,會導致相鄰音素間存在基頻和共振峰上不連續,需要采用譜平滑法進行處理,這必然會降低合成音質。
綜合上述對音節、詞組、音素的分析可以知道,它們各有優缺點,因此在構造波形拼接所需要的語料庫時,可以結合不同類型樣本的優缺點,例如對于自然語流中經常出現的一些協同發音強的音素、音節組合,在通過波形拼接形成目標語音時,應該盡量避免在這些協同發音影響大的音素組合之間進行拼接,否則單元挑選的稍有不合適,就會造成聽覺上的難以接受。所以在構造實用合成系統時所采取的聲學單元的類型和長度都將是不固定的[4]。
在選擇聲學單元構造語音庫時,通常利用某種損失度函數來描述具有相同大小語音庫的合成能力。一個典型的損失度函數可以表達為:
(1)
其中f為當前聲學單元的詞頻,d為聲學單元的預測時長,c為該單元中所包含的音素之間協同發音的大小[4]。在不考慮韻律條件下,構造由聲學單元組成的語音庫時,應使由(1)表示的損失度函在該語音庫上的取值最小為目標。用于拼接的聲學單元通常由連續語流中切分獲得。通過檢索含有大量航天、電子通信、計算機以及衛星領域內關鍵字的文獻,并通過對這些文獻進行文本處理,將文獻切分成詞和句。通過對詞匯的統計可以得到詞頻信息,并在詞頻信息的指導下挑選由文獻獲得的句子,使得選出的句子對高頻詞具有較好的覆蓋,這些挑選出來的句子成為稍后需要錄制的腳本。
挑選合適的播音員,對照腳本進行合理朗讀,并且錄音。將錄音所得的語音波形數據按腳本以及聲學單元的劃分進行切分,通常對于漢語可以切分為詞、字(CV結構)而英文通常需要切分到詞以及少量音素或雙音素,從而構成發聲單元庫。對切分得到的聲學單元按其在原句子中的位置(前中后)以及前后相連的字詞進行標注。這些標注信息對選詞模塊的判決提供依據。
4韻律的生成
韻律的聲學參數一般包括基頻、時長、能量,對于一個TTS系統,韻律生成和控制是十分重要的。韻律參數對于控制合成語音的節奏、語氣語調、情感等具有重要意義,而對漢譜普通話,基頻是和聲調直接相關的物理參數。漢語的構成原則可歸結如下:由音素構成聲母或韻母,韻母帶上聲調后成為調母,由單個調母或由聲母與調母拼接成為音節。漢語有陰平、陽平、上聲、去聲、輕聲5個調,1200多個有調音節。一個音節就是一個字的音,即音節字。由音節字構成詞,最后再由詞構成句子[5]。
基于規則的韻律生成。通過對漢語語音學和語言學的研究總結一些通用的韻律規則,利用這些先驗知識,可以建立一個基于規則的韻律生成系統。通常規則系統包括兩個方面:一是通用規則,比如四個調的基本形狀,上聲連接的變調規則,時長變化,語氣語調的音高變化等;二是目標說話人的特定韻律規則,比如個人的基本調高、調域、語速和停頓等。此外在連續語流中,每個字的發音是會相互影響的,連續語流中一個字的發音的聲調與這個字單獨發音時的聲調會有所不同,在合成的連續語流中,只有具有這種聲調變化才能使合成的語音具有較好的可懂度,否則將只會是單字語音的生硬連接。漢語普通話語句中的變調以二字詞的變調最為主,因為二字詞所占比例約為74.3%。它的調型基本上是兩個原調型的相連的序列,但受連讀影響使前后兩調或縮短、或變低。
基于機器學習的韻律生成。雖然目前已經得到了許多關于韻律的規則,但這些規則對于形成非常貼近自然的韻律還相差很遠。為能夠發覺隱藏而且難以描述的韻律規則通常利用機器學習的方法來實現韻律的生成。常用的算法模型有隱馬爾可夫模型(HMM)、人工神經網絡(ANN)、支持向量機(SVM)以及決策樹等[5][6]。
基于參數化模型的韻律生成。基于機器學習的韻律模型提取一些人工無法分析的細則,大人降低人工參與分析的工作量,但這種方法同時也存在如下問題:首先,一般的學習算法都要求比較多的數據資源,特別是屬性特征比較多的時候;其次,如果己有數據資源分布不均勻,將造成訓練的整體偏差,影響分析結果;再次,專家知識沒有很好的結合利用進來,是一種信息浪費;第四,訓練模型沒有和語言特征和人的感知掛鉤,無法進行轉移和調整。基頻和時長是影響人的韻律聽感的直接聲學參數,兩者都是隨時間變化和環境變化的。參數模型利用先驗知識,先分析基頻時長和語言特征、人的聽感的關系,對此關系建摸,提取基頻時長和語言特征及人的聽感直接相關的參數。這樣的模型有效利用了專家知識,就可以用不多的數據訓練出文本語言特征和參數的關系,同時通過調整模型參數就可以達到改變聽感的韻律特征的目的[7]。
Fujisaki模型是一種廣泛使用的基頻參數化模型[8][9],它主要通過模擬人的發音機理來預測基頻的變化。Fujisaki認為基頻的改變主要有兩個原因:韻律短語邊界(Phrase)的影響和音節調(Accent)的影響。基頻曲線的產生是按照聲帶振動的機理,以Phrase和Accent作為預測系統的輸入,以基頻曲線作為系統的輸入,其中以脈沖信號的形式產生Phrase形狀,以階梯函數產生Accent形狀。在該模型下基頻曲線可以表示為:
(2)
其中函數Gpi(t)以及Gaj(t)的表達式分別為:
(3)
(4)
在表達式(2)、(3)及(4)中各參數含義如表1中所示。
表1Fujisaki韻律模型參數
Fmin基頻最小值αi第i個Phrase命令控制系數
IPhrase元素數量βj第j個Accent命令控制系數
JAccent元素數量θAccent命令最大值參數
T0i第i個Phrase命令的時間標記Api第i個Phrase命令幅度
T1j第j個Accent命令開始時間Aaj第j個Accent命令幅度
T2j第j個Accent命令結束時間
Fujisaki模型的機理很簡單,對于每個phrase命令,就是以一個脈沖信號通過phrase濾波器,相應的基頻值上升到最大點,然后逐漸衰減。對于連續的phrase命令,基頻曲線則產生連續的波動。Accent命令由一個階梯函數初始化,因為accent濾波器的參數α遠大于β,使得Accent元素很快達到其最大值,然后迅速衰減。
5系統實現及應用
整個語音合成系統由一系列動態鏈接庫構成,分別對應圖2中的各組成部分,各動態庫由C語言書寫。這種動態庫的使用方便未來對局部進行修改。通過對動態庫的加載,可以方便的將該語音合成系統集成到任何應用環境中。該合成系統輸入以漢語為主,允許混合少量英文單詞、希臘字母以及其它通用符號。
聲學庫中的語音波形分別采樣AMR及MFCC兩種編碼方式,此外MFCC編碼后再進行矢量量化處理,由此形成多種碼率的聲學單元庫。采用不同的單元庫將獲得不同音質的合成結果輸出。系統的錄音為女聲,可以通過一定的算法,如基音同步疊加技術(PitchSynchronousOverlapAdd,PSOLA)算法,在輸出端對音色進行修改。
該系統作為我所研制的衛星測試系統的一個關鍵技術在實際應用中取得了良好的效果。通過該系統所構造的VoiceUI提供了一種全新的人機界面。計算機通過語音將衛星的實時狀態匯報給監視人員,極大的降低了監視人員的觀察強度,提高了人機系統的工作效率。
參考文獻
[1]D.H.Klatt,Reviewoftext-to-speechconversionforEnglish,J.Acoust.Soc.Am.,82(3):737-793,1987
[2]R.Linggard,ElectronicSynthesisofSpeech,CambridgeUniversityPress,Cambridge.1985
[3]J.Allen,M.S.HunnicuttandD.Klatt,FromTexttoSpeech:TheMITalkSystem,CambridgeUniversityPress,Cambridge,1987
[4]陳永彬,王仁華.語言信號處理.中國科學技術大學出版社,1990
[5]陶建華,蔡蓮紅.漢語TTS系統中可訓練韻律模型的研究.聲學學報,2001
[6]初敏.自然言語的韻律組織中的不確定性及其在語音合成中的應用.第七屆人機語音通訊學術會議,廈門,2003
[7]倪晉富,王仁華.模型化F0曲線中的升降模式控制機制.聲學學報,1996
篇2
關鍵詞 廣播節目采訪;音頻技術;制作與合成;措施
中圖分類號:TN931 文獻標識碼:A 文章編號:1671-7597(2014)10-0105-01
質量優良的采訪類廣播節目不僅要求工作人員充分發揮自身專業特長,還要了解各項采訪設施的特性及功效。在采訪節目的錄制過程中,各工作人員應默契配合、各司其職,更好地提高采訪類廣播節目的錄制質量。
1 優化廣播節目采訪中音頻技術的必要性
在采訪類廣播節目的錄制過程中,優秀的音頻技術是整個節目質量的重要保障??萍嫉牟粩喟l展,促使音頻技術的處理對象由模擬信號轉變成數字信號,傳統的音頻技術已無法很好地滿足現階段的廣播節目需求。目前各國都在積極優化廣播音頻的制作與合成技術,我國在這一方面的技術水平相對落后。因此,應積極優化采訪類廣播節目的音頻制作與合成技術,從錄制過程入手,提高原始音頻的錄制質量,更好地實現廣播節目采訪中音頻制作與合成技術的優化。
2 錄音設施的合理使用
1)話筒的正確使用。高質量的原始音源是采訪類廣播節目成功的關鍵性因素,性能優良、使用方法正確的話筒是原始音源質量的重要設施基礎。在現場錄制過程中,若話筒使用不當,易出現音頻嚴重失真現象及噪音過大等問題,從而對原始聲源的質量產生不利影響。而原始聲源的質量問題,在后期的修飾加工過程中是無法彌補的,因此在采訪過程中正確使用話筒,對于提高音頻質量具有重要意義。
一方面,采訪人員應充分了解不同話筒的方向性、靈敏度等性能特征,根據實際采訪環境選擇合適的話筒。例如在進行一對一采訪過程中,應采用清晰度較高的單指向性話筒。另一方面,在話筒使用過程中,“噴口”現象明顯,即由于話筒過于接近口部,導致說話產生的氣流沖擊話筒振膜而發出“噗”聲,對錄音質量產生較嚴重影響。為了避免這一現象,采訪人員在采訪過程中,可將話筒保持在離口部15-20 cm距離處,并使聲音氣流與話筒軸部偏離10-15°;也可以采取在話筒上添加泡沫防風罩的措施,杜絕“噴口”現象的發生,從而提高原始聲源質量。
2)周邊錄音設備的輔助功能。在采訪類廣播節目的制作合成過程中,應根據實際節目要求,利用各種聲音調節設備,對采訪過程中的聲音素材進行同步處理和加工??衫镁馄鲗Σ稍L者、被采訪者及解說人員的語言進行美化、修飾,加強聲音的感染力,進而提高采訪類廣播節目的影響力。例如在進行室外采訪過程中,不同場景環境和不同采訪對象可能會導致聲音的頻率過低、音色不清晰,節目錄制人員應使用調音臺等錄音設施,遵循“降低低頻、提升中高頻”的調節原則,對音質進行一定程度的修飾。聲音制作者應了解不同頻率的聲音特性,例如調整4 kHz以上的高頻可提高聲音的表現力,調整30 Hz-650 Hz的中低頻可有效加強聲音力度。在節目制作過程中,工作人員應及時觀察音量表,根據音量表上的顯示指標對音頻進行調節。若音量表指針進入紅線區,表明聲音失真。廣電總局頒布的《節目錄制技術質量要求》中明確表示,聲音質量的標準參數為:語言類音頻的電平范圍為-8-4VU,音樂及其他聲音效果的電平范圍為-7-0VU。
3 錄音制作與合成技術的應用
1)復接技術的應用。復接技術是廣播節目制作與合成的最基本技術要求,也是廣播制作人多年經驗的具體體現,一部質量優良的廣播節目往往需要經過幾十項復接操作才得以完成。近年來多種錄音高新技術的應用,為聲音的制作與合成提供了更多便捷。復接技術的核心要求在于合適的錄音電平。若原始采訪的音頻母帶電平高,則信噪比相對較高,聲音信號容易出現失真現象,對這類聲源采取復接操作,會導致節目的音量出現較大差異。因此,應找準母帶音頻的切入點,對原始音頻素材進行加工操作,使原始聲音素材的電平與其他音頻保持一致,從而提高采訪類廣播節目的音頻質量。
2)充分利用音頻工作站。在完成對采訪音頻的初步制作與合成后,音頻制作人員應按照一定的處理原則將采訪所得的音頻素材輸入到音頻工作站中,進一步對其進行加工處理。對采訪音頻素材采取剪接、復制、修改、粘貼等處理手段后,音頻制作者可試聽合成的音頻,根據自身的試聽感受對現有合成音頻進行調整,不斷采用淡入淡出、混合合成等無損操作方法,使整個音頻作品更好滿足試聽要求。只有這樣才能確保整個采訪節目的連貫性和完整性,為聽眾提供優質的聽覺體驗。
3)做好審核工作。采訪工作及音頻處理工作的最終目的,在于制作一部優質的采訪類廣播節目。因此,有關節目制作人員和音頻處理技術人員應確保各項工作的質量。最終的作品審核人員應樹立良好的把關意識,以認真負責的工作態度對合成節目進行檢查審核,以保證節目質量。在節目輸出過程中,應選擇合適的設備參數指標,避免在音頻輸出過程中可能出現的信息缺失現象,進一步保證采訪類廣播節目的整體質量。
4 結束語
廣播節目采訪過程中音頻技術的制作與合成,是理論指導和實踐經驗相結合的產物。節目制作者應充分考慮各方面問題,從錄音設施、錄音過程中的設備及音頻的后期處理加工等方面入手,全面提高采訪類廣播節目的整體質量。在音頻素材的制作與合成過程中,應保證合成音頻的完整性與流暢性,為聽眾提供優質的聽覺體驗。
參考文獻
[1]孫樹國.淺談廣播節目的采訪與制作合成經驗探討[J].黑龍江科學,2013(06):81.
[2]雒仲楠.基于數字音頻技術的廣播音頻編輯軟件構建研究[J].藝術科技,2013(02):8.
[3]紀迎龍.新媒體環境下計算機音樂制作技術的應用與發展[D].東北師范大學,2011.
[4]李曉東.淺談廣播語言節目的外采錄制技巧――以經濟之聲《報時中國經濟》為例[J].中國廣播,2012(06):58-60.
篇3
關鍵詞:計算機音樂;課程整合;創新
計算機音樂技術是計算機技術與音樂藝術相結合的產物,它充分利用信息技術中的事件分離特點,把音樂音響的諸多屬性分離呈現,使我們能夠對構成音樂的各要素進行單獨處理。這一先天優勢在對音樂作品、音樂音響進行分析的時候表現得特別充分。各種音色、不同音區和力度等對作品產生的影響都可以馬上呈現出來,鮮明的對比效果鞏固和強化了學生的認知,課堂教學效率得到大幅提升。
但是,我們從事的是師范教育工作,計算機音樂更多的是應用在專業音樂創作領域,把它引進到音樂教育領域并開設成為一門課程,其目的和意義是什么?它能對我們的培養對象產生哪些積極的影響?計算機音樂是現代電子技術與音樂藝術結合的產物,作為一種現代化的音樂創作手段,怎樣使計算機音樂和普通音樂教育很好的結合?我們的教學投入和人才的產出是否成正比?能否將計算機音樂技術的諸多優點應用于音樂專業其它課程的教學呢?帶著這樣的疑問和憧憬,1997年5月,經過兩個多月的準備,當時的師專音樂系成立了“音樂與電腦”課題研究小組,主要進行計算機與音樂教育相結合的探索。課題組先后在《音樂欣賞》、《基本樂理》、《基礎和聲》、《合唱與指揮》、《學科教學法》和《視唱練耳》等6門課程中運用了計算機輔助教學,計算機音樂的教學形式也從講座推進到課堂,并納入了三年制專科和四年制本科的教學計劃,從2000學年度開始,正式將《計算機音樂基礎》開設為一門專業基礎課程。隨著課程建設的深入,我們從基礎理論、核心技能和知識拓展三個方面構建了比較完善的計算機音樂課程教學體系,并在實踐中不斷完善和進步。學校也逐年加大教學硬件的投入力度,截至目前,已建立起2間計算機音樂專業實驗室,2間數碼鋼琴教室,1間電子打擊樂教室,1間雙排鍵電子琴教室、1間全數字化高精度錄音棚、1間遵循音頻行業國際標準構建的蘋果計算機系統錄音實驗室,這樣的規模和水平,在省內乃至全國同級院校中都是比較領先的。
一、目前高師計算機音樂課程教學的普遍方式及其局限性
計算機音樂作為一門新興的學科,自從二十多年前引進到中國以后,就一直沒有停下其發展和普及的步伐。據了解,目前全國高等師范院校里的音樂專業,幾乎都不同程度開設了計算機音樂的相關課程。部分學校甚至在師資、硬件等條件尚不具備的情況下也跟風開設。而且,絕大多數院校都把計算機音樂作為一種技術操作性的課程開設,主要教授計算機音樂的制作技巧。這樣的教學模式,無異于對學生進行軟件操作培訓,一旦不進行操作實踐,學生很快就忘記了,甚至軟件升級后就不知就里。
計算機音樂之所以能夠產生和發展,是有著重要的理論和實踐基礎的。它首先是與音樂的緊密結合,其次利用計算機音樂技術可以開發很多教育功能。因此,它與音樂學科的很多課程都有千絲萬縷的聯系。如果我們離開這些聯系孤立的開設這門課程,其結果就會變成職業技能培訓。
著名學者李開復曾說過:“如果我們將學過的東西忘得一干二凈時,最后剩下來的東西就是教育的本質了。所謂‘剩下來的東西’,其實就是自學的能力,也就是舉一反三或無師自通的能力。大學不是職業培訓班,而是一個讓學生適應社會,適應不同工作崗位的平臺。在大學期間,學習專業知識固然重要,但更重要的還是要學習獨立思考的方法,培養舉一反三的能力,只有這樣,大學畢業生才能適應瞬息萬變的未來世界。”這段話,完全可以成為計算機音樂這類課程開設的指導性原則。
我認為,作為一種新的音樂創作手段,我們有必要讓學生了解并初步掌握其基本理論和基本技能,但是更重要的是,我們要給學生指出該學科可能的發展方向和最新的前沿成果,特別是該學科與其它學科的聯系,這對我們培養一專多能的中小學音樂師資具有重要的意義。我們的培養目標是合格的中小學音樂教師,而合格的標準,是要與時俱進、逐步提高的。21世紀的音樂教育工作者,應該是復合型人才,而復合型人才必須在知識結構、能力結構、教學內容以及教學手段等方面優化、更新的前提下才能培養出來。如果不大膽改革傳統的教學方法,這只能是一句空話。因此,把革新教學手段、積極探索計算機音樂技術與音樂傳統學科的教法整合作為計算機音樂基礎課程的發展方向,成為綿陽師范學院計算機音樂課程建設與改革的必然之選。
篇4
關鍵詞:課程整合; 多媒體教學; 網絡; 信息化處理; 知識重構
中圖分類號:G623.71 文獻標識碼:A 文章編號:1006-3315(2012)06-017-001
關于信息技術與課程整合,華南師范大學教育技術研究所李克東教授給它定義為:信息技術與課程整合是指在課程教學過程中把信息技術、信息資源、信息方法、人力資源和課程內容有機結合,共同完成課程教學任務的一種新型的教學方式。
本文就信息技術與高中音樂課程整合的應用與創新,進行了研究和論述。
一、在以多媒體和網絡基礎的信息化環境中實施課程教學活動
1.多媒體教學的應用與創新
多媒體技術是視頻圖像、音響、圖形和文本借助于計算機硬件和軟件而實現的有機結合,能充分發揮學生的多種感官機能。在音樂課上,充分合理地運用多媒體技術,通過語言、圖像和聲音的同時作用于學生的多種感官,讓他們左右腦并用,充分調動學生學習音樂的積極性,從而使學生的聽、唱、看等綜合能力得到進一步的提高。
例如:鑒賞聆聽《山林的呼喚》時,結合南方山林圖片的滾動出現,實現音畫結合,幫助學生感悟音樂之美、自然風光之美,了解抒情、寫意型的音樂;播放交響樂隊演奏的《1812年序曲》的視頻,學習管弦樂隊的配置,了解各種西洋樂器的形制和音色,想象1812年那場著名的俄法之戰,了解敘事、描述型的音樂。
運用多媒體進行教學優勢很多,可是也應該避免濫用。如:將整堂課的教學內容都用多媒體展示,上課的流程完全依賴于多媒體,教師充當“解說員”,學生充當聽眾,這就違背了學生為主體的教學原則,缺少了師生互動和交流,學生學習的主動性和創新能力沒有得到提高;課件做得太花哨,致使學生的注意力完全被花哨的畫面和制作技巧所吸引,導致不能集中注意力聽課,這就本末倒置了。
刻意地追求信息技術與課程的整合,完全否定傳統的教學方式也是不可取的。如果音樂教學中,教師運用語言或范唱范奏就可以達到很好的效果時,就可以不使用信息技術。比如:老師深情并茂地演唱往往最能打動學生,產生情感上的共鳴和拉近師生之間的距離,同時教師的演唱演奏,展示了教師的基本功,也是讓學生信服于你的一個很好的渠道。這就遠比一些教師花費大把時間來錄制、編輯音頻文件,然后在電腦中播放來得便利和效果好。
2.網絡在教學活動中的應用
20世紀90年代,計算機的發展進入一個新的階段,其中一個最主要的特征就是網絡的發展,網絡以其簡便的信息查詢、便捷的通信手段,很快得到了普及。時至今日,網絡已經深入到每個人的生活中。在教育領域,各種教育網站、學校校園網迅速發展、壯大起來。
網絡最主要的特點就是信息資源的豐富性和共享性。教師可以利用網絡查資料,也可布置學生自主搜尋、查找。教師要充分利用電腦網絡這個巨大的教育資源庫,引導學生更深更廣地學習。例如,學習《梨園百花》時,可充分發揮學生自主學習的能力,課前布置學生通過網絡查詢戲曲資料,包括劇種分類、戲曲唱腔、伴奏樂器、名家名段等,在課堂教學時,學生能根據自己的認知,結合老師的講解,形成自己的觀點和知識體系。
音樂教師進行創造性的信息技術嘗試工作也很多:建立音樂網站,提供音樂知識和音樂課件;建立FTP下載站點,提供常用的音樂資源下載等等。學生還可以編輯資料與信息,與他人進行溝通、交流。在這個過程中,不僅鍛煉了學生的思維能力、操作能力,還培養了與他人合作的能力。這些工作的開展和深入,真正實現了資源共享。
二、對課程教學內容進行信息化處理后成為學習者的學習資源
學校和教師要積極創設經過數字化處理的教學資源軟件環境,包括滿足優化課程學習需求的課本資源;滿足擴展性學習需求的校本資源;滿足個性發展需要的社本資源。例如我校正進行的校本課程開發,經過定期或不定期的運行和操作,都將形成文本和圖片或視頻資料,所有的內容和過程以及成果都將上傳至校園網,成為學習者的學習資源。
三、信息技術和音樂課程的整合讓學生知識獲得重構
信息技術和音樂課程的整合,可培養學生獲取、分析、加工和利用信息的知識和能力,使他們具有在信息化社會中學習、發展和生存的信息素養;培養學生掌握利用信息技術的學習方式,學會在信息技術環境下對自己的學習活動進行設計、實施和評價,自覺地以不斷的學習促進自身的發展和提高,幫助學生知識重構。
篇5
論文摘 要 隨著課改實驗的進一步深入,信息技術與課程整合下的新型課堂教學如雨后春筍,呈現出一派欣欣向榮的景象。傳統課堂教學評價已經在新課程理念下站不穩腳了,其弊端主要體現在評價內容、方式、主體性等方面,如何在新課程理念下提高英語課堂教學評價是我們關注的問題。
目前,班級授課制仍然是課堂教學的基本組織形式,但隨著新課程改革的不斷深入它也越來越暴露出其缺點。如教學活動多由教師做主,學生學習的主動性和獨立性受到一定程度的限制;學生主要接受現成的知識成果,其探索性、創造性不易發揮;學生動手機會較少,教學的實踐性不強,不利于培養學生的實際操作能力。受傳統教學方式的影響,傳統的英語課堂教學評價也暴露出了其弊端,主要體現在以下方面:
(1)評價內容過于片面。評價內容往往偏離生活實際,重知識而輕能力,忽視了個體差異和個性化發展的價值評價,對學生的情感態度和價值觀沒有起到熏陶、潛移默化的作用。
(2)評價方式欠靈活。目前我國評價學生最主要的方式還是紙筆測驗,特別是對面臨中考高考的學生,不是每月一大考,就是三天兩頭一小考,這種評價方法造成了一部分學生特別是學習困難的學生無法認識自己的潛能,從而喪失了自我發展的信心和動力。
(3)評價主體單一。傳統課堂教學以教師為中心展開,評價組織形式單一,主要以教師的評價為主,學生多處于消極被動的地位,從不敢奢望自己評價自己,從而忽視了學生的力量,使評價沒有發揮真正的作用。
傳統教學評價中的弊端隨著新課程改革的不斷深入越來越明顯地暴露了出來。因此,在信息技術環境下建立一種新的適應新課程發展需要的教學評價體系是亟待解決的問題?!秶矣⒄Z課程標準》提出“評價是英語課程的重要組成部分??茖W的評價體系是實現課程目標的重要保障?!闭n堂評價是教學中的重要環節,直接影響到學生的學習效果和教師的教學質量。如何運用創造性思維進行英語課堂評價是關鍵,基于以上問題,下面談談筆者的看法:
1 評價的內容廣泛,可以是課堂教學的各個環節的各個方面,注重三維目標評價
在新教學模式下評價的標準也相應轉變成了“教師是否為學習者創設了一個有利于意義建構的情境;是否能激發學習者的動機、主動精神和保持學習興趣;以及是否能引導學生加深對基本理論和概念的理解等”①因此在評價過程中不能只看考試分數,更應側重于三維目標的評價,評價學生對運用現代信息技術手段自主學習能力、對英語課程學習的興趣及態度、信息素養能力、在不同階段、不同方面取得的進步和發展能力及創造性學習能力等。只有這樣,才能真正發揮評價的教育功能,使評價成為學生自我認識、自我教育、自我進步的動力。
信息技術與課程整合下的教學目的是為了每一個學生的發展,課堂教學也不例外。因此,關注學生在課堂教學中的表現應成為課堂教學評價的主要內容,包括學生在課堂師生互動、自主學習、同伴合作中的行為表現、參與熱情、情感體驗和探究、思考的過程等等各個環節。通過了解學生在課堂上如何討論、如何交流、如何合作、如何思考等等學生的行為表現,評價課堂教學。
2 評價方式靈活多樣,從單一化走向多元化
美國哈佛大學的教育教授howard gardner(霍華德·加德納)教授認為,每個人都具有多元智能,即智能(語言智能、邏輯—數學智能、肢體運動智能、音樂智能、視覺空間智能、人際智能、內省智能、自然智能)。也就是說,每個人的智能是多元的,并有自己獨特的組合,每個人都有能力改進且擴展自己的智能?;诙嘣悄芾碚摚畔⒓夹g與課程整合下的教學評價方式也應趨向多元化。英語學科內容豐富,很多東西是用紙筆無法測試出來的。如學生的聽說閱讀能力、口頭表達能力、角色扮演能力、協作學習能力等就無法通過試卷來評價。具體的評價方式有實際操作測驗(例如在七年級英語教學中有這樣一課:can you send an e-mail to your friend ?在這種信息技術教學環境中,學生動手實踐運用英語給好友發送電子郵件,既掌握了語言的學習,又提高了信息技術應用能力。對于這種評價,應實行實際操作測驗評價法,而不是紙筆測驗評價)、提問、小組辯論、角色扮演、問題討論、口頭演說、“文件夾”式評價模式(例如根據每個學生在英語課程學習期間所做的工作,建立學生的評價檔案。如學生的語音、書寫記錄,學生參與小組活動的情況記載,學生課余時間的學習拓展情況等統統整理成個人的“文件夾”,以此作為評定學生的一個重要依據)。同時教師在評價學生過程中需要注意以下幾點:
(1)評價時要注意教師評價的語言與方式。德國教育家第斯多惠曾說:“真正的教學藝術不在于傳授而在于不斷喚醒、鼓舞和激勵。”鼓舞和激勵的語言是孩子的陽光,是課堂的生命。我們在給學生進行口頭評價時,要盡量多地給予正面評價,多角度和多方面地看待學生所作出的努力。評價是為學習服務的,其目的在于提高學生學習效率,成為學生學習的動力和源泉,為學生的終身發展服務。
(2)教師的評價要避免暈輪效應。評價要避免暈輪效應對價值判斷的影響。尤其要注意對“學困生”的評價不要因為教師對其以往認識的偏見隨便在收集資料時否定學生的積極行為,而導致評價結果的主觀性。
(3)教師在評價學生時要傾注“愛”。教師在評價時首先要真誠地關愛每一位學生,真誠地傾聽每一位學生的發言,不管他是優等生還是后進生,要有的放矢地作出恰當的評價,不可敷衍了事。例如:在聽力教學中,后進生因為聽不懂某些單詞或句子注意力分散,這時教師要注意判斷和反饋,如遇見困難單詞及句子時適當停頓,然后教師再口頭闡述幾遍,學生則會因為教師的傾聽而感受到教師對自己的尊重和真誠,如此他們會更加積極地投入到學習中,注意力自覺地指向教師所授內容。
3 評價主體多元化,評價組織形式體現多樣性和可選擇性
傳統課堂教學中,老師是評價的權威,是學生課堂學習唯一的評定者,評價是老師的專利。這樣的課堂顯然和新的教育理念不和諧,在新的教育理念下,老師并不是課堂的主宰,課堂上不能只有老師的評價。評價組織形式具有多樣性和可選擇性,要以學生為中心,將教師評價、學生自評互評有效結合起來,學生是學習的主體,讓學生在課堂上參與評價。以形成性評價為主,以學生平時參與各種英語教學活動所表現的興趣、態度和交流能力為主要依據。只有注重對學生平時學習情況及時地評價,才能有效地提高學生學英語的積極性。
“多一把衡量的尺子就多出一批好學生?!倍嘣⒍嘟嵌鹊脑u價,合情合理的評價,來自教師、學習同伴們的評價,這樣豐富多彩的評價不僅幫助學生對自己的知識作一次有效的梳理,而且還培養了傾聽意識,促進了學生語言的發展。
教學評價是教學活動不可缺少的一個基本環節,它在教學過程中有檢驗教學效果、診斷教學問題、提供反饋信息、引導教學方向、調控教學進程等重要作用,因此在新課程標準下有效地進行課堂教學評價是十分重要的。
注釋
① 李秀蘭.新教學模式中的教學評價.http//:online edu.org.
參考文獻
[1] 鐘啟泉等主編.《基礎教育課程改革綱要》解讀.華東師范大學出版社,2001.
[2] 吳維寧.新課程學生學業評價的理論與實踐[m].廣州:廣東教育出版社,2004:21-27.
篇6
【關鍵詞】欣普貝生;催產素;促宮頸成熟;引產
【中圖分類號】R719 【文獻標識碼】A 【文章編號】1004-7484(2013)05-0403-01
引產是產科適時終止妊娠常用的一種方法,對于適合順產的孕婦,其成功率取決于宮頸是否成熟。近年,欣普貝生(即0.8 mm控釋地諾前列酮栓)被應用于臨床促宮頸成熟,并取得良好效果。它與傳統的催產素引產原理有所不同,本研究擬通過聯合應用來發揮二者長處,提高引產成功率,我們隨機選取260位2010年1月~2012年12月在我院住院接受分娩產婦,給予欣普貝生聯合催產素進行足月妊娠促宮頸成熟及引產,并與使用催產素的對照組進行臨床效果比較研究,取得了良好的臨床效果,現將結果報道如下:
1 資料與方法
1.1一般資料。2010年1月~20l2 年12月選擇在我院住院接受分娩產婦260例,入選標準:(1)年齡20~34歲,孕周37~41周,單胎頭位,初產婦;(2)宮頸Bishop評分≤6分;(3)無胎膜早破,無嚴重合并癥及引產禁忌證,胎兒中等大小。按照隨機抽簽法將260例產婦隨機分為研究組和對照組,每組各130例,兩組產婦的年齡、孕周及宮頸Bishop評分均無明顯差異,具有可比性。
1.2方法。兩組產婦在用藥前均由專人檢測胎心和宮縮情況。研究組產婦給予2.5U催產素注射液(國藥準字H11021686,北京雙鶴藥業股份有限公司)靜脈滴注(加到5%葡萄糖注射液500ml),滴速從8滴/min開始,逐漸增加滴速(每隔15~20min)直到出現規律宮縮(10min內有3次宮縮,持續30s以上),最大滴速不超過30滴/min,同時給予欣普貝生(地諾前列酮栓,國藥準字J20060054,英國CTS公司生產)1枚(10mg)橫置于陰道后穹窿。給藥后產婦臥床1h,即可自由活動。若已臨產、破膜、出現子宮過度刺激[1](連續30 min內宮縮頻率>5次/10 min為宮縮過頻;宮縮持續時間≥2 min為宮縮過強;宮縮過頻或過強,同時伴胎心率異常,如胎心監護中出現中度或重度可變減速,定義為子宮過度刺激或強直性宮縮跡象)、胎兒窘迫、產婦對欣普貝生發生系統性不良反應(如嚴重的惡心、嘔吐、低血壓和心動過速等),則立即將藥物取出,否則在給藥24 h后取出,并再次進行宮頸Bishop評分。對照組僅按上述方法給予催產素。
1.3療效判定標準。顯效:在給藥后24h內臨產并結束分娩,Bishop評分提高3分以上;有效:用藥后24h未臨產但宮頸Bishop評分提高2~3分;無效:用藥后24h未臨產且官頸Bishop評分提高低于2分[2],總有效率=顯效率+有效率。
2 結果
2.1兩組臨床療效比較。研究組中顯效85例,有效37例,總有效率達93.84%;對照組中顯效例35,有效39例,總有效率為56.92%;經統計分析發現研究組的總有效率明顯高于對照組,且差異具有統計學意義(P
表1兩組臨床療效比較[例(%)]
組別 n 顯效 有效 無效 總有效率
研究組 130 85(65.38) 37(28.46) 8(6.15) 93.84*
對照組 130 35(26.92) 39(30.00) 56(43.08) 56.92
注:與對照組比較,*P
2.2兩組臨產時間比較。對照組臨產時間為(28.54士12.41)h,研究組組臨產時間為(10.58士4.27)h;經統計分析發現研究組的臨產時間較對照組明顯縮短,且差異具有統計學意義(P
2.3兩組妊娠結局比較。對照組中剖宮產62例,占47.69%,研究組中剖宮產16例,占12.31%;經統計分析發現研究組的剖宮產率明顯低于對照組,且差異具有統計學意義(P
2.4兩組不良反應比較。研究組中發生2例胎心異常,6例羊水污染,2例過強過頻宮縮,1例新生兒窒息;對照組5例胎心異常,5例羊水污染,1例過強過頻宮縮,1例新生兒窒息。兩組比較上述發生率差異均無統計學意義(P>0.05)。另外,研究組產婦中有2例發生腹瀉,1例心慌,而對照組中2例發生心慌,1例發生嘔吐,兩組產婦均在停藥后自行緩解。
3 討論
前列腺素E2應用于臨床促宮頸成熟已有40多年歷史,是較為理想的促宮頸成熟藥物。其作用機制為通過刺激內源性前列腺素E2的產生及增加宮頸細胞基質水分與粘多糖的含量,使宮頸膠原纖維消失和分離,達到促宮頸成熟的作用。外源性的前列腺素E2也有松弛宮頸平滑肌的作用,有利于宮頸擴張;同時,前列腺素也能促進子宮平滑肌細胞間縫隙連接的形成,誘發子宮收縮,以達到引產的目的[3]。欣普貝生其控釋技術可使藥物釋放更穩定、更安全。
催產素又名縮宮素,臨床上廣泛用于引產和催產。催產素通過與縮宮素受體結合發揮作用。催產素受體在宮頸上分布很少,故催產素對宮頸的直接作用小,其主要作用是選擇性興奮子宮平滑肌,增強子宮收縮力及收縮頻率,從而促進宮頸成熟,誘發產程啟動。催產素是公認安全有效并早已用于臨床的藥物,但長期臨床實踐發現,縮宮素誘導宮頸成熟效果欠佳[4]。
為了探討欣普貝生聯合催產素用于足月妊娠促宮頸成熟及引產的臨床效果。本研究對住院接受分娩孕婦給予欣普貝生聯合催產素進行足月妊娠促宮頸成熟及引產,并與單純使用催產素的對照組進行臨床效果比較,研究結果顯示研究組中總有效率達93.84%,對照組中總有效率為56.92%,差異具有統計學意義(P
綜上所述,欣普貝生聯合催產素用于足月妊娠促宮頸成熟和引產的臨床效果明顯優于單純使用催產素,剖宮產率降低,臨產時間縮短,而且用藥安全方便,我們認為在足月妊娠引產中聯合使用欣普貝生、催產素,副作用少并能提高引產成功率,能減少因引產失敗、社會因素的剖宮產,這對降低產科剖宮產率、提高陰道順產率、增進產婦身心健康具有重要社會意義,值得臨床推廣。
參考文獻:
[1] Lyrenas S,Clason Ⅰ,Ulmsten U.In vivo controlled release of PGE2 from a vaginal insert(0.8mm,10mg)during induction of labour[J].BJOG,2001,108(15):169-178.
[2] 魏華莉,楊蓓,李春華.欣普貝生與催產素在足月妊娠促官頸成熟及引產的對比觀察[J].中華全科醫學,2012,10(2):199-201.
篇7
在聽書App這樣的新興市場,就已經出現了懶人聽書、酷我聽書、話匣子等多個產品。但這類產品的共同特點是對有聲讀物依賴性強,而有聲讀物卻因人工費用較高、資源較少,很快便讓一些聽書App出現了坐吃山空的問題。
天行聽書的妙招
在聽書App市場,并非沒有人找到解開這一“死穴”的方法。由天行匯通公司研發的手機App應用——天行聽書就是個特例。和很多聽書軟件不同,這款產品一經上市便迅速躥紅。上市僅一周,已在百度移動應用平臺突破了“10萬+”的下載量,還不包括安卓市場、應用匯、XX手機助手等App下載市場的統計數據。
令天行聽書異軍突起的,正是其對智能人機交互技術(HCI)的應用。在天行匯通公司,記者見識了天行聽書的核心技術——語音合成(TTS)和語音識別(ASR)技術。
“形象地說,語音合成技術的作用就是讓你隨便輸入一段文字,它幫你馬上轉換成聲音。大家用天行聽書下載一個TXT文本,然后選擇男聲、女聲或粵語來朗讀,不用任何真人去朗讀這些文字,它們就能立即變成可以‘聽’的書,這就是在應用TTS。”天行匯通董事長張連毅告訴記者,目前國內在這一領域做得比較好的科技公司屈指可數,天行聽書的核心技術正是來自于在國內語音合成領域的專家——捷通華聲。天行在軟件中應用了捷通華聲靈云平臺中的語音合成和識別技術,當用戶用天行聽書的書庫搜索自己喜歡的書籍時,還可以通過語音進行搜索:不用在搜索欄里打字,只要簡單地說出所要尋找的圖書名字就可立即自動搜取。這些技術就是HCI,當前還屬于全球IT尖端科技研究項目。
聽書App不再受有聲讀物制約
讓聽書軟件不依賴有聲讀物發展,讓讀者可以隨時傾聽自己喜歡的書籍,天行聽書的成功證明,TTS和ASR等HCI技術的應用,或許會成為聽書App市場突破發展瓶頸的關鍵。
通過TTS技術,用戶可以隨時隨地將手機本地存儲中的書籍(TXT格式)導入到天行聽書中進行閱讀。由于其本質上并非傳統意義上的有聲讀物,所以用戶在語音聽書的過程中不用依賴網絡,即使在無網環境下依舊可以使用天行聽書,隨時隨地享受“聽書”的樂趣,不用像傳統聽書App那樣常受到網絡的限制。
很多人都會產生這樣的疑問:“語音合成技術會像人朗讀那樣有感情有抑揚頓挫嗎?”據記者了解,在國內,天行聽書語音合成技術目前已經達到了該領域中的極高標準。雖然還不能像真人發聲那樣自然,但聽起來已經接近真人發聲的自然感。
篇8
1.1 語音合成技術簡介
語音處理是目前比較活躍的研究領域之一,它的迅速發展與計算機的發展是分不開的,從中我們可以看出現代科學相互影響的程度。語音是人類最便利的信息交換手段,因此也是人與計算機之間最理想的接口之一。語音處理是多門學科的基礎上發展起來的一門綜合性技術,涉及聲學﹑生理學﹑心理學﹑線形系統理論﹑數字信號處理﹑計算機科學和語言學等領域。
語音識別和語音合成技術是實現人機語音通信,建立一個有聽和講能力的口語系統所必需的兩項關鍵技術。使電腦具有類似于人一樣的說話和聽懂人說話的能力,是90年代信息產業的重要競爭市場。和語言識別相比,語言合成的技術相對說來要成熟一些,是該領域中近期最有希望產生突破并形成產業化的一項技術。語音識別和語音合成是語音處理所包含的兩大重要分支,在這兩個問題中,合成無疑是比較容易的.在識別方面,我們還沒有關于大腦是如何識別語音和識別說話人的一般理論,即使有這樣的理論也不能保證在計算機上簡單地模仿就能得到可用的處理方法;而在合成方面,我們已經掌握了語音生成的聲學特征,利用現有技術很容易復制發音機理.盡管我們還不大清楚音位轉化為語音的心理過程,但在實際的語音模擬上已經取得了成功.
:14000多字
有參考文獻及源程序
400元
備注:此文版權歸本站所有;。轉貼于
篇9
以前,一個在總部產品部門的同事Scott Meredith,也是TTS的專家,在向別人介紹我的時候,總忘不了說一句“She is the motherof Mulan TTS system”。我總是欣然接受“木蘭媽媽”這個稱呼。
“木蘭”是我加入微軟后帶領幾位年輕同事研發出來的中英文雙語文語轉換系統(text-to-speech,簡稱TTS)。她不僅能將中文、英文文稿流暢的朗讀出來,還能很好的處理混雜著很多英文單詞、短語和句子的文稿,在研究院成立五周年的慶?;顒又?,木蘭名列“十大”成果之一。我常常引以為豪。
木蘭凝聚了我多年的心血,就像我的另一個孩子,在我的孕育、撫養下,從無到有、從小到大、逐步完善,改進。最終成功的“嫁”到微軟最新操作系統Vista中,并且由此孵化出微軟唯一的一個TTS產品部門。
“木蘭”是如何誕生的
我是2000年初加入研究院的,是研究院的第一位女性研究員,也是研究院第一個從事TTS研究的人。我帶領的這個TFS小組在很長時間都是微軟內部唯一的一個從事語音合成技術研發工作的團隊。憑借著在中文語言文化上的優勢,我們差不多花了一年左右時間專門從事中文語音合成的研究,做出了一個合成效果非常好的原型系統。之后的1至2年內,我們把研究重點轉移到了英語語音合成上面,也取得了相當好的效果。
接下來我們選擇的方向就是解決中英文混讀的問題。隨著互聯網的發展,中西方文化的交融,越來越多的中文文章中會雜糅有英文內容,可能是某產品的品牌型號,也可能是一首著名歌曲。遇到這樣的文章,傳統文語轉換系統就撓頭了。
最典型的解決方案就是在后臺架起兩個系統,一個專門處理中文,一個專門處理英文。遇到中英文混雜的句子,就將中文部分分割出來送給中文系統,英文部分則送給英文系統,然后將兩者的輸出合并起來返回給用戶。這樣做的最大缺陷在于分開處理的兩種語言缺乏統一的語調、語氣,甚至連聲音本身都差別很大。
這樣的結果聽上去時斷時續,極為不連貫。可懂度(能聽懂)和自然度(聽起來舒服)都比較差。我們當時花了很多精力去物色一個中英文都比較強的播音員,為我們的語音系統錄音,這樣就可以保證語音數據庫中的雙語聲音是一致的。另外我們還將中英文的處理能力融合在一個系統中,有統一的韻律控制,這樣生成的語句即便包含兩種語言,也能有統一的語調和節律,就像一個能講雙語的人講出來的話,這個雙語語音合成系統在可懂度與自然度上都取得了較好的效果。我們將這個系統命名為木蘭。木蘭就是這樣誕生的。
之后的一段時間里,我們致力于不斷提高木蘭的聲音質量,并從應用角度探索如何將語音合成技術方便人們的日常生活,例如語音聊天室(一方輸入文字,另一方聽到聲音)、動畫配音(為孩子DIY動畫故事)、個性化聲音加工等,在我們完成了一個又一個有趣的研究項目的過程中,木蘭長大了,成熟了。
木蘭“嫁”入Vists
在2003年之際,微軟公司在著力開發新一代操作系統Vista,當時總部產品部門基本準備購買其他公司的一套現成的語音合成軟件。在他們對木蘭有所了解后,最終決定用我們的技術成果,這對TTS研究團隊無疑是一件歡欣鼓舞的事情,因為能把自己的研究成果轉化到服務于用戶的產品中是我們的夢想??墒?,事情運作起來遠投有想象的那么簡單。所有的開發和單元測試工作都必須在北京做。而我們這個以研究為主的團隊,寫程序不是我們最擅長的能力,而且勢必占用我們很多做研究的時間。但是,為了一個共同的目標――把自己的研究成果做進微軟產品,我們團隊的每一個人都非常投入地做這個項目。
剛開始,我們只有5個人,三個來自TTS組,兩個來自技術轉化組。大家分擔著產品開發環節中的各個角色,PM、SDE、SEET,每天都超負荷運轉著。正巧,項目啟動后不久,微軟亞洲工程院宣布成立,它成立的使命是把研究院的最新技術孵化進產品中去,TTS項目也就成了工程院的第一批項目之一。
我們從總部爭取到了更多的人員指標,TTS開發組逐漸擴大了,有了專職PM、Developer和Tester。當然,任務也更多了,不光要把TTS做進操作系統,還要做到所有需要TTS技術的產品中去。不光要做中文、英文,還要做西班牙語、日語、法語等二十多種語言,大概在2004年8月份左右,在工程院中,我們已經孵化出一支完整的TTS開發團隊,而我們幾個仍想致力于研究工作的人逐漸抽身,開始考慮下一步的研究方向。而那時候,為Vista做的工作已經完成了80%以上。
當我的木蘭最終“嫁”了出去后,有段時間我產生了一種空落感,茫然若失,TTS作為一個產品化了的技術算是大功告成了,那么接下來應該怎么走,還能做些什么?在這些問題上我們的團隊做了很多思考。在隨后的兩年中,我們主要在語音合成技術的應用化、個性化層面進行大膽的探索,通過把十余種較有代表的地方方言運用到語音的表達中,試圖使對話效果更富趣味性、擬人性和娛樂性。在這個創意的基礎上,我們做出了一些原型系統,效果還很不錯。這些工作都是“木蘭”的延伸。
18年的緣份,妙不可言
回想起來,我與語音合成這個研究方向已經結緣十多年了,這緣分源自于碩士入學之初的一次選擇。
當時我從西北工業大學保送到哈爾濱船舶工程學院讀研究生,我選了語音處理專業。等兩年后報考中科院聲學所博士時,我依然申請了語音合成方向。從碩士階段開始算起,到后來留在聲學所工作、直到在微軟亞洲研究院工作到2007年,我已經在這個領域奮戰了近18個年頭了。
語音合成是一個交叉學科,既要懂得語音信號處理,還要掌握語言內部的音韻、語法等系統的知識,并且需要能將這些知識很好的融合到語音合成系統之中。此外,還需要了解心理學實驗方法,通過各種實驗來幫助我們更好地理解人的聽覺特點,從而更好的滿足用戶的需求。正是因為它所要求的相關學科的知識面比較廣,才吸引我投入了這么多時間在上面。
而研究院,也是從事這樣專注研究的一個好地方,它為每個研究員提供了很好的平臺與環境,還有做事情的自由,每個人有很大的自由決定想做什么,不做什么。而且,只要要求合理,研究院總是會保障你有足夠的資源做自己的研究。我曾經很奢侈地擁有過一個專門的錄音室。在那里,我們進行了各式各樣的錄音實驗,這也是“木蘭”會有很好的音質的一個重要保障。
期盼再做一次“媽媽”
到2007年的時候,我已在TTS領域耕耘了十多年了。雖然,頗有收獲,但內心深處逐漸萌生去打探一下TTS之外的領域的念頭。這時,我對大規模數據加工處理產生了興趣,這其中麻省理工學院的Victor Zue教授給了我很大的啟示。
有一次,他來研究院訪問時時,對我們提過這樣一個問題:如果將你在做研究中所使用的數據量,乘上一百或者一千倍,同樣的問題還能用同樣的方法來解決嗎?
篇10
從4月12日開通新浪微博到現在,史蒂芬?霍金一共只發了兩條信息,然而這兩條微博就為他“賺取”了300多萬中國粉絲。他的第一條向中國網友問好的微博就獲得近百萬點贊,此外還有評論和轉發各40多萬條。相隔一天之后,他在第二條微博中發出的消息再次引起轟動――研發一臺“納米飛行器”,將讓人類飛達半人馬星座的α星?;艚鹪谖⒉┲蟹Q,加入這一計劃的,還有俄羅斯“土豪”尤里?米爾納和臉書(Facebook)創始人“小扎”。
不僅物理大師組的這個“局”堪稱夢幻組合,而且他的“突破攝星”計劃也讓人充滿遐想:用激光推進的微型星際飛船,以1/5光速的速度,花20年左右的時間就能到達半人馬座α星并發回照片。
實際上,以目前人類在工程材料、推進器等方面的技術水平,無論是用激光還是太陽光,要想把一個即便只有1~10克重的物體加速到光速的1/5,大概也需要比一顆原子彈爆炸的總能量還要大的能量。這種極大的能量集中到“納米飛行器”上首先會摧毀它。所以,用目前科技發展的眼光來看,霍金探索半人馬座α星的計劃或許還只是科幻;而能夠體現當今科學發展水平的,卻是將這位科學天才的身體禁錮了50多年的那臺輪椅。
輪椅,霍金形象的一部分
在霍金的第一條微博發出之后,就有中國網友發問:全身不能動的霍金發一條微博需要多久?回答這個問題,要從這位當今人類“最強大腦”的標志性的形象說起。
霍金17歲就入讀牛津大學攻讀自然科學,他用了很短時間就得到了一等榮譽學位,隨后轉讀劍橋大學研究宇宙學。1963年,21歲的他不幸被診斷患有肌肉萎縮性側索硬化癥(又稱盧伽雷氏癥)。這是一種無法治愈的致命疾病,病人會慢慢喪失運動能力,后期甚至因為呼吸肌和喉部肌肉麻痹而不能發音,并因而失語。
當時醫生判斷霍金只能活兩三年,然而他后來卻堅強地一直活下來,但疾病使霍金的身體嚴重變形,頭只能朝右邊傾斜,肩膀左低右高,雙手緊緊并在當中,握著手掌大小的擬聲器鍵盤,兩腳則朝內扭曲,嘴幾乎歪成S形。數十年來,這樣奇特的形象和那臺輪椅,在全世界面前定格成為一個天才科學家的符號。
患病之后,霍金全身只有三根手指和兩只眼睛可以活動,并且只能用極其微弱、難以識別的語言交談。在1985年因患肺炎而做氣管切開手術后,霍金更是被徹底剝奪了說話的能力。當時,美國加利福尼亞州一位名叫瓦特?沃爾托茲的電腦工程師為霍金設計了一個名為“平等器”的電腦程序,其中的文本文件是Word+。這個程序可以讓霍金從屏幕上選擇詞匯,只要他按動手中的開關選擇詞匯后,就會轉入語音合成器,發出聲音來。
后來,劍橋調節通訊公司的大衛?梅森改進了這套設備,并安裝在霍金的輪椅上,使霍金“說話”的速度大大加快,每分鐘可“說”出15個詞,如果需要,還可以把文字直接打印出來。
這臺世界上幾乎獨一無二的輪椅不僅是霍金的代步工具,也構成霍金個人形象的一部分。它是一臺集計算機軟件、通信技術、紅外光、語音轉換器于一體的人工智能設備,通過它,霍金的思想可以轉化為語音和文字,并表達給全世界――包括他的數百萬新浪微博粉絲。
霍金輪椅的語音合成器安置在椅背上,可以把他寫出的文字轉譯成獨特的“霍金式”電子語音。輪椅上安裝有一個12英寸的電子屏幕,即便在陽光下也能讓他看得清楚屏幕上的內容和圖像。通過這個小小的“窗口”,霍金可以寫演講稿、收發電子郵件,甚至可以用即時通信軟件skype來接聽電話。
霍金輪椅上的平板電腦擁有Core17處理器,它可以控制輪椅上所有的電子系統。輪椅上的萬用遙控器是一個紅外線裝置,可以用來操作霍金辦公室和家里的電視、音響、燈光,甚至可以用來開門、關門。
輪椅上裝有一個叫做“盒”的設備,內有USB集線器、音響放大器和整流器,供各種子系統使用。這部輪椅的電源安裝在椅座下方,供輪椅移動和整個電腦系統使用。此外,這套系統還裝有一套備用電池。
其實,霍金輪椅就是一部智能機器,而且它是隨著科技的發展而逐漸升級的,以上所描述的只是這臺智能輪椅的基本構造。
發一條微博需要多久
2005年之后,霍金徹底喪失了運動能力――連手指都不能活動了,這讓他以前操作輪椅上的電腦的方式完全失效。為此,英特爾的創始人戈登?摩爾(Gordon Moore)為他設計了2.0版的輪椅,使得霍金能繼續與外界交流,而且照樣通過“交談”來實現。
新版霍金輪椅主要通過眼動追蹤、聯想輸入和語音合成器播放,來支持這位科學巨人與世界對話。研究人員為霍金設計了一個特殊的眼鏡,上面安裝了紅外線發射器和檢測肌肉活動的探測器,可以通過霍金說話時面部肌肉的收縮和舒張來激活輔助系統,并用眼球控制紅外線發射器,選定在屏幕中輪流出現的英文字母。
例如,當霍金想說“點子”(idea)這個詞時,他的面頰肌肉收縮首先激活輔助系統,電腦屏幕上會出現字母i,這時霍金的眼球動一下,計算機就會不斷顯示以i開頭的英文字母,直到idea出現;霍金再動一下眼球來表示選定這個字母,這就如同普通人用手操作鼠標時的兩次點擊確定一樣。當霍金完成造句后,就可以把這個句子發送到語音合成器上,由后者替他“說”出來了。
有趣的是,由英特爾公司設計的語音系統用的是美式英語,這讓一些人尤其是英國女王伊麗莎白,對這位英國國寶級科學家的“口音”頗有微詞。她在一次會見霍金時問,“還是美國口音嗎?”霍金回答說:“是的,而且這個聲音已經拿到了版權?!币聋惿着鯇τ⒄Z語音十分看重,以至于英國以她的發音作為英式英語的標準音。盡管如此,霍金輪椅的智能發音系統沒能取悅于女王,但是這套2.0版的輪椅畢竟讓霍金與世界的交流延續至今。
在升級后的輪椅中,霍金為了使用紅外線監測裝置,總是要把臉部肌肉繃緊,以便寫文章、收發郵件和瀏覽互聯網。到了2011年,他的病情進一步惡化,用這種方式每分鐘僅能輸入一兩個單詞,因而不得不再次求助于老朋友摩爾。在摩爾的指派下,因特爾首席技術官賈斯汀?拉特納(Justin Rattner)組建了一個人機交流技術團隊,團隊成員專門去拜訪霍金,試圖為他找到解決辦法。在見面的當時,霍金花了20分鐘,才發出一句包含30個單詞的歡迎拜訪者的話。
其后,技術團隊對霍金的設備進行了改造升級,研發了一個可供所有殘障人士使用的交互系統工具包(輔助情境感知工具包,簡稱ACAT)。安裝升級了這個開源項目后,霍金輪椅可謂升級到2.1版。雖然還是利用面部肌肉動作來操作電腦,但ACAT允許使用者通過幾乎任何面部動作來進行交互操作。升級后的軟件由于集成了Swift Key人工智能預測技術,霍金僅需要輸入15%~20%的字母,電腦軟件就能預測出剩下的內容,還能夠在每輸入一個單詞后預測出下一個可能的單詞。利用升級后的軟件,霍金對文件進行瀏覽、編輯、管理和在多任務間進行切換、收發電子郵件等日常任務的速度提高了10倍。
在沒有使用ACAT之前,霍金的輸入速度是每分鐘1.5個單詞(每20分鐘30個單詞),在使用ACAT后,他的輸入速度至少提高了一倍,也就是每分鐘輸入3~4個單詞。有人計算,霍金在向中國公眾發一條有99個詞的微博時,即便沒有錯誤,大約也需要30多分鐘。再加上思考以及排版、審閱等,估計霍金用了大約40分鐘時間,才完成了他向中國粉絲的第一次問候。
“腦控”,輪椅不僅屬于霍金
2.1版的霍金輪椅或許在某一天就會因為主人病情的不幸加重而無法使用,因此,人機交流專家已經開始設計3.0版智能輪椅――也許這并非只是為霍金一個人而設計的,所有重度殘障人都可能受益于此。而且,由于霍金已經習慣了自己現有的輪椅,而要想習慣3.0版輪椅,這位物理大師可能還需要開始新的學習。
最新版智能輪椅是基于喉部肌肉發音時的收縮和舒張來設計的。當人們說話時,大腦語言中樞會發出信號到喉嚨,使喉嚨的肌肉群協同收縮和舒張而發出聲音。即使一個人說話不說出聲,或者說出來的話只是自己能夠聽到,其喉部的肌肉群也仍然有運動。換句話說,想要說出的話即使僅僅在大腦中,大腦也會產生指令,讓喉嚨肌肉群運動。如果設計一個軟件,能夠通過“讀懂”喉嚨肌肉群的運動來判斷要說出的詞句,然后傳輸到語音合成器上,就能形成人的話語。與靠電腦軟件檢測臉部肌肉相比,這樣的“發音”方式要直接很多。
根據這一原理,美國航天總署艾姆斯研究中心研發了一項技術,不僅可以讓殘障人自主控制電動輪椅,而且能夠將思想(想說的話)傳送到語音合成器,讓后者“說話”。首先,通過一個貼在喉部皮膚上的電極,使用者頭腦中只要有“向右”或“停下”的想法(指令),輪椅便會自動探測到喉部微弱的電子脈沖并“翻譯”出來,這樣的指令正確傳達給輪椅后,輪椅就會完成右轉或停下的動作。同樣,使用者想說什么話,也可以通過軟件探測到,并向語音合成器傳輸指令,讓后者替使用者“發聲”。
霍金已經嘗試過這種人(腦)-機界面,但他感到并不適應。原因有兩個:其一,從使用面頰肌肉到通過喉部肌肉收縮來操控,有一個需要重新學習的過程,霍金還沒有適應這種新的技能。其二,按照目前的技術,電極擺放的位置如果稍有偏移,辨識的準確率就會從94%下降到50%以下。有時候,電極解讀并發送到語音合成器“說”出來的話,并非霍金的本意。所以霍金的輪椅目前并沒有正式使用這一系統。
更高級的智能技術是“腦機接口”,即用思想來控制不能運動的四肢。美國大學生伯克?哈特5年前因潛水意外導致頸椎脊髓受損,四肢永久癱瘓。從2014年起,俄亥俄州神經中心的研究人員就開始設計一個植入伯克哈特大腦的芯片來讓其思想控制運動。這個植入腦部的芯片名為“神經生命”,它通過連接器與電腦相連。電腦使用特殊軟件來解讀大腦傳來的信號后,發送指令給鑲有130個電極的電子手袖套,以刺激手部肌肉,讓伯克?哈特得以繞過脊髓,控制手部活動。經過一年多的練習,現在伯克?哈特已經可以用思維控制右手,完成拿起杯子、刷信用卡等動作。
同樣,如果把芯片植入大腦語言中樞,就可以在大腦想說什么話的時候通過人機指令讓輪椅上的語音合成器說出來。只是,這需要向霍金的大腦語言中樞植入芯片。如果想用思想控制輪椅的運動,也得向大腦運動中樞植入芯片。當然,這種設想中的3.0版本輪椅目前還幫不到霍金,這首先是因為,霍金還不愿意在自己天才的大腦中植入芯片。
目前,霍金輪椅的價格可能是普通殘障者所可望而不可即的。由于霍金的輪椅都是科技公司友情贊助的,并不需要他自己“埋單”,因此,還沒有人能夠給霍金輪椅定一個“官方價格”。據粗略估算,買一臺目前版本的霍金輪椅大概得花95萬~100萬美元。如果將來真的升級到3.0版,恐怕價錢更會高出許多。