語言聲學(xué)也稱為語言通信,是近代聲學(xué)中的一個(gè)分支學(xué)科,是用聲學(xué)方法研究語言的產(chǎn)生、傳遞、接受和轉(zhuǎn)換的一門科學(xué)。
語言是既具有自然屬性又具有社會(huì)屬性的復(fù)雜的信號(hào)系統(tǒng)。聲學(xué)方法不但直接用于研究語言信號(hào)的聲學(xué)特性本身,而且用于研究語言的心理特性和生理特性。語言分析、合成和感知是語言聲學(xué)研究的主要方法。在研究語言時(shí),聲學(xué)特性是主要的;在研究音節(jié)時(shí),便要考慮到音節(jié)結(jié)構(gòu);而在研究詞句時(shí),則又需要考慮語法和語意。因此,在語言聲學(xué)研究中,還涉及到語言學(xué)和信息論。
早在一二千年以前,人們便對(duì)語言進(jìn)行了研究。由于沒有適當(dāng)?shù)膬x器設(shè)備,長(zhǎng)期以來,一直是由耳傾聽和用口模仿來進(jìn)行研究。因此,這種語言研究常被稱為“口耳之學(xué)”,所以對(duì)語聲只是停留在定性的描寫上。
19世紀(jì)60年代,亥姆霍茲應(yīng)用聲學(xué)方法對(duì)元音和歌唱進(jìn)行了研究,從而奠定了語言聲學(xué)的基礎(chǔ);1876年電話的發(fā)明,以及電話通信的飛速發(fā)展,促進(jìn)了語言信號(hào)的聲學(xué)特性及其與語言感知的關(guān)系的研究。電子技術(shù)的發(fā)展,為語聲的定量研究,提供了有力的手段。
20世紀(jì)40年代,一種語言聲學(xué)的專用儀器──語圖儀問世了。它可以把語聲的聲學(xué)特征用語圖表示出來,從而得出了“可見語言”。這對(duì)語言聲學(xué)的發(fā)展作出了重要貢獻(xiàn)。50年代對(duì)語言產(chǎn)生的聲學(xué)理論開始有了系統(tǒng)的論述,到了60年代語言聲學(xué)研究得到了計(jì)算技術(shù)的幫助,使得過去受人力、時(shí)間限制的大量的話聲統(tǒng)計(jì)分析工作,得以在電子計(jì)算機(jī)上進(jìn)行。在此基礎(chǔ)上,語言聲學(xué)不論在基礎(chǔ)研究方面,還是在技術(shù)應(yīng)用方面,都取得了突破性的進(jìn)展。
反過來,電子技術(shù)和計(jì)算技術(shù)的發(fā)展,又對(duì)語言聲學(xué)提出了新的課題。當(dāng)前,計(jì)算機(jī)的語言輸入和語言輸出、自動(dòng)應(yīng)答裝置、自動(dòng)語言識(shí)別、嗓音鑒別、語言理解系統(tǒng)等,都迫切需要對(duì)語言信號(hào)的許多基本問題作出新的解答。
根據(jù)聲學(xué)觀點(diǎn),語言的產(chǎn)生可分成三個(gè)部分:聲源激勵(lì)、聲道調(diào)制和聲波輻射,其中決定語聲性質(zhì)的是聲源激勵(lì)和聲道調(diào)制。語言產(chǎn)生的研究?jī)?nèi)容包括:激勵(lì)聲源的特性、發(fā)聲器官的工作狀態(tài)和聲道的聲學(xué)性質(zhì)等。所采用的研究方法,大多是用電-力-聲類比的方法,以建立聲帶波產(chǎn)生的模型、聲道模型和語言產(chǎn)生的參量模型。
實(shí)驗(yàn)表明,由聲道形狀決定的共振峰,是主要的信息要素。目前,從語聲中準(zhǔn)確地分離出聲源特性和聲道調(diào)制特性來,還存在許多困難。為研究語言的產(chǎn)生,除對(duì)語聲的物理特性進(jìn)行研究之外,還對(duì)發(fā)聲生理進(jìn)行研究,如利用肌電圖配合聲學(xué)測(cè)量,來研究發(fā)聲器官的肌肉活動(dòng)。
語言分析是用分析的方法來研究語言的自然特性。其主要內(nèi)容是:分析語聲的時(shí)間特性和頻率特性,以及發(fā)聲器官的發(fā)聲分析。語聲的時(shí)間特性和頻率特性包括:波形、長(zhǎng)度、強(qiáng)度隨時(shí)間的變化、短時(shí)間相關(guān)函數(shù)和功率譜、短時(shí)頻譜分析、長(zhǎng)時(shí)平均功率譜、共振峰分析和基頻分析等。在說話時(shí),語聲是處在語流之中的。從一個(gè)短暫的時(shí)間窗口去觀察語聲的聲學(xué)特性,便是短時(shí)頻譜分析,而長(zhǎng)時(shí)平均頻譜則表示語言的統(tǒng)計(jì)平均特性。共振峰分析,是根據(jù)語音的頻譜和語言產(chǎn)生的原理,推算出聲道的共振頻率。
基頻分析,是從語言波中提取出聲帶振動(dòng)的基本頻率,其方法既可以是測(cè)量基頻本身,也可以是利用諧波來求出基頻?;l隨時(shí)間的變化方式,構(gòu)成了聲調(diào)和語調(diào),它們是重要的語聲特征。在專用的語言分析設(shè)備問世以前,曾采用浪紋計(jì)和示波器分析語言波形,以后又使用濾波器組或頻率分析儀。但是,對(duì)于大量的多變的語聲來說,這些分析方法都有很大的局限性。因此,對(duì)語言特性的認(rèn)識(shí)也受到一定的限制。
40年代出現(xiàn)的語圖儀,可以把可聽的語言描繪成可見圖樣──語圖。這便是所謂“可見語言”。語圖可以表現(xiàn)語聲的三維特性,橫軸代表時(shí)間,縱軸代表頻率,而黑度代表強(qiáng)弱。語言頻譜顯示設(shè)備可以在一個(gè)電視屏幕上把說的話用語圖的形式顯示出來。此外,還發(fā)展了許多用于語言分析的專用軟件,以便于利用計(jì)算機(jī)進(jìn)行語言分析。
用人工模擬語言產(chǎn)生的過程,以合成出語言來,供直接應(yīng)用或進(jìn)行研究。初是用機(jī)械的方法來模擬人講話。在18世紀(jì)便做出了可以產(chǎn)生連續(xù)語言的機(jī)器。一直到20世紀(jì)30年代還在研制結(jié)構(gòu)更為復(fù)雜的機(jī)械發(fā)聲裝置。它們所發(fā)出的語聲的音質(zhì)都很不好。
1939年出現(xiàn)了所謂語言合成儀。它是用電子線路來模擬發(fā)聲器官的動(dòng)作。其工作方式很像電子琴。一個(gè)受過訓(xùn)練的人,可以用它“演奏”出可以聽懂的語言。另一種語言合成方法稱為語圖還音。把語圖用墨線畫在透明膠帶上,再用一個(gè)音輪調(diào)制線光源來照射走動(dòng)的膠帶。根據(jù)膠帶透射過去的光通量的變化放出語聲來。由于在繪制語圖時(shí)改動(dòng)方便,所以語圖還音裝置曾在語言合成中起過重要作用。
20世紀(jì)50年代開始采用傳輸線來模擬聲道。既可以整體模擬,也可以分段模擬。由一個(gè)適當(dāng)?shù)碾娫醇?lì),經(jīng)過放大器和揚(yáng)聲器,便可發(fā)出語聲來。改變傳輸線的參量,便可以發(fā)出不同的語聲。現(xiàn)在,利用電子計(jì)算機(jī),根據(jù)語言產(chǎn)生的原理,把它寫成一些發(fā)聲規(guī)則和參量,再將其組合成語言。
自動(dòng)語言識(shí)別是根據(jù)語言信號(hào)的聲學(xué)待征,有時(shí)加上語言的結(jié)構(gòu)規(guī)則和語意線索,由機(jī)器認(rèn)出輸入的語言來??梢愿鶕?jù)使用要求,由機(jī)器以不同的方式作出響應(yīng),如打印出與該語聲相應(yīng)的文字、符號(hào),完成規(guī)定的動(dòng)作等。它分為孤立單詞自動(dòng)識(shí)別和連續(xù)語言自動(dòng)識(shí)別,自20世紀(jì)50年代開始系統(tǒng)而廣泛的研究。對(duì)單個(gè)人小量詞匯的自動(dòng)識(shí)別已取得了較大的進(jìn)展;但是,在更換發(fā)話人和擴(kuò)大詞匯容量方面現(xiàn)在還有困難。
自動(dòng)語言識(shí)別的實(shí)現(xiàn),面對(duì)著三個(gè)重大的語言聲學(xué)基礎(chǔ)課題:首先,語言知覺的基本單位是什么,是音素、音節(jié)還是單詞;其次,是否存在音素的心理常量,如果有,它是什么;后,如何對(duì)連續(xù)語言進(jìn)行分段。
現(xiàn)在,有限詞匯的、在一定條件下適用的自動(dòng)語言識(shí)別裝置,已進(jìn)入實(shí)際應(yīng)用。適用于多數(shù)發(fā)話人的、不怕環(huán)境噪聲干擾的和無限詞匯的自動(dòng)語言識(shí)別系統(tǒng)還有待于大量的基礎(chǔ)研究。
嗓音鑒別也稱為發(fā)話人鑒別,它包括兩個(gè)方面:發(fā)話人鑒定和發(fā)話人辨別。發(fā)話人鑒定是根據(jù)發(fā)話人已有貯的嗓音(口聲)材料,與發(fā)話人現(xiàn)時(shí)提供的材料相比較,鑒定是不是發(fā)話人本人在說話。這可用于銀行業(yè)務(wù)中,存款人用嗓音代替印鑒,以便于通過電話來辦理存取手續(xù)。發(fā)話人辨別是從大量的已有的嗓音樣本中,辨別出哪一個(gè)與發(fā)話人的嗓音相似或者與它們都不相似。
與自動(dòng)語言識(shí)別不同,嗓音鑒別在于利用語聲當(dāng)中代表發(fā)話人個(gè)性特征的部分,而自動(dòng)語言識(shí)別則是利用不同發(fā)話人或同一發(fā)話人在不同時(shí)刻發(fā)同一語聲時(shí)的共性特征。嗓音鑒別多采用聽音-看圖法,即由有訓(xùn)練的專業(yè)人員審聽嗓音材料、檢視語圖特征──聲紋,以作出判斷。嗓音鑒別已在法律程序中作為一種證據(jù)使用。
聲碼器是達(dá)德利在1939年發(fā)明的,由于語音質(zhì)量較差、體積龐大、造價(jià)高昂,以致很長(zhǎng)時(shí)間未能獲得廣泛應(yīng)用。近年來,應(yīng)用大規(guī)模集成電路做成的聲碼器,已可隨身攜帶,其音質(zhì)與普通電話相仿。因而不只可用于政府首腦通信和軍事通信,而開始進(jìn)入商用通信。
根據(jù)工作原理,聲碼器分為:通道聲碼器、半聲碼器(語聲激勵(lì)聲碼器)、相關(guān)聲碼器、諧和聲碼器、共振峰聲碼器、線性預(yù)測(cè)聲碼器和同態(tài)聲碼器等多種,發(fā)展較多的是通道聲碼器和線性預(yù)測(cè)聲碼器。用聲碼器來壓縮語言信號(hào)的數(shù)碼率,是實(shí)現(xiàn)人-機(jī)對(duì)話的重要手段。
語言是既具有自然屬性又具有社會(huì)屬性的復(fù)雜的信號(hào)系統(tǒng)。聲學(xué)方法不但直接用于研究語言信號(hào)的聲學(xué)特性本身,而且用于研究語言的心理特性和生理特性。語言分析、合成和感知是語言聲學(xué)研究的主要方法。在研究語言時(shí),聲學(xué)特性是主要的;在研究音節(jié)時(shí),便要考慮到音節(jié)結(jié)構(gòu);而在研究詞句時(shí),則又需要考慮語法和語意。因此,在語言聲學(xué)研究中,還涉及到語言學(xué)和信息論。
早在一二千年以前,人們便對(duì)語言進(jìn)行了研究。由于沒有適當(dāng)?shù)膬x器設(shè)備,長(zhǎng)期以來,一直是由耳傾聽和用口模仿來進(jìn)行研究。因此,這種語言研究常被稱為“口耳之學(xué)”,所以對(duì)語聲只是停留在定性的描寫上。
19世紀(jì)60年代,亥姆霍茲應(yīng)用聲學(xué)方法對(duì)元音和歌唱進(jìn)行了研究,從而奠定了語言聲學(xué)的基礎(chǔ);1876年電話的發(fā)明,以及電話通信的飛速發(fā)展,促進(jìn)了語言信號(hào)的聲學(xué)特性及其與語言感知的關(guān)系的研究。電子技術(shù)的發(fā)展,為語聲的定量研究,提供了有力的手段。
20世紀(jì)40年代,一種語言聲學(xué)的專用儀器──語圖儀問世了。它可以把語聲的聲學(xué)特征用語圖表示出來,從而得出了“可見語言”。這對(duì)語言聲學(xué)的發(fā)展作出了重要貢獻(xiàn)。50年代對(duì)語言產(chǎn)生的聲學(xué)理論開始有了系統(tǒng)的論述,到了60年代語言聲學(xué)研究得到了計(jì)算技術(shù)的幫助,使得過去受人力、時(shí)間限制的大量的話聲統(tǒng)計(jì)分析工作,得以在電子計(jì)算機(jī)上進(jìn)行。在此基礎(chǔ)上,語言聲學(xué)不論在基礎(chǔ)研究方面,還是在技術(shù)應(yīng)用方面,都取得了突破性的進(jìn)展。
反過來,電子技術(shù)和計(jì)算技術(shù)的發(fā)展,又對(duì)語言聲學(xué)提出了新的課題。當(dāng)前,計(jì)算機(jī)的語言輸入和語言輸出、自動(dòng)應(yīng)答裝置、自動(dòng)語言識(shí)別、嗓音鑒別、語言理解系統(tǒng)等,都迫切需要對(duì)語言信號(hào)的許多基本問題作出新的解答。
根據(jù)聲學(xué)觀點(diǎn),語言的產(chǎn)生可分成三個(gè)部分:聲源激勵(lì)、聲道調(diào)制和聲波輻射,其中決定語聲性質(zhì)的是聲源激勵(lì)和聲道調(diào)制。語言產(chǎn)生的研究?jī)?nèi)容包括:激勵(lì)聲源的特性、發(fā)聲器官的工作狀態(tài)和聲道的聲學(xué)性質(zhì)等。所采用的研究方法,大多是用電-力-聲類比的方法,以建立聲帶波產(chǎn)生的模型、聲道模型和語言產(chǎn)生的參量模型。
實(shí)驗(yàn)表明,由聲道形狀決定的共振峰,是主要的信息要素。目前,從語聲中準(zhǔn)確地分離出聲源特性和聲道調(diào)制特性來,還存在許多困難。為研究語言的產(chǎn)生,除對(duì)語聲的物理特性進(jìn)行研究之外,還對(duì)發(fā)聲生理進(jìn)行研究,如利用肌電圖配合聲學(xué)測(cè)量,來研究發(fā)聲器官的肌肉活動(dòng)。
語言分析是用分析的方法來研究語言的自然特性。其主要內(nèi)容是:分析語聲的時(shí)間特性和頻率特性,以及發(fā)聲器官的發(fā)聲分析。語聲的時(shí)間特性和頻率特性包括:波形、長(zhǎng)度、強(qiáng)度隨時(shí)間的變化、短時(shí)間相關(guān)函數(shù)和功率譜、短時(shí)頻譜分析、長(zhǎng)時(shí)平均功率譜、共振峰分析和基頻分析等。在說話時(shí),語聲是處在語流之中的。從一個(gè)短暫的時(shí)間窗口去觀察語聲的聲學(xué)特性,便是短時(shí)頻譜分析,而長(zhǎng)時(shí)平均頻譜則表示語言的統(tǒng)計(jì)平均特性。共振峰分析,是根據(jù)語音的頻譜和語言產(chǎn)生的原理,推算出聲道的共振頻率。
基頻分析,是從語言波中提取出聲帶振動(dòng)的基本頻率,其方法既可以是測(cè)量基頻本身,也可以是利用諧波來求出基頻?;l隨時(shí)間的變化方式,構(gòu)成了聲調(diào)和語調(diào),它們是重要的語聲特征。在專用的語言分析設(shè)備問世以前,曾采用浪紋計(jì)和示波器分析語言波形,以后又使用濾波器組或頻率分析儀。但是,對(duì)于大量的多變的語聲來說,這些分析方法都有很大的局限性。因此,對(duì)語言特性的認(rèn)識(shí)也受到一定的限制。
40年代出現(xiàn)的語圖儀,可以把可聽的語言描繪成可見圖樣──語圖。這便是所謂“可見語言”。語圖可以表現(xiàn)語聲的三維特性,橫軸代表時(shí)間,縱軸代表頻率,而黑度代表強(qiáng)弱。語言頻譜顯示設(shè)備可以在一個(gè)電視屏幕上把說的話用語圖的形式顯示出來。此外,還發(fā)展了許多用于語言分析的專用軟件,以便于利用計(jì)算機(jī)進(jìn)行語言分析。
用人工模擬語言產(chǎn)生的過程,以合成出語言來,供直接應(yīng)用或進(jìn)行研究。初是用機(jī)械的方法來模擬人講話。在18世紀(jì)便做出了可以產(chǎn)生連續(xù)語言的機(jī)器。一直到20世紀(jì)30年代還在研制結(jié)構(gòu)更為復(fù)雜的機(jī)械發(fā)聲裝置。它們所發(fā)出的語聲的音質(zhì)都很不好。
1939年出現(xiàn)了所謂語言合成儀。它是用電子線路來模擬發(fā)聲器官的動(dòng)作。其工作方式很像電子琴。一個(gè)受過訓(xùn)練的人,可以用它“演奏”出可以聽懂的語言。另一種語言合成方法稱為語圖還音。把語圖用墨線畫在透明膠帶上,再用一個(gè)音輪調(diào)制線光源來照射走動(dòng)的膠帶。根據(jù)膠帶透射過去的光通量的變化放出語聲來。由于在繪制語圖時(shí)改動(dòng)方便,所以語圖還音裝置曾在語言合成中起過重要作用。
20世紀(jì)50年代開始采用傳輸線來模擬聲道。既可以整體模擬,也可以分段模擬。由一個(gè)適當(dāng)?shù)碾娫醇?lì),經(jīng)過放大器和揚(yáng)聲器,便可發(fā)出語聲來。改變傳輸線的參量,便可以發(fā)出不同的語聲。現(xiàn)在,利用電子計(jì)算機(jī),根據(jù)語言產(chǎn)生的原理,把它寫成一些發(fā)聲規(guī)則和參量,再將其組合成語言。
自動(dòng)語言識(shí)別是根據(jù)語言信號(hào)的聲學(xué)待征,有時(shí)加上語言的結(jié)構(gòu)規(guī)則和語意線索,由機(jī)器認(rèn)出輸入的語言來??梢愿鶕?jù)使用要求,由機(jī)器以不同的方式作出響應(yīng),如打印出與該語聲相應(yīng)的文字、符號(hào),完成規(guī)定的動(dòng)作等。它分為孤立單詞自動(dòng)識(shí)別和連續(xù)語言自動(dòng)識(shí)別,自20世紀(jì)50年代開始系統(tǒng)而廣泛的研究。對(duì)單個(gè)人小量詞匯的自動(dòng)識(shí)別已取得了較大的進(jìn)展;但是,在更換發(fā)話人和擴(kuò)大詞匯容量方面現(xiàn)在還有困難。
自動(dòng)語言識(shí)別的實(shí)現(xiàn),面對(duì)著三個(gè)重大的語言聲學(xué)基礎(chǔ)課題:首先,語言知覺的基本單位是什么,是音素、音節(jié)還是單詞;其次,是否存在音素的心理常量,如果有,它是什么;后,如何對(duì)連續(xù)語言進(jìn)行分段。
現(xiàn)在,有限詞匯的、在一定條件下適用的自動(dòng)語言識(shí)別裝置,已進(jìn)入實(shí)際應(yīng)用。適用于多數(shù)發(fā)話人的、不怕環(huán)境噪聲干擾的和無限詞匯的自動(dòng)語言識(shí)別系統(tǒng)還有待于大量的基礎(chǔ)研究。
嗓音鑒別也稱為發(fā)話人鑒別,它包括兩個(gè)方面:發(fā)話人鑒定和發(fā)話人辨別。發(fā)話人鑒定是根據(jù)發(fā)話人已有貯的嗓音(口聲)材料,與發(fā)話人現(xiàn)時(shí)提供的材料相比較,鑒定是不是發(fā)話人本人在說話。這可用于銀行業(yè)務(wù)中,存款人用嗓音代替印鑒,以便于通過電話來辦理存取手續(xù)。發(fā)話人辨別是從大量的已有的嗓音樣本中,辨別出哪一個(gè)與發(fā)話人的嗓音相似或者與它們都不相似。
與自動(dòng)語言識(shí)別不同,嗓音鑒別在于利用語聲當(dāng)中代表發(fā)話人個(gè)性特征的部分,而自動(dòng)語言識(shí)別則是利用不同發(fā)話人或同一發(fā)話人在不同時(shí)刻發(fā)同一語聲時(shí)的共性特征。嗓音鑒別多采用聽音-看圖法,即由有訓(xùn)練的專業(yè)人員審聽嗓音材料、檢視語圖特征──聲紋,以作出判斷。嗓音鑒別已在法律程序中作為一種證據(jù)使用。
聲碼器是達(dá)德利在1939年發(fā)明的,由于語音質(zhì)量較差、體積龐大、造價(jià)高昂,以致很長(zhǎng)時(shí)間未能獲得廣泛應(yīng)用。近年來,應(yīng)用大規(guī)模集成電路做成的聲碼器,已可隨身攜帶,其音質(zhì)與普通電話相仿。因而不只可用于政府首腦通信和軍事通信,而開始進(jìn)入商用通信。
根據(jù)工作原理,聲碼器分為:通道聲碼器、半聲碼器(語聲激勵(lì)聲碼器)、相關(guān)聲碼器、諧和聲碼器、共振峰聲碼器、線性預(yù)測(cè)聲碼器和同態(tài)聲碼器等多種,發(fā)展較多的是通道聲碼器和線性預(yù)測(cè)聲碼器。用聲碼器來壓縮語言信號(hào)的數(shù)碼率,是實(shí)現(xiàn)人-機(jī)對(duì)話的重要手段。