閱讀足跡 永久書架

第13部分 (第1/4頁)

青澀春天提示您:看後求收藏(筆趣閣小說www.biqugexsw.tw),接著再看更方便。

這種情況屢見不鮮。我希望有一部在“聽力範圍”之內的電腦,它必須能把說話的聲音和周圍的雜音(例如空調或飛機在頭頂上飛過的聲音)區分開來。

講話勝於文字的另一個原因是,它可以有其他附帶方式來傳遞資訊。家裡有小孩或養了寵物的人都知道,怎麼樣講話可能比講什麼話更重要。說話的語氣非常關鍵。例如,不管主人如何吹牛,說他、她寵愛的小狗如何如何,小狗似乎只對語調有反應,它內在的分析複雜詞彙的能力基本為零。

說出來的話除了字面的意思之外,同時傳遞了大量的資訊。講話的時候,我們使用完全一樣的字眼,可以表達或激情洋溢、或嘲諷、或憤怒、或閃爍曖昧、或曲意逢迎、或精疲力竭等等不同的情緒。在電腦語音識別的研究中,大家都忽略了這些細微的差異,更糟的是,把它們視為暇疵,而不是特點。然而,正是這些特質,使說話成為比打字更豐富的輸入媒介。讓電腦“聽話”

假如你的外語能力還不錯,但是還不到應對自如的地步,你會發現,要聽懂飽受雜音干擾的新聞廣播實在很困難。相反,對於一個能把外語說得極為流利的人而言,這些雜音充其量只是擾人罷了。識別語言和理解語言,二者密不可分。

目前,電腦無法像你我一樣,先對某件事的意義建立共識,進而理解事物的意義。雖然未來的電腦無疑會具有更多智慧,目前我們仍不得不先設法解決機器的語音識別能力問題,而把機器的理解力問題擱置一邊。一旦把這兩項任務予以分化,路該怎麼走就很清楚了,我們必須把口語中的單字,變成電腦可讀的命令(mand)。語音識別問題有三個變數:詞彙量、機器對說話者的依賴程度以及字的關聯性,所謂字的關聯性,是指機器能在多大程度上依照人們日常講話中的自然強弱節奏把單字含混在一起。

我們可以把語音識別的這三個方面想象成三維立體軸。在詞彙軸上,需要識別的字越少,對電腦而言就越容易。假如系統事先就知道說話的人是誰,問題就更簡單了。如果說話的人能一個字一個字分開發音,電腦就聽得更明白,識別起來也就更容易。

在這三條軸的起始點,我們可以找到少得不能再少、完全依賴於說話者語音的詞彙,念出這些詞彙的時候,字與字之間必須有明——顯——的——停——頓。

當我們順著任何一條軸移動的時候,也就是說,增加電腦所能識別的詞彙,讓系統能夠服務於任何說話者,或是容許字與字相連的程度越來越高,在這種情況下,每前進一步,都會使問題變得越來越困難。當到達三條軸的遠端時,我們期望電腦能夠識別任何人說的任何字,以及“印(任)何程度”的含混字。人們通常都認為,我們必須在兩條或三條軸上都達到最遠端時,語音識別系統才能對人類有用。這完全不對。

讓我們一個一個來考慮。談到詞彙多寡的時候,我們可能會問:多少才算多呢,500、5000還是5

個字?但這個問題其實應該是:在任何時候,電腦儲存器中究竟需要多少它可以識別的單字?這個問題提示我們把詞彙根據上下文分成組,這樣在需要的時候就可以把大群片語放進儲存器中。當我要求我的電腦接聽電話時,它會把資訊輸入我的電子電話本。當我計劃到什麼地方旅行時,它則把地名輸入到上面。

假如你把詞彙量看成在任何情況下都需要的一組字——稱為“字窗”(wordwindows)一那麼電腦只需要從一個小得多的字音庫中揀字就可以了,這一字音庫只要有500個字左右就夠了,不需要5

個那麼多。

人們所以假設需要有能夠識別各個獨立講話人的語音識別系統,是由於這種功能是過去電話公司的一項要求,電話公司的中央電腦必須能聽懂每個人的話,提供一種“通用服務”。今天,電腦的普及率更高,而且更加個人化。我們在網路的外圍——透過個人電腦、話筒,或經由一小塊智慧卡(smartcard)的協助,能夠完成更多的語音識別。如果我想在電話亭裡和一部航空公司的電腦談話,我可以先接通我的家用電腦或拿出我的袖珍型電腦,讓它先替我把聲音轉換成機器看得懂的訊號,然後,再和航空公司的電腦聯絡。

第三個問題是字音的模糊性問題。和電腦說話的時候,我們不希望像一個觀光客對外國小孩說話一樣,誇張地吐出每個單字,而且每念一個字,都停頓一下。因此這個軸最具挑戰性。但是我們也可以把問題稍稍簡化,也就是把語言看成許多字一起發出的聲音,而不是許多單個字的聲音。

《數字化生存》 第13部分(第1/4頁),本章未完,點選下一頁繼續閱讀。