複製鏈接
請複製以下鏈接發送給好友

計算語言學

鎖定
計算語言學(Computational Linguistics)指的是這樣一門學科,它通過建立形式化的數學模型,來分析、處理自然語言,並在計算機上用程序來實現分析和處理的過程,從而達到以機器來模擬人的部分乃至全部語言能力的目的 [1] 
中文名
計算語言學
外文名
Computational Linguistics
數學方法
建立形式化的數學模型
作    用
分析、處理自然語言
目    的
以機器來模擬人的部分乃至全部語言能力
分    類
分成機器語言、彙編語言、高級語言三大類

計算語言學簡介

我們所説的語言分為自然語言與人工語言兩大類。自然語言是人類在自身發展的過程中形成的語言,是人與人之間傳遞信息的媒介。人工語言指的是人們為了某種目的而自行設計的語言。計算機語言(Computer Language)就是人工語言的一種,指用於在人與計算機之間傳遞信息的語言 [2] 
人與計算機之間交流信息要使用計算機語言。電腦每做的一次動作,一個步驟,實際上都是執行已經用計算機語言編好的程序。程序是計算機要執行的指令的集合,而程序全部都是用我們所掌握的語言來編寫的。人們要控制計算機,利用計算機來解決問題,就一定要通過計算機語言向計算機發出命令。我們把編寫程序的過程叫做程序設計,而計算機語言相應地稱為程序設計語言 [2] 
計算機語言都可以用來控制計算機來解決一些實際問題。這些問題可以是數值計算問題,其操作對象就是一些由符號構成的符號串;也可以是非數值計算問題如聲音、圖像處理問題,其操作對象就是聲音和圖像等。我們應知道各種計算機語言都不是萬能的,每種計算機語言都有自己的特點、優勢及運行環境,有自己的應用和操作對象 [2] 

計算語言學產生背景

電子計算機問世不久,人們便考慮到它的非數值運算問題,並選中機器翻譯作為第一個非數值運算的課題。這個選擇可以説開闢了計算機非數值應用無比廣闊的領域,許多語言學理論和方法以及許多技術成果都是在它的基礎上或啓發下產生和解決的。例如,文字的輸入輸出設備、大存儲裝置、言語識別和文字識別等課題均在機器翻譯研究初期便已提出。但是由於機器翻譯是一種比較高級的人工智能,至今尚未能真正或廣泛付諸應用,而計算語言學的其他方面卻得到了很大發展。計算機情報檢索在60年代末期便已實現,通過衞星已可進行洲際檢索。利用計算機進行言語統計已成常事,在統計分析的基礎上編成了一大批正序、逆序詞表和頻率詞典,建立了各種語料庫,促進了計算風格學的誕生。同時還編制了大量索引和逐詞索引。大字符集的信息處理問題已得到一定解決,這為中文和其他東方語文的信息處理提供了方便條件。計算機輔助教學日趨成熟與普遍。作為人工智能一個重要分支的自然語言理解也已奠定了基礎,與此相聯繫的文字自動識別、言語識別言語合成等項語言工程也在蓬勃開展。計算機在實驗語音學、方言研究、語法分析和詞典編纂等方面也得到了越來越廣泛的應用 [3] 
計算語言學之所以有這樣長足的發展,是由於社會的需要。當今世界處於新技術革命時代,一個以電子計算機為基本工具的現代化語言文字信息處理系統正在世界範圍內形成,這標誌着高度發展的信息化社會的到來。計算語言學正是為擔當這一歷史使命而誕生和發展的 [3] 

計算語言學基本內容

計算語言學發展到今天,按其工作性質和複雜程度,可以歸結為以下3個方面: [4] 
①自動編排:這是計算機最擅長的工作,也是計算語言學中最成熟的部分。對各種語言素材進行統計、分類、排序,編輯各種詞表、索引和詞典,建立語料庫、術語數據庫等等,已經得到廣泛運用。由於這些技術已經相當成熟,因而已有現成的軟件包提供服務 [4] 
②自動分析:這是一種較複雜的語言自動處理。這種自動分析系統是根據事先存入計算機內的特定語言信息進行工作,目的在於得到預先規定的結論,例如讓計算機查詞典或進行語法測試,均屬此類。若結論有誤,就證明詞典或語法不夠完備,需要對原先的數據或規則加以修訂或補充。這類系統一般尚處於試驗研究階段 [4] 
③自動研究:這是一種更復雜的語言自動處理。這種自動研究系統是根據計算機內存儲的一般語言信息進行工作,藉助統計、比較、類推等手段,得出自己推斷的結論。人工智能研究中的某些自然語言理解系統正在朝這方面努力,但目前還沒有比較成熟的研究成果 [4] 

計算語言學分類

計算機語言的種類非常的多,總的來説可以分成機器語言、彙編語言、高級語言三大類 [5] 

計算語言學成果

計算語言學可以説是計算機和語言學相結合的產物。這種結合已經得到豐碩的成果,除了上面説到的那些應用課題以外,還表現在對語言學理論和方法的影響上。語言的定義擴展了:語言已不僅是人類重要的交際工具,而且也是人機之間的交際工具。為了滿足計算機加工的要求,計算語言學最大的特點就是要求語言的形式化,因為只有形式化,才能算法化、自動化。根據這項要求,制定出一系列面向語言信息處理的自動分析方法,其中包括預示分析法從屬分析法中介成分體系優選語義學擴充轉移網絡概念從屬論等等。這些自動分析方法,已在機器翻譯自然語言理解的系統中得到應用,並證明有效。語言的形式化是分層進行的。語法的形式化相對來説比較簡單,人們已做了不少工作;語義的形式化則是一個複雜的問題,人們進行的工作還不多。而語義形式化問題解決得好壞,將大大影響語言自動加工的成效。因此,繼續發掘行之有效的形式結構分析方法和語義分析方法,研究它們之間的關係,以及探討它們在不同系統中各自使用的限度,這是計算語言學中的重點研究課題 [3] 
第五代計算機要求人們賦予它聽覺(識別口語)和更強的視覺(自動識別文字),賦予它説話能力(合成言語)和聽寫能力(語音打字),同時還要求人們賦予它理解自然語言並把某種(或多種)自然語言翻譯成另一種(或多種)自然語言的能力。這樣,計算語言學工作者又需要提供各種物理參數、語言概率性等方面的數據和各種應用軟件,以便同有關的專家、工程師一道共同解決為計算機增添“翅膀”這個重大課題,使之真正成為“萬能的智能機器” [3] 
完成上述任務,必須靠整個語言學界的努力和合作。儘管面向機器的語言學有其獨特性,在許多方面都要另起爐灶,但是實踐證明:傳統語言學的基礎雄厚與否對解決一些新任務有很大關係,例如傳統的英漢對比語言學研究得好,就會給英漢機器翻譯提供很多方便。從這個意義上講,計算語言學只有很好地吸取傳統語言學的成果並加以改造,才能得到迅速發展 [3] 

計算語言學熱點

值得一提的是,機器翻譯是人工智能的重要分支和最先應用領域。不過就已有的機譯成就來看,機譯系統的譯文質量離終極目標仍相差甚遠;而機譯質量是機譯系統成敗的關鍵。中國數學家、語言學家周海中教授曾在論文《機器翻譯五十年》中指出:要提高機譯的質量,首先要解決的是語言本身問題而不是程序設計問題;單靠若干程序來做機譯系統,肯定無法提高機譯質量。另外在人類尚未明瞭大腦是如何進行語言的模糊識別邏輯判斷的情況下,機譯要想達到“信、達、雅”的程度是不可能的 [6] 

計算語言學應用

計算語言學和自然語言信息處理研究的核心問題是語言的自動理解(Language Understanding)和自動生成(Language Generation)。前者從句子表層的詞語符號串識別句子的句法結構,判斷成分之間的語義關係,最終弄清句子表達的意思;後者從要表達的意思出發選擇詞語,根據詞語間的語義關係構造各個成分之間的語義結構和句法結構,最終造出符合語法和邏輯的句子 [7] 
計算語言學的研究也像其他學科一樣,有科學研究與技術研究兩個層次。科學研究的目的是發現語言的內在規律、探索語言理解和生成的計算方法、建設語言信息處理的基礎資源;而技術研究則藉助應用目標來驅動,根據社會的實際需要,設計和開發實用的語言信息處理系統 [7] 
自然語言信息處理的應用目標是使人與計算機之間用自然語言進行交流。具體説,是建立各種處理自然語言的計算機應用軟件系統,譬如:機器翻譯自然語言理解、語音自動識別與合成、文字自動識別、計算機輔助教學、信息檢索、文本自動分類、自動文摘,還有文本中的信息提取、互聯網上的智能搜索,以及各種電子詞典和術語數據庫 [7] 
隨着互聯網的廣泛普及,語言信息處理的社會需求越來越大,人們迫切需要用自動化的手段處理海量的語言信息。然而,由於學科理論發展的侷限和漢語本身的複雜性,目前我國計算語言學理論和方法的研究還不能為開發漢語信息處理應用系統提供足夠的支持。多年來國內計算語言學和自然語言處理學科發展的特點之一是,應用型研究和實用系統開發的目標比較明確,投入相對較多,也取得了一些成果;而基礎理論和方法的研究則相對薄弱。1998年-2002年期間的研究情況和發展態勢依然如此。在本文上述的各種應用目標中,研究力量比較集中的項目有:文本信息檢索、文獻自動分類、自動文摘、語音自動識別與合成、機器翻譯,還有文本信息提取和過濾。另外,語言資源的建設和基於語料庫的語言分析方法也受到了格外關注,取得了比較快的進展 [7] 
參考資料
  • 1.    宋麗珏著,法律翻譯新視野,重慶大學出版社,2016.06,第60頁
  • 2.    蘇秋斌編著,全國計算機等級考試輔導教程與同步試題訓練 一級Windows,冶金工業出版社,2002,第64頁
  • 3.    中國大百科全書總編輯委員會,中國大百科全書出版社編輯部編,語言文字百科全書,中國大百科全書出版社,1994.12,第180頁-第181頁
  • 4.    姜椿芳,梅益總編輯,中國大百科全書 語言文字,中國大百科全書出版社,1992.04,第221頁-第222頁
  • 5.    黃德志等編著,全國計算機等級考試輔導教程與同步試題訓練 一級B,地震出版社,2003.06,第55頁
  • 6.    周海霞編著,探索機器人的未來世界,吉林出版集團有限責任公司,2014.04,第145頁-第146頁
  • 7.    中國社會科學院語言研究所,《中國語言學年鑑》編委會編,中國語言學年鑑 1999-2003 上,商務印書館,2006.10,第344頁