反饋

語料庫

鎖定

語料庫指經科學取樣和加工的大規模電子文本庫，其中存放的是在語言的實際使用中真實出現過的語言材料。

中文名: 語料庫
外文名: corpus

主要依據: 是它的研究目的和用途
基礎資源: 語料庫語言學
實質: 科學取樣加工的大規模電子文本庫

語料庫信息簡介

語料庫

名詞（corpus，複數corpora）

指經科學取樣和加工的大規模電子文本庫。藉助計算機分析工具，研究者可開展相關的語言理論及應用研究。

corpus

n. (pl. corpora)

refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools.

語料庫是語料庫語言學研究的基礎資源，也是經驗主義語言研究方法的主要資源。應用於詞典編纂，語言教學，傳統語言研究，自然語言處理中基於統計或實例的研究等方面。

語料庫分類

語料庫有多種類型，確定類型的主要依據是它的研究目的和用途，這一點往往能夠在語料採集的原則和方式上有所體現。有人曾經把語料庫分成四種類型：⑴異質的（Heterogeneous）：沒有特定的語料收集原則，廣泛收集並原樣存儲各種語料；⑵同質的（Homogeneous）：只收集同一類內容的語料；⑶系統的（Systematic）：根據預先確定的原則和比例收集語料，使語料具有平衡性和系統性，能夠代表某一範圍內的語言事實；⑷專用的（Specialized）：只收集用於某一特定用途的語料。

除此之外，按照語料的語種，語料庫也可以分成單語的（Monolingual）、雙語的（Bilingual）和多語的（Multilingual）。按照語料的採集單位，語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式，還可以分為平行（對齊）語料庫和比較語料庫，前者的語料構成譯文關係，多用於機器翻譯、雙語詞典編撰等應用領域，後者將表述同樣內容的不同語言文本收集到一起，多用於語言對比研究。已經累積了大量各種類型的語料庫，如：葡萄牙語料庫、面向文本分類研究的中英文新聞分類語料庫、路透社文本分類訓練語料庫、中文文本分類語料庫、大開放字幕庫OpenSubtitles的多語言平行語料數據（OpenSubtitles Corpus）、《聖經》雙語語料庫（"Bible" bilingual corpus）、Short messages service(SMS) corpus（短消息服務（SMS）語料）等。

語料庫特徵

語料庫有三點特徵

⒈語料庫中存放的是在語言的實際使用中真實出現過的語言材料，因此例句庫通常不應算作語料庫；

⒉語料庫是承載語言知識的基礎資源，但並不等於語言知識；

⒊真實語料需要經過加工（分析和處理），才能成為有用的資源。

語料庫的發展經歷了前期（計算機發明以前），第一代語料庫，第二代語料庫，到第三代語料庫

語料庫第三代

語料庫定義

【動態流通語料庫】

第三代語料庫是歷時語料庫.是基於大規模真實文本的語料庫，是對語言文字的使用進行動態追蹤的語料庫，是對語言的發展變化進行監測的語料庫，是"活"的語料庫.

苑春法，黃昌寧等人在1995年著文談到"第三代語料庫"的問題，並且介紹了美國計算語言學學會倡議的數據採取計劃ACL/DCI.認為這一代語料庫首先對所有可以得到的語料以文本形式存儲起來，它的容量一般為一億詞次以上，21世紀可望達到萬億詞次的量級[1].該文實際上已經將下一代語料庫的建設提上議事日程.

語料庫兩大特色

第三代語料庫有兩大特色：

1，語料的動態性：語料是不斷動態補充的.

2，語料的流通性：語料又多了一種新的"流通度"屬性，這是一種具有量化的屬性值的屬性.

語料庫特點

【第三代語料庫的特點】

時代：六，七十年代到八十年代及九十年代以來.

語料：從單語種到多語種.

數量：從百萬級到千萬級再到億級和萬億級.

加工：從詞法級到句法級再到語義和語用級.

文本：從抽樣到全文.

特點一：動態性

不確定一個固定的庫容量（例如：把庫容量目標確定為數百萬字，上千萬字，數千萬字，數億字等）；

不確定一個固定的選擇文本的時間段(例如：確定為49年-82年，80年-90年，90年-95年語料等)

不確定一個固定的文本選擇範圍或應用領域（例如：確定為只收現代漢語文學語料，或新聞語料，或科技語料或中小學生語料等，從而建立一些專門的語料庫）；

不確定一些固定的文本抽樣對象（例如：《人民日報》，《光明日報》，《人民文學》，《小説選刊》，或者老舍著作，巴金著作，毛澤東著作，鄧小平著作等）.

是即期抽取的語料庫：根據大眾媒體的傳播情況，依據一定的原則來動態抽取.

是歷時的語料庫：可以觀察和測量到流通度的變化情況，可以追蹤到語言成分的產生，成長和消亡.

是動態變化的語料庫：大眾傳播媒體的情況是在不斷變化的，語料庫也要相應變化.（例如：1978年,中國報紙只有186種，基本上是單一的黨委機關報，到1995年底，已經增加到2202種，平均期印數增加4倍，總印張增加3·5倍，報紙的品種，功能，發行都有了相當大的變化如果要科學地反應語言的流通應用情況，語料庫的容量，選材，抽樣等怎麼可能一成不變呢）

特點二：流通性

1997年全世界期刊發行量最大的前50名的中國期刊（略）

語料庫雙語或多語

大致可分為三類：

一是研究雙語語料的對齊技術（Alignment），國內外學者就此提出多種策略和方法，已經出現了許多對齊雙語或多語語料的程序或工具[Gale 1993]；

二是研究雙語語料的各種應用，如在基於統計的機器翻譯技術[Brown 1990]、基於實例的機器翻譯技術[Nagao 1984]，雙語詞典編纂[Klavans and Tzoukermann 1990]技術中，雙語語料庫都發揮着十分重要的作用；

三是雙語語料庫的設計、採集、編碼和管理問題。比較著名的語料庫編碼方案有TEI 文本編碼標準以及CES標準，兩者均基於SGML標記語言研究

指不只有一種語言的語料庫。分為平行語料庫和對照語料庫兩種。平行語料庫指庫中的兩種或多種文本互相是對方的譯文，因此可以用於翻譯或者機器翻譯研究；對照語料庫中兩種或多種語言的文本不構成對譯關係，只是領域相同，主題相近。通常只能用於兩種或多種語言的對比。

就前兩類研究來説，中國國內做了較多的跟蹤研究工作，而對於第三類研究，即雙語語料庫尤其是涉及漢語的雙語語料庫的建設、編碼和管理研究，探索工作似乎做的相對較少。

國內最大的語料交換平台是Tmxmall語料商城。

語料庫的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：36次歷史版本
最近更新： ggg蒲pp （2024-04-17）

1 信息簡介: 1.1 分類; 1.2 特徵
2 第三代: 2.1 定義; 2.2 兩大特色; 2.3 特點
3 雙語或多語

語料庫

目錄