反饋

TIMIT

TIMIT（英語：The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus），是由德州儀器、麻省理工學院和SRI International合作構建的聲學－音素連續語音語料庫。

中文名: TIMIT

外文名: The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus
領域: 自然語言處理

TIMIT簡介

TIMIT（英語：The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus），是由德州儀器、麻省理工學院和SRI International合作構建的聲學－音素連續語音語料庫。TIMIT數據集的語音採樣頻率為16kHz，一共包含6300個句子，由來自美國八個主要方言地區的630個人每人説出給定的10個句子，所有的句子都在音素級別（phone level）上進行了手動分割，標記。70%的説話人是男性；大多數説話者是成年白人。^[1]

TIMIT語料庫

語料庫一詞在語言學上意指大量的文本，通常經過整理，具有既定格式與標記；事實上，語料庫英文 "text corpus" 的涵意即為 "body of text"。^[2-3]

TIMIT語料庫列表

TIMIT多語

點通多語言語音語料庫
賓州大學語料庫
Wikipedia XML 語料庫

TIMIT英文

Collin's Cobuild Project - 成果：Collin's當代英語辭典、及當代英語文法。

TIMIT中文

中央研究院平衡語料庫
LIVAC漢語共時語料庫
北京大學語料庫
蘭開斯特大學漢語平衡語料庫
蘭開斯特-洛杉磯漢語口語語料庫
語料庫語言學在線
北京森林工作室漢語句義結構標註語料庫

TIMIT參見

萬能翻譯機
電腦語言學
受限自然語言
信息抽取
資訊檢索
自然語言理解
潛在語義索引
潛在語義學
隨機文法
機器記者
寫作自動評分
生物醫學文件探勘系統

參考資料

1. Fisher, William M.; Doddington,, George R.; Goudie-Marshall, Kathleen M. (1986). The DARPA Speech Recognition Research Database: Specifications and Status. pp. 93–99.
2. Wołk, K.; Marasek, K. (2015). "Tuned and GPU-accelerated Parallel Data Mining from Comparable Corpora". Lecture Notes in Artificial Intelligence. Springer: 32–40. ISBN 978-3-319-24032-9.
3. Wołk, K.; Marasek, K. "A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. ISBN 978-3-319-05950-1. ISSN 2194-5357.

詞條統計

瀏覽次數：次
編輯次數：2次歷史版本
最近更新：晓晓娟娟888 （2022-01-10）

1 簡介
2 語料庫
3 語料庫列表: 3.1 多語; 3.2 英文; 3.3 中文
4 參見