複製鏈接
請複製以下鏈接發送給好友

TIMIT

鎖定
TIMIT(英語:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus),是由德州儀器麻省理工學院和SRI International合作構建的聲學-音素連續語音語料庫。
中文名
TIMIT
外文名
The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus
領    域
自然語言處理

TIMIT簡介

TIMIT(英語:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus),是由德州儀器麻省理工學院和SRI International合作構建的聲學-音素連續語音語料庫。TIMIT數據集的語音採樣頻率為16kHz,一共包含6300個句子,由來自美國八個主要方言地區的630個人每人説出給定的10個句子,所有的句子都在音素級別(phone level)上進行了手動分割,標記。70%的説話人是男性;大多數説話者是成年白人。 [1] 

TIMIT語料庫

語料庫一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記;事實上,語料庫英文 "text corpus" 的涵意即為 "body of text"。 [2-3] 

TIMIT語料庫列表

TIMIT多語

  • 點通多語言語音語料庫
  • 賓州大學語料庫
  • Wikipedia XML 語料庫

TIMIT英文

  • Collin's Cobuild Project - 成果:Collin's當代英語辭典、及當代英語文法。

TIMIT中文

  • 中央研究院平衡語料庫
  • LIVAC漢語共時語料庫
  • 北京大學語料庫
  • 蘭開斯特大學漢語平衡語料庫
  • 蘭開斯特-洛杉磯漢語口語語料庫
  • 語料庫語言學在線
  • 北京森林工作室漢語句義結構標註語料庫

TIMIT參見

參考資料
  • 1.    Fisher, William M.; Doddington,, George R.; Goudie-Marshall, Kathleen M. (1986). The DARPA Speech Recognition Research Database: Specifications and Status. pp. 93–99.
  • 2.    Wołk, K.; Marasek, K. (2015). "Tuned and GPU-accelerated Parallel Data Mining from Comparable Corpora". Lecture Notes in Artificial Intelligence. Springer: 32–40. ISBN 978-3-319-24032-9.
  • 3.    Wołk, K.; Marasek, K. "A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. ISBN 978-3-319-05950-1. ISSN 2194-5357.