-
TM
(翻譯記憶)
鎖定
TM,即翻譯記憶,它是一個存儲了一個個“段”的數據庫,這些存儲了源文本和相應的語言的翻譯,這個“段”就是翻譯單元。翻譯記憶可以是用於幫助翻譯人員翻譯已翻譯的句子,段落或類似句子的單元(標題或列表元素),從而大幅度減輕譯員的負擔。
- 中文名
- 翻譯記憶
- 外文名
- Translation Memory
- 目 的
- 輔助人工翻譯
- 適用軟件
- 絕大多數CAT軟件
TM簡介
TM(Translation Memory) 即翻譯記憶,使用它的軟件被稱也被成為TMM(Translation Memory Managers),這類軟件的代表是TRADOS,Trados 2007以前的版本的記憶庫文件格式也是TM格式,同時也被絕大多數的CAT軟件所支持。
TRADOS屬於翻譯記憶軟件,與金山詞霸不同,它不會自己給你翻譯文件,只是把你做過翻譯的內容記錄下來,SDL Trados 2007 以上版本可以在團隊工作時收集他們的翻譯,以建立語言數據庫(翻譯記憶庫或 TM)。
在此數據庫中,該軟件確定可重複使用的內容。 當翻譯人員翻譯新內容並且遇到與已翻譯的句子相似或相同的句子時,該軟件自動提出建議的可重複使用內容。因此對於相同的句子,翻譯人員無需再次進行翻譯。 翻譯人員可以根據需要隨時重複使用已翻譯的內容。 翻譯團隊在翻譯記憶庫中輸入的內容越多,翻譯後面的項目就越快,從而有更多時間花在工作的創意方面。同時它可以有效地保留原有文件的格式,為翻譯工作省去很多麻煩。
而且,由於TM記憶庫的存在,可以很好地保持繼承性,尤其在諸如軟件的本地化翻譯等工程中,可以充分利用以前版本的記憶庫對原有文件的翻譯進行繼承,既節省了成本(已經翻譯過的語句不用再去翻譯),又保持了翻譯的一致性(不會出現同一語句在不同地方顯示為不同譯文的情況)。
TM使用翻譯記憶庫
譯者首先提供一段來源文字(亦即要拿來被翻譯的文字)給翻譯記憶庫,程序會先分析這段文字,試着在數據庫裏找尋既有的翻譯區段是否與過去曾經翻譯過的文字相符。如果找到相符的舊有翻譯(legacy translation pairs),則會呈現出來給譯者檢閲。譯者可以選擇接受舊有的翻譯、拒絕、或是加以修改。若加以修改,則修改的版本也會被記錄並存進數據庫裏。
某些翻譯記憶庫系統只會搜尋 100% 相符的文字,也就是説:只會將新的來源文字與數據庫內做精確的比對,只有完全相符的資料才會被提出。也有其他的系統會使用模糊比對原理來找尋相似的區段,並且會用特別的標記呈現給譯者使其易於辨認。有一點很重要的是一般的翻譯記憶系統只會從其數據庫裏搜尋來源語言。
完全無相似(no match)的文字區段將必須由譯者手動的翻譯。這些新翻譯的文字區段會被存進數據庫裏,則未來的翻譯將有可能因為來源文字重複出現而可以馬上被採用。
翻譯記憶庫在文章字詞重複相當高的情況之下將可運作的相當好,例如一些技術文件或是手冊。翻譯記憶庫對於翻譯一個從過去既有文件逐步增修的狀況來説也很有幫助。一般而言,翻譯記憶庫在文學或是創意文件裏不會被考慮採用,主要是因為這些類型的文章其重複性相當低。然而,也有人認為這些重複性極低的文字仍就值得加以蒐集,例如在用語索引(concordance)的搜尋時便可派上用場。其他蒐集翻譯記憶庫的幫助也可在品質驗證和校閲時有所幫助(利用翻譯記憶庫,可以很簡單的將來源語言與目標語言匯出,使其每行一對,並且以 tab 分隔來源與目標,便於確認有無未翻文字,或是使譯者便於校閲)。
當翻譯記憶庫被持續的使用在適當的文字上一段時間之後,其將可為譯者省下不少的工作量。
TM主要優勢
翻譯記憶針對技術文件或是具有特定詞彙的文章來説是最合適的。其優勢包含:
確保文件完整的被翻譯(翻譯記憶不接受記憶區段裏的目標語言無資料)
確保翻譯文件的一致性,包含通用定義、語法或措詞、以及專用術語。這針對多個譯者同時在翻譯一個專案或文件時相當重要。
使譯者不須自行處理眾多不同檔案格式的檔案,僅需面對翻譯記憶庫軟件提供的界面或是單一的檔案格式便可進行翻譯。
加速整體翻譯的速度,即翻譯記憶庫已“記憶”先前已翻譯過的素材,譯者針對重複的文字僅需翻譯一次。
降低長時間的翻譯專案的開銷;以使用手冊為例,警告信息這類大量重複的文字僅需被翻譯一次,便重複被使用。
針對大型文件的專案而言,即使在首次翻譯時翻譯記憶庫的使用效益並不明顯,但當進行該專案的衍生專案(例如文件的修訂版)時,翻譯記憶庫的使用便可大幅節省翻譯的時間與金錢。
TM主要障礙
使用翻譯記憶所面臨主要的困難與缺點包含如下:
“翻譯記憶”的概念是基於:文句過去的翻譯可以被“回收再利用”。然而,翻譯的其中一個原則是,譯者必須翻譯文字所要表達的信息(即意譯),而不是翻譯片段的句子。(常見翻譯記憶的使用皆是以一句作為一個翻譯單元(Translation Unit)或翻譯區間(Translation Segment),使得翻譯具有前後文關係的文件時容易變成是單獨翻譯多個句子後再加以組合)。
翻譯記憶軟件並不是很容易的可以套用至既有的翻譯或是本土化(Localization)的流程之中。為了要使翻譯記憶的使用能夠有更大的效益,翻譯流程必須被重新規劃。
翻譯記憶軟件並不支援所有的文件格式,可用的文件過濾器不見得支援所有的檔案類型。
使用翻譯記憶軟件有其學習曲線必須克服,此外,軟件本身尚須被客製化以發揮最大效益。
若部份的翻譯流程,被外包給不在公司的自由譯員(Freelance Translator),這些譯者必須擁有特定的軟件,可以開啓由翻譯記憶軟件所產生的檔案格式,才能進行翻譯。
具備完整功能的翻譯記憶軟件價格不菲,其可視為一項值得考慮的投資。當然,有些程序開發者也製作免費或相當低價的所謂的譯者版給單一的譯者,使其可以開啓由完整版所建立的檔案以進行翻譯。
要將使用者過去的翻譯導入翻譯記憶庫裏,以及相關的教育訓練等所帶來的開銷,也變成一種值得考慮的投資。
維護翻譯記憶庫,在多數的例子裏,仍舊需要不少人工的步驟,而不當的維護將導致 TM 相符度的顯著降低,其可用性與品質也相對受到影響。
如同前述,翻譯記憶軟件不見得適用於字詞或文句很少有重複的文件類型,或是在歷次修訂版中不會包含部份更新的狀況。技術文件通常最適合使用翻譯記憶,然而市場行銷或是創意文句並不適合。
翻譯記憶庫裏所儲存的記錄並不保證正確;如果某一特定區段的翻譯並不正確,則這不正確的翻譯將會在下一次相同或近似的來源文字裏再次被回收使用,這導致問題將會持續存在。
TMTMM功能
以下説明翻譯記憶的主要功能
離線功能
- 導入這功能是用來將外部的文字與翻譯從文字檔傳輸到翻譯記憶庫裏。導入功能的來源檔案可以是原生檔案,也可以是其他業界標準的翻譯記憶檔案。有時有些翻譯記憶庫是以其他形式儲存,則必須透過一些格式轉換才能進行導入。
- 分析分析的過程可以再細分為下面幾項:1.文句分析(Textual parsing)辨識文句的標點符號相當重要,例如必須要能正確的辨認文句結尾的句點與縮寫的句點,正確的判定文句結尾的位置。其他應視為文句段落的標點符號或是標記也必須儘量的被辨識出來,例如在多數的狀況之下問號、驚歎號等也是文句結尾的判定之一,很多狀況之下像是冒號、換行符號等也會被作為文句段落的辨識標記。在譯者正式開始翻譯之前通常都要先對文句進行標記,該動作是將不須被翻譯的符號或是段落給予特定標記,將必須被翻譯的文句給予另一種標記。2.句法分析(Linguistic parsing)句法分析旨在減少文句中基本形態字詞的數量,做法是從文章中萃取出專用術語、詞組等。3.區段化(Segmentation)其目的是找出最有用的翻譯單元(Translation Unit)。區段化有點類似文句分析,他是在單一語言下進行,並使用可定義的規則來進行表面的分析,例如可定義哪些特定類型的符號或是標記應被納入翻譯單元裏,哪些符號應被視為結束一個翻譯單元的點。舉例來説,一個冒號的前後文可以視為一個完整的段落(翻譯單元),但在一些狀況下冒號前後也會被拆解為兩個翻譯單元。假設譯者手動改變了翻譯單元,例如合併了某兩個翻譯單元為一個,或是將一個翻譯單元拆解為兩個或多個,則下一次的文件版本更新將會喪失這個翻譯單元的相符性,因為下一版本仍就會以既定的規則來對文件進行區段化。4.平行對齊(Alignment)這是將來源語言與目標語言文字平行對應對齊的工作。區段化的標準將會影響平行對齊的效果,通常也得仰賴好的平行對齊算法來校正區段化的錯誤。5.專用術語抽出前一版本的詞語辭典可被拿來使用,或是再行針對既有的文件抽取未知的術語。通常可以藉由文字分析的統計來抽出這些詞語,例如從文字的重複性來加以分析。
線上功能
- 更新
- 自動翻譯
- 共同作業
- 文字記憶“文字記憶”(Text Memory)是基於LISA OSCAR xml:tm 標準而定義的。文件記憶包含了作者(譯者)的記憶與翻譯記憶。
- 作者(譯者)記憶在創作(翻譯)的過程中,每一個文字單元都會被賦予一個辨識碼。文字單元是構成文句的一個子集。
- 翻譯記憶在翻譯過程中,一個辨識碼會被記憶下來,如此則目標語言的文件皆會被一一的對應到每一個文字單元的層級。如果來源文件隨後被更改而異動,則文件裏沒有異動的文字單元將可直接的被轉一到新的目標語言版本而不須譯者而額外的檢閲、翻譯等互動。這是翻譯記憶裏的“精確”(exact)或是“完美”(perfect)相符的概念。
TM翻譯記憶庫種類
- TMXTranslation Memory Exchange format(翻譯記憶交換格式),TMX標準實現不同翻譯軟件供應商之間翻譯記憶庫的互換,為翻譯社羣所採納的匯入匯出翻譯記憶的最佳辦法。
- XLIFFXML Localisation Interchange File Format(XML本地化交換檔案格式)。其目的是提供所有當地語系化提供者都能瞭解的單一檔案交換格式。XLIFF是業界使用XML格式來交換資料時的慣用方式。
- TransWSTranslation Web Services(翻譯線上服務).
- xml:tm
TM翻譯記憶軟件
自由開放源代碼軟件
- Transolution跨平台的電腦輔助翻譯工具。沒有語言限制(來源和目標)。支援XLIFF檔案,授權形式:GPL。需求環境:Python。
專屬但是免費的軟件
- AppletransMac OSX平台的翻譯工具,無語言限制(源語言和目的語言)支持RTF, HTML, XML。
- MemoQ 4FreeWindows平台的翻譯工具。不支持亞洲語系(包括中日韓語種)支持MS Office格式(.doc, .xls, .ppt, .rtf), HTML, 無格式文本, TTX, Framemaker .mif 格式. ,需要.NET 2.0支持。
- Wordfast Anywhere是Wordfast的雲端版本的翻譯記憶的軟件。支持多種格式文件(包括PDF),可以免費註冊使用。
專屬且要付費的軟件
- across:自由譯員可以免費使用
- AidTrans Studio Professional:提供免費的beta版本下載,大約2000年以後已經無更新版本。
- Araya Translation Editor
- Déjà Vu:提供試用版
- Heartsome Translation Suite:提供全功能試用版和有限功能的免費版
- Linear B Searchable
- Lingobit Localization Tool:具有翻譯記憶的軟件當地語系化工具
- MetaTexis:提供試用版(Evaluation version) - 需要安裝在Microsoft Word上
- MLTS:支持翻譯阿拉伯語。
- MemoQ Translator Pro:提供免費的自由譯者版本(freelancer's version)
- SIMILIS (2nd Generation Translation Memory):支持多種操作系統(Cross-platform)及XLIFF 1.2標準
- Logoport™:Lionbridge公司的線上多人協同作業CAT工具
- MultiCorpora MultiTrans
- Sisulizer Localization Tool:具有翻譯記憶功能的軟件當地語系化工具
- STAR Transit:提供免費的自由譯者版本(freelancer's version),稱為SDLX Edit Lite
- TRADOS
- TransAssist
- Translatum
- T-Remote Memory
- Wordfast:具有功能限制的共享軟件(shareware)版本,只有在翻譯記憶中儲存超過500個翻譯單位(translation unit)時才需要註冊
- XTM:基於翻譯記憶的完全開放的軟件,記憶庫格式為:xml:tm,支持所以基於XML的SRX, Unicode Standard Annex #29-9, XLIFF 1.2, GMX-V, TMX, DITA and W3C ITS。
- 雪人CAT:國產的一款CAT軟件,有個人版和標準版,個人版免費,但僅支持TXT格式,如果不排版,對於個人用户還是足夠使用。如果需要更多格式支持以及排版等需求,只能使用標準版。
- 參考資料
-
- 1. LISA的本地化行業標準 .本地化網[引用日期2014-07-14]
- 2. The open XML language data standard .OLIF官方網站[引用日期2014-07-14]
- 3. OmegaT介紹 .Omega官方網站[引用日期2014-07-14]
- 4. Open Language Tool .Open Language Tool官方網站[引用日期2014-07-14]