-
全文數據庫
鎖定
- 中文名
- 全文數據庫
- 外文名
- full-text database
全文數據庫開發步驟
全文數據庫的開發步驟包括數據準備、文本預處理、數據加載、數據檢索和數據維護幾個環節。
①數據準備是指對計劃加載到全文數據庫中的數據進行收集、整理、歸類等預先處理的過程。加載到全文數據庫中的數據可以從多種途徑獲得,常見的數據來源有:電腦打字產生的文件,電子印刷產生的文稿,計算機網上傳送的文件,電子出版物,圖文處理產生的文件,專門組織人力錄入建庫等。數據收集起來之後,要進行一些簡單的分類。一般是按照數據內容進行分類,同一類內容加載到同一庫中,這樣便於查找。分類對於數據量大的情況,效果比較明顯。
②文本預處理包括規範格式和進行標引。當文獻格式多種多樣時,應加以整理,使文獻的格式規範化。本預處理階段完成的批式標引,不受全文數據庫結構的限制,效率較高。這是在建立全文數據庫之前,利用文字處理軟件和專用自動標引軟件對數據進行的標引。建立標引詞表有幾種途徑可由系統建立者在瀏覽文本後編制,也可以由編者在計算機對文本中的詞加上特殊符號後,由專用軟件對其進行蒐集、合併、排序、去重而成,還可以在前面基礎上增加屬性標引。
③數據準備好以後,便可以加載(拷入、輸入)到數據庫文件中去。加載數據可有單篇方式或批量方式。單篇方式一次加載一篇,適於平時文獻隨時加載的情況;批量方式一次加載多篇,適於集中大量加載的情況。
④數據庫建立之後,便可根據全文檢索系統提供的檢索功能對數據庫進行檢索。
⑤全文數據庫建立以後,需要經常對數據庫的內容進行索引、更新、追加和整理,以保證數據庫的實用性、有效性和完整性。對全文數據庫的維護通常包括:全文數據庫的結構定義,全文數據庫的數據內容,全文系統中所用詞表、存儲空間的利用統計及調整。
[2]
全文數據庫分類
電子版圖書一般與印刷版平行出版,並具有瀏覽、檢索、排序、打印、套錄等功能。電子圖書可上網,提高了文獻傳輸效率和文獻的可獲得性。電子圖書的出現將改善(改變)人們的讀書習慣。
電子雜誌可使文獻的檢索同原始文獻的獲得結合起來。包含多期刊的全文庫,可進行跨學科、跨刊種的全文檢索,擴大獲取資料的來源範圍。由中國學術期刊(光盤版)
電子雜誌社和清華同方光盤股份有限公司建設的中國學術期刊網(http://WWW.cnki.net),其中的中國期刊全文數據庫收錄的期刊3000多種,文獻量600萬餘篇。
電子報紙把報紙文章和新聞報道通過數據庫存儲和管理,並可進行網上檢索查詢。《紐約時報》全文庫Information Bank是這類數據庫的先驅,後來被收入Mead數據中心的NEXIS系統之中。我國《人民日報》社和北京金盤電子有限公司合作發行的《人民日報全文數據庫》光盤版,《中國日報》社和中國科技資料進出口總公司合作發行的《中國日報全文數據庫》光盤版,是我國第一批新聞報業的全文數據庫。
[2]
全文數據庫結構
全文數據庫有多種結構形式。
一種結構是全文數據庫由若干文庫組成,每個文庫劃分為若干個文檔,文檔由若干信息載體組成,信息載體又細分為若干片斷,片斷指構成文本的自然段落,相當於字段。美國Mead數據中心的LEXIS就是這種結構。它是一個菜單驅動系統,一級菜單顯示文庫目錄,二級菜單顯示文檔目錄,待文庫和文檔選定後,系統開始接收提問。
另一種結構是全文數據庫由若干個數據庫組成,數據庫下不設文檔這一級結構,而是直接把信息載體分成字段存儲。美國西部出版公司的WESTLAW就是這種結構,該系統中設有法院字段、審判員字段等,可提供多種檢索手段。全文數據庫結構與書目數據庫相似,其主文檔是以順排形式組織的文本文件,倒排檔則是對應於信息載體記錄可檢字段的索引文件。全文數據庫記錄的磁帶格式一般也分頭標、目次和數據部等幾部分,在已有的全文數據庫中,根據領域信息載體、數據庫用户和設備的不同情況,採取不同的實現方法。
[3]
全文數據庫特點
與其他數據庫相比,全文數據庫有許多特點,主要表現如下。
①包含信息的原始性。庫中信息基本上是未加工的原始文獻,因而具有客觀性。
②信息檢索的徹底性。任何詞、句、字皆可檢索,還有可能看到某些邊緣性信息。
③檢索語言的自然性。可使用自然語言檢索,並可使用布爾檢索和位置檢索,因而要涉及自然語言的理解。
④數據結構基本上是非結構化的,除了某些可規範的數據外,大量文本屬於非結構化的,不便於關係數據庫的處理。
⑤專業的全文數據庫系統一般都採用“自動切詞”技術
⑥好的全文數據庫還備有知識庫,可具有推理能力和聯想式檢索。
⑦基本上是封閉性的,數據不需更新,具有較大的穩定性。
全文數據庫功能
全文數據庫具有強大的檢索功能,表現在它能提供豐富的檢索點,允許用户從信息載體的人名、地名、年代、關鍵詞等多個角度進行單項檢索或多項組配檢索,甚至可對文本中任意字段進行檢索。除具有布爾邏輯檢索功能外,還具有字符的位置檢索、截詞檢索等功能。檢索結果可根據用户要求,按句、段、節、章輸出(顯示或打印)。
全文數據庫具有一定的信息分析功能,可對檢索結果再次處理,以進行人名、地名、關鍵詞等的聚類、統計排序。
全文數據庫主要全文數據庫
全文數據庫源數據庫
中國期刊全文數據庫
世界上最大的連續動態更新的中國期刊全文數據庫,收錄國內 8200 多種重要期刊,以學術、技術、政策指導、高等科普及教育類為主,同時收錄部分基礎教育、大眾科普、大眾文化和文藝作品類刊物,內容覆蓋自然科學、工程技術、農業、哲學、醫學、人文社會科學等各個領域 ,全文文獻總量 2200 多萬篇。按學科分為168個專題,每日更新,年新增文獻100多萬篇。
中國期刊全文數據庫(世紀期刊)
收錄回溯1979年至1993年的4195種期刊,部分期刊回溯至創刊,最早回溯至1887年,按學科分為168個專題,現有文獻500多萬篇,每月更新。
中國博士學位論文全文數據庫
收錄1999年至今420個博碩士培養單位的學位論文,現有論文5萬多篇,每日更新。
中國優秀碩士學位論文全文數據庫
收錄1999年至今652個博碩士培養單位的學位論文,現有論文37萬多篇,每日更新。
中國重要報紙全文數據庫
收錄2000年至今700多種重要報紙,現有文章645萬多篇,每日更新,年新增文章120萬篇。
中國重要會議論文全文數據庫
收錄2000年至今1200多家學術團體的會議論文,現有論文近58萬篇,每日更新。
中國圖書全文數據庫
全文數據庫專業知識倉庫
中國醫院知識倉庫
收錄1400多種醫學期刊,108家醫學博碩士培養單位學位論文,內容每日累增。
中小學多媒體數字圖書館
收錄500餘種教育類期刊,2000多種相關期刊,400餘種相關報紙,以及多媒體教育教學素材、高初中同步教學輔導、高考中考名師輔導等,內容每日累增。
中國企業知識倉庫
彙集企業所需期刊、優秀博碩士論文、重要會議論文、報紙全文、圖書全文、新書目等數據資源。 涵蓋企業所需各類信息資源、知識資源,利用現代信息技術進行加工整合,以最方便快捷的傳播手段,為企業提供可有效利用的資源。主要分鋼鐵冶金、鋁業、石油化工、石油天然氣勘探、電力、發電、電網、金融、保險、證券、基金等各個行業、企業知識庫,內容每日累增。
[4]
全文數據庫知識元數據庫
數值型知識元庫
包括從各類統計年鑑及各種專業文獻中抽取的統計數據和科學實驗數據。
理論與方法型知識元數據庫
- 參考資料
-
- 1. 洪全主編.信息檢索與利用教程:清華大學出版社,2009.08
- 2. 陳次白 蔡驊 李曉鵬 郭建華編著.計算機信息存儲與檢索:國防工業出版社,2003年04月
- 3. 陳耀盛主編.網絡信息組織:科學技術文獻出版社,2004年07月
- 4. 中國知識資源總庫 .中國知網[引用日期2012-12-27]