複製鏈接
請複製以下鏈接發送給好友

書目數據庫

鎖定
書目數據庫 [1]  是存儲某個領域的二次文獻(如目錄、題錄,文摘等書目數據)的一類數據庫,有時又稱為二次文獻數據庫,或簡稱文獻數據庫。主要提供文獻的題名作者出處等基本書目信息,有的提供文獻,常見的書目型數據庫有:《生物文摘》、《全國報刊索引》、《中國學術期刊文摘》、《科學文摘》等。
中文名
書目數據庫
外文名
Machine ReadableCatalogue,MARC
定    義
書目數據庫 [2]  是出現較早的一類數據庫
別    名
二次文獻數據庫
文獻數據庫

書目數據庫發展背景

在各種數據庫之中,書目數據庫 [2]  是出現較早的一類數據庫。從1964年第一個書目數據庫——MEDLARS開發成功並投入檢索服務以來,世界各國已建立了數目眾多、種類多樣的書目數據庫。在可提供聯機檢索的數據庫中,書目數據庫也佔據着主體地位,幾乎覆蓋了全部專業領域的各類文獻。書目數據庫之所以增長如此迅速,影響如此之大,是有其特定的歷史背景的。
第一,書目數據庫的出現和發展有其情報政策背景。在當代,信息被公認為是財富和實力的象徵,控制和處理信息的能力被認為是一個國家科技發展水平、社會進步程度和國際地位的標誌。世界各國特別是發達國家都把信息作為一種戰略武器,控制信息成為國家的基本政策,也成為民間產業的關心重點。這是書目數據庫發展的情報政策背景。
第二,書目數據庫的發展也有其一定的社會原因。在資本主義國家,通貨膨脹使圖書館經費日感短缺,書刊的漲價十分驚人,而科技圖書的出版數量卻在不斷增加,許多圖書館感到無力採購讀者所需要的書刊,不得不加強館際互借、照相複製等工作,此外,還致力於建立合作網絡,實現資源共享。這方面採取的一個措施,就是建立和利用機讀數據庫。如美國國會從1969年起發行機讀目錄(MARC)磁帶,俄亥俄學院圖書館中心OCLC在國會圖書館MARC磁帶的基礎上進行共享編目,建立反映該網絡各成員館藏書的機讀數據庫,並且由此導致了像洛克希德、系統發展公司及書目檢索服務公司等這些情報檢索服務商的發展,從而為機讀數據庫的大幅度增長鋪平了道路。
第三,書目數據庫的發展更有其技術背景。書目數據庫同計算機化的照相排版技術相結合,使得那些傳統的印刷型文摘索引的出版者同時也生產同印刷型檢索工具相對應的機讀型檢索工;艮,即書目數據庫,並以磁帶形式發行。另外,計算機性能的提高和價格的不斷下降,也有力地推動了書目數據庫的發展並提高了它的利用率。

書目數據庫種類

書目數據庫按其存儲信息的性質可以劃分為文摘索引數據庫和圖書館目錄數據庫兩種類型。
文摘索引數據庫
文摘索引數據庫的內容與書本式文摘索引相同,主要是簡單記載有關領域某一時期發表的文章,供人們檢索和查詢。它提供文獻確定的來源信息,即文摘對應的原始文獻,但一般不提供原始文獻的館藏信息。
圖書館目錄數據庫
圖書館目錄數據庫 [3]  ,通常又稱為機讀目錄(Machine ReadableCatalogue,MARC)。它是指以特定代碼形式和特定結構預三錄在計算機存儲載體上的、用計算機識別和處理的目錄。簡單地説,就是一種經過人們編輯、組織,以機讀形式出現的書目記錄的集合。它將傳統卡片目錄的內容以標準數據形式記錄在計算機的存儲載體上,通過計算機進行識別,以供用户查閲。機讀目錄主要記載特定圖書館實際收藏的各文獻資料的書目信息和存儲地址,它是一般用户利用計算機查找圖書館資料的工具,更是作為圖書館業務部門的業務管理工具。它的數據內容詳細,除文獻外表特徵的描述信息外,還有許多管理信息、館藏信息等附加信息,而且具有比較統一的記錄格式。

書目數據庫書目特點

書目數據庫相比其他類型的書目產品和其他類型的數據庫,主要有以下特點:
1、便於對書目數據的管理和維護。與傳統的書目相比,書目數據庫是將文獻的各種特徵信息用特定的代碼形式和結構存儲在有關媒體上,並能通過計算機的硬件識別的一種形式。它可以應用計算機軟件對那些從媒體上輸入計算機的代碼按不同的要求進行加工、編輯和輸出,隨時供用户使用,從而使資料數據得到更大程度的有序化和可操縱化,從而便於書目數據的管理和維護。
2、檢索快捷,具有較高的查全與查準率。同手工檢索比較,利用計算機從書目數據庫進行檢索不僅可以大大節省時間,而且由於書目數據庫在存儲密度、便於處理等方面的優越性,使它可以達到更大的標引深度和更及時的更新,從而保證了較高的查準率與查全率,使檢索者在避免遺漏重要資料方面增強了信心。
3、數據結構簡單,記錄格式固定,生產費用低廉。相對其他類型的數據庫,書目數據庫結構比較簡單,記錄格式也比較固定,生產費用相對較低,這也是書目數據庫的另一優勢所在。
4、便於產生其他類型的書目產品。書目數據庫除可供情報檢索之外,還可輸出卡片或書本式目錄以及縮微膠片目錄(COM目錄)。各種機讀目錄可以自動地合併,並便於複製和運輸傳遞。另外,還可以利用書目數據庫方便地形成各種輔助索引。
除此之外,數據量大、連續性、累積性強、交換方便也是書目數據庫的重要特性。

書目數據庫用途

首先,書目數據庫最重要的用途是進行情報檢索服務。聯機檢索是其提供的檢索服務中最重要的一種,它通過提供多種檢索人口,滿足讀者多方位、多角度的文獻檢索需求,用户可以通過系統終端訪問有關聯機書目數據庫,獲得自己感興趣的文摘、題錄等。聯機檢索服務機構可以通過提供上述服務來獲取一定的利益,而數據庫生產者則通過收取數據使用費的方式來回收自己的投資。除聯機檢索外,書目數據庫還可用於批式檢索服務,如定題服務(SDl)和回溯檢索服務。
其次,書目數據庫可以用來生產其他形式的檢索工具,如出版書本式的檢索工具或卡片式目錄、縮微膠片目錄和光盤數據庫。
最後,還可以通過對書目數據庫的半成品或成品進行二次開發,使數據產生新的組合,確立新的結構,從而獲得特定1需要的多種專題數據庫或專門類型的數據庫。這種通過二次開發方式建成的數據庫一般規模較小,國外有人將其稱之為微數據庫(miicrodata·base)。當然對於微數據庫而言,其建設的主要問題不是技術問題,而是數據庫的版權問題,在建設中應當充分加以考慮。

書目數據庫存在形式

目前供發行的書目數據庫主要以三種形式存在:
1、作為聯機系統的數據庫。即這種數據庫被裝入聯機檢索系統,可進行聯機訪問。這種數據庫的規模可能是最大的,有的可包含數百萬篇文獻記錄。
2、作為光盤檢索系統中的數據庫。這種數據庫的載體是CD—ROM光盤,因而發行具有相對獨立性。數據庫的規模屬中等,因為每片光盤的容量為500多兆字節,所包含的文獻記錄可達數十萬篇。
3、作為單獨發行或提供服務的專業或專門文獻類型的數據庫。這種數據庫的規模較小,適用於在微機上運行,往往配有相應的檢索軟件,自成系統。

書目數據庫建設過程

書目數據庫的建設是一個較為複雜的過程,更是一種集知識、技術和勞動密集於一身的產業。它主要包括數據庫的總體:設計、數據的獲取與加工整理、數據庫的建立、數據庫的維護與更新以及數據庫的評價五部分內容。
數據庫的總體設計
1、數據庫的邏輯設計
邏輯設計主要用來確定所建立的書目數據庫的用户類型、內容範圍和功能要求。首先要確定用户類型,他們各有何特點和特定需要。他們的需求決定了數據庫的內容範圍和功能。內容範1司是指數據庫應覆蓋哪些領域和哪些情報源,數據庫內應收錄什麼類型的數據,記錄的數量等。功能要求包括書目數據庫的更新、校驗、檢索、輸出、存取控制和數據保護等措施。
2、數據庫的技術設計
技術設計主要用來確定數據庫的總體結構,庫內各種:文檔的結構,文檔之間的關係,存取路徑的選擇和文檔的物理組織;杆式及存儲空間的分配等。
數據庫總體結構是指庫內包括的文檔數量、文檔類型、各文檔之間的邏輯關係,以及數據流程。
文檔結構設計是指確定文檔的記錄內容和格式,包括字段組成、字段定義、長度、劃分可檢字段與不可檢字段、設立字段標識等。一般地,一條書目記錄應含有文獻號、題名、著者、出版、語種、文摘、主題詞、分類號等各種必要的字段,且一般包括文獻出處。不同的圖書情報機構在書目加工時對原始數據的取捨有很大差異。為了統一起見,可參閲新修訂的國家標準GB2901推薦的標準格式以及通用國際目錄信息交換標準IS02709。
文檔的物理組織方式設計是指根據計算機數據處理方式、操作系統提供的文件組織方式、存取方式、服務程序以及對存取時間、處理時間的要求,確定各種文檔物理存儲方式,以加快數據庫對數據的存取速度
存取路徑的選擇是指確定檢索途徑或檢索點以及相應的工作文檔,根據檢索點來設定索引文檔,定義其中的記錄。一般説來,每一類檢索點都需要一種索引文檔來支持。
數據的獲取與加工整理
數據的獲取與加工整理,也可稱為數據準備階段,是:幅目數據庫建設的一個重要環節。它的成功與否決定了書目數據庫的最終價值。數據準備通常包括數據採集、鑑選、著錄、標引、文摘加工和審核六大步驟,如《數據準備流程圖》所示:
數據準備流程圖 數據準備流程圖
首先是數據的採集,即根據設計方案規定的數據庫內容範圍和數據類型,採集所需要的數據。收集的對象根據需要而定,可能是普通書刊、特種文獻、內部出版物、機讀磁帶、軟盤或光盤。採集手段有訂購、交換或利用行政手段收集下屬機構的數據,或利用現有的傳統數據(如書本式文摘、題錄、目錄、指南等)。收集工作應主要面向圖書館和收藏豐富的資料單位,做到快速、全面、準確,確保數據來源的可靠性、準確性和完整性。
鑑選是決定書目數據庫具體內容範圍的基本方式之一。鑑別真偽、分清良莠是必要的,不能“有書必錄”。對於低水平或明顯有錯誤的文獻應當摒棄。在選擇時,可以文獻類型為準則,也可以學科為準則,或以問題或任務為準則。以文獻類型為準則,可以專收一種類型文獻,如研究報告數據庫、專利文獻數據庫等,也可以收錄多種類型的文獻;以學科為準,就是所謂“面向學科的數據庫”,如(化學文摘)數據庫,《核物理文摘》數據庫等;以問題為準的數據庫,如環境數據庫,《污染文摘》數據庫等;以任務為準的,有所謂面向任務的數據庫,如(航空航天文摘)數據庫等。
其次是書目數據的著錄。著錄是對文獻內容和形式特徵進行分析、選擇和記錄的過程。為了提高書目數據庫的質量和資源共享的便利性,書目數據的著錄應按統一的著錄原則和標準進行,例如我國有國家標準GB3792.1—83《文獻著錄總則》,GB37921—83《檢索期刊條目著錄規則》等,只有遵循了統一的標準進行書目數據的著錄,才能保證書目數據庫中的全部記錄符合標準化和規範化的要求。
標引是給數據庫中的各個記錄賦予內容特徵標識的過程。主要是要給出分類號、主題詞和自由詞等。標引可以是人工標引,即標引員針對文獻內容,根據一定的分類表或主題詞表給出標引詞;也可以是完全或部分由計算機參與的自動標引或半自動標引。自動標i引的原理是,將分類表或詞表及有關規則存儲在計算機中,通過編制的程序自動完成標引工作,對於在計算機標引過程中進行適當人:工干預的標引就是所謂的半自動標引了。對於中文文獻來説,進行自動標引,首先要解決詞的自動切分問題。此外,標引還有另一種方式,稱為“無標引”或“全標引”,如單漢字檢索方式中每個漢字都由計算機做倒排檔,因此不需人工參與,故被稱為“無標引”。而從計算機的角度來説,對每個漢字均作了標引詞的處理,所以也可理解為“全標引”。相對於中文文獻,西文文獻的自動標引和全標引實現起來就要簡單多了。
之後是文摘的編寫。文摘的編寫加工也十分重要。編寫文摘應當一針見血,簡明扼要。文摘可以由文獻著者自行撰寫,附於文獻之前,也可以由文摘員進行撰寫。文摘的編寫也應當標準化,我國有國家標準CB6447—86《文摘編寫規則》作為編寫依據。文摘有報道性文摘、指示性文摘以及報道—指示性文摘等多種類型,不同類型的文摘對編寫和長度有不同的要求。編寫時應根據具體的需要進行相應的編寫。
數據準備階段的最後一關是審核修正。審核修正是指記錄正式數據庫之前的把關工作。這須由較高水平的人來進行。審核的內容包括數據項是否完備、準確,有關的著錄是否符合標準,標引深度是否適當,等等。
經過了這六大步驟,數據的準備工作就已基本完成,下一步就應進行數據庫的正式建立工作了。
數據庫的建立
1、硬件配置與軟件選擇
進行書目數據庫 [3]  的開發,必須配有相應的計算機系統,應根據需要購買性能良好的計算機硬件設備。當然,通常情況下,計算機主機系統是已經存在的,建庫者要做的是完成必要的終端和外設與主機系統的連接,例如,安裝光盤驅動設備,掃描和打印設備等。如果建庫工作是在聯機網絡的節點上進行,那麼還要完成設備與網絡的連接工作,解決網絡數據通訊問題。
解決了硬件問題後,建庫者需要選擇適當的建庫和檢索軟件。建庫軟件的獲取一般有兩種途徑,一種是購買現成的數據庫管理系統軟件,另一種是自行編制。當然目前大多采取的都是前一種途徑,即直接購買現成的數據庫管理軟件。我國圖書情報部門比較流行的是採用聯合國教科文組織推出的CDS/ISIS軟件。
2、數據錄入
數據錄人就是將前面所説的文獻處理結果轉化成機讀數據的過程。數據錄入通常有兩種方式:自動錄入和平工錄入。
手工錄入的方式是對非機讀書目信息的錄入。計算機系統顯示出一個類似於工作單的表格,上面有用户定義的字段名稱,用户只需在這些字段名稱之後用鍵盤錄入相應數據即可。為了加速錄人工作,用户也可以用其他文字處理軟件(如MICROSOFTWORD)對書目數據進行錄入,之後再做成批轉換;另外還可以利用光學字符識別技術(OCR),讓計算機根據一定的印刷或打印字體將文本轉化為機讀形式。
自動錄入的方式用於對光盤數據庫、磁帶數據庫或其他類型的機讀數據庫的數據進行轉錄或套錄。所謂套錄,就是從一個或幾個計算機中獲得數據庫的數據,傳送到另一計算機中,並將其存儲在後者的磁盤或磁帶等存儲介質上的一種過程或手段。具體地説,就是從聯機檢索系統或光盤中的數據庫中套錄下一些書目信息,然後,再將這些書目信息進行編輯、歸併、格式轉換等再處理,使數據產生新的組合,確立新的結構,從而獲得適合特定需要的書目數據庫。這種套錄建庫方式,也稱為書目數據庫的二次開發。信息技術和數據庫業的發展,促進了套錄的誕生和推廣。目前供發行和服務的書目數據庫,不管以何種形式出現,大多可以用適當的方法被套錄。這種套錄建庫優勢在於,建庫週期短、投資少、易上規模、重複勞動少,使信息資源得到極大程度的共享。但它可能涉及到的產權問題也應引起重視,切勿顧此失彼,帶來未曾預計的損失。
當手工或自動錄入數據後,在建庫軟件的支持下,計算機自動生成書目數據庫的各種順序文檔。這種數據庫內的書目信息有其複雜的計算機能識別、處理的機內記錄格式,內容主要包括:一條記錄的總長度,書目數據的實際起始地址,每個字段的名稱、長度,字段間的分隔符、結束符、記錄狀態的標識符等。另外,數據庫所需的各種索引倒排文檔也無需人工干預,而由建庫程序自行完成。
3、程序檢查
程序檢查是指計算機自動對錄入的文本進行形式上的審查,例:如,括號是否配對,定義了數字形式的字段是否出現文字;定長字段長度是否符合要求,字段的數據形式,如ⅡSBN號,是否正確,各種標識符號是否有錯,是否出現了系統禁止使用的專用字符或非法字符等。計算機對數據的校驗可分別在不同階段進行。
經過了這三道工序,書目數據庫就已經基本建成了。但在正式投入使用之前,還需要進行試運行。根據規劃設計要求,選取一定的檢索實例進行檢驗,通過設計者、使用者和有關專家的鑑定之後,才算完成數據庫的建立工作。
書目數據庫的維護與更新
書目數據庫投入運行後,由於不斷地對文檔進行插人、刪除、修改等操作,可能會使文檔的時空性能變壞,或者是由於原來的文檔組織方式已不能適應新的要求,或者新書目的激增使得原來的數據量已不能滿足用户的需求,故而必須定期地對書目數據庫進行維護與更新,以適應用户要求和文獻生產情況的變化。維護主要是指對數據庫系統硬件設備的維修、保養和對系統軟件功能的修改和擴充。更新主要是指對數據庫的數據進行添加和重新組織,它對書目數據庫的存在和使用,保證書目數據的質量有着尤為重要的意義。
數據庫的數據往往不是個別進行插入、刪除和修改,而是定期、批量地進行。這種數據庫的更新,不僅要對順序文檔進行更新,而且還必須對所有相關的倒排檔及索引文件進行重組,這就要求要對新追加的大量數據進行一系列加工處理後重裝文獻庫。重裝雖然要開銷一定的維護時間,但可以保證檢索的快速性,因而是值得的。另外。數據庫的更新工作還要隨文檔的存儲方式而:導。順序文檔一般採用尾接擴充法,就是將新的書目記錄依次尾接;莊文檔後面;索引或倒排文檔通常採用重裝方法,即將新加記錄抽詞排序後的文檔與原來的排序文檔歸併,然後重新總體排序,建立索引。
另外,在數據庫的維護中一定要重視數據庫及其文檔的備份工作。一般地,順序文檔和倒排文檔都應該保存2—3份副本,即不僅保留本次更新的副本,而且要保留前1—2次更新時的副本。這樣,如果由於硬件故障等原因使得數據庫文檔不能正常使用時,就可用副本重裝一次,從而保證數據庫的正常運行。
書目數據庫的性能指標和評價準則
一個書目數據庫 [3]  建成後,其構造是否合理,建設是否成功,要依據一定的性能指標和評價準則進行評估。這裏我們將簡要介紹一些目前得到普遍認可的數據庫性能指標與評價準則。
1、數據收錄的完備性
它是指根據數據庫的主題範圍,看其收錄的文獻數據是否完整或基本完整。其中最重要的是數據收錄的覆蓋面。例如,一個特定的書目數據庫,其收錄是否包括所有類型的出版物,還是某一特定類型的出版物;它所收錄的文獻包括哪些文種,其時間跨度又有多長;它對核心出版物、一般出版物、邊緣相關出版物的收錄和覆蓋面各有多大。
收錄完備性是數據庫質量的首要指標。因為用户使用書目數據庫的目的,是要獲得與自己特定情報需求相關的全面資料,如果數據庫本身收錄的數據就不夠全面,那麼即便用户非常專業,進行了細緻的檢索,所獲得的檢索結果也是不符合要求的。
2、數據的準確性
書目數據庫中所收錄的數據必須非常準確,這體現在它與原始材料的一致性、著錄的標準性等多個方面。數據庫不同於利用手工檢索的書目文獻,在手工檢索的文獻中,用户對著錄格式的差異、同一詞拼寫上的不同、字符設備的出入等在一定程度上可以容忍和理解,但在利用計算機進行機檢時,這些因素,甚至一個括號使用的不同,都會對用户的利用產生很大影響,無論對建庫還是檢索都會造成一定的混亂。如果説數據庫收錄材料覆蓋面的高低是取得用户信賴的量方面的因素,那麼,數據庫中數據的準確性,則是取得用户信賴的質方面的因素。它的混亂將導致用户對整個數據庫價值的否認。
3、數據庫的時效性
在這裏主要是指數據庫的時差,即從一篇文獻出版發表到納人數據庫之間的時間差距。數據庫的時差就是全庫文獻的平均時間差距。不同學科領域對時差的要求和敏感性有所不同,對於迅速發展中的學科,如計算機、網絡科學,及對現實性要求比較高的信息,如報紙信息,數據庫時差的縮短尤其重要。對於情報用户來説,如果他們首先看到了原始文獻,然後才從數據庫中檢索到該文獻的信息,用户就會感到該數據庫中的信息缺乏新穎性。因此,對一般用户來説的新穎率(即用户最先從庫中瞭解到的信息佔庫中所有信息的百分比)是數據庫時效性的另一種衡量指標。很顯然,數據庫的時效性與數據庫的更新週期有密切的關係。更新週期短,自然能縮短數據庫的時差,提高新穎率。
4、數據信息含量的充分性
信息含量的充分性,主要是指書目數據庫中款目苦錄:的完備與充分性。例如,為每篇文獻記錄設置了多少個項目(字段),是否設有摘要,摘要的詳略如何。顯然,款目中的信息含量越充分,則越有助於用户瞭解該文獻的外表特徵與內容特徵,從而有助於用户確認一篇文獻,判斷該文獻對自己檢索目的的切題程度和價值,判斷有無閲讀原文的需要。數據信息含量的高低,是數據庫內在質量的標誌之一。
5、詞表和標引的適當性
詞表和標引的適當性主要是指書目數據庫採用的控制同表的質量和標引深度的適度性。一般書目數據庫均會採用一定的控制詞表(包括分類表)作為標引的依據,因此詞表本身的質量是制約數據庫質量的根本性因素之一。標引是根據文獻內容給出詞表中有關詞(分類號)的過程。標引的深度就是為一篇文獻記錄賦予檢索詞的數目。從用户角度來説,標引深度也就是能檢索到該文獻內容特徵的檢索點數。檢索點的充分與否,關係到檢索的查全性能與查準性能。無論是詞表還是標引,適度是很重要的。如果詞表與標引太簡單粗淺,自然無法對數據進行充分完全的描述,因而不能滿足查準性能的要求;但如若詞表與標引太細太繁,則不僅會增加詞表編制及標引工作的成本,增加數據庫佔用空間,而且也可能導致誤檢率的提高。
除了上述五點之外,數據庫的經濟成本、著錄格式的標準與交換性、數據庫設計的合理性等也都可以作為書目數據庫的性能指標和評價準則。
參考資料
  • 1.    丁傳奉.信息資源檢索與利用:知識產權出版社,2004年06月
  • 2.    金新政,陳氫.信息管理概論:華中科技大學出版社,2002年9月
  • 3.    倪曉建.信息加工:武漢大學出版社,2001年