複製鏈接
請複製以下鏈接發送給好友

垂直搜索引擎

鎖定
垂直搜索引擎是針對某一個行業的專業搜索引擎,是搜索引擎的細分和延伸,是根據特定用户的特定搜索請求,對網站(頁)庫中的某類專門信息進行深度挖掘與整合後,再以某種形式將結果返回給用户。垂直搜索是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式,通過針對某一特定領域、某一特定人羣或某一特定需求提供的、有特定用途的信息和相關服務。
中文名
垂直搜索引擎
外文名
Vertical Search Engine
別    名
專業搜索引擎
別    名
專題搜索引擎
關鍵技術
文本挖掘等
應用領域
電子商務等
學    科
計算機科學技術

垂直搜索引擎簡介

垂直搜索引擎(Vertical Search Engines),是與綜合(或通用)搜索引擎相對的一個概念,就是有針對性地為某一特定領域、某一特定人羣或某一特定需求提供有專門的信息檢索服務,以滿足用户個性化的信息需求。垂直搜索引擎也常常被稱為專業搜索引擎(Specialty Search Engines)、專題搜索引擎(Topical Search Engines),是通過對專業特定的領域或行業的內容進行專業和深入的分析挖掘、過濾篩選,信息定位為更精準的專業搜索,實際上是搜索引擎的細分和延伸。 [1] 
垂直搜索引擎的價值在於其佔有的信息資源的數量,能否提供全面權威的行業信息,能否最大限度擁有行業資源是垂直搜索引擎發展的關鍵。從某種意義上講,行業門户網站是垂直搜索引擎嫡親的父母,同時也是往往不能分割的有機整體。

垂直搜索引擎數據特點

(1)數據來源
垂直搜索引擎的數據來源有兩個方面:
①來源於所處行業的相關站點。
②來源於自身平台:來源於自身平台的搜索常被認為是“站內搜索”。但是,當某一平台上的信息達到足夠量大的時候,其實就是一種垂直搜索。況且,垂直搜索本身就是從這些行業站點提取出數據的。
(2)數據特性
垂直搜索引擎的數據傾向於結構化和格式化。例如,在某個購物類的垂直搜索引擎上輸入“MP3”就會出現該產品的相關屬性,如內存、尺寸、大小、電池型號、價格、生產廠家等相關技術屬性,有的還提供比價服務。在某餐飲搜索引擎的高級搜索針對一家餐館的搜索屬性設置多達300個選項,把想到和沒想到都列出來了,這就把搜索服務專業化、細緻化、個性化了 [1] 

垂直搜索引擎工作模式

就垂直搜索引擎的工作模式來説,很多垂直搜索引擎是依靠人工或者半人工的方式來提取結構化信息的,但近年智能化的非結構化信息提取技術取得了重大進展,在一些領域也得到了有效應用。
具體而言,垂直搜索引擎的Spider更加專業化和可定製化,其能夠定向採集與垂直搜索範圍相關的網頁,對內容相關的以及適於進一步處理的網頁進行優先採集。其信息採集可以通過人工設定網址和網頁分析等方式共同進行,在定向分字段抽取出所需要的數據並處理後再以某種形式返回給用户。比如,購物搜索引擎的整體工作流程大致如下:在Spider抓取網頁後,對網頁中的商品信息進行抽取,抽取出商品名稱、價格、簡介等信息,然後對信息進行比較、去重、分類,最後提供給用户搜索,還可以通過分析挖掘為用户提供市場行情報告。 [1] 

垂直搜索引擎特點

①實時性:垂直搜索引擎需要獲取的信息來自於某一特定領域,這比起通用搜索引擎漫無邊際的信息抓取,有一個非常大的優勢,那就是信息的實時性。由於互聯網上的信息量非常巨大,通用搜索引擎的數據更新週期短則十幾天,長則幾個月,而垂直搜索引擎的數據更新完全可以以秒為單位。
②數據挖掘分析、BI、報表:行業的歷史發展、最新動向、趨勢都是行業從業人員非常關注的話題。垂直搜索引擎集中了行業海量的信息和數據,基於這些信息和數據的商務智能分析,將為行業創造非常有價值的信息增值服務。
③個性化、社會化;查詢服務只是垂直搜索引擎的一部分,垂直搜索引擎在用户的個性化方向的發展非常重要。垂直搜索引擎不能只提供一個窗口,它應該是一個用户高度參與交互的社會化平台。這不光是用户粘度、忠誠度的問題,更為重要的是,垂直搜索引擎需要能夠獲取並且分析用户的偏好信息,從而提供更加完善而且準確的數據服務。
④智能化語義網:語義網(semantic web)將有可能成為下一代互聯網,此類網絡上的數據和信息將被計算機程序所理解。這將為垂直搜索引擎提供一個巨大的機會,Spider程序如果能理解網絡上的數據,將對信息的收集和整理更加準確和專業,搜索服務的查全率和查準率將更高。
⑤多元化查詢:目前的搜索引擎,都只侷限於關鍵字搜索,其中主要的原因是,對用户的查詢需求無法建模,無法模式化。而關鍵字搜索帶來的問題是,搜索結果過多,並且不準確。互聯網信息量越大,這種情況越嚴重,可以説是災難 [2] 

垂直搜索引擎與通用搜索的區別

(1)信息處理的區別
垂直搜索引擎和普通的網頁搜索引擎的最大區別是對網頁信息進行了結構化信息抽取,也就是將網頁的非結構化數據抽取成特定的結構化信息數據,好比網頁搜索是以網頁為最小單位,基於視覺的網頁塊分析是以網頁塊為最小單位,而垂直搜索是以結構化數據為最小單位。然後將這些數據存儲到數據庫,進行進一步的加工處理,如去重、分類等,最後分詞、索引再以搜索的方式滿足用户的需求。舉個例子來説明會更容易理解,比如購物搜索引摹,整體流程大致如下:抓取網頁後,對網頁商品信息進行抽取,抽取出商品名稱、價格、簡介……甚至可以進一步將筆記本式計算機簡介細分成品牌、型號、CPU、內存、硬盤、顯示屏……然後對信息進行清洗、去重、分類、分析比較、數據挖掘,最後通過分詞索引提供用户搜索、通過分析挖掘提供市場行情報告。
在整個過程中,數據由非結構化數據抽取成結構化數據,經過深度加工處理後以非結構化的方式和結構化的方式返回給用户。
(2)信息採集的區別
垂直搜索引擎技術同信息採集技術不同的是,信息採集主要是將採集的信息導入本地數據庫,而垂直搜索引擎主要是以網頁的形式展現給用户。
通用搜索引擎主要是利用Spider程序到網絡上搜索,一般是某個特定的週期派出一次將網頁更新,垂直搜索引擎同樣應有Spider程序,但該程序只在一些特定的網絡上爬行,並不會對每一個鏈接都感興趣。相對來説,垂直搜索引擎的收錄範圍大大縮小了,但並不意味着內容的縮小,通用搜索引擎對一些動態腳本是不敏感的。另外,由於目前網頁中的鏈接形式非常多,不但有動態腳本也有Flash做鏈接,這些鏈接方式通過傳統的Spider程序是很難解析出來的,在垂直搜索引擎中也應該解決 [2] 

垂直搜索引擎關鍵技術

由於垂直搜索引擎服務具有其自身的特性,因此其技術要求特點上與通用搜索引擎有很多不同之處,主要有四大關鍵技術。
(1)聚焦、實時和可管理的網頁採集技術
一般互聯網搜索面向全網信息,採集的範圍廣、數量大,但往往由於更新週期的要求,採集的深度或説層級比較淺,採集動態網頁優先級比較低,因而被稱為水平搜索。而垂直搜索帶有專業性或行業性的需求和目標,所以只對局部來源的網頁進行採集,採集的網頁數量適中。但其要求採集的網頁全面,必須達到更深的層級,採集動態網頁的優先級也相對較高。在實際應用中,垂直搜索的網頁採集技術能夠按需控制採集目標和範圍、按需支持深度採集及按需支持複雜的動態網頁採集,即採集技術要能達到更加聚焦、縱深和可管控的需求,並且網頁信息更新週期也更短,獲取信息更及時。
(2)從非結構化內容到結構化數據的網頁解析技術
水平搜索引擎僅能對網頁的標題和正文進行解析和提取,但不提供其時間、來源、作者及其他元數據的解析和提取。由於垂直搜索引擎服務的特殊性,往往要求按需提供時間、來源、作者及其他元數據解析,包括對網頁中特定內容的提取。例如,在論壇搜索、生活服務、訂票服務、求職服務、風險信用、競爭情報、行業供需、產品比較等特定垂直搜索服務中,要求對於作者、主題、地區、機構名稱、產品名稱以及特定行業用語進行提取,才能進一步提供更有價值的搜索服務。
(3)精、準、全的全文索引和聯合檢索技術
水平搜索引擎並不能提供精確和完整的檢索結果,只是給出預估的數量和排在前面部分的結果信息(TOPN),但響應速度是水平搜索引擎所追求的最重要因素。在文本索引方面,它也僅對部分網頁中特定位置的文本而不是精確的網頁正文全文進行索引,因而其最終檢索結果是不完全的。
垂直搜索由於在信息的專業性和使用價值方面有更高的要求,因此能夠支持全文檢索和精確檢索,並按需提供多種結果排序方式,例如按內容相關度排序(與水平檢索的page rank不同)或按時間、來源排序。另外,一些垂直搜索引擎還要求按需支持結構化和非結構化數據聯合檢索,如結合作者、內容、分類進行組合檢索等。
(4)高度智能化的文本挖掘技術
垂直搜索與水平搜索的最大區別是,它對網頁信息進行了結構化信息抽取加工,也就是將網頁的非結構化數據抽取成特定的結構化信息數據,好比網頁搜索是以網頁為最小單位,基於視覺的網頁塊分析是以網頁塊為最小單位,而垂直搜索是以結構化數據為最小單位。基於結構化數據和全文數據的結合,垂直搜索才能為用户提供更加到位、更有價值的服務。整個結構化信息提取貫穿從網頁解析到網頁加工處理的過程。同時,面對上述要求,垂直搜索還能夠按需提供智能化處理功能,如自動分類、自動聚類、自動標引、自動排重,文本挖據等。這部分是垂直搜索乃至信息處理的前沿技術,雖然尚不夠成熟,但有很大的發展潛力和空間,並且目前在一些海量信息處理的場合已經能夠起到很好的應用效果 [2] 

垂直搜索引擎應用價值

垂直搜索從海量的商訊中直接選出用户最需要的供求信息、買(賣)家背景資料、交易方式、服務跟蹤等,它既是大量相關產品、企業信息的展示平台,又是行業網站、電子商務的聚合平台,中小企業通過它可獲得傳統門户網站、通用搜索無法提供的閉合式網絡體驗,這種附加值就是細分市場巨大的商業價值所在。總結起來,垂直搜索引擎在企業中的應用價值包括:
1.整合企業內外資源,打造企業競爭情報系統的核心引擎企業的競爭情報信息既包括外部的互聯網信息、商業數據庫信息等,也包括內部的辦公文檔資料、內部交流信息等。垂直搜索引擎是整合這些內外信息資源的有效手段之一,在資源整合的基礎上,形成以情報規劃、情報採集、情報加工、情報服務、評估反饋為全生命週期的、完善的、統一的企業競爭情報平台,為企業的風險預警和決策支持提供信息服務。
2.高效採集和組織管理企業內外網門户信息,使信息共享更加便捷、有序隨着企業信息化的發展和深入,為了提高企業內部、企業和客户、企業和供應商之間的信息傳遞和共享速度,加速企業的業務進程,大部分企業(特別是分支機構較多的大型集團性企業)都建立了內外網服務門户,以便通過垂直搜索引擎高效地採集內外網門户信息,為企業職工、客户、供應商提供統一的信息檢索入口,並通過權限控制實現安全的檢索服務,使得信息的傳遞和共享更加便捷和有序。 [3] 

垂直搜索引擎應用領域

垂直搜索引擎的應用方向很多,比如企業庫搜索、供求信息搜索、購物搜索、房產搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索、工作搜索、交友搜索等,幾乎各行各業、各類信息都可以進一步細化成各類垂直搜索引擎。
(一)音樂搜索
除必應外,各搜索引擎都提供了音樂搜索服務,支持各種格式的音樂文件的搜索,並提供了各種榜單、音樂專題和挑歌功能。
(二)視頻搜索
除了谷歌,其他的搜索引擎都有其獨立的視頻搜索頁面,並提供了視頻分類搜索。
(三)新聞搜索
各搜索引擎都提供了分類搜索,例如,百度提供了國際、國內、體育、娛樂等16個分類的新聞搜索。
(四)圖書搜索
目前僅有百度與谷歌提供了圖書搜索的服務,因為涉及到版權的關係,只有那些已不再受版權保護或出版商已授權搜索引擎的圖書,才會提供給用户預覽。只有在某些情況下,用户才可以查看全文內容,如公眾領域的圖書。對於那些無法預覽或下載的圖書,搜索引擎則提供了借閲或購買該書的渠道。
(五)地圖搜索
地圖搜索一般用於公交、行車路線的搜索,但大多數搜索引擎都集合了其他生活信息的搜索,如餐飲、住宿、出遊、企業等信息的搜索。
(六)財經搜索
財經搜索主要提供股市報價、資訊、貨幣匯率等信息的搜索,目前僅有谷歌和百度提供了財經信息的垂直搜索。在谷歌財經的首頁上,可以看到各個主要板塊的當前行情,將鼠標移到條線圖上時可以看到該板塊的一些詳細的漲跌信息。谷歌還提供了“股票篩選器”的服務,為用户選擇投資對象提供了便利。
(七)圖片搜索
各搜索引擎都提供了圖片搜索服務,並提供了內容類型、圖片尺寸、文件類型、圖片顏色、圖片版式甚至圖片風格等條件的限定搜索。必應、谷歌提供的是一頁式瀏覽結果,其他幾款搜索引擎提供的則是傳統的分頁式瀏覽。 [4] 

垂直搜索引擎發展趨勢

隨着新技術的發展和門檻的降低,垂直搜素引擎將向着以下適應不同用户需求的方向不斷髮展。
(1)目錄精細化方向發展。
由於垂直搜索引擎相對於綜合搜素引擎的最大優勢,是對信息進行深度的、精細化的處理。與早期的網址分類搜索引擎相似,但垂直搜素引擎只選定了某一特定行業或某一主題進行目錄的細化分類,結合機器抓取行業相關站點的信息提供專業化的搜素服務。這種專業化的分類目錄,很容易讓用户迅速知道自己要找的是什麼,並且按目錄點擊就能找到。未來的垂直搜素引擎將會更加精細的劃分不同的行業,用户想要什麼就可以得到什麼。
(2)深度挖掘分析元數據。
其特點是:元數據模型再組織、再整合、深度數據挖掘、互動性。通過對元數據信息進入深度加工,該類垂直搜素引擎為用户提供綜合搜素引擎無法做到的專業性、功能性、關聯性,有的加入了用户信息管理以及信息發佈互動功能,能很好地滿足了用户對專業性、準確性、功能性、個性化的需求。
(3)向交易平台發展。
垂直搜素引擎由於自身對行業的專注,使得它可以提供行業信息深度和廣度的整合提供更加細緻周到的服務。對消費領域可以推出針對某一行業的搜索交易平台。搜索交易平台提供行業內商家和顧客直接溝通、諮詢不再需要轉到第三方平台再進行交易。
(4)本地搜索。
本地搜索的關鍵需求在於人們大多是在本地購物、就餐、娛樂、健身、修車、工作等 [5] 
參考資料
  • 1.    許麗麗編著. 網絡信息資源檢索與利用[M].哈爾濱:黑龍江人民出版社,2008.12:59
  • 2.    劉俊熙,盛宇編著.計算機信息檢索[M].北京:中國鐵道出版社,2009.08:134-135
  • 3.    天向互動教育中心編.互聯網技術與企業發展[M].北京:中央廣播電視大學出版社,2009.03:132
  • 4.    陳偉,汪瓊主編.信息資源檢索與利用 第2版[M].北京:國防工業出版社,2014.08:171-172
  • 5.    王文鈞, 李巍. 垂直搜索引擎的現狀與發展探究[J]. 情報科學, 2010, 第28卷(3):477-480  .超星[引用日期2019-08-23]