複製鏈接
請複製以下鏈接發送給好友

深網

(互聯網術語)

鎖定
深網(英語:Deep Web,又稱、不可見網、隱藏網)是指互聯網上那些不能被標準搜索引擎索引的非表面網絡內容。
邁克爾·伯格曼將當今互聯網上的搜索服務比喻為像在地球的海洋表面的拉起一個大網的搜索,巨量的表面信息固然可以通過這種方式被查找得到,可是還有相當大量的信息由於隱藏在深處而被搜索引擎錯失掉。絕大部分這些隱藏的信息是須通過動態請求產生的網頁信息,而標準的搜索引擎卻無法對其進行查找。傳統的搜索引擎“看”不到,也獲取不了這些存在於深網的內容,除非通過特定的搜查這些頁面才會動態產生。於是相對的,深網就隱藏了起來。據估計,深網要比表面網站大幾個數量級(僅作估計,無學術依據)。
中文名
深網
外文名
Deep Web
別    稱
不可見網、隱藏網
意    義
不能被標準搜索引擎索引的內容
對    比
表網
領    域
計算機

深網基本解釋

整個Web看似雜亂無章,但如果按其所藴涵信息的“深度”可以劃分為SurfaceWeb和DeepWeb兩大部分。SurfaceWeb是指通過超鏈接可以被傳統搜索引擎索引到的頁面的集合。DeepWeb是指Web中不能被傳統的搜索引擎索引到的那部分內容。廣義上來説,DeepWeb的內容主要包含4個方面:(1)通過填寫表單形成對後台在線數據庫的查詢而得到的動態頁面;(2)由於缺乏被指向的超鏈接而沒有被搜索引擎索引到的頁面,大約佔整個比例的21.3%;(3)需要註冊或其它限制才能訪問的內容;(4)Web上可訪問的非網頁文件,比如圖片文件、PDF和Word文檔等。
而在實際中應用中,人們則更關注於DeepWeb中的第一部分內容。其原因不難理解,這部分內容對結構化數據的集成更有意義,可以採用的技術也更豐富。DeepWeb數據集成也主要是指對結構化信息的集成,我們同時把Web中可訪問的在線數據庫稱為Web數據庫或WDB。這些內容只有在被查詢時才會由Web服務器動態生成頁面,把結果返回給訪問者(圖1),因此沒有超鏈接指向這些頁面,這是和那些可以被直接訪問的靜態頁面的根本區別。隨着Web相關技術的日益成熟和DeepWeb所藴含信息量的快速增長,通過對web數據庫的訪問逐漸成為獲取信息的主要手段,而對DeepWeb的研究也越來越受到人們的關注。

深網深網資源

  • 動態內容
  • 未被鏈接內容
  • 私有網站
  • Contextual Web
  • 被限制訪問內容
  • 腳本化內容
  • 非HTML/文本內容

深網命名

伯格曼在The Journal of Electronic Publishing上發表一篇關於深網的重大論文中提到,吉爾.艾爾斯沃夫曾經使用“隱形網”這一術語表示那些沒有被任何搜索引擎索引註冊的網站。伯格曼還引用法蘭克·加西亞在1996年1月的一篇文章:
這些網站可能已經被合理地設計出來了,但是他們卻沒有被任何搜索引擎編列索引,以至於事實上沒有人能找到他們。我可以這樣對這些不可見的網站説,你們是隱藏了的。我稱之為隱形網。
早期另一個使用“隱形網”這一術語的是一家叫做“個人圖書館軟件”公司的布魯斯·芒特和馬修·B·科爾,當他們公司在1996年12月推出和發行的一款軟件時,他們對深網工具的有過這樣的一番描述。
普遍接受的深網這一特定術語首次使用在2001年伯格曼的研究中。 [1] 

深網索引方法

研究人員探尋瞭如何自動抓取深網內容。
2001年,斯利拉姆·拉格哈瓦(Sriram Raghavan)和赫克託·加西亞·莫利納(Hector Garcia-Molina)發明了一個從用户請求界面表格收集關鍵詞的深網抓取模型並且抓取深網資源。加利福尼亞大學洛杉磯分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho創建了一個自動生成有意義的查詢詞的程序。
商業搜索引擎已經開始使用以上兩種方法之一抓取深網。Sitemap協議(由Google於2005年首次開發並由Google引入)和mod oai是允許搜索引擎和其他網絡服務探索深網解決方法。以上兩種解決方法允許網絡服務主動公佈網址,這對於他們來説是容易的,因而允許自動探尋資源而不直接通過網絡表面的鏈接。Google的深網探尋系統預先計算每個HTML表單並且添加結果HTML頁面到Google搜索引擎索引。在這個系統裏,使用三種方法計算提交詞:
  1. 為輸入搜索選擇關鍵詞允許的輸入值,
  2. 確定是否只接受特定的值(例如時間),以及
  3. 選擇少量的組合生成適合納入網站的搜索索引網址。 [2] 
參考資料
  • 1.    Alexandros, Ntoulas; Petros Zerfos, and Junghoo Cho. Downloading Hidden Web Content (PDF). UCLA Computer Science. 2005
  • 2.    Sriram Raghavan; Hector Garcia-Molina. Crawling the Hidden Web (PDF). Stanford Digital Libraries Technical Report. 2000