複製鏈接
請複製以下鏈接發送給好友

爬網

鎖定
爬網:對內容進行爬網是指系統訪問和分析內容及其屬性(有時稱為“元數據”)從而建立可提供搜索查詢服務的內容索引的過程。
中文名
爬網
原    因
1、為了適應停機期和高峯使用期的變化。2、為了適應作為內容宿主的服務器上內容更新頻率的變化

爬網定義

通過成功地對內容進行爬網,爬網程序可以訪問和讀取您希望用於搜索查詢的單個文件或內容片段。這些文件的關鍵字和元數據存儲在內容索引(有時稱為“索引”)中。該索引包含關鍵字和元數據,關鍵字存儲在索引服務器的文件系統中,而元數據存儲在搜索數據庫中。該系統可維護關鍵字、與單個內容片段關聯的元數據以及從中對內容進行爬網的源的 URL 之間的映射。

爬網爬網內容

爬網內容 (Office SharePoint Server 2007),對內容進行爬網是指系統訪問和分析內容及其屬性(有時稱為“元數據”)從而建立可提供搜索查詢服務的內容索引的過程。
通過成功地對內容進行爬網,爬網程序可以訪問和讀取用户希望用於搜索查詢的單個文件或內容片段。這些文件的關鍵字和元數據存儲在內容索引(有時稱為“索引”)中。該索引包含關鍵字和元數據,關鍵字存儲在索引服務器的文件系統中,而元數據存儲在搜索數據庫中。該系統可維護關鍵字、與單個內容片段關聯的元數據以及從中對內容進行爬網的源的 URL 之間的映射。

爬網爬網原因

服務器場已部署並運行一段時間後,搜索服務管理員通常必須更改爬網計劃。其原因如下:

爬網爬網情況

獨立於較快主服務器上承載的內容,對較慢主服務器上承載的內容進行爬網。
對新的內容源進行爬網。
爬網的頻率與目標內容更新的頻率相同。例如,可能需要對每日更新的庫執行每日爬網,並對很少更新的庫執行較低頻率的爬網。

爬網執行方法

通常情況下,需要通過安排爬網時間來自動完成大多數爬網。但有時,可能需要手動啓動爬網。例如,可能需要啓動爬網以對要爬網和編制索引的內容應用爬網規則等管理更改,或者確定爬網日誌中的錯誤是否已解決。
此外,不管是手動啓動爬網還是按計劃啓動爬網,都可能需要停止或暫停一個或多個爬網。例如,其服務器承載待爬網內容的管理員可能通知爬網會給服務器帶來太多負載,或者要爬網的服務器當前處於脱機狀態。在上述任一情況下,都可能需要停止或暫停爬網。
應考慮完全爬網比增量爬網需要更多的時間和服務器資源。

爬網完全爬網

比增量爬網佔用索引服務器上更多的內存和 CPU 週期。
在爬網服務器場中的內容時佔用前端 Web 服務器上更多的內存和 CPU 循環。這不適用於服務器場外部的內容。
比增量爬網使用更多的網絡帶寬
還必須注意不要同時暫停太多內容源的爬網,因為暫停的每個內容源都會消耗索引服務器上的內存和 CPU 資源。
若要啓動完全爬網或增量爬網,停止、暫停或繼續爬網,請執行以下過程之一:
啓動完全爬網 (Office SharePoint Server 2007)
啓動增量爬網 (Office SharePoint Server 2007)
停止爬網 (Office SharePoint Server 2007)
暫停和繼續爬網 (Office SharePoint Server 2007)

爬網計劃爬網

以下各節提供了有關按計劃爬網內容時注意事項的詳細信息。
停機期和使用高峯期
應考慮承載待爬網內容的服務器的停機期和使用高峯期。例如,如果要對服務器場以外的眾多不同服務器承載的內容進行爬網,則這些服務器可能會按不同的計劃備份且具有不同的使用高峯期。通常,管理員無法對服務器場以外的服務器進行管理控制。因此,建議與承載待爬網內容的服務器的管理員協調爬網事宜,以確保不會在服務器停機或使用高峯期嘗試爬網其中的內容。
常見的一種情況是與站內的 SharePoint 網站內容相關的內容不在貴組織的控制範圍內。可以將此內容的開始地址添加到現有內容源中或者為外部內容創建一個新內容源。由於外部網站的可用性千差萬別,因此為不同的外部內容添加單獨的內容源會很有幫助。這樣,就可以在其他內容源的爬網時間以外爬網外部內容的內容源。可以根據每個網站的可用性按爬網計劃更新外部內容。
頻繁更新的內容
制定爬網計劃時,應考慮某些內容源的更新頻率通常高於其他內容源。例如,如果知道某些網站集或外部源中的內容只在週五進行更新,那麼對這些內容進行爬網的頻率若高於每週一次就會浪費資源。但是,服務器場可能包含從週一到週五持續更新,但週六和週日通常不會更新的其他網站集。在這種情況下,可能希望一週數次爬網這些網站而週末則不進行爬網。
在所在環境的網站集中存儲內容的方式可指導管理員為每個 Web 應用程序中的各個網站集創建其他內容源。例如,如果網站集只存儲歸檔信息,則爬網該網站集的頻率就不必像爬網存儲經常更新內容的網站集那樣頻繁。在這種情況下,管理員可能需要使用不同的內容源來爬網這兩個網站集,以便按不同的計劃對它們進行爬網。
完全和增量爬網計劃
作為搜索服務管理員,可以為每個內容源單獨配置爬網計劃。對於每個內容源,管理員可以指定不同的完全爬網時間和增量爬網時間。
建議根據運行搜索服務的服務器和承載爬網內容的服務器的可用性、性能及帶寬因素來制定爬網計劃。
在制定爬網計劃時,應考慮以下最佳方案:
基於類似的可用性以及承載內容的服務器可接受的總體資源使用率,對內容源中的開始地址進行分組。
將每個內容源的增量爬網安排在承載內容的服務器可用並且對服務器資源的需求較低時進行。也可以添加或編輯一個或多個爬網程序影響規則,以便減少被爬網服務器上的負載。
使服務器場內各服務器的爬網計劃交錯,以便場內各服務器上的負載在時間上分佈均勻。
僅當下一節中列出的原因為必需原因時,才安排完全爬網。建議執行完全爬網的頻率應低於執行增量爬網的頻率。
將要求完全爬網的管理更改安排在完全爬網前不久執行。例如:建議在執行下一次計劃的完全爬網之前嘗試安排創建爬網規則,以便消除額外的完全爬網。
是否同時進行爬網取決於要爬網的索引服務器的容量。建議管理員錯開爬網時間以便索引服務器不會同時使用多個內容源進行爬網。索引服務器的性能和承載該內容的服務器的性能決定爬網的重疊程度。隨着時間推移,管理員會逐漸瞭解爬網每個內容源通常所需的時間,從而可以制定爬網計劃策略。建議記錄在環境中爬網所需時間的趨勢數據。
執行完全爬網的原因
搜索服務管理員執行完全爬網的原因包括:
服務器場中的服務器上安裝了一個或多個修補程序或 Service Pack。有關詳細信息,請參閲該修補程序或 Service Pack 的説明。
SSP 管理員添加了一個新的託管屬性。
要重新對 Windows SharePoint Services 3.0 或 Office SharePoint Server 2007 網站上的 ASPX 頁面編制索引。
要檢測在上次對文件共享執行完全爬網之後對文件共享所做的安全更改。
解決連續的增量爬網失敗問題。在極少數情況下,如果在某個存儲庫中的任何級別上執行增量爬網時連續失敗了一百次,則索引服務器將從索引中刪除受影響的內容。
已添加、刪除或修改爬網規則。
要修復損壞的索引。
搜索服務管理員已創建一個或多個服務器名稱映射。
分配給默認內容訪問帳户或爬網規則的帳户已更改。
在以下情況下,即使請求執行增量爬網,系統也會執行完全爬網:
SSP 管理員停止了先前的爬網。
備份還原了內容數據庫。
服務器場管理員已分離並重新附加內容數據庫。
從未對此網站執行完全爬網。
更改日誌不包含正在執行爬網的地址的條目。如果更改日誌中沒有對應於待爬網項的條目,則無法進行增量爬網。
分配給默認內容訪問帳户或爬網規則的帳户已更改。
要修復損壞的索引。
如果在索引中檢測到損壞情況,則根據損壞的嚴重程度,系統可能會嘗試執行完全爬網。
在初始部署後,可以依據服務器場中的服務器以及承載內容的服務器的性能和容量來調整計劃。