複製鏈接
請複製以下鏈接發送給好友

Disallow

鎖定
disallow在字典中是這樣定義的“捨棄”(deny)這個詞的拒絕,謝絕同意,不接受,的意思,在網絡中的意思就是告訴搜索引擎蜘蛛都有哪些文件不被抓取,也成為禁止抓取。
中文名
Disallow
User-agent
搜索引擎的類型
Crawl-delay
抓取延遲
Disallow
禁止搜索引擎收錄的地址
Allow
允許搜索引擎收錄的地址

Disallow簡介

一般情況下,大多數網站創建者或管理員都會在網站的根目錄放置一個名為robots.txt的文本文件,用來控制自己的網站哪些目錄允許SE搜索引擎爬行並收錄,哪些目錄禁止搜索引擎收錄,Disallow,正是robots.txt文件中設置禁止搜索引擎收錄哪些目錄的一個詞語。

Disallow示例

例子:
1. 允許所有SE(搜索引擎)收錄本站:robots.txt為空就可以,什麼都不要寫。
2. 禁止所有SE(搜索引擎)收錄網站的某些目錄:
User-agent: *
Disallow: /目錄名1/
Disallow: /目錄名2/
Disallow: /目錄名3/
3. 禁止某個SE(搜索引擎)收錄本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
4. 禁止所有SE(搜索引擎)收錄本站:
User-agent: *
Disallow: /
它的用途是告訴上一子集,確定某個對象用的。

Disallowrobots.txt

Disallow什麼是robots.txt

robots.txt是一個純文本txt文件,用在網站服務器上。它是搜索引擎訪問網站的時候要查看的第一個文件,robots.txt文件告訴搜索引擎在服務器上什麼文件是可以被查看的,哪些網頁可以收錄,哪些不允許收錄,對與seo優化而言,放置一個robots.txt是對搜索引擎友好的表現,robots.txt必須放置在一個站點的根目錄下,且文件名必須全部小寫。

Disallowrobots.txt作用

robots.txt主要作用是保障網絡安全與網站隱私,搜索引擎遵循robots.txt協議。通過根目錄中創建的純文本文件robots.txt,網站就可以聲明哪些頁面不想被搜索引擎爬行並收錄,每個網站都可以自主控制網站是否願意被搜索引擎收錄,或者指定搜索引擎只收錄指定的內容。當搜索引擎訪問某個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果該文件不存在,那麼爬蟲就沿着鏈接抓取,如果存在,爬蟲就會按照該文件中的內容來確定訪問的範圍。

Disallowrobots.txt文件的格式

User-agent:_____ 空白處為定義搜索引擎的類型;
Crawl-delay:_____ 空白處為定義抓取延遲;
Disallow:_____ 空白處為定義禁止搜索引擎收錄的地址;
Allow:_____ 空白處為定義允許搜索引擎收錄的地址;