複製鏈接
請複製以下鏈接發送給好友

互聯網新聞開放協議

鎖定
《互聯網新聞開放協議》是百度新聞搜索制定搜索引擎新聞源收錄標準,網站可將發佈的新聞內容製作成遵循此開放協議的XML(標準通用標記語言下的一個子集)格式的網頁(獨立於原有的新聞發佈形式)供搜索引擎索引,將網站發佈的新聞信息主動、及時地告知百度搜索引擎。採用了互聯網新聞開放協議,就相當於網站的新聞被搜索引擎訂閲,通過百度——全球最大中文搜索引擎這個平台,網民將有可能在更大範圍內更高頻率地訪問網站的新聞,進而給網站帶來潛在的流量。
中文名
互聯網新聞開放協議
屬    性
標準
webSite
站點地址
webMaster
負責人員的Email

互聯網新聞開放協議XML網頁示例

XML標籤説明: 其中帶星號標記的為必選項,未帶星號標記為可選項。
*<document>——標記整個XML文件內容的開始和結束。
*<updatePeri>——更新週期,單位為分鐘。搜索引擎將遵照此週期訪問該頁面,使頁面上的新聞更及時地出現在百度新聞中。
*<item>——標記每篇新聞信息的開始和結束。標記內為單篇新聞信息,不包括新聞專題。
*<title>——新聞標題。
*<link>——新聞url地址,與單篇新聞一一對應;若分頁的新聞存在多個url,相當於多篇新聞。
<description>——新聞內容簡介。
*<text>——完整的新聞正文(僅包含正文文字,不包含html標記、圖片鏈接等其它字符 )。此項的目的是使該篇新聞更多、更準地出現在搜索結果中。
*<image>——新聞正文內相關圖片;採用絕對地址;若該篇新聞無相關圖片,可以為空;若含有多張圖片,重複使用該標籤。此項的目的是使該篇新聞的相關圖片展現在搜索結果中。
<headlineImg>——為有可能成為頭條的新聞製作的頭條圖,採用絕對地址。
<keywords>——反映新聞主題內容的一個或多個關鍵詞,關鍵詞之間以空格隔開。此項僅作為參考,檢索結果不會完全依賴於此標籤中的內容。
<category>——新聞分類, 可以遵循網站自身的分類體系,最好採用一級分類。
<author>——新聞作者,可以為機構或個人 。
<source>——新聞來源,即原創媒體或其它機構 。
*<pubDate>——新聞發佈時間,請精確到分鐘;若您網站的發佈時間未記錄小時分鐘,提供年月日即可。

互聯網新聞開放協議開放協議使用

開始之前,您需要了解以下幾點:
無論您的網站已經成為百度新聞源,還是尚未被百度新聞搜索收錄,您都可以使用此開放協議。
您使用開放協議提供的內容應全部為符合下面《新聞源收錄標準》的新聞信息。
互聯網新聞開放協議只是原始新聞源收錄方式的一種協助和有益補充,而不是完全取代。

互聯網新聞開放協議收錄標準

百度希望新聞源多樣化,鼓勵原創新聞內容,如果是具有大量有價值的新聞內容並能及時更新的正規、合法媒體網站,且網站服務器穩定、高速,就符合了百度收錄新聞源的基本原則。
百度新聞搜索收錄的內容包括時政、娛樂體育財經、科教文化、社會生活等各類新聞報道媒體評論數碼產品房產汽車等行情資訊及評測,各行業的動態及行情,組織機構的工作動態等;是由專業人士撰寫或編輯的中文信息;不包括髮布的個人信息、論壇、博客、廣告、幽默笑話、情感故事、情色、寫真、食譜、下載多媒體等其它類型、其它語言互聯網信息。

互聯網新聞開放協議按照網站

可收錄的網站類型:綜合門户網站、專業新聞網站和地方信息港、報刊雜誌及廣播電視媒體、專業及行業網站、政府及組織網站;
不可收錄的網站類型:論壇、博客、公司網站、個人網站、港澳台及海外媒體。

互聯網新聞開放協議按照頻道

國內、國際、社會、財經、互聯網、體育、娛樂:內容包括新聞報道、媒體評論、以及視頻新聞報道;不包括敏感類政治新聞報道,反動新聞;
房產:內容包括業界新聞動態,家居;不包括房屋租賃信息;
汽車:內容包括新車導購、試駕;不包括車源信息;
遊戲:內容包括業界新聞動態、遊戲攻略、官方新聞;不包括遊戲下載;
健康:內容包括保健養生、健康新聞、疾病預防;不包括食譜、兩性話題;
科技:內容包括手機、數碼、電腦產品行情資訊及評測,科普知識,業界新聞;不包括下載、產品報價類信息;
其他不可收錄的分類還包括:個人信息、博客、論壇、廣告、招標、報價、下載、試題、教程、招聘信息、幽默笑話、情感故事、情色、寫真、劇照、明星檔案、食譜;
百度新聞搜索希望收錄高質量的中文新聞,不收錄英文等其它非中文新聞;
您應對提供的全部內容承擔一切法律責任,保證您提供內容的真實性、合法性,並不得侵犯任何第三方的權益。

互聯網新聞開放協議新聞創建步驟

互聯網新聞開放協議創建文件

請按遵照上面公佈的開放協議內容製作XML文件。
其它説明: 支持的編碼格式有GB2312、UTF-8、BIG5
您可以將你網站某一時間段發佈的全部新聞放在一個XML文件中,也可以分頻道或欄目放在多個XML文件中。
請保持每個XML文件處於按更新週期持續自動更新狀態。
每個XML文件至多存放最新發布的100條新聞,無需保存之前的新聞。
請將發佈的新聞按照時間排序,即最新發布的新聞在最上端,否則可能有新聞被遺漏。
XML標籤內容中的一些特殊字符必須轉換為XML定義的轉義字符,否則將發生錯誤導致搜索引擎不能獲取頁面上的新聞,具體參見下表。 字符轉義後的字符
HTML字符 字符編碼
和(and) & &amp; &
單引號 ' &apos; '
雙引號 " "
大於號 > &gt; >
小於號 < &lt; <
轉義字符中的"&"無需再轉。

互聯網新聞開放協議驗證文件

下面的位置提供了幫助您驗證XML文件結構的多種工具:(參見資料)
通過驗證的XML文件能夠使您提供的信息更加標準化,確保您發佈的新聞信息不被搜索引擎遺漏。

互聯網新聞開放協議提交網址

提交前請將XML文件上傳到您的網站服務器,將XML文件的URL地址及其它信息輸入下面對應的方框內。搜索引擎將定向訪問該URL地址,當URL地址發生變化時需要重新提交。
百度新聞搜索將對你提交的數據進行測試和觀察一週,若您按照互聯網新聞開放協議的標準進行製作但存在問題,我們會根據XML頁面上提供的郵件地址與您聯繫。
注意: 百度新聞搜索不保證一定能收錄您提交的全部內容。
*站點名、地址為必填項。
站點名 地址
如:百度 http://news.baidu.com/news.xml