複製鏈接
請複製以下鏈接發送給好友

簡易信息聚合

鎖定
簡易信息聚合是“Really Simple Syndication”或“Richsite summary”(網站內容摘要)的中文名字。是站點用來和其他站點之間共享內容的一種簡易方式。
中文名
簡易信息聚合
外文名
Really Simple Syndication
特    徵
信息發佈低成本
英文縮寫
RSS技術。

簡易信息聚合相關信息

簡易信息聚合是“Really Simple Syndication”或“Richsite summary”(網站內容摘要)的中文名字。是站點用來和其他站點之間共享內容的一種簡易方式。英文縮寫為RSS技術。
RSS是一種信息聚合的技術,是某一站點和其他站點之間共享內容的一種簡易信息發佈與傳遞的方式,使得一個網站可以方便的調用其他提供RSS訂閲服務的網站內容,從而形成非常高效的信息聚合,讓網站發佈的內容在更大的範圍內傳播。他是一種用於共享新聞和其他WEB內容的數據交換規範,也是使用最廣泛的一種擴展性標識語言。

簡易信息聚合RSS的發展史

RSS可以是Really Simple Syndication(真正的簡單聚合),也可以是RDF Site Summary(RDF站點摘要),還可以是RichSite Summary(豐富站點摘要)。這是因為RSS技術在發展過程中不同的技術團體對其做出了不同的解釋。結果RSS分化為兩大陣營,一個是DaveWiner的UserLand公司推出的RSS 0.9x和RSS 2.0版本,另一個是一個聯合小組根據W3C新一代語義網技術RDF(Resource Description Framework)對RSS進行了重新定義,形成了RSS 1.0版本。雖然RSS的版本的不同,但是它們都遵循XML 1.0規範。另外還有一個是美國大型博客服務網站(www.blogger.com)採用了近似於RSS技術的衍生版Atom,它被Google收購後,成為了RSS標準強有力的競爭者。
UserLand公司認為:RSS是ReallySimpleSyndication的首字母簡寫;RSS是網頁內容的聚合格式。而制定RSS1.0版本的聯合小組認為:RSS是RDFSiteSummary的首字母簡寫,它是一種是輕量級、多用途、可擴展的元數據描述和聚合格式,屬於XML應用,遵循W3C的RDF規範,可通過XML命名空間進行擴展和(或)基於RDF進行模塊化。不管是什麼版本的RSS,它們都是將一些網頁資源描述為一些頻道(Channels)的組合。各個頻道包含一系列的消息項(Items),因此把利用頻道和消息項等RSS元素去描述網絡內容的文件稱為RSSfeed。
RSS技術在西方發達國家,尤其是美國,已經達到了相當大的規模。據不完全統計,美國提供RSS內容的網站數目從2001年9月的1千餘家激增至2004年9月的19萬5千餘家,短短的三年中增長了近150倍,市場的飛速發展令人矚目。隨着RSS內容數量的激增,RSS用户數也取得了飛速的發展,從2001年8月的10萬用户激增到2004年8月的近9百萬。國內提供RSS內容的網站和企業也不下千家,RSS用户數大約在100萬左右,由此可見國內RSS市場潛力巨大。在這些RSS內容提供者中,有許多是博客網站和個人,但更多的是認識到RSS技術的先進性、優越性的商業網站,把對RSS技術的支持當作增加網站流量、推廣網站品牌、更好地為用户服務的重要手段 [1] 

簡易信息聚合RSS技術及其實現

RSS通過XML標準定義內容的包裝和發佈格式。對RSS內容提供者來説,RSS技術提供了一種實時、高效、安全、低成本的信息發佈渠道;對RSS用户來説,它提供了一種嶄新的閲讀體驗。

簡易信息聚合RSS技術特點

多來源信息的個性化聚合。RSS作為網站內容的包裝格式,所以任何內容提供者都可以採用這種格式來發布信息。在用户端,RSS閲讀器軟件可以按照用户喜好,有選擇性地將用户感興趣的內容來源進行“聚合”,為用户提供多來源信息的“一站式”服務。
信息發佈的高時效和低成本。RSS技術秉承“推(push)”信息的概念,當新內容在服務器數據庫中出現時,就可以被“推”到用户端閲讀器中,極大地提高了信息的時效性和價值。此外,服務器端內容的RSS包裝在技術實現上極為簡單,而且是一次性的工作,使長期的信息發佈邊際成本幾乎降為零,這是傳統的電子郵件、衞星傳輸、互聯網瀏覽等發佈方式所無法比擬的。無“垃圾”信息、便利的本地內容管理。RSS用户端閲讀器軟件的特點是完全由用户根據自身喜好以“頻道”的形式訂閲值得信任的內容來源。RSS閲讀器軟件可以完全屏蔽掉用户沒有訂閲的內容以及彈出廣告等令人煩擾的內容。此外,對下載到閲讀器軟件本地的所訂閲RSS內容,用户可以進行離線閲讀、存檔保留、搜索排序、相關分類等多種管理操作,使閲讀器成為個人的“資料庫”。
RSS是信息傳遞的重要方式。近年來BLOG作為一種發佈個人信息的形式和工具越來越受到人們的矚目。使用RSS技術可以提取大量現有頁面中BLOG的摘要和索引,生成RSS文件供用户使用,可以建立RSSFeed服務器,從而促進信息在網絡上傳輸。

簡易信息聚合2RSS技術實現

通常,互聯網用户是使用RSS閲讀器或通過提供RSS服務的網站來在線訂閲和管理自己需要的內容。因此,RSS技術的核心在於如何實現RSS閲讀器或建立RSS服務網站。對於同一個服務提供商,假如既提供客户端RSS閲讀器,也提供門户網站的在線服務,那麼兩者的功能幾乎也是一樣的。對於不同的服務提供商,他們提供的服務可能會有差異,但是一些核心的功能是相同的,例如RSS訂閲功能、用户管理功能、Feed管理功能等。從技術角度看,實現RSS閲讀器和建立RSS服務網站所應用的核心技術是相似的。
數據庫後台更新組件。必須及時地更新數據庫中的數據,從而給用户提供及時的、最新的信息。這一點非常重要的,是“推”技術的核心內容。通常可以由用户設定更新頻率,可以是一個小時、兩個小時、半天、一天等,可以根據實際的應用需要設定,例如應用的實時性要求較高,更新頻率的值應該較小些。在程序設計中,我們可以用更新線程定時更新數據庫。
RSS生成器是RSS應用最重要的擴充組件。一種比較普遍的情況是:許多網站還沒有提供RSS服務,所以用户就得不到該網站上感興趣的信息。因此要解決這個問題,就必須擴充RSS閲讀器的功能,使得html頁面等可以轉換為RSS文件供用户訂閲。我們知道一些html文檔是不規範的、甚至是錯誤的。由於客户端瀏覽器的強大功能,通常對於瀏覽來説,是不成問題的,但是要把這些html文檔解析直接生成RSS文檔是困難的。因此,我們要使用一個功能強大的html解析器對那些html文檔進行結構重整和錯誤修正。我們需要一個RSS轉換器用來過濾掉頁面中的無關信息,提取有用信息。一般可以通過根據頁面上的重複模式(如時間,價格等)達到提取信息,生成RSS文件的目的。對於特別的應用,也可以應用其它的Web挖掘技術,進行信息提取。
圖1 RSS處理流程圖 圖1 RSS處理流程圖
RSS解析器是RSS閲讀器中的核心組件,它用於處理各種不同版本的RSS文件,生成html文檔片斷嵌入到JSP(JavaServerPages)頁面或html文檔中供用户使用。XSLT是可以將XML文檔轉換為html文檔的工具。因為RSS文檔本質上是XML文檔,所以可以把RSS文檔經過XSLT工具處理(信息抽取和格式化),轉換成html文檔,從而使客户端瀏覽器能夠正確的顯示用户期望的內容。RSSFeeds分析和統計組件。可以利用Web技術來分析和統計RSSFeeds的訂閲數(Circulations)、點擊數(Hits)、引用數(Referrers)等;還有消息項(Item)被瀏覽次數(ItemViews),被點擊數(Clickthroughs)等。RSS應用系統主要的處理流程如圖1。

簡易信息聚合RSS應用開發

RSS應用屬於Web服務應用,所以可以按照一般的Web應用去設計和開發應用系統。

簡易信息聚合RSS應用架構分析

通常RSS應用系統採用B/S三層架構,分別是Web服務器、數據庫服務器和客户端。從功能分擔上可以分為:瘦客户端和肥客户端。瘦客户端,客户端只需要一個瀏覽器就可以了。肥客户端,客户端通常要安裝特定的RSS閲讀器。瘦客户端的缺點就是服務器的負擔比較重;但是明顯的優點就是很好用,不需要附加的軟件,在瀏覽器窗口地址欄輸入Web服務器的(URL)就可以實現訂閲和管理RSSFeeds,還有信息都保存在數據庫服務器中,用户不必擔心本地機器存儲信息而會丟失信息的情況。肥客户端就是在客户端安裝了RSS閲讀器軟件,優點是減輕了服務器的負擔;要是內容更新下載到了本地機器,使得在本地閲讀時反應速度快;支持脱機閲讀,也許可以節省用户上網的費用。缺點就是佔有了用户的硬盤存儲空間。本文闡述了瘦客户端的應用開發過程。

簡易信息聚合網絡應用開發框架和MVC設計模式

圖2 MVC模式關係圖 圖2 MVC模式關係圖
在Web應用中有一個良好的實踐就是使用基於MVC(Model-View-Controller)設計模式的網絡應用框架(WebApplicationFramework)。MVC設計模式被認為是設計模式裏面最出名的。MVC模式關係如圖2所示。MVC模式分為三個組件:模型組件,視圖組件和控制器組件。模型組件負責維護後台數據庫或遠程系統的數據;視圖組件負責建立終端用户的顯示層;控制器組件負責維護條件邏輯上的視圖顯示,錯誤處理和何時、怎樣更新數據。Struts就是一個基於MVC模式的網絡開發框架,它可以顯著加快開發進程。利用Struts提供的標籤庫和配置文件可以使程序員和系統維護人員擺脱JSP(JavaServerPages)頁面管理的困擾,使得程序員能專注於商業邏輯編程。

簡易信息聚合系統配置綜合運用

Java編程技術、JSP技術、XML、XSLT(eXtensible Style sheet Language Tools)、JavaScript和EJB(Enterprise Java Bean)或WebService等就可以完成應用系統開發了。Web服務器軟件可以選用Jboss,Weblogic,WebSphere,Tomcat等。應用程序必須配置Struts中的struts-config.xml文件,從而使得M-V-C三個部件有機結合起來工作。數據庫服務器軟件可以選用Oracle,Sybase,SQLServer,MySQL等。

簡易信息聚合RSS的特徵

(1)個性化信息主題聚合 隨着RSS被廣泛的採用,提供RSS FEEDS 的網站越來越多,包括專業的新聞站點、電子商務站點、企業站點、,甚至個人站點等。這樣,用户可以根據自己的喜好,訂閲多個站點,通過一個RSS閲讀器,為用户提供多來源信息的“一站式”的個性化服務。
(2)信息獲取高時效性 RSS閲讀器可以根據用户的設置定時完成與信息源站點元數據的同步。同時,由於RSS技術秉承“信息推送”概念,一旦站點有內容更新,更新內容就在第一時間被“推”到用户端閲讀器中,極大的提高了信息的時效性和價值。
(3)信息發佈低成本
(4)知識信息過濾與積累 RSS技術提供自定義的技術,信息源的選擇與信息內容的過濾由用户自主配置,用户根據自己的喜好以“頻道”的形式訂閲值得信任的內容來源。
RSS用户端所蒐集的信息可以經過用户智能篩選,能屏蔽掉用户沒有訂閲的內容
以及彈出廣告,垃圾郵件等,保證信息的“無垃圾”和“個性化”。
(5)本地信息易於管理
對於下載到閲讀器軟件本地的訂閲RSS內容,用户獲取無須任何賬號或密碼,使用
方便快捷。信息的本地存儲與管理功能為用户建立起一個“隨身資料庫”,用户
可以進行離線閲讀,存檔保留,搜索排序,相關分類等多種管理操作,簡單方便。
參考資料