複製鏈接
請複製以下鏈接發送給好友

信息發佈

鎖定
電網調度機構按照規定的內容和格式向電廠和地區供電公司公開相關的註冊參數和運行數據。 [1] 
——引自GB/T 33590.2-2017《智能電網調度控制系統技術規範 第2部分:術語》
信息發佈是LBS面向用户終端的主要信息發送方式,是用户獲取位置及相關信息的重要途徑。隨着Web技術的迅猛發展,信息發佈技術也從以往的廣播服務機制逐步向推送服務機制發展。本節主要介紹信息廣播、信息定製、信息抽取和信息推送服務的有關內容。
中文名
信息發佈
外文名
Information Delivery
information publication

信息發佈信息廣播

信息廣播是指通過廣播技術實現對信息的傳播。在信息發佈領域,信息廣播是一種基本的,也是最早開始投入使用並延續至今的信息發佈方式。從早期的廣播電台、電視,到現在的互聯網,廣播依然是人們獲取信息的主要來源渠道。
早期的信息廣播業務主要是音頻、視頻廣播業務。隨着社會發展和技術進步,數據廣播成為基於數字電視傳輸標準之上,除MPEG-2視頻和音頻內容之外的另一個重要的業務擴展。數據廣播包括經由衞星、電纜或地面設施下載軟件,通過廣播信道傳輸因特網服務、互動TV等。根據對數據傳輸的不同需求,數據廣播標準確定了5種不同的應用領域。針對每一種應用領域,規範出了一種數據廣播的封裝格式。
數據管道(Data Piping)規範支持數字電視系統中簡單異步端到端的數據廣播業務,數據直接在TS包的載荷中傳輸。數據流(Data Streaming)規範支持數字電視系統中面向流的端到端的數據廣播業務,可以通過異步或同步的方式進行傳輸。異步數據流定義為流中只有數據,沒有任何定時的需要。同步數據流定義為流中有數據和定時需要,並在接收機處可將數據和時鐘重新生成為與發送端同步的數據流。多協議封裝(Multiprotocol Encapsulation)規範支持數字電視系統中需要用通信協議中的數據報來傳輸的數據廣播業務;數據輪播(Data Carousels)規範支持數字電視系統中週期性數據模塊傳輸的數據廣播業務;對象輪播(Object Carousel)規範用來支持數字電視系統中需要對DSM-CCU-U對象進行週期性廣播的數據廣播業務。

信息發佈信息定製

隨着社會信息化程度的不斷加深,用户類型的增多和信息服務獲取的便利在很大程度上激發了用户信息需求的潛力以及對多樣化信息服務的要求。不同用户雖然對同一事物感興趣,但可能各自感興趣的角度不同,從而造成一定的需求差異。傳統的廣播機制針對的是普遍用户羣體,不同用户接收到的是供應模式完全相同的信息,很難滿足偏好差異用户的知識需求。這些需求催生了信息定製服務的出現。信息定製服務不僅包括定製化的信息供給,還在信息參考、信息諮詢和信息顯示上都給以個性化的支持。
隨着計算機及其網絡技術的發展,用户個性化定製需求將越來越廣泛地得到應用,迫切地需要高效、輕量的個性化信息定製搜索。個性化信息定製搜索研究方向和問題主要集中於以下幾個方面:
1)多搜索源拉取數據。基於模板的定製信息搜索,只能從單搜索源拉取數據。在研究現有的推拉技術方式,並考慮如何結合現有網絡進行多搜索源進行搜索時,主要應考慮線程的異步和同步執行。
2)智能化個性定製。在實現多搜索源搜索的基礎上,將搜索結果進行智能化比較將是用户個性化定製的迫切需求。越來越多的用户個性化定製需求中,考慮如何實現智能化個性化定製,是將來要進行考慮的重點問題。
3)數據統計。不同用户關注的搜索結果顯示形式不一樣,有的比較側重數據的詳細信息,有的側重整體數據的關聯性。增加數據統計功能展示給用户,也是下一步要進行考慮的問題。
信息定製服務需要佔據大量的信息服務資源,包括信息採集、知識組織、需求整合和內容呈現等人力物力。先進的信息技術可以對信息資源的獲取、過濾、存儲、處理和更新等操作方面提供高效服務。另外,信息服務效率的提高往往使得信息用户對信息的反應速度加大,提升了信息的價值,帶來迅速、準確的決策和知識擴充。

信息發佈信息抽取

信息定製是用户對信息發佈提出的要求,而信息抽取則是信息處理系統針對用户要求對底層數據進行的數據處理過程。
特別是隨着Internet的迅猛發展,Web已經成為一個巨大的信息源。隨着Web信息數量的快速增長,如何從Web中抽取出所需要的信息,就成為了互聯網信息搜索研究領域中一個重要的研究課題。Web信息抽取是指從Web頁面所包含的無結構、半結構或者結構化的信息中識別用户感興趣的數據,並將其轉化為結構和語義更為清晰的格式的Web頁面信息抽取的過程。
1.信息抽取的概念
信息抽取(Information Extraction,IE)是從給定自由文本或半結構化文本中抽取預先指定的實體、關係和事件等事實信息,形成具有清晰語義信息的結構化文本的技術。
信息抽取起源於文本理解。從自然文本中獲取結構化信息的研究最早開始於20世紀60年代中期,被看作是信息抽取技術的初始研究。信息抽取的目的就是要讓有用的信息以統一的形式集成在一起。Web信息抽取系統對網頁中的各種結構數據進行抽取、篩選,並作語義化的處理,將生成的語義數據存入知識庫。近幾年,信息抽取技術的研究與應用更為活躍。在研究方面,主要側重於以下幾方面:利用機器學習技術增強系統的可移植能力,探索深層理解技術,篇章分析技術,多語言文本處理能力,Web信息抽取以及對時間信息的處理等。
2.信息抽取技術
(1)基於統計的技術
基於統計的方法是通過統計各個標籤所包含的信息量或鏈接文本與普通文本的比值來獲取網頁的主題信息。這種方法克服了數據源的限制,並不只針對某一類網頁,具有一定的普遍性。
(2)基於視覺特徵的技術
在視覺上相關的兩個對象在結構上有可能差距很遠。因此,僅僅從代碼的角度去分析其主題信息是不科學的,因而出現了結合頁面的視覺特徵來抽取信息的方法。
(3)基於DOM樹結構的技術
在Web信息抽取中可以在網頁默認的樹結構的基礎上通過一些常見的針對樹的操作,從而總結歸納出待抽取部分的特徵。基於DOM樹結構的技術克服了對網頁數據源的限制,可以用來處理各種類型的單正文體和多正文體頁面,其操作過程相對於基於視覺的方法更加易於實現。在基於DOM樹結構的抽取技術領域有許多成型的系統和經典算法,如DSE、MDR和Road Runner等算法。
(4)基於模板的技術
互聯網上存在着大量通過讀取數據庫數據然後填充到統一模板的方式自動生成的網頁,針對這類具有模板的網頁產生了一種基於模板的抽取技術。該技術通過對產生於同一模板的網頁的對比分析總結出一個通用的抽取模板,從而免去了對眾多網頁進行重複處理的繁瑣過程。
3.信息抽取技術比較
(1)自動化程度
基於統計的技術和基於視覺特徵的技術在多數情況下都涉及對待抽取內容本身進行區域劃分等處理,需要進行人工干預,因此,操作人員的主觀行為可能會造成區域劃分不合理,從而直接影響信息抽取的效果。基於模板的技術需要依賴於表示待抽取位置的節點串,通常需要針對某一類待抽取對象進行分析和標記,總結出一個統一的模板節點串。儘管利用模板來抽取信息較為便捷,但生成模板的過程卻需要大量的人工操作。基於DOM樹結構的技術針對Web網頁本身的結構優勢,通過對網頁樹進行對比操作,就可以確定頁面內主題信息的位置進而實現信息的抽取,極少受到操作者主觀因素的影響。
(2)適用範圍
基於統計的技術適用於以文字為主題並且文字部分相對於其他部分來講具有明顯數量優勢的一類對象,針對不同的對象應用不同的閾值。基於視覺特徵的技術過多地依賴對象的組織結構,因此比較適用於結構清晰、符合一般設計規則並且沒有過多標籤錯誤的頁面。基於DOM樹的技術對對象類型沒有限制,對於出自同一個網站並且具有相似結構的頁面都能進行處理。基於模板的技術適用於相似度較大的頁面,如通過動態查詢數據庫生成的頁面,並且只能針對單正文體網頁。
(3)複雜性
基於統計的技術在理論上易於實現,但其難點在於確定一個合理的閾值。閾值的確定方法會對主題對象的確定產生直接的影響,並且對於不同種類的對象必須分別討論閾值。基於視覺特徵的技術對對象的分塊更加註重可視化信息的組織形式。基於DOM樹結構的技術不需要再對抽取對象進行分塊處理,可以直接通過對比得出主題信息區域,但卻需要對每個對象都進行同樣的處理,沒有充分利用已有的結果總結出針對同類相似對象進行處理的統一方法。基於模板的技術免去了對同類對象的重複操作,針對相似對象總結出統一的抽取模板,但在模板的生成方法和模板通用性方面還有待於改善。

信息發佈信息推送

互聯網己經成為了一個全球性的超級數據庫,豐富的資源信息拓寬了人們的視野,但隨之也帶來了一個問題:網上信息具有分佈散、動態變化和結構複雜等特點使得人們面臨着信息過載和信息迷向問題。如何從海量的信息中高效全面地獲取所需信息,如何提高網絡的主動信息服務能力和滿足用户的個性化需求等問題已經悄然的擺在了人們的面前。
1.信息推送的概念
人們所採用的信息檢索方式還是一種被動的拉取(Pull)方式,主要是通過搜索引擎來進行信息的查找和定位。它通過自動瀏覽程序對Web站點進行自動搜索,對文檔信息進行分類索引,並建立索引數據庫,然後用户通過瀏覽器發送服務請求,服務器就在所屬的數據庫中檢索,將匹配站點的URL返回給用户,用户再進行鏈接,並在其中篩選出滿意的信息。拉取方式自身存在兩個方面的不足:一是獲取信息不僅時間長,而且費用高;二是信息效率低,資源浪費嚴重;三是服務器被動服務,用户獲取信息及時性差。因此,基於拉取方式的信息獲取技術無論在信息的搜索速度、傳輸速度,還是搜索信息的質量上都越來越難以令人滿意。另外,這種方式客户機和服務器必須保持實時的連接才能獲取信息。但由於網絡信息更新快,這就要求用户必須經常上網查看信息,否則很難及時獲得自己所需的最新信息。
信息推送(Push)是指網絡公司通過一定的技術標準或協議,從網上的信息源或信息製作商那裏獲取信息,通過固定的頻道向用户發送信息的新型的信息發佈系統。信息推送技術能夠主動地根據用户的需求,將最新的信息分門別類地傳送到相應的用户設備中。當有與用户相關的信息更新時,推送軟件會及時、主動地通知用户,體現了其主動性。推送軟件並不是把網上的信息隨便推送給用户,而是根據用户的特定信息需求為其量身定製的,充分體現了個性化;由於信息推送技術採用了信息代理機制,可以降低重複的、無關的信息在網上傳遞,避免了垃圾信息對網絡資源的大量佔用,體現了其高效性。
Pull與Push技術對用户來説都是信息獲取技術,但二者存在着根本的不同。以pull技術為核心的信息拉取技術,在信息獲取時,用户必須實時處於主動地位,也就是説,用户必須參與信息獲取的整個過程。而以Push技術為核心的信息推送技術,在信息推送過程中,服務器始終處於主動地位,用户卻處於被動地位。與Pull技術相比,Push技術不僅獲取信息的效率高,費用低,而且及時性強,因而它一出現便受到人們的青睞。Push技術能夠通過一定的技術標準或協議,把用户感興趣的信息,按照用户的要求及時、主動地推送給用户。用户收到信息後,還可以離線瀏覽。Pull與Push的根本區別是:相對一次會話,Pull由客户發起,主動方是客户;Push由服務器發起,主動方是服務器。
2.信息推送的特點
信息推送技術的特點可概括為:
1)避免用户在網上無目的上網查找;
2)提高被推送信息的準確性,控制搜索深度,過濾不必要的信息;
3)被推送的信息內容,可以有教學資料、新聞、電影、音樂、房產信息、股市行情、共享軟件和天氣預報等;
4)被推送的文件類型多樣,可以有文字、圖形、圖像、聲音和小程序等;
5)服務器能對各個用户的興趣和偏好進行智能性識別、預測,根據用户要求自動蒐集定製信息並定期快速、連續不斷地向目標用户主動推送,滿足了用户的個性化需求。
3.信息推送的方法
信息推送技術的工作原理可以簡單地分為3步:首先用户完成註冊,描述自己的信息需求,如用户的興趣愛好、所需信息和推送時間等,以便向用户提供主動、準確的信息服務;然後從網上收集用户所需信息,並分類整理;最後推送到用户計算機上。信息推送技術主要有以下3種實現方式。
(l)消息方式
根據用户提交的信息需求,利用電子郵件或其他消息系統將有關信息發送給用户。該方式並不具備很強的交互性和強制性,對資源和信息流量的要求不高,可以看出這是最弱意義上的推送,但容易實現。
(2)代理方式
通過使用代理服務器定期或根據用户指定的時間間隔在網上搜索用户感興趣的信息內容,然後將結果推送給用户。對信息的請求和推送都是通過代理來實現的,對用户來説是透明的。
(3)頻道方式
提供完整的Push服務器、客户端部件及相關開發工具等一整套集成應用環境,它將某些站點定義為瀏覽器中的頻道,Push服務器負責收集信息形成頻道內容後推送給用户,而客户端部件接收到來的數據和提交指令,根據用户所需相關的信息對數據進行處理。
信息推送技術的出現給人們帶來了一種全新的信息獲取方式,適用於廣大公眾,並不需要用户掌握專門的技術,而且能不斷地向用户推送信息源的動態變化。當信息推送技術面對Internet上信息量大、結構複雜、難以人工處理等問題時,需要將Push技術與Pull技術相結合,不僅把信息推送給用户,而且還要按照用户預先設定的觸發事件和發送要求,在條件滿足時自動向用户發送信息。在此基礎上,融入人工智能、知識發現技術、Internet及數據庫技術,從而形成“智能信息推拉”(IIPP)技術,將是一個很好的研究方向。
參考資料