複製鏈接
請複製以下鏈接發送給好友

精度引擎

鎖定
精度引擎是第三代搜索引擎,第三代搜索引擎帶給用户的體驗應該是:精準化、開放化、智能化、個性化、社區化。
中文名
精度引擎
行    業
互聯網

精度引擎簡介

無論是第一代搜索引擎還是第二代、第三代搜索引擎隨着高速的互聯網發展,海量的信息堆疊,信息的搜索精度成為所有用户關注的第一要點,現在想通過搜索引擎找到我想要的東西變得越來越困難了,我想着大概不會是我搜索技巧不高的原因,而是各種信息的過度氾濫,使得我不得不花費更多的時間來甄別哪些信息對於我來説是有價值的。雖然我經常説,有價值的信息都在專業的論壇裏面,但是限於每個人潛水的深度,不可能深入到太多的領域之中,所以互聯網成為了我們尋找答案的最快捷的途徑。但是很不幸的,這個平台被太多的垃圾廣告商看中了,然後又有一堆人來研究SEO(針對搜索引擎的優化),使得我們對於信息的甄別成本不斷的加大。於是,我發現,我需要一個高精度的搜索。無論怎麼説,面對現在這樣的海量的資源,我還是的的確確需要一個相當有效的搜索利器,而不是每次都遵循——百度/Google,萬方等論文期刊數據庫,圖書館的順序這樣費力的查找。可是很不幸的發現,現在的搜索引擎在這個方面只是越做越糟糕,真是一件令人傷心的事情啊。而在一朋友多次的感慨與創新性的發現之後,我覺得我們所要做的不單單是迴歸傳統的分類搜索和排行榜似的推薦搜索,而是解決更大層次上的一個人機交互的問題。當然最最完美的狀況就跟人和人對話那樣,比如我對搜索引擎説“我想要訂蛋糕”,然後一家離我最近的蛋糕店的網址就冒出來的,而且直接是蛋糕選擇頁而不是它的廣告頁甚至是蛋糕原料廠商的網站,那該有多麼的美好啊!智能AI是個由來已久的問題,但是至今機器和程序的AI還是那麼的有限,以至於像百度這麼大一企業搜索結果下面的相近搜索詞居然還要人工來做。可見這是一種多麼的可悲的事情啊!由此推論,就算是想做高精度的搜索,所需要的可能就不單單是對於算法上有所突破的要求了,更多的則是對於統計學和人工AI的跨越式發展。可是看來這並不是一件短時間就可以完美解決的事情。所以,高精度搜索更多的只是一種美好的設想,但在現在看來是一個實現成本極高的事情。雖然百度在做相關的信息篩選工作,可現在看來效果並不那麼盡如人意。有道貌似有什麼高招,至於效果還有待實踐檢驗。但是現在實現成本高的事情不代表在未來沒有實現的可能。甚至於我們可以略為樂觀一點,在最近的幾年之內隨着市場白熱化競爭的加劇和相關需求的暴漲,各大公司還會迴歸到這麼一個搜索引擎本質的質量領域。

精度引擎定義

參考遵從精度搜索(w w w.j i n g d u.c n)的定義:第三代搜索引擎帶給用户的體驗應該是:精準化、開放化、智能化、個性化、社區化。
精準化:精準是搜索的靈魂,精度搜索(w w w.j i n g d u.c n)以上萬編輯人員全稱參與編輯需求信息數據,歷時四年,編輯的數據以覆蓋生活、商務需求的各個角落
,擁有多項著作權和專利權的精度搜索(w w w.j i n g d u.c n)摒棄搜索推廣和垃圾信息,遠離SEO(搜索引擎優化)獨立實現了數億級信息彙編的整理工作並開放提供檢
索服務,輔之以電子商務化信息查詢,滿足所有互聯網用户的信息檢索需求和商務生活、學習需求。
開放化:精度搜索(w w w.j i n g d u.c n)從用户角度出發,編輯收錄上億條實用準確信息,並開放數據接口,提供所有搜索用户參與編輯檢索結果有精度審核人員審
核編輯,全民參與提供自身需求的數據,全民互動編輯審核提出垃圾檢索信息,以開放的姿態迎接信息搜索精度的提升。
智能化:目前的搜索引擎能夠給人們提供海量的信息搜索結果,一次搜索往往會有成百上千頁的結果,實踐表明,很少有人會看 10 頁以後的
搜索結果。未來的搜索引擎必須要引入人工智能技術,嘗試去理解用户的查詢意圖,並優先顯示用户需要的結果。精度搜索(w w w.j i n g d u.c n)以人工智能精選用
户需求的信息有限展示,並切身智能分析用户需求,是無關信息的出險率近乎為零。
個性化:每個人的搜索習慣和需求都不一樣,但目前的搜索引擎卻無法考慮到這點。對於同一個關鍵詞,一個搜索引擎給予所有用户的搜索結
果都是一模一樣的。未來的搜索引擎必須要考慮到用户的個性化需求,不僅要給出符合不同用户需求的不同結果,連搜索結果的界面都應該有
所區別。精度搜索(w w w.j i n g d u.c n)以用户需求信息的不同甄別信息分類,以多個獨立導航欄目形式無縫關聯其他應用信息的檢索結果,並輔助以多種檢索條件
保證檢索精度和個性化。完全是針對用户的檢索結果。
社區化:未來的搜索引擎本身就是一個社交網絡,通過用户的互動交流,我們可以更快、更方便地獲取信息。另外,每個人的搜索結果都可以存儲並可以和其他人分享。精度搜索(w w w.j i n g d u.c n)針對用户需求,建立龐大的用户俱樂部平台,以精度搜索(w w w.j i n g d u.c n)建立其統一關鍵詞的用户社區並利用電子商務應
用的便捷發展商務應用,使搜索成為社區化鏈接電子商務的橋樑。精度搜索(www.j i n g d u.c n)的未來

精度引擎發展

精度搜索的發展經歷了三代搜索的更替交疊:
第一代搜索引擎
無論是純技術型的搜索引擎還是分類目錄,都可以認為是互聯網上的第一代搜索引擎,出現於1994年前後,以Altavista、YAHOO和Infoseek為代表,搜索結果的好壞往往用反饋結果的數量來衡量,也就是説,第一代搜索引擎“求全”。然而,研究表明,現在的搜索引擎性能並不是想象中的那麼優秀,在全球11個主要的搜索引擎中,搜索引擎僅能搜索到國際互聯網上全部頁面的16%,甚至更低,造成這種情況的原因,主要是因為這些搜索引擎沒有及時更新他們的資料。
1998年,以Google和DirectHit為代表的第二代搜索引擎出現在互聯網上,這些引擎的主要特點是提高了查準率,可以用“求精”來描述。正在發展中的第三代和第四代搜索引擎則分別為“求專”和“求易”。下面簡單介紹一下為雅虎網站提供網頁搜索的Google搜索引擎的工作原理。Google搜索引擎採用新的搜索方式,通過一種複雜的數學分析,通過估算反饋網頁質量及相關程度來決定排名次序。要知道一個網頁的質量,Google可以通過有多少網頁與它鏈接來判斷,這是因為人們一般不會與低質量的網頁做鏈接。傳統的搜索引擎如Hotbot和Lycos等當前使用的是元素搜索技術,即使用網頁中的關鍵詞進行搜索,而Google則使用一種包含對整個網絡的鏈接結構進行分析和大規模資料挖掘的技術。
Google不僅掃描搜索關鍵詞,還閲讀頁面全文,考慮到圖像和所有鏈接,然後把該頁面與類似頁面區分開來。要想在Google獲得好的排名,對網站推廣推廣提出了更高的要求,僅僅依靠對網頁的優化也是不夠的,而是依據網站的綜合推廣水平來決定在搜索結果中的排名次序。所以,被其它網站鏈接的數量也是考核網絡營銷效果的一項參考指標。
搜索引擎的技術仍在快速發展中,現在,很多用户甚至還不明白第三代搜索引擎意味着什麼,第四代搜索引擎的概念也開始廣為流傳,一般的用户要分清這些搜索引擎技術的差別,看來並不是一件容易的事情,不過好在用户關心的只是搜索引擎能帶來的基本價值——以更方便、更快捷的方式獲取符合自己期望的有價值的信息,搜索引擎的發展方向也不會超出用户需求的基本方向。
第三代搜索引擎
2004年8月3日,國內知名門户網站搜狐正式推出全新獨立域名專業搜索網站“搜狗”,並聲稱該搜索引擎是全球首家第三代中文互動式搜索引擎服務提供商。根據搜狐網站上的説明,“第一代搜索是主要依靠人工分揀的分類目錄搜索,以搜狐和雅虎為標誌;第二代搜索是依靠機器抓取,建立在超鏈分析基礎上的網頁搜索”,那麼什麼是第三代搜索引擎呢?搜狐網站上的專題文章“第三代搜索引擎揭密”中是這麼介紹第三代搜索引擎的:
“互聯網提供了即時豐富的信息(以及人與人溝通參與/娛樂的平台),深層影響着現代人的生活。但隨着網站數量和內容的急增,互聯網就像是沒有目錄的巨大百科全書,讓人們無法找尋自己想要的信息。搜索引擎的出現,為這本百科全書加上了目錄和索引。不論我們想從互聯網中尋找清華北大的網址、李小龍的圖片,或者養貓的方法,只需要在搜索框中敲入關鍵詞彙,就能夠獲得相關的信息或網址。
搜索引擎是對計算機科學與技術的極大發揮,將理論研究和工程開發完美結合,創造了非凡的用户體驗和文化。以Google為代表的傳統搜索引擎,在用户輸入一個查詢詞時,返回和此查詢詞相關的網頁摘要,並儘可能將用户需要的結果排在了前面。但搜索引擎畢竟不會“猜心術”,對於一個詞,通常用户會有不同的需求,比如對於“綠茶”,人們要的可能分別是茶文化、健康知識、電影介紹、化妝品或者其他。(大多數)用户並不能夠通過一兩個詞,精確表達自己所想要的內容,搜索引擎也無能為力只有返回大量的結果供用户選擇。
搜狐首推的第三代搜索——互動式搜索,在用户輸入一個查詢詞時,嘗試理解用户可能的查詢意圖,給與多個主題的搜索提示,引導用户更快速準確定位自己所關注的內容。(另一個好處:在用户搜索衝浪時,給與用户未曾意識到的主題提示)”
該文中同時介紹了第三代搜索引擎的產品特點:
互動式搜索:互動式搜索是在用户查詢和搜索引擎返回結果的人機交互過程中,引擎根據用户的查詢內容,智能展開多組相關的主題,幫助用户快速找到相關搜索結果
分類導航:針對部分查詢結果項,擴展到類似或相關網站
查詢精確相關:先進的分詞引擎,並利用搜狐4000萬用户名優化分詞引擎的人名識別。在查詢結果中,剔出了頁面中僅在鏈接文字上包含
查詢詞的網頁數據量,收錄2億中文網頁,超過Google收錄量。
更新速度:每天更新最重要的網站和新聞
不過,關於“搜狗”是全球第一個“第三代中文互動式搜索引擎”的觀點,一些研究文章並不如此認為,早在2003年11月份就有新聞報道稱慧聰宣佈發佈第三代搜索引擎:
“最近,國內企業慧聰宣佈發佈第三代搜索引擎。據慧聰CTO陳沛介紹,相對於前兩代,第三代中文搜索引擎更注重智能化和用户使用的個性化,其採用了中文自動分類、自動聚類等人工智能技術,而且使用了中文內容分析技術,以及區域智能識別技術,增強了搜索引擎的查詢能力。”
因此,對於搜狗和慧聰(後來將搜索引擎獨立出來改稱“中搜”)誰是第一個第三代搜索引擎的問題,至今並沒有定論。而據一些研究資料中的信息,如果從技術上來劃分,從1998年開始就進入了第三代搜索引擎。下面有關搜索引擎發展歷程的歸納資料選自2001年6月完成的學士
畢業論文《第四代搜索引擎——主題搜索引擎的設計與實現》(北京大學計算機科學技術系計算機軟件專業作者:羅昶),其中也介紹了第三代搜索引擎的特點。
搜索引擎技術伴隨着WWW的發展是引人注目的。搜索引擎大約經歷了三代的更新發展:第一代搜索引擎出現於1994年。這類搜索引擎一般都索引少於1,000,000個網頁,極少重新蒐集網頁並去刷新索引。而且其檢索速度非常慢,一般都要等待10秒甚至更長的時間。在實現技術上也基本沿用較為成熟的IR(Information Retrieval)、網絡、數據庫等技術,相當於利用一些已有技術實現的一個WWW上的應用。在1994年3月到
4月,網絡爬蟲World Web Worm (WWWW)平均每天承受大約1500次查詢。
大約在1996年出現的第二代搜索引擎系統大多采用分佈式方案(多個微型計算機協同工作)來提高數據規模、響應速度和用户數量,它們一般都保持一個大約50,000,000網頁的索引數據庫,每天能夠響應10,000,000次用户檢索請求。1997年11月,當時最先進的幾個搜索引擎號稱能建立從2,000,000到100,000,000的網頁索引。Altavista搜索引擎聲稱他們每天大概要承受20,000,000次查詢。
自1998年到現在,出現了一個搜索引擎空前繁榮的時期,我們統稱這一時期的搜索引擎為第三代搜索引擎。第三代搜索引擎的發展有如下幾個特點:
1.索引數據庫的規模繼續增大,一般的商業搜索引擎都保持在幾千萬甚至上億個網頁。
2.除了一般意義上的搜索以外,開始出現主題搜索和地域搜索。很多小型的垂直門户站點開始使用該技術。
3.由於搜索返回數據量過大,檢索結果相關度評價成為研究的焦點。相關的研究又可以分為兩類:一類是對超文本鏈的分析,在這方面Stanford大學的Google系統和IBM的Clever系統作出了很大的貢獻;另一類是用户信息的反饋,DirectHit系統採用的就是這種方法。
4.開始使用自動分類技術。Northern Light和Inktomi的Directory Engine都在一定程度上使用了該技術。
2000年搜索引擎2000年大會上,按照Google公司總裁Larry Page的演講,Google正在用3,000台運行Linux系統的個人電腦在蒐集Web上的網頁,而且以每天30台的速度向這個微機集羣裏添加電腦,以保持與網絡的發展相同步。每台微機運行多個爬蟲程序蒐集網頁的峯值速度是每秒100個網頁,平均速度是每秒48.5個網頁,一天可以蒐集超過4,000,000網頁。
儘管對於第三代搜索引擎年代的劃分和主要特性至今沒有統一的認識,不過至少可以肯定的是:第三代搜索引擎是對第二代搜索引擎在搜索技術上的改進,主要增加了互動性和個性化等高級的技術,為用户使用搜索引擎獲取信息獲得更好的體驗。至於互動性的評價標準是什麼,以及第三代搜索引擎到底比第二代搜索引擎增加了多少價值——尤其是為企業利用搜索引擎開展網絡營銷增加了哪些價值,目前並沒有非常令人信服的研究結論。這也就是目前所謂的第三代搜索引擎並沒有表現出太多優勢的原因之一。

精度引擎當前搜索引擎缺點

1:搜索引擎在處理垃圾信息方面還是力不從心
大量的重複的以及偽原創的信息鋪天蓋地,這些都直接導致了用户的搜索結果受到了嚴重的污染
2:搜索精度過低
在一些通用的關鍵字搜索方面搜索引擎已經做得很好了,比如你搜索《刺陵》返回的肯定全部都是建國大業的信息。但是當你搜索一些要求比較高的關鍵字的時候卻找不到你想要的信息了。
3:搜索引擎無法判斷搜索結果中的目標網站的質量
例如你在找一篇論文,但是搜索引擎只會按照PR,按照排名算法去根據文章的結構判斷哪些網頁的質量比較高哪些比較低。而不會分析論文究竟是亂説一通還是非常詳細精確的描述了問題。
4:百度知道等問答模塊得到的答案一般都是從其他網站copy過來的,或者直接搜索得到的並不能完全滿足提問者的需求。尤其是一些高要求的專業性較強的問題基本上得不到想要的答案。很多人在上面回答問題的動機就是為了得到積分,而這些積分的實用性也不太大,所以沒有人會花幾十分鐘去回答你這個問題。

精度引擎搜索引擎的種類

1:整合搜索
谷歌在逐步完善它的通用搜索,先後將新聞、圖片、音頻、視頻等信息整合呈現在搜索結果中整合搜索也體現了搜索引擎的智能化發展方向,因為搜索結果整合的前提是基於對關鍵字的職能分析判斷的。所以,如果用户在Google中輸入的關鍵字是“風景”,Google的理解是用户想查找“風景”方面的圖片,而不是關於“風景”的介紹,所以在結果中添加圖片搜索的結果,從而實現搜索的智能化。
如今Google的整合搜索功能已經很完善了,一般情況下,在Google中搜索任何關鍵字,返回的結果都不會僅僅是網頁搜索的結果,可能還有新聞搜索、博客搜索、圖片搜索、視頻搜索、股票財經搜索、學術搜索、文件搜索、天氣搜索以及最近推出的電影搜索等。
總之,Google的整合搜索與雅虎的全能搜索不同,雅虎全能搜是無論用户需不需要,都一股腦兒將資訊、博客、圖片的搜索結果同時放在一個頁面,所以,很凌亂很複雜。而Google是通過關鍵字的分析來判別用户的搜索意圖,從而嵌入相關產品的搜索結果,這點正是我所看重的。
2:高級搜索
高級搜索允許用户從多個角度(包括關鍵詞位置、文件格式、指定網站、時間和語言等等)來設置篩選條件以提高查準率。
3:偏好搜索
比如對搜索語言、界面、結果顯示條數、結果是否在新窗口打開、搜索建議等等方面的設置。使用偏好是提高搜索引擎黏性、留住部分高端用户的舉措之一。
4:相關搜索
有時候是因為選擇的查詢詞不恰當。您可以通過參考別人是怎麼搜的,來獲得一些啓發。而“相關搜索”,提供了這樣的功能。相關搜索是其他和您有相似搜索需求的用户所選擇的查詢詞,根據這些查詢詞被搜索的熱門程度以及與您所選擇的查詢詞之間的相關性,由系統自動判斷後產生的。它排布在搜索結果頁的左側和下方,點擊相關搜索詞可以直接獲得這些詞的搜索結果。
5:問答模塊
很多互聯網公司認識到單純得靠關鍵字來提供用户想要的信息的搜索已經遠遠不能滿足用户日益增長的對高質量信息的需求了,如果你想要找關於《刺陵》的一些信息那麼你只要在google或者百度裏輸入“刺陵”就可以找到你要的信息了,但是如果你想知道建國大業在北京朝陽影院的票價是多少的時候搜索引擎就愛莫能助了,這時候就需要用到人了。於是聰明的百度推出了百度知道,彌補了搜索引擎在用户深度信息需求方面的空缺。

精度引擎發展趨勢

精度搜索(w w w.j i n g d u.c n)的發展趨勢,隨着網頁的海量增加,現有的“關鍵詞”搜索技術的精度每況逾下,用户查詢所需時間越來越長,顯然,技術已經遠遠落後於需求。
用户對信息的檢索,造就了google帝國,但是隨着信息的指數式增長,量變終於造成了質變,關鍵詞搜索模式開始遇到了一個致命的問題——搜索的精度問題無法解決。
Google的用户平均要花費11分鐘才能找到自己需要的信息,與此同時他們還必須過濾掉其中夾雜的大量無關的內容,70%被調查的網民都或多或少的有過搜索疲勞——即認為搜索結果不能滿足他們的需要或者很難適合找到自己需要的結果。
搜索引擎雖然能很輕鬆的幫我們找到海量的信息,但是我們卻很難從中找到自己想要的。我們需要有技巧和能力才能從海量數據中找出自己想要的。這種技巧和能力表現在:是否熟練使用搜索技巧、是否能通過搜索結果中展示的內容判斷目標網站是否有效等等。但是對於普通的搜索用户來説,他們只會在搜索框裏輸入他們想要的東西然後點擊搜索,於是展示在他們面前的就是“海量數據”,如果正確使用搜索命令來過濾和準確表述目標需求正是這些普通用户所欠缺的,而問題是搜索引擎的使用者絕大部分是這樣的“普通用户”。