複製鏈接
請複製以下鏈接發送給好友

火車頭採集器

鎖定
火車採集器(LocoySpider) 是一個供各大主流文章系統,論壇系統等使用的多線程內容採集發佈程序。使用火車採集器,你可以瞬間建立一個擁有龐大內容的網站。系統支持遠程圖片下載,圖片批量水印,Flash下載,下載文件地址探測,自制作發表的cms模塊參數,自定義發表的內容等有關採集器。對於數據的採集其可以分為兩部分,一是採集數據,二是發佈數據。
中文名
火車頭採集器
外文名
LocoySpider
含    義
多線程內容採集發佈程序
特    點
可瞬間建立擁有龐大內容的網站

火車頭採集器功能

火車採集器(LocoySpider)是一款功能強大且易於上手的專業採集軟件,強大的內容採集和數據導入功能能將您採集的任何網頁數據發佈到遠程服務器,自定義用户cms系統模塊,不管你的網站是什麼系統,都有可能使用上火車採集器,系統自帶的模塊文件支持:風訊文章,動易文章,動網論壇PHPWIND論壇,Discuz論壇,phpcms文章,phparticle文章,LeadBBS論壇,魔力論壇,Dedecms文章,Xydw文章,驚雲文章等的模塊文件。更多cms模塊請自己參照製作修改,也可到官方網站與大家交流製作。 同時您也可以使用系統的數據導出功能,利用系統內置標籤,將採集到的數據對應表的字段導出到本地任何一款Access,MySql,MS SqlServer內。
LocoySpider採用Visual C#編寫,可獨立在Windows2008下運行(windows2003 自帶.net1.1框架。最新版的火車採集器是2008版,需要升級到.net2.0框架才能使用),如您在Windows2000、Xp等環境下使用,請先到微軟官方下載一個.net framework2.0或更高環境組件。火車採集器V2009 SP2 04月29日

火車頭採集器數據抓取原理

火車頭網站採集 火車頭網站採集
火車採集器如何去抓取數據,取決於您的規則。您要獲取一個欄目的網頁裏的所有內容,需要先將這個網頁的網址採下來,這就是採網址。程序按您的規則抓取列表頁面,從中分析出網址,然後再去抓取獲得網址的網頁裏的內容。再根據您的採集規則,對下載到的網頁分析,將標題內容等信息分離開來並保存下來。如果您選擇了下載圖片等網絡資源,程序會對採集到的數據進行分析,找出圖片,資源等的下載地址並下載到本地。

火車頭採集器數據發佈原理

在我們將數據採集下來後數據默認是保存在本地的,我們可以使用以下幾種方式對數據進行處理。
1、不做任何處理。因為數據本身是保存在數據庫的(access、db3、mysql、sqlserver),您如果只是查看數據,直接用相關軟件打開查看即可。
2、Web發佈到網站。程序會模仿瀏覽器向您的網站發送數據,可以實現您手工發佈的效果。
3、直接入數據庫。您只需寫幾個SQL語句,程序會將數據按您的SQL語句導入到數據庫中。
4、保存為本地文件。程序會讀取數據庫裏的數據,按一定格式保存為本地sql或是文本文件

火車頭採集器工作流程

火車採集器採集數據是分成兩個步驟的,一是採集數據,二是發佈數據。這兩個過程是可以分開的。
1、採集數據,這個包括採集網址,採集內容。這個過程是獲得數據的過程。我們做規則,在採的過程中也算是對內容做了處理。
2、發佈內容就是將數據發佈到自己的論壇,CMS的過程,也是實現數據為已有的過程。可以用WEB在線發佈,數據庫入庫或存為本地文件。
具體的使用其實是很靈活的,可以根據實際來決定。比如我可以採集時先採集不發佈,有時間了再發布,或是同時採集發佈,或是先做發佈配置,也可以在採集完了再添加發布配置。總之,具體過程由您而定,火車採集器的強大功能之一也就是體現在靈活中。

火車頭採集器新增功能

無限級多頁採集
任務隊列運行管理功能
無限級分組任務管理,任務回收站功能
RSS地址採集功能
列表頁分頁採集獲取功能
列表頁附加參數獲取功能
列表頁及標籤XPath可視化提取功能
標籤純正則替換功能
Http接口查看運行情況
導出記錄為單個或多個Txt、html 文件
標籤間自由組合功能
針對標籤內容繼續發送Http請求功能
無限級列表網址採集
從Http頭信息中獲取數據
標題內容正文提取功能
Aspx列表分頁自識別
多網站站羣式web發佈
導出記錄為Word格式
導出所有記錄為Excel格式
使用隨機二級代理服務器(支持Socket代理)
多擴展間數據交換功能
下載的圖片自動加增強型水印功能
Ocr識別(圖片轉化為文字)
Http接口管理採集器運行
Mongodb數據庫保存數據
主從服務器分佈式採集

火車頭採集器採集器

2012-05-16更新
1.屏蔽掉httpwebpost中瀏覽器的腳本錯誤提示
2.修復使用偏好中的採集器沒有開機啓動和關閉窗口選項沒有啓用的bug
3.對mysql和sqlserver做本地服務器建了索引,解決了大數據量時查詢出錯的問題
4.細節修改,如在線發佈裏面的COOKIS可以全選,多頁默認傳前頁user-agent給多頁
5.增加了多個任務在只使用一個任務運行窗口,減少資源使用
6.更改任務運行完關機方式為只生效一次
7.修復一個當多頁獲取為空時網址成默認頁的bug
8.插件中沒有處理 UseGetStepUrls 的bug
9.httpserver 增加了列表分組,自動啓動,和新建任務返回分組和任務id
10.對用户對標籤組合再次標籤組合進行了允許處理。
11.修復對列表獲取的內容,部分情況下會補全的bug
12.修復多頁管理時特殊情況下新建標籤沒有保存的bug
13.修復部分情況下標籤提取大小寫無效的bug
14.修復如果一個標籤出現多次時間轉換轉換部分無效的bug.
15.修復了ubb轉換中部分轉換錯誤的bug.
16.增加了將下載地址保存為html文件的功能。
17.增加了web發佈時網頁超時設置
18.修復本地數據庫使用Access時任務數據批量工具清理已發數據無效的bug.
19.修復任務完成後關機設置取消後還會再提示關機的bug
20.修改部分電腦上Mongodb服務不能識別的bug

火車頭採集器術語介紹

火車頭採集器採集規則

採集規則分為站點規則和任務規則,通常是指任務規則。所謂採集規則就是要採集一個網站時在軟件裏進行的設置。這個設置可以從軟件裏導出保存成一個文件並可以再導入到軟件裏。站點規則文件的後綴名為:.lsite;任務規則文件的後綴名為:.ljob。

火車頭採集器採集任務

採集任務又簡稱為任務。它是採集規則和發佈規則的總和。也是採集規則和發佈規則的載體。採集規則和發佈規則的設置通過在任務編輯框裏進行設置。從採集器裏導出的採集規則文件(.ljob後綴的)也可稱為任務規則。導入導出任務規則就是指導入導出.ljob文件。

火車頭採集器發佈模塊

發佈模塊又稱為發佈規則,通常是指數據庫發佈模塊或者WEB發佈模塊。所謂發佈模塊就是在需要將已經採集的數據發佈到目的地(比如:指定數據庫,網站中)時在軟件裏進行的設置。這個設置可以保存成一個文件並可以導入到採集器裏使用。數據庫發佈模塊文件的後綴名為:.jhc;WEB在線發佈模塊文件的後綴名為:.cwr。
(採集規則和發佈模塊都可以從採集器裏導出,也都可以導入到採集器中使用。採集規則負責將網頁上的數據採集下來,發佈模塊負責將採集的數據發佈到網站中。可見,採集規則的編寫和修改和被採集的網站有關係,而發佈模塊的編寫和修改和要發佈數據的網站有關係。如從不同的網站欄目採集數據往同一個網站的某個板塊(頻道)裏發佈,需要多個採集規則和一個發佈模塊。從一個網站欄目採集數據往不同的網站系統裏發佈,需要一個採集規則和多個發佈模塊。注意這裏的説的採集規則是指採集網站和抓取內容的設置。)

火車頭採集器發佈接口

發佈接口就是一個小的頁面程序通常和WEB發佈模塊配合使用。WEB在線發佈(使用WEB發佈模塊)是將採集的數據以POST方式發送到網站頁面程序中由網站程序處理數據。而發佈接口就是為了滿足特定需求而寫的一個網站的頁面程序(如:PHP頁面,ASP頁面等)。然後採集器通過WEB在線發佈將數據發送到這個接口文件由這個接口文件處理數據。接口文件通常放在服務器網站某個目錄下。簡單的説就是採集器將採集的數據發送到接口文件中,接口文件得到數據後去處理數據。使用發佈接口用户可以更加靈活自由的處理採集器發送的數據。

火車頭採集器插件

火車採集器裏的插件分為PHP插件和.NET插件兩種。標準版支持PHP插件,企業版支持PHP插件和.NET插件。插件可以讓用户通過自己寫PHP程序或者.NET程序放到採集器中對採集的數據進行處理。採集數據數據在四個地方可以使用插件,分別為:採網址時、採內容時、採多頁時,保存時。

火車頭採集器發佈數據

發佈數據就是將採集到的數據發佈到指定的目的地,火車採集器支持四種發佈方式。
方式一:Web在線發佈到網站
這種發佈方式類似於在網站後台手工添加數據一樣。採集器將數據發送給網站後台程序,由網站後台程序去處理數據通常後台程序講數據存入網站數據庫中。
方式二:保存為本地文件
這種方式可以將採集的數據發佈到本地的文件中,採集器支持保存成Txt格式、Csv格式和Html格式。
方式三:導入到自定義數據庫
這種方式可以通過採集器連接到其他數據庫從而將採集的數據從軟件內置數據庫中導入到其他的數據庫中,採集器支持連接Mysql、Access、OracleMSsql數據庫。
方式四:保存為本地Sql文件(Insert語句)
這種方式是將採集的數據導出保存成Insert語句,可以用於在數據庫的管理工具中執行插入數據。

火車頭採集器本地編輯數據

採集器不僅可以採集發佈數據,還可以將採集下來的數據經過編輯以後再發布。支持批量替換,通過SQL語句批量處理以及在文本編輯框裏編輯。