基本信息 |
節(jié)點(diǎn)名稱 |
此節(jié)點(diǎn)的名稱 |
父節(jié)點(diǎn) |
可選擇上級(jí)節(jié)點(diǎn),主要方便管理,比如你可以把所有新聞的采集都?xì)w到一個(gè)父節(jié)點(diǎn)里。 |
采集頁面地址 |
要采集的頁面列表,如果是多個(gè)列表用回車格開。 |
|
采集頁面為直接內(nèi)容頁:說明填寫的地址為直接內(nèi)容頁面地址。 |
采集頁面地址方式二 |
由系統(tǒng)自己生成列表,但必須是有數(shù)字規(guī)律的。 |
如:“http://www.phome.net/index.php?page=[page]”([page]則為頁碼的范圍) |
內(nèi)容頁地址前綴 |
信息頁鏈接的地址前綴。如地址前面沒域名的話,系統(tǒng)會(huì)加上此前綴。 如:http://www.phome.net+/news/2006/1.html |
圖片/FLASH地址前綴 |
新聞內(nèi)容的圖片/FLASH地址為相對(duì)地址時(shí)使用。(針對(duì)newstext字段,遠(yuǎn)程保存時(shí)有效) |
入庫欄目 |
采集的數(shù)據(jù)要入庫的欄目。如本節(jié)點(diǎn)不是采集節(jié)點(diǎn),請(qǐng)不選。(只列出屬于此系統(tǒng)模型的欄目) |
入庫專題 |
采集的數(shù)據(jù)要入庫的專題。 |
節(jié)點(diǎn)生效時(shí)間 |
“開始時(shí)間”與“結(jié)束時(shí)間”這個(gè)目前可隨意設(shè)置。這主要是以后版本擴(kuò)展之用。 |
備注 |
備注或說明 |
選項(xiàng) |
默認(rèn)相關(guān)關(guān)鍵字 |
截取標(biāo)題前幾個(gè)字符作為相關(guān)鏈接的“關(guān)鍵字”,推薦設(shè)為0,這樣入庫效率更高。 |
采集記錄數(shù) |
可設(shè)置只采集前多少條記錄。("0"為不限,系統(tǒng)會(huì)從頭采到頁面尾) |
遠(yuǎn)程保存圖片到本地 |
選擇后入庫時(shí)系統(tǒng)會(huì)遠(yuǎn)程保存圖片到本地,還可設(shè)置是否加水印。(針對(duì)newstext字段) |
遠(yuǎn)程保存FLASH到本地 |
選擇后入庫時(shí)系統(tǒng)會(huì)遠(yuǎn)程保存FLASH到本地。(針對(duì)newstext字段) |
標(biāo)題圖片設(shè)置 |
可設(shè)置選擇遠(yuǎn)程保存第幾個(gè)圖片作為標(biāo)題圖片及生成縮圖設(shè)置。 |
每組列表采集個(gè)數(shù) |
采集列表頁每組記錄數(shù),單采集列表頁請(qǐng)?zhí)?。 |
每組信息采集個(gè)數(shù) |
采集信息頁數(shù)據(jù)每組記錄數(shù) |
每組入庫數(shù) |
如果要遠(yuǎn)程保存圖片/FLASH則請(qǐng)?jiān)O(shè)小,如設(shè)為1。(為防止入庫超時(shí),系統(tǒng)推薦將php的超時(shí)設(shè)為360以上) |
每組采集時(shí)間間隔 |
針對(duì)部分網(wǎng)站限制了頁面刷新時(shí)間間隔而設(shè)置的項(xiàng) |
附加選項(xiàng) |
頁面編碼轉(zhuǎn)換 |
頁面編碼的轉(zhuǎn)換設(shè)置。 |
是否重復(fù)采集同一鏈接 |
可設(shè)置同一鏈接是否重復(fù)采集。 |
是否隱藏已導(dǎo)入的信息 |
推薦選隱藏。否則入庫后的記錄依然會(huì)顯示到入庫列表里。 |
采集后自動(dòng)入庫 |
可設(shè)置采集后自動(dòng)入庫,不需要人工去入庫。但有可能入庫超時(shí)中斷。 |
入庫后自動(dòng)刪除已導(dǎo)入的信息:入庫后同時(shí)刪除備份的驗(yàn)證記錄。 |
整體頁面過濾正則 |
格式:“廣告開始[!–pad–]廣告結(jié)束”。多個(gè)可用“,”格開。 |
針對(duì)整個(gè)頁面代碼進(jìn)行過濾。 |
對(duì)整個(gè)頁面字符替換 |
原字符多個(gè)請(qǐng)用","格開,如果是新字符是多個(gè),可以用","格開,系統(tǒng)會(huì)一一對(duì)應(yīng)進(jìn)行替換。 |
過濾選項(xiàng) |
采集關(guān)鍵字 |
標(biāo)題包含關(guān)鍵字的信息才會(huì)采集。如不限制,請(qǐng)留空。多個(gè)請(qǐng)用","格開 |
替換 |
原字符多個(gè)請(qǐng)用","格開,如果是新字符是多個(gè),可以用","格開,系統(tǒng)會(huì)一一對(duì)應(yīng)進(jìn)行替換。 |
(針對(duì)標(biāo)題與內(nèi)容) |
過濾廣告正則 |
格式:“廣告開始[!–ad–]廣告結(jié)束”,多個(gè)請(qǐng)用","格開。(針對(duì)newstext字段) |
內(nèi)容為空不采集 |
如果newstext內(nèi)容為空不采集設(shè)置項(xiàng)。 |
過濾相似 |
可設(shè)置不采集標(biāo)題相似超過多少個(gè)字符的信息。如不限制請(qǐng)?zhí)?quot;0"。 |
可設(shè)置不采集標(biāo)題完全相同的信息 |
截取內(nèi)容簡(jiǎn)介 |
如果信息簡(jiǎn)介(smalltext)沒有值的話,系統(tǒng)會(huì)依此設(shè)置截取新聞內(nèi)容(newstext)多少字符作為簡(jiǎn)介。 |
列表頁正則 |
信息鏈接區(qū)域正則 |
通常不需要設(shè)置。一般是設(shè)置只采集頁面某一區(qū)域的鏈接或縮小采集范圍才設(shè)置的 |
在要采集鏈接區(qū)域的代碼地方加上“[!–smallurl–]” |
信息頁鏈接正則 |
采集“內(nèi)容頁鏈接”的正則(列表頁里) |
在信息頁鏈接的地方加上“[!–newsurl–]” |
標(biāo)題圖片正則 |
采集“標(biāo)題圖片地址”的正則,可設(shè)置遠(yuǎn)程保存與地址前綴(列表頁里,如圖片在內(nèi)容頁,請(qǐng)留空) |
在標(biāo)題圖片地址的地方加上“[!–titlepic–]” |
內(nèi)容頁分頁采集設(shè)置:(如沒有分頁請(qǐng)留空,針對(duì)newstext字段) |
說明:如果是全部列表式,則只需看第一頁的頁面HTML代碼。 |
入庫是否保留原分頁 |
如果選擇“不保留分頁”則入庫后的信息都不分頁。 |
分頁形式 |
有“上下頁導(dǎo)航式”與“全部列出式”兩種形式。(一般全部列出式用的比較多) |
"全部列出"式正則設(shè)置 |
分頁區(qū)域正則([!–smallpageallzz–]) |
分頁鏈接正則([!–pageallzz–]) |
"上下頁導(dǎo)航"式正則設(shè)置 |
分頁區(qū)域正則([!–smallpagezz–]) |
分頁鏈接正則([!–pagezz–]) |