日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

增加采集基本流程
1、增加采集節(jié)點;
2、預(yù)覽采集正則是否正確;
3、預(yù)覽無誤后即可開始采集。

增加采集節(jié)點
1、登錄后臺,單擊“欄目”菜單,選擇“增加采集節(jié)點”子菜單,進入選擇入庫欄目界面:
帝國CMS增加采集節(jié)點如何設(shè)置 第2張
2、進入選擇入庫欄目界面:(也就是選擇采集的信息存放到哪個欄目)
帝國CMS增加采集節(jié)點如何設(shè)置 第3張
3、選擇入庫欄目后,進入“增加采集節(jié)點”頁面,如下圖:
帝國CMS增加采集節(jié)點如何設(shè)置 第4張
 

基本信息
節(jié)點名稱 此節(jié)點的名稱
父節(jié)點 可選擇上級節(jié)點,主要方便管理,比如你可以把所有新聞的采集都歸到一個父節(jié)點里。
采集頁面地址 要采集的頁面列表,如果是多個列表用回車格開。
  采集頁面為直接內(nèi)容頁:說明填寫的地址為直接內(nèi)容頁面地址。
采集頁面地址方式二 由系統(tǒng)自己生成列表,但必須是有數(shù)字規(guī)律的。
如:“http://www.phome.net/index.php?page=[page]([page]則為頁碼的范圍)
內(nèi)容頁地址前綴 信息頁鏈接的地址前綴。如地址前面沒域名的話,系統(tǒng)會加上此前綴。
如:http://www.phome.net+/news/2006/1.html
圖片/FLASH地址前綴 新聞內(nèi)容的圖片/FLASH地址為相對地址時使用。(針對newstext字段,遠程保存時有效)
入庫欄目 采集的數(shù)據(jù)要入庫的欄目。如本節(jié)點不是采集節(jié)點,請不選。(只列出屬于此系統(tǒng)模型的欄目)
入庫專題 采集的數(shù)據(jù)要入庫的專題。
節(jié)點生效時間 “開始時間”與“結(jié)束時間”這個目前可隨意設(shè)置。這主要是以后版本擴展之用。
備注 備注或說明
選項
默認相關(guān)關(guān)鍵字 截取標題前幾個字符作為相關(guān)鏈接的“關(guān)鍵字”,推薦設(shè)為0,這樣入庫效率更高。
采集記錄數(shù) 可設(shè)置只采集前多少條記錄。("0"為不限,系統(tǒng)會從頭采到頁面尾)
遠程保存圖片到本地 選擇后入庫時系統(tǒng)會遠程保存圖片到本地,還可設(shè)置是否加水印。(針對newstext字段)
遠程保存FLASH到本地 選擇后入庫時系統(tǒng)會遠程保存FLASH到本地。(針對newstext字段)
標題圖片設(shè)置 可設(shè)置選擇遠程保存第幾個圖片作為標題圖片及生成縮圖設(shè)置。
每組列表采集個數(shù) 采集列表頁每組記錄數(shù),單采集列表頁請?zhí)?。
每組信息采集個數(shù) 采集信息頁數(shù)據(jù)每組記錄數(shù)
每組入庫數(shù) 如果要遠程保存圖片/FLASH則請設(shè)小,如設(shè)為1。(為防止入庫超時,系統(tǒng)推薦將php的超時設(shè)為360以上)
每組采集時間間隔 針對部分網(wǎng)站限制了頁面刷新時間間隔而設(shè)置的項
附加選項
頁面編碼轉(zhuǎn)換 頁面編碼的轉(zhuǎn)換設(shè)置。
是否重復(fù)采集同一鏈接 可設(shè)置同一鏈接是否重復(fù)采集。
是否隱藏已導(dǎo)入的信息 推薦選隱藏。否則入庫后的記錄依然會顯示到入庫列表里。
采集后自動入庫 可設(shè)置采集后自動入庫,不需要人工去入庫。但有可能入庫超時中斷。
入庫后自動刪除已導(dǎo)入的信息:入庫后同時刪除備份的驗證記錄。
整體頁面過濾正則 格式:“廣告開始[!–pad–]廣告結(jié)束”。多個可用“,”格開。
針對整個頁面代碼進行過濾。
對整個頁面字符替換 原字符多個請用","格開,如果是新字符是多個,可以用","格開,系統(tǒng)會一一對應(yīng)進行替換。
過濾選項
采集關(guān)鍵字 標題包含關(guān)鍵字的信息才會采集。如不限制,請留空。多個請用","格開
替換 原字符多個請用","格開,如果是新字符是多個,可以用","格開,系統(tǒng)會一一對應(yīng)進行替換。
(針對標題與內(nèi)容)
過濾廣告正則 格式:“廣告開始[!–ad–]廣告結(jié)束”,多個請用","格開。(針對newstext字段)
內(nèi)容為空不采集 如果newstext內(nèi)容為空不采集設(shè)置項。
過濾相似 可設(shè)置不采集標題相似超過多少個字符的信息。如不限制請?zhí)?quot;0"。
可設(shè)置不采集標題完全相同的信息
截取內(nèi)容簡介 如果信息簡介(smalltext)沒有值的話,系統(tǒng)會依此設(shè)置截取新聞內(nèi)容(newstext)多少字符作為簡介。
列表頁正則
信息鏈接區(qū)域正則 通常不需要設(shè)置。一般是設(shè)置只采集頁面某一區(qū)域的鏈接縮小采集范圍才設(shè)置的
在要采集鏈接區(qū)域的代碼地方加上“[!–smallurl–]”
信息頁鏈接正則 采集“內(nèi)容頁鏈接”的正則(列表頁里)
在信息頁鏈接的地方加上“[!–newsurl–]”
標題圖片正則 采集“標題圖片地址”的正則,可設(shè)置遠程保存與地址前綴(列表頁里,如圖片在內(nèi)容頁,請留空)
在標題圖片地址的地方加上“[!–titlepic–]”
內(nèi)容頁分頁采集設(shè)置:(如沒有分頁請留空,針對newstext字段)
說明:如果是全部列表式,則只需看第一頁的頁面HTML代碼。
入庫是否保留原分頁 如果選擇“不保留分頁”則入庫后的信息都不分頁。
分頁形式 有“上下頁導(dǎo)航式”與“全部列出式”兩種形式。(一般全部列出式用的比較多)
"全部列出"式正則設(shè)置 分頁區(qū)域正則([!–smallpageallzz–])
分頁鏈接正則([!–pageallzz–])
"上下頁導(dǎo)航"式正則設(shè)置 分頁區(qū)域正則([!–smallpagezz–])
分頁鏈接正則([!–pagezz–])

采集相關(guān)注意事項
1、按通常設(shè)置,同一鏈接不重復(fù)采集。
2、沒有標題的信息不采集。
3、非固定內(nèi)容可用“*”代表任意字符。
4、對于特殊字符請在前面加上“\\”,當(dāng)然直接將特殊字符改為“*”最合適了。特殊字符如下:
“ )”、“(”、“{”、“}”、“[”、“]”、“\”、“?”等等。
5、正則要找出唯一性的開頭字符。有時候空格都會成為識別的依據(jù)。
6、增加節(jié)點后最好先預(yù)覽節(jié)點,預(yù)覽無誤后才開始采集。(管理采集節(jié)點那可預(yù)覽)
帝國CMS增加采集節(jié)點如何設(shè)置 第5張
7、"時間正則":為空的話,將為入庫時間

分享到:
標簽:帝國CMS 帝國手冊 采集
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定