對于創(chuàng)作者來說,最頭疼的莫過于自己辛辛苦苦幾個(gè)小時(shí)完成的一篇文章,剛發(fā)布完成就被抄襲走了,甚至別人網(wǎng)站立馬被收錄和有排名,而自己的文章卻既沒有收錄也沒有排名,自己寫的文章頁完全給別人做了嫁衣,今天我們就以搜索引擎算法角度來談?wù)劊惴ㄊ侨绾稳ヅ袛嘁黄恼率欠袷窃瓌?chuàng),我們又該如何規(guī)避被別人抄襲采集走呢?
一、算法判斷原創(chuàng)度
說到原創(chuàng),百度算法是這樣定義的,用戶花費(fèi)大量精力和時(shí)間成本去撰寫或整理出的一篇文章,文章內(nèi)容豐富詳實(shí)、這樣的文章在百度算法才算原創(chuàng),但是我個(gè)人覺得,百度定義的原創(chuàng)并不能讓人信服,因?yàn)樾袠I(yè)內(nèi)90%以上都是采集或偽原創(chuàng), 所以我個(gè)人理解的原創(chuàng),也就是我們通過自己經(jīng)驗(yàn)看法總結(jié)出來的一篇文章,文章可以跟其他文章有相似觀點(diǎn)或者看法,不完全雷同,這才算原創(chuàng),但在百度算法中,這個(gè)過程又是怎樣的呢?我們來還原一下一篇文章從生產(chǎn)出來到后面到后面排名,究竟經(jīng)歷了什么?
我們可以列舉工作中最常見的場景,小王寫了10篇文章后,通過一系列排版和配圖后,發(fā)布到官網(wǎng),隔幾天后,他發(fā)現(xiàn)這10篇文章中,有6篇被收錄了,搜索全標(biāo)題都有排名。針對這個(gè)場景,百度算法是如何運(yùn)算的?
小王在發(fā)布文章后,對應(yīng)生成的鏈接是www.abc.com/123.html,假設(shè)百度蜘蛛爬取該url后,分析url里的頁面內(nèi)容,同時(shí),對照數(shù)據(jù)庫中未有該頁內(nèi)容,然后收錄保存到數(shù)據(jù)庫中,然后進(jìn)行相關(guān)算法進(jìn)行索引排名,注意的是,該url信息是在百度數(shù)據(jù)庫中不存在才給予抓取,如果123.html存在,則跳過不抓取。
百度蜘蛛把url抓取到庫中,有兩個(gè)算法決定了是否收錄,這兩個(gè)算法是把內(nèi)容切割,對照數(shù)據(jù)庫中是否有重復(fù)內(nèi)容,如果有,則不收錄,如果沒有則收錄,注意的是,百度抓取的是頁面,而并不是文章,所以這也是很多人有疑惑,為什么同樣一篇文章,有的站點(diǎn)收錄,有的站點(diǎn)不收錄,在算法中,百度只考察頁面。
在這其中,百度算法會(huì)依據(jù)抓取時(shí)間因子、內(nèi)容來進(jìn)行內(nèi)容判斷,來判斷該篇文章是否是原創(chuàng),比如123.html在2022年6月18日14:50被百度抓取后,如果有其他站點(diǎn)采集了該文章,那么百度是可以識(shí)別出123.html是原創(chuàng)文章,反過來,如果123.html發(fā)布后并沒有被百度蜘蛛抓取前,就被人家采集走了,那么采集走的站點(diǎn)恰巧做了推送,那么百度會(huì)認(rèn)可采集走的文章是原創(chuàng),而真正原創(chuàng)并不是原創(chuàng),所以,你可能就看明白了百度算法判斷文章是否是原創(chuàng)的基本邏輯:
換句話說,如果我們的文章由于一些特定原因并沒有被抓取,也就是錯(cuò)失了被算法判斷原創(chuàng)內(nèi)容的機(jī)會(huì),我們主要牢記時(shí)間因子、抓取、內(nèi)容這三點(diǎn)就可以了。
二、如何防止被別人采集走?
我們知道了以上三點(diǎn)后,就要防止被別人采集走,我們用的最多的就是防采集代碼,還有我們平時(shí)忽略的就是,發(fā)布文章后一定要記得給資源平臺(tái)提交數(shù)據(jù)。目前資源平臺(tái)的普通提交就可以滿足大部分站長的需求。發(fā)布提交、利用反爬代碼,讓站長無法去抄襲采集你的內(nèi)容。
三、原創(chuàng)內(nèi)容判定誤區(qū)
由于很多人對原創(chuàng)內(nèi)容一直不理解,所以這里總結(jié)了部分問題,希望對各位同學(xué)有所幫助:
問:別人采集我的內(nèi)容,為什么別人收錄,自己沒收錄?
答:自己內(nèi)容沒有做提交或者蜘蛛沒有爬取到該URL,其他站點(diǎn)優(yōu)先提交數(shù)據(jù)。
問:是否可以更改時(shí)間因子來突破原創(chuàng)?比如我采集走別人文章,更改一個(gè)更早的時(shí)間。
答:百度算法判斷原創(chuàng),不僅看時(shí)間因子還要看系統(tǒng)時(shí)間。
問:檢測原創(chuàng)軟件有哪些?
答:市面上很多檢測偽原創(chuàng)工具,比如紙牌屋檢測、5118偽原創(chuàng)檢測。
問:正確發(fā)布文章的流程是什么
答:發(fā)布后記得提交數(shù)據(jù)、第一時(shí)間提交數(shù)據(jù)。
問:自己手寫的原創(chuàng)為什么不收錄?采集的反而收錄?
答:先排除是否抓取該Url,另外自己寫的不代表原創(chuàng)高質(zhì)量,采集的不代表低質(zhì)量,注意區(qū)分。