對于創作者來說，最頭疼的莫過于自己辛辛苦苦幾個小時完成的一篇文章，剛發布完成就被抄襲走了，甚至別人網站立馬被收錄和有排名，而自己的文章卻既沒有收錄也沒有排名，自己寫的文章頁完全給別人做了嫁衣，今天我們就以搜索引擎算法角度來談談，算法是如何去判斷一篇文章是否是原創，我們又該如何規避被別人抄襲采集走呢？

如何知道一篇文章是不是原創？百度算法是這樣判斷的

一、算法判斷原創度

說到原創，百度算法是這樣定義的，用戶花費大量精力和時間成本去撰寫或整理出的一篇文章，文章內容豐富詳實、這樣的文章在百度算法才算原創，但是我個人覺得，百度定義的原創并不能讓人信服，因為行業內90%以上都是采集或偽原創，所以我個人理解的原創，也就是我們通過自己經驗看法總結出來的一篇文章，文章可以跟其他文章有相似觀點或者看法，不完全雷同，這才算原創，但在百度算法中，這個過程又是怎樣的呢？我們來還原一下一篇文章從生產出來到后面到后面排名，究竟經歷了什么？

我們可以列舉工作中最常見的場景，小王寫了10篇文章后，通過一系列排版和配圖后，發布到官網，隔幾天后，他發現這10篇文章中，有6篇被收錄了，搜索全標題都有排名。針對這個場景，百度算法是如何運算的？

小王在發布文章后，對應生成的鏈接是www.abc.com/123.html，假設百度蜘蛛爬取該url后，分析url里的頁面內容，同時，對照數據庫中未有該頁內容，然后收錄保存到數據庫中，然后進行相關算法進行索引排名，注意的是，該url信息是在百度數據庫中不存在才給予抓取，如果123.html存在，則跳過不抓取。

百度蜘蛛把url抓取到庫中，有兩個算法決定了是否收錄，這兩個算法是把內容切割，對照數據庫中是否有重復內容，如果有，則不收錄，如果沒有則收錄，注意的是，百度抓取的是頁面，而并不是文章，所以這也是很多人有疑惑，為什么同樣一篇文章，有的站點收錄，有的站點不收錄，在算法中，百度只考察頁面。

在這其中，百度算法會依據抓取時間因子、內容來進行內容判斷，來判斷該篇文章是否是原創，比如123.html在2022年6月18日14:50被百度抓取后，如果有其他站點采集了該文章，那么百度是可以識別出123.html是原創文章，反過來，如果123.html發布后并沒有被百度蜘蛛抓取前，就被人家采集走了，那么采集走的站點恰巧做了推送，那么百度會認可采集走的文章是原創，而真正原創并不是原創，所以，你可能就看明白了百度算法判斷文章是否是原創的基本邏輯：

如何知道一篇文章是不是原創？百度算法是這樣判斷的