本文概要:
1. AI target=_blank class=infotextkey>OpenAI 現允許網站屏蔽其網絡爬蟲,以防止其抓取網站內容訓練 GPT 模型的。
2. 阻止 GPTBot 可能是 OpenAI 允許互聯網用戶選擇不讓其數據用于訓練其大型語言模型的第一步。
3. 在獲取用于訓練 AI 的數據方面存在爭議,一些網站和作者提出限制 AI 公司使用其內容的要求。
站長之家(ChinaZ.com)8月8日 消息:OpenAI 現在允許網站屏蔽其網絡爬蟲,以幫助網站運營商防止其內容被用于訓練 GPT 模型。
具體來說,網站可以通過在其 Robots.txt 文件中明確禁止 GPTBot 爬蟲程序的出現,或者阻止其 IP 地址來實現屏蔽。
OpenAI 表示,通過使用 GPTBot 抓取的網頁可能會用于改進未來的模型,但也會進行過濾以刪除需要付費訪問、包含個人身份信息或違反政策的內容來源。
阻止 GPTBot 可能是 OpenAI 允許互聯網用戶選擇不讓其數據用于訓練大型語言模型的第一步。之前有一些嘗試創建標記來排除訓練內容的舉措,例如去年 DeviantArt 提出的 "NoAI" 標簽。然而,阻止 GPTBot 并不會從 ChatGPT 的訓練數據中刪除之前從網站上抓取的內容。
獲取用于 AI 訓練的數據已經成為一個越來越具有爭議的問題。一些網站,包括 Reddit 和 Twitter,一直在努力限制 AI 公司對用戶發布內容的免費使用,同時一些作者和創作人也因涉嫌未經授權使用其作品而提起訴訟。議員們在上個月的幾次 AI 監管聽證會上也關注了數據隱私和同意問題。
在獲取數據方面,OpenAI 并未確認是否通過社交媒體帖子、受版權保護的作品或者互聯網的哪些部分來獲取數據。
據AxIOS報道,一些公司,如 Adobe,提出了通過反冒充法律來標記數據為不可用于訓練的想法。包括 OpenAI在與白宮簽署的協議中同意開發一種水印系統,以讓人們知道某個內容是否由 AI 生成,但并未承諾停止使用互聯網數據進行訓練