網站可以阻止OpenAI網絡爬蟲避免數據用于訓練 GPT 模型-魔扣目錄

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站可以阻止OpenAI網絡爬蟲避免數據用于訓練 GPT 模型

發布時間：2023-08-18 18:23:17 作者：網友整理

本文概要:

1. AI target=_blank class=infotextkey>OpenAI 現允許網站屏蔽其網絡爬蟲，以防止其抓取網站內容訓練 GPT 模型的。

2. 阻止 GPTBot 可能是 OpenAI 允許互聯網用戶選擇不讓其數據用于訓練其大型語言模型的第一步。

3. 在獲取用于訓練 AI 的數據方面存在爭議，一些網站和作者提出限制 AI 公司使用其內容的要求。

站長之家（ChinaZ.com）8月8日消息:OpenAI 現在允許網站屏蔽其網絡爬蟲，以幫助網站運營商防止其內容被用于訓練 GPT 模型。

具體來說，網站可以通過在其 Robots.txt 文件中明確禁止 GPTBot 爬蟲程序的出現，或者阻止其 IP 地址來實現屏蔽。

OpenAI 表示，通過使用 GPTBot 抓取的網頁可能會用于改進未來的模型，但也會進行過濾以刪除需要付費訪問、包含個人身份信息或違反政策的內容來源。

阻止 GPTBot 可能是 OpenAI 允許互聯網用戶選擇不讓其數據用于訓練大型語言模型的第一步。之前有一些嘗試創建標記來排除訓練內容的舉措，例如去年 DeviantArt 提出的 "NoAI" 標簽。然而，阻止 GPTBot 并不會從 ChatGPT 的訓練數據中刪除之前從網站上抓取的內容。

獲取用于 AI 訓練的數據已經成為一個越來越具有爭議的問題。一些網站，包括 Reddit 和 Twitter，一直在努力限制 AI 公司對用戶發布內容的免費使用，同時一些作者和創作人也因涉嫌未經授權使用其作品而提起訴訟。議員們在上個月的幾次 AI 監管聽證會上也關注了數據隱私和同意問題。

在獲取數據方面，OpenAI 并未確認是否通過社交媒體帖子、受版權保護的作品或者互聯網的哪些部分來獲取數據。

據AxIOS報道，一些公司，如 Adobe，提出了通過反冒充法律來標記數據為不可用于訓練的想法。包括 OpenAI在與白宮簽署的協議中同意開發一種水印系統，以讓人們知道某個內容是否由 AI 生成，但并未承諾停止使用互聯網數據進行訓練

分享到：

標簽：OpenAI

網友整理

注冊時間：

網站：5 個小程序：0 個文章：12 篇

文章分類

熱門網站

數獨一種數學游戲，玩家需要根據9

您可以通過答題星輕松地創建試卷

各種考試題，題庫，初中，高中，大學四六

記錄運動步數，積累氧氣值。還可偷

每日養生,天天健康

通用課目體育訓練成績評定