(ChinaZ.com) 9月2日消息:《衛報》已經阻止 OpenAI 從其內容中獲取數據。該出版商是最新一家阻止人工智能公司使用其內容來創建 ChatGPT 等產品的新聞機構。
擔心 OpenAI 正在使用未經許可的內容來創建其人工智能工具,已導致作家對該公司提起訴訟,并呼吁創意產業采取措施保護知識產權。
《衛報》確認已禁止 OpenAI 部署軟件以收集其內容。生成式人工智能技術——指可以從簡單的人類提示中生成令人信服的文本、圖像和音頻等產品——自去年推出 ChatGPT 聊天機器人版本以來就受到公眾矚目。然而,有關虛假信息大規模生產和此類工具建立方式的擔憂也隨之而來。
ChatGPT 及類似工具背后的技術是通過向其中輸入大量來源于開放互聯網(包括新聞文章)的數據進行「訓練」的,使得這些工具可以預測用戶提示后最可能出現哪個單詞或句子。
OpenAI 并沒有透露幫助構建 ChatGPT 模型背后所用數據,但在 8 月份宣布將允許網站運營者阻止其網絡爬蟲程序獲取他們的內容,盡管此舉并不允許從現有的訓練數據集中刪除材料。目前,一些出版商和網站正在阻止 GPTBot 爬蟲程序。
《衛報》及其子公司 Guardian News & Media 的發言人表示:「出于商業目的從衛報網站上竊取知識產權的行為一直以來都違反了我們的服務條款。這一點始終如一。《衛報》商業授權團隊與全球開發者之間有著多種互惠互利的商業關系,并期待未來建立更多這樣的關系。」
根據 Originality.ai 檢測到 AI 生成內容顯示,現在阻止 GPTBot 爬蟲程序(該程序從網頁中提取數據以供其 AI 模型使用)的新聞網站包括 CNN、路透社、華盛頓郵報、彭博社、紐約時報及其體育網站 The Athletic 等。其他已經阻止 GPTBot 爬蟲程序的網站還包括 Lonely Planet、亞馬遜 (Amazon)、Indeed,、問答平臺 Quora 和 dictionary.com。
本周,英國圖書出版商敦促其首相 Rishi Sunak 通過在 11 月主持英國安全峰會議程上加入保護創意產業知識產權來保護創意產業知識產權。代表數字和印刷書籍、研究期刊和教育內容的出版商協會的一封信要求首相明確表示,在構建 AI 系統時必須尊重知識產權法。
今年 7 月,埃隆·馬斯克對其 Twitter 平臺(現已更名為 X)施加了限制,以解決他所聲稱的人工智能公司構建模型的「極端程度的數據抓取」問題。他在 Twitter 上表示,「幾乎每家從事人工智能的公司」都從 Twitter 獲取「大量數據」,馬斯克表示,這迫使該公司付出一定代價部署更多服務器來滿足需求。
然而,馬斯克也確認將使用公共推文來訓練其新宣布的 AI 初創企業 xAI 開發的模型。
谷歌的隱私政策現在規定,該公司使用網絡爬蟲幫助用戶查找搜索結果,可能會收集公開信息來訓練谷歌人工智能產品的模型,其中包括 Bard 聊天機器人。本周,Facebook 和 Instagram 的所有者以及主要人工智能開發商 Meta 推出了一項新政策,允許用戶表示是否不希望自己的個人信息用于訓練人工智能模型。