【ITBEAR科技資訊】8月8日消息,隨著人工智能技術的迅猛發展,大型語言模型成為AI領域的一大熱點。OpenAI旗下的GPT模型在自然語言處理方面取得了顯著的進展,但在訓練過程中卻涉及到一系列問題,如數據隱私和版權等。
據了解,為了訓練GPT模型,OpenAI需要大量的網絡數據,而互聯網上的數據成為主要的獲取來源。然而,這種數據獲取方式引發了許多爭議。一方面,網站運營者擔心其網站內容被GPTBot這樣的網絡爬蟲獲取,可能涉及隱私信息或侵犯版權。為此,OpenAI近日推出了一個新功能,允許網站運營者通過Robots.txt文件或屏蔽IP地址的方式,阻止GPTBot訪問其網站,以保護數據的隱私和版權。
然而,這并不意味著之前從網站上抓取的內容會追溯性地從ChatGPT的訓練數據中刪除。這也引發了一些網站和創作者的擔憂,他們擔心其內容未經授權或未付費就被用于訓練GPT模型,進而用于商業用途。一些網站已經采取措施限制AI公司免費使用其用戶內容的行為,以維護用戶的隱私和版權權益。
對于OpenAI而言,確保數據使用的合法性和透明性顯得尤為重要。他們在博客文章中表示,使用GPTBot用戶代理抓取的網頁內容將會被篩選,過濾掉那些需要付費訪問、包含個人身份信息(PII)或違反其政策的文本來源。這樣的做法旨在提高AI模型的準確性、通用能力和安全性,從而更好地服務用戶。
來源:http://www.itbear.com.cn/html/2023-08/467780.html