OpenAI陷入圖書版權糾紛
北京時間5月8日,最新解封的法庭文件顯示,OpenAI刪除了兩個名為“圖書1”(books1)和“圖書2”(books2)的龐大數(shù)據(jù)集,這些數(shù)據(jù)集曾用于訓練其GPT-3人工智能(AI)模型。
這些文件來自美國作家協(xié)會對OpenAI提起的集體訴訟。美國作家協(xié)會的律師在法庭文件中表示,這些數(shù)據(jù)集很可能包含“10萬多本已出版書籍”,是該協(xié)會指控OpenAI使用受版權保護的材料來訓練AI模型的關鍵。
幾個月來,美國作家協(xié)會一直尋求從OpenAI獲得有關這些數(shù)據(jù)集的信息。法律文件顯示,OpenAI最初以保密為由拒絕提供這些數(shù)據(jù)集的下落,但最終披露已刪除所有數(shù)據(jù)副本。
高質量的訓練數(shù)據(jù)是強大AI模型的重要組成部分。目前,這些AI模型正在席卷科技界。OpenAI和其他公司使用互聯(lián)網(wǎng)數(shù)據(jù)來建立這些模型,其中包括許多書籍。許多創(chuàng)造這些數(shù)據(jù)的公司認為,他們?yōu)樾碌腁I產品提供了訓練數(shù)據(jù),需要獲得報酬。但是,科技公司不想被迫付費。這一爭執(zhí)已經(jīng)引發(fā)了多起官司。
500億個單詞
OpenAI曾在2020年發(fā)布過一份白皮書,將圖書1和圖書2數(shù)據(jù)集描述為“基于互聯(lián)網(wǎng)的圖書語料庫”,并表示它們占據(jù)創(chuàng)建GPT-3訓練數(shù)據(jù)的16%。白皮書還表示,圖書1和圖書2總共包含670億個數(shù)據(jù)詞元(token),大致相當于500億個單詞。作為比較,《欽定圣經(jīng)》有783,137個單詞。
最新解封的法庭文件是OpenAI律師的信函,它被標記為“高度機密-僅限律師查看”。信中說,OpenAI已在2021年底停止使用圖書1和圖書2進行模型訓練。由于這些數(shù)據(jù)集不再使用,它們在2022年年中被刪除。信中還說,用于訓練GPT-3的其他數(shù)據(jù)都沒有被刪除,并允許美國作家協(xié)會的律師訪問其他數(shù)據(jù)集。
該文件還顯示,創(chuàng)建圖書1和圖書2的兩名研究人員已不再受雇于OpenAI。OpenAI最初拒絕透露這兩名員工的身份,隨后向美國作家協(xié)會的律師確認了這些員工的身份,但沒有公開披露他們的姓名。OpenAI已經(jīng)請求法院對這兩名員工的姓名以及有關數(shù)據(jù)集的信息保密。美國作家協(xié)會對此表示反對,認為公眾有知情權。目前,爭議仍在繼續(xù)。
OpenAI周二在一份聲明中表示:“驅動當前ChatGPT和應用程序接口的模型不是使用這些數(shù)據(jù)集開發(fā)的。這些數(shù)據(jù)集是由OpenAI前員工創(chuàng)建的,最后一次使用是在2021年,并在2022年因未使用而被刪除。”
【來源:鳳凰網(wǎng)科技】