OpenAI陷入圖書(shū)版權(quán)糾紛
北京時(shí)間5月8日,最新解封的法庭文件顯示,OpenAI刪除了兩個(gè)名為“圖書(shū)1”(books1)和“圖書(shū)2”(books2)的龐大數(shù)據(jù)集,這些數(shù)據(jù)集曾用于訓(xùn)練其GPT-3人工智能(AI)模型。
這些文件來(lái)自美國(guó)作家協(xié)會(huì)對(duì)OpenAI提起的集體訴訟。美國(guó)作家協(xié)會(huì)的律師在法庭文件中表示,這些數(shù)據(jù)集很可能包含“10萬(wàn)多本已出版書(shū)籍”,是該協(xié)會(huì)指控OpenAI使用受版權(quán)保護(hù)的材料來(lái)訓(xùn)練AI模型的關(guān)鍵。
幾個(gè)月來(lái),美國(guó)作家協(xié)會(huì)一直尋求從OpenAI獲得有關(guān)這些數(shù)據(jù)集的信息。法律文件顯示,OpenAI最初以保密為由拒絕提供這些數(shù)據(jù)集的下落,但最終披露已刪除所有數(shù)據(jù)副本。
高質(zhì)量的訓(xùn)練數(shù)據(jù)是強(qiáng)大AI模型的重要組成部分。目前,這些AI模型正在席卷科技界。OpenAI和其他公司使用互聯(lián)網(wǎng)數(shù)據(jù)來(lái)建立這些模型,其中包括許多書(shū)籍。許多創(chuàng)造這些數(shù)據(jù)的公司認(rèn)為,他們?yōu)樾碌腁I產(chǎn)品提供了訓(xùn)練數(shù)據(jù),需要獲得報(bào)酬。但是,科技公司不想被迫付費(fèi)。這一爭(zhēng)執(zhí)已經(jīng)引發(fā)了多起官司。
500億個(gè)單詞
OpenAI曾在2020年發(fā)布過(guò)一份白皮書(shū),將圖書(shū)1和圖書(shū)2數(shù)據(jù)集描述為“基于互聯(lián)網(wǎng)的圖書(shū)語(yǔ)料庫(kù)”,并表示它們占據(jù)創(chuàng)建GPT-3訓(xùn)練數(shù)據(jù)的16%。白皮書(shū)還表示,圖書(shū)1和圖書(shū)2總共包含670億個(gè)數(shù)據(jù)詞元(token),大致相當(dāng)于500億個(gè)單詞。作為比較,《欽定圣經(jīng)》有783,137個(gè)單詞。
最新解封的法庭文件是OpenAI律師的信函,它被標(biāo)記為“高度機(jī)密-僅限律師查看”。信中說(shuō),OpenAI已在2021年底停止使用圖書(shū)1和圖書(shū)2進(jìn)行模型訓(xùn)練。由于這些數(shù)據(jù)集不再使用,它們?cè)?022年年中被刪除。信中還說(shuō),用于訓(xùn)練GPT-3的其他數(shù)據(jù)都沒(méi)有被刪除,并允許美國(guó)作家協(xié)會(huì)的律師訪問(wèn)其他數(shù)據(jù)集。
該文件還顯示,創(chuàng)建圖書(shū)1和圖書(shū)2的兩名研究人員已不再受雇于OpenAI。OpenAI最初拒絕透露這兩名員工的身份,隨后向美國(guó)作家協(xié)會(huì)的律師確認(rèn)了這些員工的身份,但沒(méi)有公開(kāi)披露他們的姓名。OpenAI已經(jīng)請(qǐng)求法院對(duì)這兩名員工的姓名以及有關(guān)數(shù)據(jù)集的信息保密。美國(guó)作家協(xié)會(huì)對(duì)此表示反對(duì),認(rèn)為公眾有知情權(quán)。目前,爭(zhēng)議仍在繼續(xù)。
OpenAI周二在一份聲明中表示:“驅(qū)動(dòng)當(dāng)前ChatGPT和應(yīng)用程序接口的模型不是使用這些數(shù)據(jù)集開(kāi)發(fā)的。這些數(shù)據(jù)集是由OpenAI前員工創(chuàng)建的,最后一次使用是在2021年,并在2022年因未使用而被刪除。”
【來(lái)源:鳳凰網(wǎng)科技】