近期,人工智能領(lǐng)域的巨頭Anthropic以一種前所未有的方式引發(fā)了公眾和法律界的廣泛關(guān)注。據(jù)悉,該公司斥資數(shù)百萬美元,購買了大量圖書,但其目的并非收藏或出版,而是為了拆解這些書籍,將其轉(zhuǎn)化為訓(xùn)練AI助手的寶貴數(shù)據(jù)。
據(jù)外媒Ars Technica深入報道,Anthropic在獲取訓(xùn)練數(shù)據(jù)的策略上采取了頗具爭議的手段。他們選擇將實體書籍進(jìn)行拆解、掃描,并在掃描完成后立即銷毀原件。這一做法的細(xì)節(jié)在法庭文件中得以曝光,并引發(fā)了法律界的廣泛討論。然而,法官William Alsup對此做出了“合理使用”的裁定,理由在于Anthropic所購買的書籍均通過合法渠道獲取,且掃描后的數(shù)字文件僅供內(nèi)部使用,并未對外泄露。
Anthropic的這一舉措背后,是對谷歌書籍項目成功經(jīng)驗的借鑒。公司CEO阿莫代伊透露,在項目初期,團(tuán)隊曾考慮過使用盜版電子書作為訓(xùn)練數(shù)據(jù),但出于法律風(fēng)險的考量,最終決定通過購買二手書籍的方式來確保數(shù)據(jù)的質(zhì)量和合法性。通過“破壞式掃描”,Anthropic得以快速高效地將書籍轉(zhuǎn)化為PDF格式,為AI模型的訓(xùn)練提供了充足的數(shù)據(jù)資源。
值得注意的是,盡管非破壞性掃描技術(shù)已經(jīng)相當(dāng)成熟,并被多家機(jī)構(gòu)所采用,如Internet Archive便開發(fā)出能夠保留原書的數(shù)字化方式,OpenAI和微軟也與哈佛大學(xué)圖書館合作,計劃數(shù)字化近百萬本公版書籍,確保書籍原版得到妥善保存。相比之下,Anthropic的做法顯得更為激進(jìn),無疑為AI訓(xùn)練領(lǐng)域帶來了新的思考角度。
隨著人工智能技術(shù)的不斷發(fā)展,如何在尊重知識產(chǎn)權(quán)的前提下獲取訓(xùn)練數(shù)據(jù),成為了業(yè)界亟待解決的問題。Anthropic的這一嘗試,盡管在公眾和法律界引發(fā)了廣泛爭議,但也為未來的AI發(fā)展提供了新的方向和可能性,引發(fā)了業(yè)界對于數(shù)據(jù)獲取方式的深入思考和探討。