實習記者 | 何欣曄
編輯 | 王姍姍
AIGC領域創新產品頻出的當下,與之伴隨的爭議和擔憂也正在同步升溫。
一個月前,微軟宣布旗下代碼托管平臺 Github 的AI生成代碼輔助工具Copilot已集成了最新的GPT-4模型,開發者可以通過與機器人(11.530, 0.01, 0.09%)對話完成諸多日常工作。但這款大熱的代碼工具,目前正面臨著內容使用版權方面的兩起訴訟。
3月末,意大利成為首個明確禁用ChatGPT的國家;伊隆·馬斯克等一千多名業界、學界人士則聯署發表公開信,呼吁所有AI實驗室立即暫停訓練比GPT-4更強大的AI系統,暫停時間至少6個月。
上述公開信還建議,AI開發人員應與政策制定者合作,共同推出更強大的AI監管治理系統,包括內容出處與水印系統,幫助鑒別區分AI合成內容和真實內容,并追蹤模型的數據來源。
的確,大模型以“黑盒”形式迅速迭代發展,其智能程度驚艷世人,但數據內容版權保護以及由此帶來的信息安全、隱私保護等問題,都未得到清晰解釋。
01
訓練和輸出階段的版權爭議
Copilot在2022年6月上線之初就因版權問題遭到抵制,有試用者稱Copilot會直接復制粘貼大段開發者的代碼。德州農工大學計算機教授 Tim Davis 在推特上發文稱,Copilot 在沒有標注歸屬信息的情況下,輸出了大段其所有的受版權保護的代碼。
程序員兼律師Matthew Butterick就旗幟鮮明地反對Copilot。2022年11月,他聯合美國Joseph Saveri律師事務所的3位律師,正式對GitHub Copilot 及其背后的微軟和OpenAI公司提起訴訟。這是美國第一起關于生成式人工智能的集體訴訟。

來源:Matthew Butterick博客
Butterick稱,Copilot違反了開源許可協議,在模型訓練階段,使用了Github社區中的開源代碼作為訓練數據,但抹去了代碼的歸屬信息。代碼的原作者信息無法在輸出結果中被看到,開源社區的開發者可能會因此失去獲得客戶的機會。
GitHub稱Copilot生成代碼的所有權和責任屬于操作者。Butterick和律師團隊的訴狀已提交至美國加州北區地方法院,要求批準 90 億美元的法定賠償金。后來,該團隊以類似的理由代表兩名匿名軟件開發者發起了第二起集體訴訟,被告方分別為GitHub和OpenAI。
在今年1月提交給舊金山聯邦法院的法庭文件中,兩家被告公司稱,原告依靠假設事件來提出索賠,并未指出其個人如何切實地受到Copilot的傷害。GitHub表示,Copilot在工作原理上,不會奪走開源代碼中的任何東西,相反,它根據從公開代碼中學到的知識生成建議,幫助開發人員編寫代碼。
這起訴訟的相關法庭聽證會將在今年5月舉行。而AIGC領域的訴訟不止關于AI代碼工具。
今年1月,Butterick和團隊還代理了三位藝術家起訴AI藝術創作工具Stability Al、DeviantArt和Midjourney的案件,指控Stable Diffusion等工具是21世紀的“拼貼把戲”,它們在未經授權的情況下使用了大量藝術作品。今年1月到2月,美國蓋蒂圖片社(Getty Images)也加入起訴行列,先后在英國和美國對Stability AI提起訴訟,稱其知識產權受到侵犯,被訴公司從Getty Images的數據庫中復制了超過1200萬張圖像。
02
“合理使用”定義模糊
這些站在被告席的AI技術公司,如果能證明在AI訓練對數據的爬取中,模型訓練的用途可以構成“合理使用”免責,就有可能免除內容侵權的訴訟風險。
但是關于“合理使用”的判斷,美國的版權法采取“四要素”分析法,即使用目的和性質、版權作品的性質、所使用部分的量和對作品市場的影響。依據此標準,Copilot 對于現有代碼的使用很難被納入“合理使用”范疇。
在使用性質方面,自2022年7月,Copilot已正式開啟收費模式,具有了盈利的目的;市場影響方面,當前各種類型的AI產品生成的內容會擠壓原作者的生存空間,甚至會替代原有市場。
AI技術公司能拿出的一個對其有利的“先例”是google Books對書籍文本的使用因具有變革性而獲得“合理使用”免責。Copilot對代碼的使用方式似乎也是具有變革性的,有律師認為,它的“合理使用”辯護可能因此得到支持。
對于監管機構來說,“合理使用”認定困境主要在于,如果訓練AI模型的數據不屬于該范圍,那么科技公司就必須向數據所有者支付版權費用,這會阻礙該新興領域的發展;但如果認定屬于“合理使用”,可能導致科技公司肆意使用人類勞動成果。目前,英國知識產權局為促進人工智能發展,已允許出于任何目的的文本和數據挖掘行為。
03
AIGC作品享有版權嗎
今年3月,美國版權局(USCO)發布了一份關于AIGC作品版權的新指南,對AI作品的版權條件進行了說明。指南中提到,通過ChatGPT等AI工具直接生成的作品不受版權法保護,僅以AI作為輔助工具的人類創作的作品可以予以版權支持。
這份指南特別指出,版權只能保護人類創作的作品,憲法和版權法中使用的術語“作者”排除了非人類。
針對藝術家卡什塔諾娃(Kris Kashtanova)的作品《黎明的曙光》的版權認定問題,美國版權局今年2月指出,由藝術家本人撰寫和編排的文字部分受版權保護,但使用Midjourney制作的圖像不享有版權,理由是這些圖像“并非人類創作的產物”。

《黎明的曙光》封面和扉頁。| 來源:美國版權局
對于美國版權局的這一主張,計算科學家斯蒂芬·泰勒(Stephen Thaler)并不同意。他用自己發明的AI程序DABUS制作了一款塑料食品容器和一款閃爍的信標燈,從2018年開始向全球很多國家申請專利。截至目前,除了南非,其他國家均對泰勒的版權申請予以否決,理由是:機器人不具備“發明人”地位。
泰勒認為,版權法沒有理由將作者限制為自然人,不應將專利所有者限制為人類。他還稱,AI正被用于醫學、能源等領域的創新,拒絕AI生成作品專利認證會削弱專利系統的能力,且不利于推動創新和技術進步。
基于現有的法律邊界,由AIGC引發的爭議和訴訟將會越來越多。
斯坦福法學院教授Mark Lemley和Bryan Casey提出,AI訓練所使用的是版權作品中的思想、事實和功能要素,但這些要素并不受版權法保護,因此應該允許AI公司爬取學習這些不受版權保護的內容,實現所謂的“合理學習”。
但是,在推行“合理學習 ”的提議之前,人工智能算法“黑箱”帶來的信息不透明的問題亟待解決。如果版權持有者無法獲得個人作品如何被AI平臺使用的信息,他們難免會假設最壞的情況。
為了規避內容版權風險,AI初創公司ServiceNow Research和HuggingFace創建的AI訓練數據集“The Stack”,只包含開源許可要求寬松的代碼等安全數據,并為開發人員提供了簡單方便的數據刪除機制,但目前使用這種方法的公司并不多。
去年10月,付費圖庫網站Shutterstock宣布與OpenAI建立長期合作關系,同時宣布啟動“貢獻者基金”計劃,當創作者上傳到Shutterstock的作品被用于訓練AI模型時,Shutterstock會補償給創作者一筆資金。藝術社區DeviantArt則在網站上提供了選項,藝術家可以選擇阻止第三方以AI訓練目的抓取他們的內容。
Shutterstock與OpenAI的合作方案,很容易讓人聯想到過去20年數字音樂版權之爭最終各方握手合作的場景。
4月18日,社交新聞網站Reddit發布博客表示,計劃以收費模式,為需要額外功能、更高的使用限制和更廣泛的使用權的第三方推出一個新的高級訪問。“Reddit的數據庫真的很有價值……我們不需要將所有這些價值免費提供給世界上最大的一些公司。”Reddit聯合創始人兼首席執行官Steve Huffman 對媒體表示。早在2016年就有新聞報道提及openAI利用Reddit的海量新聞數據訓練聊天機器人。
每一項新技術在推廣之初幾乎都會因沒有成文法或判例法可以覆蓋而面臨法律挑戰,但爭議最終都會在立法修訂、訴訟案例的豐富與利益相關方長期談判的推進中得到解決。在本世紀初的音樂盜版爭議中,因牽涉的版權持有人、中介機構和許可類型眾多,音樂內容的版權問題十分棘手,但通過利益相關者的談判及Napster案等經典判例的推動,在線音樂平臺與唱片公司最終達成許可交易,實現了版權內容的合法引入。AI技術在內容版權上的糾葛,背后的技術復雜性遠遠高于數字音樂的使用場景。機器智慧的最終目標當然是讓人類受益,但實現這個目標還有一段距離。