最近,AI target=_blank class=infotextkey>OpenAI在自己的產品研發上開足馬力,與google的大模型之戰進行得如火如荼。不過,令人頗感意外的是,此時的OpenAI竟然成為了被告,被投訴侵權,并且還連帶著它背后的大股東微軟一起。
多名普利策獎得主起訴 OpenAI與微軟:濫用自己作品訓練大模型。
根據路透社消息,當地時間12月21日,共計11位非虛構類書籍的作者在曼哈頓聯邦法院提起訴訟,指控OpenAI 和微軟濫用自己所著的書籍來訓練ChatGPT以及其他AI 軟件背后的大模型。

值得一提的是,這些作家包括普利策獎獲得者凱。伯德;泰勒。布蘭奇;史黛西。希夫。他們曾共同撰寫奧本海默傳記《美國的普羅米修斯》,這部作品在今年被改編成了大熱電影《奧本海默》。
這些作家們聲稱,OpenAI和微軟未經允許使用他們的作品來訓練OpenAI的GPT大型語言模型(LLMs) ,這樣的行為無疑是在“刮取”作家們的作品和其他受版權保護的材料。這種未經授權使用他人作品的行為構成了版權侵權。他們希望獲得經濟賠償,并要求這些公司停止侵犯作家們的版權。
此次作家在曼哈頓聯邦法院提起的訴訟可以看作是先前訟事件的延續和進展。早在11月份,作家和編輯朱利安·桑克頓就曾提起訴訟,也正因此,微軟首次被列為OpenAI訴訟的被告。我們知道,微軟已經向OpenAI投資了數十億美元,并將微軟系統整合到OpenAI的產品中去。在作家們的眼中,這意味著微軟已經深度參與了訓練和開發人工智能模型的研發,對于自己版權被侵權的行為是有責任的。而在今年早些的6月和7月,包括喜劇演員莎拉。西爾弗曼在內的3個人也分別針對ChatGPT的訓練數據問題發起了類似的集體訴訟,起訴OpenAI和META侵權。

顯然,OpenAI被控訴侵權的事件,并非個例。
這些作家普遍持有一種觀點,認為ChatGPT不可能具有總結和分析這些作者內容的能力。所以,所謂“ChatGPT的輸出”,實際上是對原作品侵權而產生的衍生作品。通過非法使用這些作品訓練其GPT語言模型,OpenAI獲得了利益和利潤,這樣是不合法的。此外,訴訟中提及,OpenAI明知訓練數據中包含受版權保護內容,其行為有違使用條款,屬于故意侵權。訴訟要求法院禁止OpenAI進行這種“非法商業行為”,同時判決OpenAI須就侵權行為支付相關賠償和處罰。
目前,OpenAI和微軟還沒有對于這些訴訟給出回應。
AI大模型時代開啟,但背后潛藏的版權問題卻懸而未決。
OpenAI是否要為侵權負責,這一點我們還不得而知,仍舊需要等待法院的判決。但有一點需要引起我們的注意和警惕:AI大模型時代已然來臨,但其中可能涉及到的版權問題卻懸而未決。
AIGC大模型的快速崛起,的確在重塑內容行業創作邏輯,賦能人們工作生活的方面起到了極大的影響,可與此同時,也在版權制度層面引發了一系列新的挑戰。大模型訓練階段究竟涉及哪些版權利用行為?這一過程可能存在哪些侵權風險?又該如何從產業發展的角度搭建科學的大模型訓練和豁免機?這些都是應該被提上日程的重要議題。這些問題如果不能得到有效的解決,那么大模型產業的發展和技術的進步都會面臨很大的不確定性。
目前各類生成式人工智能利用海量內容數據進行模型訓練的方法大致可以分為“兩步走”:第一步是通過購買數據庫,公開爬取等方式獲得海量內容數據,進行一定形式的轉換之后,存儲在相關服務器之中。第二步是對內容數據進行分析處理,以發現一定的模式,趨勢以及相關性并轉變為大模型參數,供后續內容生成時調取使用。而“調取內容”的過程,勢必會涉及到版權問題。

需要說明的是,當我們談及版權問題時,只會單純的考慮AI公司是侵權了,還是沒有侵權。但如果我們把這個問題拆解開,會發現這其中涉及到的,是3個行為:即作品獲取,作品存儲和作品分析。目前,整體來看,只有“作品存儲”行為可以納入版權法“復制權”規制范疇,而更為核心的“作品分析”行為能否受到版權法規制仍值得探討。據不完全統計,自2022年11月至2023年10月,僅美國加州北區法院就已經受理了10起侵權案件,版權人所起訴的AI機構包括Stability AI,OpenAI,Meta,Alphabet等公司。
版權問題尚未解決,其實是“傳統版權模式”在AI時代的失靈,乃至失效。
版權問題歷來是我們關注的重心,盡管各式各樣的侵權事件時有發生,但在傳統版權模式控制之下,版權保護的問題始終有跡可循。但如今,AI時代來臨,傳統的“授權許可模式”似乎在失靈,乃至失效。

因為大模型領域的授權基礎并不明確,它究竟要被授予版權法上的哪一種權利,這值得商榷。按照表面來理解,大模型訓練行為是對作品的“思考吸收再創作”,但這顯然無法和版權的專有權利對應。換句話說,版權人想要發現和舉證模型侵權的問題,也十分困難。
其次,大模型訓練涉及的作品數量眾多,來源各異,權屬不同。如果這些作品都按照傳統授權的“實現許可”的方式尋求授權,工作量顯然是巨大的。一方面,需要精準地將受保護的作品從海量數據中進行分離和提取;另一方面,還要找到每一部版權作品對應的權利人與之協商授權,并支付價格不一的授權費用。這一過程極其漫長復雜,且極難落地操作。
AI版權問題懸而未決,但不意味著大家對此沒有任何的討論和建議,只不過這討論所呈現出來的觀點也是多種多樣的。有人認為,我們應該為信息技術和商業模式的演進,預留出一定的“復制自由”。但也有人認為,高科技產業不能成為“法外之地”,“避風港制度”不應該出現。
版權問題要如何適配全新崛起的AI大模型賽道?或許,只有實際中出現的問題能推進解決方案的出現。當AI發展的體量足夠大,所產生的版權問題足夠多時,相應的答案就會應運而生了。