這幾天朋友圈異常熱鬧,導火索來自前阿里AI科學家賈揚清的一則消息,他說某國產大模型抄襲了META 的LLaMA架構,并且只換了幾個變量名稱就說成是自研,譴責這種行為沒有底線。就在很多人拿著國產大模型一對一比對,猜測是哪家公司這么干的時候,“肇事者”終于“浮出了水面”,原來是創(chuàng)新工場董事長兼 CEO 李開復推出的“零一萬物”(Yi-34B)。
關于抄襲的“大鍋”
有國外開發(fā)者直接點名,在零一萬物的Hugging Face開源主頁上,開發(fā)者ehartford質疑稱該模型使用了META LLaMA的架構,只修改了兩個tensor(張量)。零一萬物曾在幾天前表述,最新發(fā)布的開源大模型Yi-34B性能卓越,一鳴驚人。該公司有沖進第一陣營的初心和決心,擁有可以對標 OpenAI、google等一線大廠的團隊。抄襲事件出來以后, 零一萬物公開致歉,并表示會在各開源平臺重新提交模型及代碼,補充LLaMA 協(xié)議副本的流程,盡速完成各開源社區(qū)的版本更新。
很明顯,零一萬物光明正大地承認自己在模型訓練過程中,沿用了GPT/LLaMA的基本架構,正是因為LLaMA社區(qū)在開源上的貢獻,使得零一萬物可以快速起步。
至此,我們不去評價功過是非,當所有國內大模型都松了一口氣,這口“鍋”沒砸在自己的頭上時,關于開源與自研的問題再次引起爭議。
其實,在之前的軟件時代,國產軟件的自主創(chuàng)新能力就遭遇過質疑。由于我國基礎軟件基礎薄弱,起步較晚,我們最早大量采用開源,導致我們的軟件被稱為是“開源套殼”。的確,國產軟件在研發(fā)過程中,確實存在著一部分功能采用歐美企業(yè)軟件來實現,導致我們現在還在受這些企業(yè)的專利限制,并支付專利費用。事實上,在全球化科技環(huán)境中,跨國競爭與合作是一種常態(tài),各種技術創(chuàng)新都建立在前人實踐的成果之上。換言之,開源的使用并不意味著缺乏自主創(chuàng)新能力,而是基于社區(qū)可靠性和廣泛性支持,可以幫助更多企業(yè)構建更穩(wěn)定的應用。
只不過,不管你是開源的玩法,還是選擇自研創(chuàng)新,都要遵守游戲規(guī)則。你是怎樣一種狀況,就要清清楚楚告訴用戶,尊重各自的勞動成果,這是一家企業(yè)最基本的行為準則。
開源,還是閉源?
從去年底開始,國內外均以肉眼可見的速度奔向大模型,各種文生文、文生圖、文生視頻等應用,如雨后春筍般誕生,這背后開源的基礎架構帶來了強大的推動力。因為,有了開源的數據、算法和框架,其他企業(yè)就不用重復造輪子,可以讓科技創(chuàng)新更高效。那么,到底如何評價一個模型是不是自研?業(yè)內有一種說法是,如果你采用的算法和框架是自己實現的,同時數據是自己收集、清洗的,那就算自研;如果其中三項均來自開源,那就不能被認為是自研。
需要特別注意的是,在開源環(huán)境下,模型的自研性并不是唯一的考量標準,還需要考慮模型的實用性、性能和可靠性等因素。所以,如果你使用了開源的框架,同時遵守了開源社區(qū)的規(guī)范和準則,不侵犯他人知識產權,并且盡可能回饋給開源社區(qū),促進開源社區(qū)的發(fā)展,那這個模型就可以被認定為是自研。
事實上,當大模型開始狂飆,很多企業(yè)都在這個問題上糾結過。有了開源,我們還需要自研嗎?最終,大多數企業(yè)的選擇都是同一個,那就是只能借鑒,不能全盤照抄!模型訓練不是開黑盒,只要做不到完全透明,就存在安全風險。
目前,大模型正在向各個行業(yè)和企業(yè)滲透,比如:金融行業(yè)的信息評估預測、醫(yī)療行業(yè)的影像分析和藥物研發(fā)、零售行業(yè)的銷售分析和市場預測、制造業(yè)的生產數據分析和調度計劃等,都會受到前所未有的影響,我們必須要構建出屬于自己的可以自主可控的模型,才能擁有最終話語權。
現實情況是,對于很多互聯(lián)網大廠來說,如果沒有自己的大模型生態(tài),那意味著未來的發(fā)展會受阻,甚至出局,所以大模型是必選項。而一些小企業(yè),則依附更大的生態(tài)來發(fā)展自己垂直領域的模型。所以,大模型看起來非常熱鬧,已經演變成“百模之爭、千模大戰(zhàn)”,但背后的競爭也會更加殘酷。對于每一個入局的玩家而言,只有找準“賽點”,才能在白熱化的競爭中存活下來。