
經濟觀察報 記者 周悅
7月4日,開源社區GitHub用戶HonestAGI發布研究報告稱,通過一種“模型指紋”技術(分析Transformer層注意力參數的標準差分布),發現華為盤古Pro MoE 72B與阿里通義千問Qwen-2.5 14B模型的相似度高達0.927(在統計學上,完全一致為1),遠超業內通常的0.7閾值。
該報告作者認為,盤古模型可能在千問模型的基礎上進行了增量訓練,而非完全從零訓練。
事涉華為和阿里,這一報告引發關注。支持者認為,兩個模型在眾多注意力參數上呈現近乎一致的分布,自然發生(非人為干預)的可能性較低。質疑者則指出,這一方法過于簡化,來自Github、知乎等社區的多位用戶認為可能存在cherry picking(選擇性挑選數據)的空間,僅公開少量模型對比樣本、缺乏大規模基準測試等問題。
7月6日,一封自述來自“盤古大模型團隊,華為諾亞方舟實驗室的員工”的匿名信在GitHub平臺發布,作者為HW-whistleblower(華為吹哨人)。該匿名信中提及多個盤古模型的研發過程與組織分工細節。
此后,對盤古大模型與阿里千問大模型相似性,以及華為諾亞方舟實驗室組織結構變化的關注在社交媒體發酵。
總結來看,行業內對華為盤古大模型的關注主要是以下三點:一是首發質疑者的身份與技術方法遭遇到業界質疑,因其缺乏權威背書與實證鏈條;二是模型代碼中出現阿里Qwen團隊版權標識,引發行業內對大模型“自主”“自研”表述的合規討論;三是匿名信直指盤古背后團隊的組織更迭。
一重門:首發質疑方的身份、學術聲譽及所用技術存疑
多位大模型研發人員對經濟觀察報表示,此前幾乎沒有聽說過HonestAGI團隊及其研究成果,也沒有使用或研究過類似的研究方法,難以確認“模型指紋”技術科學性。目前,“模型指紋”檢測尚未成為主流方法,較難成為鑒別模型抄襲的客觀標準之一。
當前亦出現對HonestAGI的作者及其團隊真實性的質疑。其作者自稱是一位來自哥斯達黎加大學的韓國人,參與署名的五位作者身份無法核實,均未依據AI行業慣例提供郵箱或學術履歷。因此,外部無法在Google Scholar、arXiv等主流學術平臺上查看其歷史發表成果。
經濟觀察報檢索該報告引用的文獻內容,發現部分文獻無法在公開數據庫中查驗。截至發稿前,該報告已經在Github刪除,HonestAGI主頁無法找到。
此外,原報告發布在GitHub頁面,但點贊(stars)、收藏(forks)等數據數較低;相比之下,其他具備社區共識的模型安全/評估工具如OpenLlama eval等,往往在發布幾小時內即獲得數百互動。作為對比,OpenLlama eval點贊目前超過7500,收藏超過400。
在當前大模型競爭加劇、開源協作頻繁的背景下,模型開發過程中的版權歸屬、原創性問題一直是被業內重視,但要真正實錘一款模型“抄襲”并不容易。
2024年,一起被廣泛報道的“模型抄襲”事件發生在斯坦福大學學生團隊與中國清華系創業公司面壁智能之間。斯坦福學生推出的Llama3-V模型被指與面壁智能的開源模型MiniCPM-Llama3-V 2.5在模型架構與代碼上高度相似,僅有部分變量名被更改。
曾經參與面壁智能數據標注的清華大學博士后馮聰告訴經濟觀察報,當時斯坦福大學的學生團隊發布了該模型,宣稱性能頂尖且成本極低。面壁智能算法工程師發現,該模型與面壁的模型很相似,但這個懷疑很難被證實。在算法代碼領域,結構相似性較為常見,僅憑直覺難以形成證據鏈。
馮聰發現了一項關鍵性證據。她參與標注的清華簡(戰國竹簡)數據被上述斯坦福大學團隊用到模型里,而這一數據集屬于面壁智能的獨家內容。最終,斯坦福大學的學生團隊開發者在社交平臺公開致歉,承認參考甚至復制了面壁智能開源模型的成果,并迅速撤下相關模型與文檔。
二重門:盤古模型代碼中現阿里版權標識
除參數層面的討論外,用戶HonestAGI還指出,盤古模型開源代碼中出現了“Copyright 2024 The Qwen team, Alibaba Group”等版權聲明。該標注出現在模型組件中,被認為可能與阿里巴巴開源模型千問有關,由此引發外界對模型構建路徑與代碼引用范圍的進一步關注。
從事大模型研究工作的郭程告訴經濟觀察報,在HuggingFace等開源社區,基于第三方開源模型,進行二次預訓練和場景微調的模型發布量已達到百萬量級,大家通常都很直白地說明來源。在這類二創模型發布時,一般會明確標注其為“垂類大模型”,并說明其所基于的底座模型,例如meta的LLaMA模型、阿里的Qwen等。
從頭訓練的、原創開源大模型,通常研發技術難度更高、資源消耗更大,因而數量很少,在開源社區中也很受關注和尊重,具有更為良好的技術影響力和品牌聲譽,比如,meta的LLaMA模型、阿里的Qwen以及DeepSeek等系列模型。
在郭程看來,當前業界對“自研”“自主創新”等語義尚無統一定義。不過,如果一個模型是基于二次預訓練或微調得到的,而對外敘述中采用“從頭訓練”“自研”等表述,“這在行業內通常是不能被接受的”。對于“盤古模型是否采用了已有模型的參數或架構”的問題,他表示,沒有研究過,不便評價。
7月5日,華為諾亞方舟實驗室發布聲明稱:“盤古Pro MoE開源模型是基于昇騰硬件平臺開發、訓練的基礎大模型,并非基于其他廠商模型增量訓練而來。同時,盤古Pro MoE開源模型部分基礎組件的代碼實現參考了業界開源實踐,涉及其他開源大模型的部分開源代碼。我們嚴格遵循開源許可證的要求,在開源代碼文件中清晰標注開源代碼的版權聲明。這不僅是開源社區的通行做法,也符合業界倡導的開源協作精神。”
截至發稿前,阿里方面尚未就此事進行公開回應。
三重門:諾亞方舟實驗室人事更迭
除了模型本身的爭議,此次事件也將盤古大模型背后的組織結構變化帶入公眾視野。
7月6日,自述來自“盤古大模型團隊,華為諾亞方舟實驗室的員工”的匿名信對盤古大模型的訓練路徑選擇、模型架構替換、詞表標準爭議及團隊成員變動等發表看法。
截至發稿前,該匿名信所屬庫在GitHub上點贊達8500,收藏達1100。
該信稱,部分早期模型由“基礎語言大模型”團隊主導訓練,而在后期開源發布與版本迭代過程中,由另一支團隊介入接手,并在代碼、數據、命名權等方面發生交集。在信中,華為方舟實驗室現任主任王云鶴及其小模型團隊被多次提及,并被指疑似存在套殼、續訓及洗水印等行為。
“洗水印”指疑似去除模型中用于標識原創性的數字標記,該匿名信中未提供圖片、郵件、代碼等技術細節佐證,表述為“經過內部的分析,他們實際上是使用Qwen 1.5 110B續訓而來”。
7月8日,另一封匿名信在GitHub引發討論,標題為“討賊王云鶴檄文”。發布賬號為Knemik97,正文中并未自述身份,也未提供圖片、內部郵件、代碼記錄等證明。
兩封匿名信均為自述性內容,未附帶可公開驗證的證據(如內部郵件、代碼記錄等),其核心指控缺乏第三方佐證,亦未獲得華為方面回應或證實。
經濟觀察報向該自述為“盤古大模型團隊員工”的人員求證,截至發稿,未獲得回應。
公開信息顯示,華為諾亞方舟實驗室于2025年3月進行了人事調整,王云鶴接任實驗室主任一職。
王云鶴是一名90后,本科就讀于西安電子科技大學數學與應用數學專業,2018 年博士畢業于北京大學,其曾公開表示“個人主要研究的方向是關于端側AI模型的優化和加速等”。端側AI模型,也通常被業界叫做小模型。
此外,他是華為第四屆“十大發明”之一“大幅提升算力的高效能乘法器和加法神經網絡”的主要發明人。
此前,該實驗室由姚駿負責。姚駿本碩就讀于清華大學,博士畢業于日本京都大學,2009 年至 2014 擔任日本奈良先端科學技術大學院準教授,從事面向深度學習等算法的AI 異構系統的研究。
(應受訪者要求,郭程、馮聰為化名)
(作者 周悅)