近日,科技界掀起了一場關(guān)于meta公司最新發(fā)布的大語言模型Llama 4的風波。Llama 4系列,包括Scout與Maverick兩個版本,本應成為meta在人工智能領(lǐng)域的又一力作,然而,一則指控其模型訓練過程中存在作弊行為的爆料,迅速在網(wǎng)絡上發(fā)酵。
在一則發(fā)布于海外知名留學求職論壇“一畝三分地”的帖子中,一位自稱參與Llama 4訓練的內(nèi)部員工揭露了驚人內(nèi)幕。據(jù)該員工透露,Llama 4的內(nèi)部測試表現(xiàn)始終未能達到業(yè)界開源的頂尖水平(SOTA)基準。面對這一困境,公司領(lǐng)導層竟決定采取非常手段,即在訓練的后期階段,將用于評估模型性能的基準測試“測試集”數(shù)據(jù),悄悄混入了訓練或微調(diào)的數(shù)據(jù)集中,以期在最終的性能測試中交出一份光鮮亮麗的成績單。
這一爆料迅速引起了科技界的廣泛關(guān)注。知名科技媒體TechCrunch也發(fā)表文章,對Llama 4的性能測試提出了質(zhì)疑,認為其可能存在誤導性。文章指出,如果meta確實在測試集上進行了預訓練,那么Llama 4所展示的性能數(shù)據(jù)將大打折扣,其真實能力遠未達到宣傳所宣稱的高度。
面對輿論的洶涌波濤,meta AI部門的副總裁Ahmad Al-Dahle于4月8日凌晨緊急發(fā)表聲明進行回應。他在聲明中強調(diào),Llama 4的發(fā)布是基于其準備就緒的原則,因此,在不同服務中模型的質(zhì)量存在差異是在所難免的。meta正在積極努力修復這些漏洞,并承諾將盡快提升模型性能。同時,他堅決否認了meta在測試集上進行預訓練的說法,表示meta始終秉持誠信原則,致力于推動人工智能技術(shù)的健康發(fā)展。
然而,盡管meta方面已經(jīng)做出了回應,但這場風波的影響似乎并未就此平息。許多業(yè)內(nèi)人士和網(wǎng)友對meta的解釋持懷疑態(tài)度,認為其未能充分證明Llama 4的性能數(shù)據(jù)真實無誤。這場關(guān)于Llama 4的爭議,無疑給meta的人工智能戰(zhàn)略蒙上了一層陰影,也再次引發(fā)了人們對于人工智能技術(shù)評估體系透明度和公正性的深思。
隨著事件的進一步發(fā)展,人們期待著meta能夠拿出更有力的證據(jù)來證明自己的清白,同時也希望整個科技界能夠以此為契機,加強對于人工智能技術(shù)評估體系的監(jiān)管和完善,確保人工智能技術(shù)的健康、可持續(xù)發(fā)展。