近期,AI領(lǐng)域迎來新進(jìn)展,DeepSeek公司發(fā)布了其R1推理AI模型的最新升級(jí)版。該版本在多個(gè)數(shù)學(xué)及編程領(lǐng)域的基準(zhǔn)測試中表現(xiàn)搶眼,引發(fā)了廣泛關(guān)注。然而,圍繞其訓(xùn)練數(shù)據(jù)源的謎團(tuán),卻讓部分AI研究人員心生疑慮。
據(jù)悉,有開發(fā)者發(fā)現(xiàn)DeepSeek的R1-0528模型在表達(dá)風(fēng)格上與Google的Gemini AI系列存在諸多相似之處。墨爾本的開發(fā)者Sam Paeach指出,從用詞到句式,兩者間有著難以忽視的一致性。更令人矚目的是,匿名SpeechMap項(xiàng)目創(chuàng)始人也透露,DeepSeek模型在推理時(shí)展現(xiàn)出的“思考路徑”與Gemini驚人地相似,這進(jìn)一步加劇了業(yè)界對(duì)于DeepSeek訓(xùn)練數(shù)據(jù)源的猜測。
事實(shí)上,這并非DeepSeek首次陷入此類爭議。去年12月,其V3模型因頻繁誤認(rèn)自己為OpenAI的ChatGPT而飽受批評(píng),這一行為讓人懷疑其是否利用了ChatGPT的聊天記錄進(jìn)行訓(xùn)練。今年早些時(shí)候,OpenAI公開表示,已發(fā)現(xiàn)DeepSeek涉嫌使用“數(shù)據(jù)蒸餾”技術(shù)的證據(jù)。據(jù)彭博社報(bào)道,微軟在2024年底察覺到,一些通過OpenAI開發(fā)者賬戶泄露的數(shù)據(jù)可能與DeepSeek有關(guān)。
盡管“數(shù)據(jù)蒸餾”在AI界并不鮮見,但OpenAI對(duì)此有著嚴(yán)格的限制,禁止用戶利用模型輸出開發(fā)競品。然而,在開放網(wǎng)絡(luò)環(huán)境中,由于大量低質(zhì)量內(nèi)容的存在,AI模型間相互模仿用詞和措辭的現(xiàn)象并不罕見,這無疑為追蹤真實(shí)訓(xùn)練數(shù)據(jù)增添了難度。
對(duì)此,人工智能專家Nathan Lambert表示,DeepSeek使用Google Gemini數(shù)據(jù)進(jìn)行訓(xùn)練的可能性并非空穴來風(fēng)。他指出,DeepSeek資金雄厚,完全有能力利用市面上最先進(jìn)的API模型生成合成數(shù)據(jù)。為了應(yīng)對(duì)數(shù)據(jù)提煉帶來的風(fēng)險(xiǎn),AI公司們正不斷強(qiáng)化安全措施。OpenAI已要求組織在完成身份驗(yàn)證后才能訪問高級(jí)模型,而Google也在提升其AI Studio平臺(tái)的安全性,限制對(duì)模型內(nèi)部運(yùn)行軌跡的訪問權(quán)限。