在人工智能領域的一次重大進展中,字節旗下的豆包大模型在2024年末全面展示了其跨領域的技術飛躍。自今年5月首次亮相以來,短短七個月內,豆包大模型在通用語言處理、視頻生成、語音交互以及視覺理解等多個維度上,均取得了與國際頂尖技術并跑的成就。
最新版本的豆包通用模型——Doubao-pro-1215,其綜合能力相較于5月版本提升了32%,并已全面對標GPT-4o。尤其在處理數學難題及專業知識等復雜任務時,豆包模型的表現甚至更為出色。這一顯著進步得益于團隊在數據優化、模型稀疏度提升、強化學習引入以及系統性工程優化等方面的不懈努力。Doubao-Pro在保持高性能的同時,實現了推理服務價格的大幅降低,僅為GPT-4o的八分之一。
在圖像與視頻處理領域,豆包大模型團隊于9月推出了PixelDance與Seaweed兩款視頻生成模型,它們擅長精準理解復雜提示詞、保持鏡頭一致性、實現多交互主體靈活控制。同時,豆包文生圖模型持續迭代,新增了通用圖像編輯功能,使得“一句話P圖”和“一鍵生成海報”成為可能。12月發布的Doubao-vision視覺理解模型,更是將視覺與語言深度結合,實現了多感官的思考與創作,其在十多個主流數據集上的表現與Gemini 2.0和GPT-4o相當。
語音方面,豆包大模型團隊推出了全新的語音識別模型Seed-ASR和語音生成基座模型Seed-TTS,通過引入多樣化數據、融合推理鏈,賦予了模型強大的泛化能力。豆包語音模型不僅能聽懂20種以上方言夾雜的對話,還能在會話中表達情感,保留人類習慣,如吞音、口音等,且在交互中可隨時被打斷,實現了更加自然流暢的語音交互。
更進一步的是,豆包大模型已具備高品質的“唱作”能力,從詞曲編輯、演奏生成到人聲演唱,一個AI就能組成一個樂隊。這背后依托的是Seed-Music音樂生成模型框架,它結合了語言模型與擴散模型的優勢,實現了音樂生成的通用框架,并提供了極高的編輯可控性。
豆包大模型團隊還首次披露了其300萬字窗口的長文本處理能力,能夠輕松閱讀上百篇學術報告,每百萬tokens的處理延遲僅需15秒,這一性能達到了業界的極限水平。這一成就得益于STRING等上下文關聯數據算法和模型加速優化的支持,使得LLM能夠更有效地利用海量外部知識,并通過稀疏化及分布式方案將時延降至十秒級。
在代碼能力方面,豆包代碼大模型Doubao-coder的編程能力達到了專業級水平,支持超過16種編程語言及11類真實應用場景,滿足全棧編程開發需求,包括前后端開發、機器學習等。
豆包大模型團隊在AI基礎研究方面也取得了顯著成果。過去幾個月里,團隊有57篇論文入選ICLR、CVPR、NeurIPS等國際頂級會議,并發布了下載量超百萬的開源項目及GitHub上的熱門項目。同時,團隊與近20所高校建立了深入合作關系,支持了40多位頂尖學者參與關鍵AI技術的研發,并與清華大學AIR、北京大學分別成立了聯合實驗室。
為了儲備最具潛力的研究人才,豆包大模型團隊啟動了“Top Seed人才計劃”,在全球范圍內招募頂尖博士畢業生加入,共同挑戰世界級AI課題。目前,豆包大模型的相關技術能力已支撐了包括豆包APP、即夢、豆包MarsCode等在內的50多個C端應用場景,其中豆包APP已成為國內備受歡迎的AI產品。通過火山引擎,豆包大模型還服務了30多個行業,日均tokens調用量超過4萬億,較5月發布時增長了33倍。