字節跳動在近期舉辦的火山引擎Force大會上,正式揭曉了其最新的技術成果——豆包視覺理解模型。這一創新方案以極高的性價比吸引了業界的廣泛關注,其千tokens輸入價格僅為3厘,換算下來,用戶僅需一元錢即可處理約284張720P分辨率的圖片,這一價格相較于市場平均水平降低了85%。
火山引擎總裁譚待在會上詳細介紹了豆包視覺理解模型的強大功能。該模型不僅具備精準的視覺內容識別能力,還展現出了卓越的理解與推理能力。它能夠根據圖像信息執行復雜的邏輯運算,無論是分析圖表、處理代碼,還是解答學科問題,都能游刃有余。豆包視覺理解模型還擁有細膩的視覺描述與創作能力,進一步拓寬了其應用場景。
譚待還透露,豆包視覺理解模型已經成功接入豆包App及PC端產品,并且產品團隊在多模態輸入方面進行了深入的優化,包括語音、視覺等功能的提升,旨在為用戶提供更加便捷、高效的輸入體驗。這些技術成果已通過火山引擎平臺向企業客戶開放。
與此同時,豆包大模型系列也迎來了多項重要更新。據悉,豆包通用模型pro已經全面對標GPT-4o,并在價格上占據明顯優勢,僅為后者的八分之一。音樂模型方面,從原先只能生成60秒的簡單結構,升級到了能夠創作3分鐘的完整音樂作品。文生圖模型2.1版本更是實現了業界首創,能夠精準生成漢字并具備一句話P圖的產品化能力,該版本已經成功接入即夢AI和豆包App。
譚待還分享了豆包大模型未來的發展規劃。他透露,2025年春季將推出具備更強視頻生成能力的豆包視頻生成模型1.5版,同時豆包端到端實時語音模型也將很快面世。盡管豆包大模型發布時間相對較晚,但其在技術迭代和進化方面展現出了驚人的速度。
數據顯示,截至大會舉辦時,豆包通用模型的日均tokens使用量已經突破了4萬億,與七個月前首次發布時相比,增長了驚人的33倍。這一數據不僅彰顯了豆包大模型的市場潛力,也為其未來的發展奠定了堅實的基礎。