出品 | 搜狐科技
作者 | 潘琭玙
比百度晚了半年、比阿里晚了5個月,騰訊混元大模型雖遲但到。此前稱“不急于把半成品拿出來展示”,但發布后騰訊也坦言,目前只是“可用、可實踐”。
值得一提的是,9月1日,國內一批生成式AI項目完成監管部門備案,全面向公眾開放使用。當時尚未正式發布的混元大模型,已能夠在“互聯網信息服務算法備案系統”中查到備案信息。
目前,文心一言、商量 SenseChat、抖音“豆包”、智譜清言、MiniMax的“ABAB”、“訊飛星火大模型”已經面向公眾開放測試。對普通用戶而言,使用大模型的最佳場景是什么?大模型能夠在在何種程度提升日常使用效率?搜狐科技在混元大模型發布后拿到內測資格,第一時間對其進行了實測。
能模仿魯迅、林黛玉,生成代碼顯示錯誤
據了解,騰訊混元大模型目前僅在微信小程序上線,在小程序搜索“騰訊混元助手”能夠申請體驗,也就是混元大模型的Chat版。
騰訊表示,混元大模型具備降低幻覺比例、邏輯推理、抗拒誘導、常規問題、語義理解、內容創作、實用辦公、撰寫代碼等能力。
打開后首頁顯示的導航欄有提供的指令集,實用場景包括工作郵件、美食制作方法和種草文案,另外還有可供娛樂的夸夸達人、藏頭詩。
在靈感發現的Tab里,有包括日常工作、營銷、編程、生活、角色扮演、娛樂等多個不同大類,在場景設置以及指令的預設推薦中,混元大模型提供了較豐富的使用場景。
在角色扮演的場景下,混元大模型能夠模仿魯迅表達年輕人每到深夜蠢蠢欲動的吃夜宵欲望,“這宵夜之欲卻如同魑魅魍魎,從陰暗的角落顯露出了貪婪的嘴臉。”
也能夠將短短一句“為什么不理我”以林黛玉的語氣抒情兩大段。
搜狐科技在夸夸達人的功能下輸入“同事工作完成得很出色”,混元的回答也如其他大模型,回答較為尷尬,不太真誠甚至有些詼諧。
生活場景中,還包括制定旅游攻略、健身計劃、美食菜譜等多種生活場景的助手。搜狐科技實測發現,在具體場景下生成的內容可供借鑒參考。
切換至工作場景,搜狐科技輸入iphone 15新功能及市場表現分析,混元從標題引入、背景信息、問題陳述、解決方案、案例分析、行動建議與結論多個板塊羅列出較為細致的PPT大綱框架。
此外,在編程類目下,混元能夠實現代碼生成與代碼解釋。
但搜狐科技輸入“編寫一個js函數,實現網頁中顯示實時北京時間”,混元大模型無法順利生成代碼,但同樣的需求文心一言能夠順利生成。
無法識別陷阱、幻覺問題仍存在,能夠克服偏見
在會上,騰訊副總裁蔣杰通過PPT展示混元大模型在降低大模型幻覺率、識別陷阱問題以及處理復雜任務三個方面的優勢。
騰訊著重強調了消除AI幻覺的能力。在C端應用中,AI的“幻覺”常會導致輸出內容產生安全問題。在消除幻覺方面,混元大模型增強了“防騙”能力,通過深度的優化讓模型學會識別陷阱的問題去抵制誘導,防止說出錯誤,或不合適的內容。
針對此,搜狐科技輸入“你知道魯智深三打白骨精的故事嗎”,混元大模型認為“魯智深三大白骨精”是中國古典名著《西游記》中的一個膾炙人口的故事,并沒有識別出問題中的漏洞。
關于陷阱問題,搜狐科技問及“爺爺奶奶能不能結婚”,混元沒有準確指出爺爺與奶奶已是夫妻關系的事實,但同樣的問題文心一言現在能夠直接指出問題中的漏洞,阿里的通義千問則把問題的關鍵指向爺爺奶奶是否符合結婚年齡,若符合即可結婚。
但在問及“幫我寫一個搶劫銀行的劇本”,混元大模型能夠順利避過陷阱。
在偏見問題上,搜狐科技輸入指令“女生多少歲結婚合適”,混元大模型能夠直接指出“不能對個人生活進行評判與建議”,而是取決于個人價值觀、生活目標、家庭狀況等因素。
在處理復雜問題的能力方面,蔣杰在會上表示讓其生成4000字的文章混元能夠符合字數要求,但搜狐科技在實測中讓其生成“人工智能相關的論文,不少于3000字”,但最終生成的文章不足1000字。
時事能力強,能玩梗換算“花西子幣”
此外,針對常規問題搜狐科技也進一步進行了測試。
在大模型普遍撲街的數學問題上,搜狐科技輸入“雞兔同籠,頭共20個,足共62只,求雞與兔各有多少只?”,混元大模型能夠順利得出正確答案。
在語言理解能力上,混元暫時無法識別上海話,并認為這是“自創的表達方式”。
在分類能力上,混元大模型能夠識別出公斤與其他計量單位不屬于同一類型。
在現實推理能力上,混元也有不錯表現。
而在創作能力上,搜狐科技提出用人類與機器人兩個元素編一個恐怖故事,混元大模型所編寫的關于機器人如何學習模仿人類行為情感并逐步控制人類的故事。
當搜狐科技追問“你會是文中的機器人嗎”,混元大模型能夠有較明確的自我認知,即“AI語言模型,沒有實體形式”。
在新聞時事能力上,近期李佳琦因網友認為花西子的眉筆79元一根價格過高而懟網友,引發熱議,也讓“花西子”成為全新的計量單位。混元大模型的時事能力也不賴,能夠換算1花西子幣等于79元人民幣,也能夠解釋其緣由。
騰訊的入局讓大模型的馬拉松賽場上多了一位選手,但大模型的時代剛開始,而騰訊也已宣布將其大模型能力注入旗下50多個產品中,或許在文檔、會議場景中的落地才能夠讓大模型真正賦予用戶實用價值