來源:中國經(jīng)濟周刊-經(jīng)濟網(wǎng)訊 作為人工智能發(fā)展的重要方向,大模型具有效果好、泛化性強、研發(fā)流程標準化的特點,為人工智能的進一步發(fā)展帶來全新機遇。
當前,大模型發(fā)展百花齊放,深度賦能千行百業(yè),但其在產(chǎn)業(yè)化過程中仍面臨諸多挑戰(zhàn)。其中,如何高效獲取和有效使用垂直行業(yè)的數(shù)據(jù)是核心。
在2023年中國國際服務貿(mào)易交易會上,云測數(shù)據(jù)結合自身在智能駕駛、智慧金融、AIOT、電商等領域的豐富經(jīng)驗和技術積累,將去年發(fā)布的“AI工程化的數(shù)據(jù)解決方案”全面升級,面向垂直行業(yè)大模型提供全生命周期的AI數(shù)據(jù)解決方案,為大模型應用落地提供關鍵支撐,助力行業(yè)大模型高質(zhì)量發(fā)展。
高質(zhì)量數(shù)據(jù)破解大模型“幻覺”
大模型的研發(fā)離不開算法、算力和數(shù)據(jù)的綜合支撐。近兩年,受益于三者的快速發(fā)展,AI大模型進入爆發(fā)式增長。其中,數(shù)據(jù)是推動大模型高質(zhì)量發(fā)展的關鍵。
“大模型的預訓練對數(shù)據(jù)要求特別高,必須在前期進行清洗、標注、標識,但圍繞千行百業(yè)的數(shù)據(jù)訓練,在數(shù)據(jù)供給方面也呈現(xiàn)出了許多問題和挑戰(zhàn)。” 上海數(shù)據(jù)交易所副總經(jīng)理韋志林在媒體采訪時提到。
近期,大模型“幻覺”也被各大科技企業(yè)頻繁提及。大模型“幻覺”指模型生成不正確、無意義或不真實文本的現(xiàn)象,這也常被人們稱為是“一本正經(jīng)地胡說八道”。
“幻覺”問題的出現(xiàn)和大模型核心技術原理有關,即Transformer架構下的Next Token Prediction,即“下一個字符的預測”。因此,提高數(shù)據(jù)的數(shù)量、質(zhì)量和多樣性,對于大模型提高性能至關重要。“以數(shù)據(jù)為中心”,成為越來越多業(yè)內(nèi)人士的共識。
當前,各家大模型在算力和算法方面尚且無法拉開巨大差距,這讓“數(shù)據(jù)”成為各家企業(yè)殺出“百模大戰(zhàn)”重圍的關鍵之戰(zhàn)。
深定制數(shù)據(jù)解決方案,助力獲取高價值AI數(shù)據(jù)
就在剛剛結束的2023年服貿(mào)會成果發(fā)布上,云測數(shù)據(jù)全新公布了旗下AI數(shù)據(jù)解決方案,致力于通過場景化的數(shù)據(jù)服務行業(yè),為人工智能企業(yè)和用戶提供基礎數(shù)據(jù)集、數(shù)據(jù)標注和數(shù)據(jù)管理工具鏈,進一步提升算法精度。
據(jù)介紹,該AI數(shù)據(jù)解決方案可為行業(yè)大模型提供從持續(xù)預訓練、任務微調(diào)、評測聯(lián)調(diào)測試到應用發(fā)布,全生命周期的高質(zhì)高效數(shù)據(jù),幫助垂直行業(yè)企業(yè)更好地落地大模型相關算法應用。
作為擁有面向行業(yè)場景數(shù)據(jù)采集能力和豐富數(shù)據(jù)集積累的數(shù)據(jù)服務商,云測數(shù)據(jù)可以為行業(yè)客戶深度定制數(shù)據(jù)采集方案,助力獲取高價值場景化數(shù)據(jù)。
當面對微調(diào)任務時,可以根據(jù)大模型落地場景特點,提供包含QA-instruct、prompt等文本類任務項目和多模態(tài)大模型的相關能力支持。微調(diào)后,云測數(shù)據(jù)通過垂直領域專家積累+評測體系和服務,幫助企業(yè)評估各個垂直應用落地領域。通過以集成數(shù)據(jù)底座為核心的數(shù)據(jù)標注平臺,將難例數(shù)據(jù)回流完成清洗標注,為更有效率的模型調(diào)優(yōu)做準備。
在機器學習、自然語言處理和其他人工智能領域中,難例數(shù)據(jù)常指模型訓練和測試中難以逾越的障礙,需要特別關注和解決。常見的難例數(shù)據(jù)包括拼寫錯誤、語法錯誤、不完整或冗余的信息、歧義性和模糊性等。
目前,云測數(shù)據(jù)深度合作伙伴覆蓋了多個行業(yè),包括汽車、安防、手機、家居、金融、教育、新零售、生態(tài)系統(tǒng)等。其中,包含多家世界500強企業(yè)、高校科研機構、政府機構、頭部AI企業(yè)和大型互聯(lián)網(wǎng)企業(yè)。