來源:中國經濟周刊-經濟網訊 作為人工智能發展的重要方向,大模型具有效果好、泛化性強、研發流程標準化的特點,為人工智能的進一步發展帶來全新機遇。
當前,大模型發展百花齊放,深度賦能千行百業,但其在產業化過程中仍面臨諸多挑戰。其中,如何高效獲取和有效使用垂直行業的數據是核心。
在2023年中國國際服務貿易交易會上,云測數據結合自身在智能駕駛、智慧金融、AIOT、電商等領域的豐富經驗和技術積累,將去年發布的“AI工程化的數據解決方案”全面升級,面向垂直行業大模型提供全生命周期的AI數據解決方案,為大模型應用落地提供關鍵支撐,助力行業大模型高質量發展。
高質量數據破解大模型“幻覺”
大模型的研發離不開算法、算力和數據的綜合支撐。近兩年,受益于三者的快速發展,AI大模型進入爆發式增長。其中,數據是推動大模型高質量發展的關鍵。
“大模型的預訓練對數據要求特別高,必須在前期進行清洗、標注、標識,但圍繞千行百業的數據訓練,在數據供給方面也呈現出了許多問題和挑戰。” 上海數據交易所副總經理韋志林在媒體采訪時提到。
近期,大模型“幻覺”也被各大科技企業頻繁提及。大模型“幻覺”指模型生成不正確、無意義或不真實文本的現象,這也常被人們稱為是“一本正經地胡說八道”。
“幻覺”問題的出現和大模型核心技術原理有關,即Transformer架構下的Next Token Prediction,即“下一個字符的預測”。因此,提高數據的數量、質量和多樣性,對于大模型提高性能至關重要。“以數據為中心”,成為越來越多業內人士的共識。
當前,各家大模型在算力和算法方面尚且無法拉開巨大差距,這讓“數據”成為各家企業殺出“百模大戰”重圍的關鍵之戰。
深定制數據解決方案,助力獲取高價值AI數據
就在剛剛結束的2023年服貿會成果發布上,云測數據全新公布了旗下AI數據解決方案,致力于通過場景化的數據服務行業,為人工智能企業和用戶提供基礎數據集、數據標注和數據管理工具鏈,進一步提升算法精度。
據介紹,該AI數據解決方案可為行業大模型提供從持續預訓練、任務微調、評測聯調測試到應用發布,全生命周期的高質高效數據,幫助垂直行業企業更好地落地大模型相關算法應用。
作為擁有面向行業場景數據采集能力和豐富數據集積累的數據服務商,云測數據可以為行業客戶深度定制數據采集方案,助力獲取高價值場景化數據。
當面對微調任務時,可以根據大模型落地場景特點,提供包含QA-instruct、prompt等文本類任務項目和多模態大模型的相關能力支持。微調后,云測數據通過垂直領域專家積累+評測體系和服務,幫助企業評估各個垂直應用落地領域。通過以集成數據底座為核心的數據標注平臺,將難例數據回流完成清洗標注,為更有效率的模型調優做準備。
在機器學習、自然語言處理和其他人工智能領域中,難例數據常指模型訓練和測試中難以逾越的障礙,需要特別關注和解決。常見的難例數據包括拼寫錯誤、語法錯誤、不完整或冗余的信息、歧義性和模糊性等。
目前,云測數據深度合作伙伴覆蓋了多個行業,包括汽車、安防、手機、家居、金融、教育、新零售、生態系統等。其中,包含多家世界500強企業、高校科研機構、政府機構、頭部AI企業和大型互聯網企業。