2023年,大模型的風(fēng)席卷而來。
根據(jù)賽迪顧問研究顯示,僅2023年1月至7月,我國就有共計(jì)64個(gè)大模型發(fā)布。截至2023年7月,我國已累計(jì)發(fā)布130個(gè)大模型。其中不乏阿里、騰訊、百度、360、科大訊飛等科技大廠,一場“百模大戰(zhàn)”一觸即發(fā)。
大模型要想不斷地升級進(jìn)化,數(shù)據(jù)是不可缺少的基石。根據(jù)相關(guān)消息顯示,在如今 OpenAI 基于 GPT-4 的訓(xùn)練中,不僅包括邏輯推理,更包括如數(shù)據(jù)清洗、高質(zhì)量數(shù)據(jù)標(biāo)注等環(huán)節(jié)。
云測數(shù)據(jù)總經(jīng)理賈宇航表示:“作為人工智能的三要素之一,‘數(shù)據(jù)’從本質(zhì)上決定了人工智能的落地水平。通常來說,數(shù)據(jù)標(biāo)注得越準(zhǔn)確,數(shù)量越多,模型效果越好,最后的AI產(chǎn)品效果就越好。”
可以看到,“百模大戰(zhàn)”的當(dāng)下,企業(yè)需要高質(zhì)量、場景化、高效率的AI數(shù)據(jù)服務(wù)來進(jìn)行數(shù)據(jù)訓(xùn)練,助力大模型更好更快的發(fā)展。
數(shù)據(jù)是大模型勝負(fù)手
作為人工智能的三要素之一,數(shù)據(jù)是關(guān)鍵生產(chǎn)要素和生產(chǎn)資料。
馬斯克就曾公開表示,隨著產(chǎn)品更好地理解問題,所需的算力將減少幾個(gè)數(shù)量級,而“數(shù)據(jù)荒”更難解決,“在某個(gè)時(shí)候,AI訓(xùn)練會(huì)耗盡人類數(shù)據(jù),最終人工智能將不得不自己生成數(shù)據(jù)。”
但是放眼市場,高質(zhì)量的數(shù)據(jù)供給一直是稀缺資源。
7月初,加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)教授斯圖爾特·羅素(Stuart Russell)發(fā)出警告稱,ChatGPT等人工智能驅(qū)動(dòng)的機(jī)器人可能很快就會(huì)“耗盡宇宙中的文本”,通過收集大量文本來訓(xùn)練機(jī)器人的技術(shù)“開始遇到困難”。
研究機(jī)構(gòu)Epoch也估計(jì),機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”。
國內(nèi)也有專家認(rèn)為:“未來一個(gè)模型的好壞,20%由算法決定,80%由數(shù)據(jù)質(zhì)量決定。”
可以說,數(shù)據(jù)質(zhì)量和數(shù)據(jù)量將是下一階段大模型能力涌現(xiàn)關(guān)鍵中的關(guān)鍵。如果數(shù)據(jù)的問題不能解決,意味著大模型發(fā)展將缺少根基。
尤其是,目前來看,未來大模型將往垂直行業(yè)發(fā)展,更需要垂直行業(yè)的高質(zhì)量數(shù)據(jù)。
行業(yè)痛點(diǎn),往往是巨大商機(jī)所在。
龐大的市場需求,給數(shù)據(jù)服務(wù)廠商們帶來了極大的機(jī)會(huì)。提供高質(zhì)量數(shù)據(jù)供給、數(shù)據(jù)元件化和數(shù)據(jù)標(biāo)注成為AI數(shù)據(jù)服務(wù)廠商們新一輪的挑戰(zhàn)。
云測數(shù)據(jù)發(fā)布面向垂直行業(yè)大模型AI數(shù)據(jù)解決方案,以幫助垂直行業(yè)企業(yè)可以更好的落地大模型相關(guān)算法應(yīng)用。
自成立以來,云測數(shù)據(jù)一直聚焦于場景化、高質(zhì)量的AI數(shù)據(jù)服務(wù)。
目前,云測數(shù)據(jù)深度合作伙伴覆蓋了汽車、安防、手機(jī)、家居、金融、教育、新零售、生態(tài)系統(tǒng)等多個(gè)行業(yè)。其中包含眾多世界500強(qiáng)企業(yè)、高校科研機(jī)構(gòu)、政府機(jī)構(gòu)、頭部AI企業(yè)和大型互聯(lián)網(wǎng)企業(yè),涵蓋了計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理、知識(shí)圖譜等AI主流技術(shù)領(lǐng)域。
一直在人工智能數(shù)據(jù)賽道深耕的云測數(shù)據(jù)也深知目前大模型面臨的數(shù)據(jù)痛點(diǎn)。
多年的技術(shù)和多行業(yè)的積累之下,近日,云測數(shù)據(jù)在服貿(mào)會(huì)成果發(fā)布會(huì)上,首發(fā)了面向垂直行業(yè)的大模型AI數(shù)據(jù)解決方案。
具體來看,云測數(shù)據(jù)的垂直行業(yè)大模型AI數(shù)據(jù)解決方案可為行業(yè)大模型提供從持續(xù)預(yù)訓(xùn)練、任務(wù)微調(diào)、評測聯(lián)調(diào)測試到應(yīng)用發(fā)布的端到端過程中的高質(zhì)高效數(shù)據(jù)。
多年的人工智能數(shù)據(jù)服務(wù)經(jīng)驗(yàn)與技術(shù)積累,云測數(shù)據(jù)早已打造了豐富的數(shù)據(jù)樣本資源池以及多維數(shù)據(jù)采集工具和流水線作業(yè)化的數(shù)據(jù)清洗工作平臺(tái),可以基于企業(yè)要求提供定向垂直場景的數(shù)據(jù)服務(wù),為大模型持續(xù)預(yù)訓(xùn)練賦能。
并且,云測數(shù)據(jù)的垂直行業(yè)大模型AI數(shù)據(jù)解決方案搭配了靈活齊全的標(biāo)注工具,差值預(yù)測、自動(dòng)縮框、4D疊幀等等功能一應(yīng)俱全,解決了大模型場景化應(yīng)用所需的豐富的數(shù)據(jù)需求,全方位支持文本、語音、圖像、視頻等各類型數(shù)據(jù)的處理,為下游任務(wù)微調(diào)提供了人機(jī)耦合標(biāo)注能力。
除此之外,云測數(shù)據(jù)的垂直行業(yè)大模型AI數(shù)據(jù)解決方案還支持特定數(shù)據(jù)回流處理。
截至目前,云測數(shù)據(jù)以高質(zhì)量、場景化的AI訓(xùn)練數(shù)據(jù)服務(wù)為基礎(chǔ),持續(xù)為智能駕駛、智慧城市、智能家居、智慧金融等眾多領(lǐng)域提供通用數(shù)據(jù)集、數(shù)據(jù)標(biāo)注平臺(tái)&數(shù)據(jù)管理工具、數(shù)據(jù)采集/數(shù)據(jù)標(biāo)注等服務(wù),全方位支持文本、語音、圖像、視頻等各類型數(shù)據(jù)的處理。
據(jù)了解,云測數(shù)據(jù)垂直行業(yè)大模型數(shù)據(jù)解決方案,可以為行業(yè)客戶深度定制數(shù)據(jù)采集方案,助力獲取高價(jià)值數(shù)據(jù),在面對微調(diào)任務(wù)會(huì)根據(jù)大模型落地場景特點(diǎn),提供包含QA-instruct、prompt等文本類任務(wù)項(xiàng)目和多模態(tài)大模型的相關(guān)能力支持。在完成微調(diào)后,云測數(shù)據(jù)通過垂直領(lǐng)域的人員和專家積累+評測體系和服務(wù),幫助企業(yè)對各個(gè)垂直應(yīng)用落地領(lǐng)域進(jìn)行評估。并通過以集成數(shù)據(jù)底座為核心的數(shù)據(jù)標(biāo)注平臺(tái),將難例數(shù)據(jù)回流完成清洗標(biāo)注,為更有效率的模型調(diào)優(yōu)做準(zhǔn)備。
在賈宇航看來,目前人工智能行業(yè)已經(jīng)從感知智能上升到認(rèn)知智能,需要處理更深入的信息等能力。而云測數(shù)據(jù)將持續(xù)秉持“幫助企業(yè)擁有高質(zhì)量的AI數(shù)據(jù),成就企業(yè)核心競爭壁壘“的理念,為眾多科技的AI能力提供糧草。