新浪科技訊 9月25日下午消息,近日,國內AI訓練數(shù)據(jù)頭部服務商——云測數(shù)據(jù)宣布發(fā)布面向垂直行業(yè)大模型AI數(shù)據(jù)解決方案,面向企業(yè)提供包括基礎數(shù)據(jù)集、數(shù)據(jù)定制化采集標注和標注平臺工具等服務,提供從持續(xù)預訓練、任務微調、評測聯(lián)調測試到應用發(fā)布的端到端過程中的高質高效數(shù)據(jù),為垂直行業(yè)大模型應用落地提供關鍵支撐。
在與新浪科技溝通中,云測數(shù)據(jù)賈宇航表示,通用大模型到垂直行業(yè)大模型的落地主要會經(jīng)歷三個階段,分別是持續(xù)訓練、微調以及行業(yè)聯(lián)評,只有當走完這些環(huán)節(jié)以后,面向垂直行業(yè)領域的大模型才能正式地在特定行業(yè)領域投入使用。
據(jù)介紹,目前云測數(shù)據(jù)的該大模型數(shù)據(jù)解決的該方案,已經(jīng)在電商、金融、保險等行業(yè)內進行落地應用。
垂直行業(yè)大模型落地應用,需分三步走
當前,大模型在各領域中百花齊放,但大模型產(chǎn)業(yè)化仍面臨諸多挑戰(zhàn)。其中,優(yōu)質數(shù)據(jù)作為大模型發(fā)展最為核心的要素之一,如何獲取、使用垂直行業(yè)的高質量AI數(shù)據(jù)仍困擾著諸多企業(yè)。
據(jù)賈宇航介紹,此次云測數(shù)據(jù)發(fā)布的垂直行業(yè)大模型數(shù)據(jù)解決方案,憑借云測數(shù)據(jù)在數(shù)據(jù)采集方面的專業(yè)能力和豐富數(shù)據(jù)資源,可以高效獲取不同場景(如圖像、視頻、文本等)所需的大規(guī)模多樣化高價值數(shù)據(jù),為企業(yè)大模型的訓練提供可靠的場景數(shù)據(jù)源。
賈宇航介紹指出,在從通用大模型走向垂直行業(yè)大模型的過程中,垂直行業(yè)大模型的運用落地需走過三個重要階段,分別是持續(xù)訓練、微調以及行業(yè)聯(lián)評。在持續(xù)性訓練階段,需要基于垂直行業(yè)數(shù)據(jù),讓大模型去學習并了解垂直領域到底需要哪些數(shù)據(jù);之后會進入微調階段,通過人為干預或特定標注等方式,讓大模型能夠以更加貼合具體場景需求的方式去生成內容;最后還需要通過行業(yè)聯(lián)評等方式,讓合格的模型通過,不合格的再去做一些更具體的微調。
據(jù)介紹,在面對微調任務領域,云測數(shù)據(jù)提供的方案會根據(jù)大模型落地場景特點,提供包含QA-instruct、prompt等文本類任務項目和多模態(tài)大模型的相關能力支持。在完成微調后通過云測數(shù)據(jù)垂直領域的人員和專家積累+評測體系等服務,幫助企業(yè)對各個垂直應用落地領域進行評估。并通過以集成數(shù)據(jù)底座為核心的數(shù)據(jù)標注平臺,將難例數(shù)據(jù)回流完成清洗標注,為更有效率的模型調優(yōu)做準備,并實現(xiàn)標注精準度最高可達99.99%的高質量交付。
大模型iPhone時刻未至,未來存在三種形態(tài)
伴隨著大模型技術的出現(xiàn)與快速普及,與大模型技術發(fā)展強相關的算力、算法、數(shù)據(jù)等服務需求也得以催生。與之相對應的, 國內眾多科技互聯(lián)網(wǎng)企業(yè)也紛紛推出了與之相對應的服務。
據(jù)賈宇航介紹,在大模型數(shù)據(jù)服務領域,云測數(shù)據(jù)從2017年做數(shù)據(jù)服務開始,便長期以場景化數(shù)據(jù)服務為起點,在電商、汽車出行、家居、金融、智慧城市等領域進行深耕布局。因此,在特定的行業(yè)領域,云測數(shù)據(jù)擁有豐富的行業(yè)AI數(shù)據(jù)服務、技術能力積累。
目前,云測垂直行業(yè)大模型數(shù)據(jù)服務方案,已經(jīng)在電商、金融、保險等場景展開落地。賈宇航介紹指出,目前國內大模型行業(yè)發(fā)展剛開始起步,更多的企業(yè)布局仍處于從0到1階段。因此,公司在面向大模型企業(yè)提供服務的同時,也會面向更多有大模型使用需求的非技術型企業(yè)提供服務。
此前,英偉達創(chuàng)始人黃仁勛曾將基于GPT3.5大模型的ChatGPT出現(xiàn),定義為生成式AI技術發(fā)展的“iPhone時刻”。但在賈宇航看來,目前距離真正的大模型“iPhone時刻”到來,還有一段時間。
“大模型這一項技術,正逐漸被應用在很多的AI應用、研發(fā)的企業(yè)中。但其實真正的iPhone時刻更多的還是從交互邏輯上去講的,并不是從技術角度去講。”賈宇航表示。在他看來,大模型還遠遠沒有到自己的“iPhone時刻”。
在他看來,未來大模型可能會存在三個類別:第一類是圍繞用戶自身的終端大模型,更多是用來記錄用戶行為、喜好的,相當于一個用戶ID。第二類是特定垂直領域大模型,具備自己的專業(yè)知識和能力,會于用戶的ID去登錄并提供對應的服務。第三類是通用大模型,未來將成為類似操作系統(tǒng)一類的存在。