日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線(xiàn)咨詢(xún)客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

制作于公元前196年的羅塞塔石碑(Rosetta Stone),刻有古埃及國(guó)王托勒密五世登基的詔書(shū)。

石碑上用古希臘文、古埃及象形文以及當(dāng)時(shí)埃及平民使用的通俗體文字刻了同樣的內(nèi)容,這讓考古學(xué)家解讀出失傳千余年的埃及象形文的意義與結(jié)構(gòu),找到讀懂古埃及的密碼。

1.png

△羅塞塔石碑

在AI領(lǐng)域,為了讓機(jī)器讀懂人類(lèi)世界,同樣有這么一塊「羅塞塔石碑」——數(shù)據(jù)標(biāo)注。它的存在讓大規(guī)模訓(xùn)練數(shù)據(jù)的機(jī)器學(xué)習(xí)成為可能。

1

數(shù)據(jù)——新的石油

所謂數(shù)據(jù)標(biāo)注,指的是對(duì)未經(jīng)處理的語(yǔ)音、圖片、文本、視頻等原始數(shù)據(jù)進(jìn)行加工處理, 使其成為結(jié)構(gòu)化數(shù)據(jù)讓機(jī)器可識(shí)別的過(guò)程。

在以深度學(xué)習(xí)為主的感知模型中,主流的深度學(xué)習(xí)訓(xùn)練方法還是監(jiān)督學(xué)習(xí),用這種方法訓(xùn)練,需要向模型「喂」海量的數(shù)據(jù),且數(shù)據(jù)需要是「真值(Ground Truth)」數(shù)據(jù),這些數(shù)據(jù)就來(lái)自于數(shù)據(jù)標(biāo)注。

目前火爆全網(wǎng)的ChatGPT,做出來(lái)的關(guān)鍵并不在于算法,方法論大家都知道,但「喂養(yǎng)」ChatGPT的「數(shù)據(jù)」并不公開(kāi),這里的「數(shù)據(jù)」包括數(shù)據(jù)的獲得、清洗、分類(lèi)、數(shù)據(jù)標(biāo)簽平衡、反饋、區(qū)分帶噪音的數(shù)據(jù)等等,有很多細(xì)節(jié)。

從這不難看出,數(shù)據(jù)在AI發(fā)展過(guò)程中極為重要,業(yè)內(nèi)甚至將數(shù)據(jù)稱(chēng)為「新的石油」來(lái)形容它作為將人類(lèi)智能轉(zhuǎn)化為機(jī)器智能原材料的重要性。

但放眼整個(gè)AI行業(yè),數(shù)據(jù)的受關(guān)注度遠(yuǎn)沒(méi)有AI三元素的的另外兩個(gè)元素——算法和算力來(lái)得高。

造成這個(gè)結(jié)果的最主要原因就是因?yàn)閿?shù)據(jù)標(biāo)注行業(yè)是一個(gè)勞動(dòng)密集型的產(chǎn)業(yè),「足夠廉價(jià)的勞動(dòng)力」是數(shù)據(jù)標(biāo)注公司的一大標(biāo)簽。在新疆、河南、山西等勞動(dòng)力較為低廉的地區(qū),形成了數(shù)據(jù)標(biāo)注的產(chǎn)業(yè)集群。

這樣的標(biāo)簽與站在臺(tái)前的AI企業(yè)形成了強(qiáng)烈對(duì)比,自然很難得到重視。雖然國(guó)內(nèi)數(shù)據(jù)標(biāo)注規(guī)模化發(fā)展時(shí)間較早,但一直沒(méi)有找到明確發(fā)展方向與定位。

直到美國(guó)數(shù)據(jù)標(biāo)注企業(yè)Scale AI,用5年時(shí)間(2016-2021)實(shí)現(xiàn)超73億美金的估值,國(guó)內(nèi)數(shù)據(jù)標(biāo)注行業(yè)才注入了一劑強(qiáng)心劑。

隨后,隨著特斯拉在2022 AI DAY上推出Auto Labelling標(biāo)注平臺(tái),并推出4D標(biāo)注技術(shù),這讓更多人知道了自動(dòng)化標(biāo)注的存在,也讓更多專(zhuān)業(yè)的數(shù)據(jù)標(biāo)注企業(yè)走到臺(tái)前。

星塵數(shù)據(jù)就是其中一員。

2

從人力工廠(chǎng)到數(shù)據(jù)策略專(zhuān)家

曾經(jīng)在大英博物館看到過(guò)羅塞塔石碑的星塵數(shù)據(jù)創(chuàng)始人、CEO章磊,很快就聯(lián)想到了自己所做的數(shù)據(jù)標(biāo)注工作。因此,給星塵數(shù)據(jù)的標(biāo)注平臺(tái)取名為Rosetta。

3月1日,星塵數(shù)據(jù)Rosetta3.0平臺(tái)正式上線(xiàn)。

2.png

△星塵數(shù)據(jù)創(chuàng)始人、CEO章磊

在交流過(guò)程中,章磊提出了標(biāo)注行業(yè)認(rèn)知天梯的概念,認(rèn)為標(biāo)注行業(yè)的初級(jí)認(rèn)知是「人力工廠(chǎng)」,服務(wù)商用相對(duì)初級(jí)的標(biāo)注工具、項(xiàng)目管理和海量人力就能干活,這也是外界對(duì)數(shù)據(jù)標(biāo)注行業(yè)較為普遍的認(rèn)知畫(huà)像。

但到了中級(jí)認(rèn)知,對(duì)項(xiàng)目管理的難度和標(biāo)注工具的復(fù)雜度會(huì)有一定認(rèn)知,投入工具研發(fā)和項(xiàng)目管理成本,研發(fā)周期長(zhǎng),管理難度大,數(shù)據(jù)迭代效率低;而高級(jí)認(rèn)知?jiǎng)t更重視平臺(tái)的技術(shù)實(shí)力,使用高度自動(dòng)化的標(biāo)注平臺(tái),且與數(shù)據(jù)服務(wù)商一起迭代數(shù)據(jù)閉環(huán)和數(shù)據(jù)策略。

在「高級(jí)認(rèn)知」中,章磊特意強(qiáng)調(diào)了數(shù)據(jù)策略的重要性,這也是星塵數(shù)據(jù)的一項(xiàng)重要競(jìng)爭(zhēng)力和產(chǎn)品,其中包括了數(shù)據(jù)增強(qiáng)、數(shù)據(jù)平衡、人機(jī)交互反饋、數(shù)據(jù)選擇以及主觀性數(shù)據(jù)處理。

3.png

傳統(tǒng)的數(shù)據(jù)標(biāo)注流程中,算法人員制定數(shù)據(jù)標(biāo)注規(guī)則,標(biāo)注公司消化后再提供給標(biāo)注團(tuán)隊(duì)。然而,執(zhí)行過(guò)程中,算法的思路并不能一次性達(dá)到最優(yōu);其次,數(shù)據(jù)標(biāo)注人員僅僅是一個(gè)「干活兒的」角色,并不能幫助更好地迭代算法效果。此外,算法側(cè)時(shí)常會(huì)有一些不合理的規(guī)則導(dǎo)致成本飆升或難度大增導(dǎo)致難以執(zhí)行。這就使得即便數(shù)據(jù)量足夠,也往往難以提高模型能力,成本還有所增加,完全是一種事倍功半的狀態(tài)。

章磊認(rèn)為,目前標(biāo)注行業(yè)的供給是低于行業(yè)需求的。

“過(guò)去我們?nèi)钡氖菙?shù)據(jù)量,但現(xiàn)在不缺量,缺的是真正有價(jià)值的數(shù)據(jù)。所以行業(yè)正逐漸從一般性的數(shù)據(jù)采集變成了數(shù)據(jù)挖掘,從海量數(shù)據(jù)中大海撈針,這是當(dāng)前行業(yè)的一個(gè)挑戰(zhàn)。「數(shù)據(jù)策略」就是星塵應(yīng)對(duì)挑戰(zhàn)的策略,同時(shí)也是我們與其他公司最大的一個(gè)不同——我們的定位是人工智能的數(shù)據(jù)策略專(zhuān)家。”

章磊表示,數(shù)據(jù)策略中涉及大量前沿技術(shù),既包括算法中和數(shù)據(jù)相關(guān)的技術(shù),如領(lǐng)域遷移、時(shí)空融合、數(shù)據(jù)增強(qiáng)、弱監(jiān)督學(xué)習(xí)等等,也包括以數(shù)據(jù)為中心的反饋迭代技術(shù),如主動(dòng)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、數(shù)據(jù)檢索、Human-in-the-loop、數(shù)據(jù)安全、場(chǎng)景化數(shù)據(jù)生成、模型測(cè)試等。數(shù)據(jù)策略專(zhuān)家既要了解相關(guān)技術(shù)也要熟悉產(chǎn)品,以專(zhuān)業(yè)性來(lái)服務(wù)客戶(hù)。

“一個(gè)典型的例子是,客戶(hù)在感知算法中因?yàn)闆](méi)有做運(yùn)動(dòng)補(bǔ)償,需要對(duì)相機(jī)信號(hào)和雷達(dá)信號(hào)逐一進(jìn)行人工確認(rèn)。星塵的數(shù)據(jù)策略專(zhuān)家和算法溝通后,提出通過(guò)2DOD算法和3D映射聯(lián)合計(jì)算,通過(guò)IoU篩選候選樣本的方案,并將多個(gè)算法直接以人機(jī)交互的方式嵌入標(biāo)注流程中,節(jié)省了50%以上的標(biāo)注時(shí)間。” 章磊說(shuō)明道。

3

打造數(shù)據(jù)標(biāo)注界的Photoshop

目前企業(yè)在選擇數(shù)據(jù)標(biāo)注服務(wù)時(shí),往往有以下幾種模式:

首先是選擇開(kāi)源工具進(jìn)行數(shù)據(jù)標(biāo)注。但開(kāi)源工具往往只是一個(gè)Demo產(chǎn)品,屬于前端研發(fā)的小工具,缺乏用戶(hù)數(shù)據(jù)加工流程的打磨,中后端產(chǎn)品功能弱。另外,對(duì)于技術(shù)和人員要求高、專(zhuān)業(yè)度強(qiáng)、規(guī)模大、自動(dòng)化高的需求都無(wú)法滿(mǎn)足。

同時(shí),隨著各類(lèi)傳感器和應(yīng)用場(chǎng)景的不斷豐富,自動(dòng)駕駛所需標(biāo)注的數(shù)據(jù)類(lèi)型呈現(xiàn)多樣化,開(kāi)源工具很可能出現(xiàn)底層數(shù)據(jù)和底層架構(gòu)不支持某種數(shù)據(jù)的情況。

第二種模式就是內(nèi)部生產(chǎn),這里還可以細(xì)分出人力是否外包兩種情況。在不外包的前提下,內(nèi)部標(biāo)注團(tuán)隊(duì)人力成本較高,投入產(chǎn)出比很小。同時(shí),由于不是收入部門(mén),預(yù)算有限,技術(shù)迭代積極性就會(huì)較低,這將進(jìn)一步拉低投入產(chǎn)出比,最終難以形成正向循環(huán)。所以我們看到京東、阿里、騰訊這些大廠(chǎng)都解散了標(biāo)注部門(mén)。

而如果將人力外包,企業(yè)自己僅提供標(biāo)注平臺(tái)和標(biāo)注工具,會(huì)由于缺乏管理工具和手段,經(jīng)常會(huì)面臨人工標(biāo)注隨意度高、數(shù)據(jù)非標(biāo)、出錯(cuò)率高、返工率高等問(wèn)題,同樣難以及時(shí)且高效地滿(mǎn)足需求。

正因?yàn)橛辛艘陨贤袋c(diǎn),才有了星塵數(shù)據(jù)這樣專(zhuān)業(yè)第三方數(shù)據(jù)標(biāo)注企業(yè)的生存空間,

“但星塵不是要解決100%的數(shù)據(jù)標(biāo)注,而是解決那部分難的、行業(yè)前沿的、大規(guī)模的數(shù)據(jù)標(biāo)注,這也是那些具有付費(fèi)能力的大客戶(hù)最大的痛點(diǎn)。” 章磊說(shuō)道。

4.png

作為解決客戶(hù)痛點(diǎn)的重要標(biāo)注工具,Rosetta3.0基本可以和Photoshop、Sketch這些耳熟能詳?shù)墓ぞ吖δ茇S富程度、算法接入能力、交互等方面媲美。

5.png

上面這張圖,展示了Rosetta3.0平臺(tái)內(nèi)部分4D重建點(diǎn)云,據(jù)章磊介紹,如果全部展示會(huì)有超過(guò)500萬(wàn)個(gè)點(diǎn)。而市面上常規(guī)對(duì)空間描繪能力的細(xì)節(jié)程度是在30萬(wàn)~80萬(wàn)個(gè)點(diǎn)左右。“同時(shí),我們還可以做到最長(zhǎng)達(dá)2000幀的標(biāo)注,正常500幀沒(méi)有任何壓力的一個(gè)連續(xù)幀。也就是說(shuō)一秒鐘是10幀的話(huà),星塵可以標(biāo)一分鐘的視頻或者一分鐘的3D空間數(shù)據(jù)量。而同行業(yè)大約在50幀左右,我們是超越友商一個(gè)數(shù)量級(jí)的標(biāo)注處理能力。”

在最后總結(jié)星塵數(shù)據(jù)到底是個(gè)怎樣的存在時(shí),章磊說(shuō)道:“我們是自帶工具、材料、裝修方案到客戶(hù)家里幫忙裝修。這種模式更加貼近中國(guó)的真實(shí)市場(chǎng)環(huán)境,首先數(shù)據(jù)是剛需,第二要處理數(shù)據(jù)必須要有金剛鉆,第三我們還能幫你設(shè)計(jì),幫你架構(gòu),和你一起探討策略,最終以一整完整的服務(wù)和產(chǎn)品矩陣來(lái)共同完成這些事。”

這一套流程就是星塵數(shù)據(jù)的數(shù)據(jù)閉環(huán)。

6.png

據(jù)章磊介紹,星塵數(shù)據(jù)已經(jīng)服務(wù)了50多家頭部的車(chē)廠(chǎng)和自動(dòng)駕駛公司,其數(shù)據(jù)閉環(huán)體系,用自動(dòng)化的方式減少了60%以上的數(shù)據(jù)處理量,能夠幫客戶(hù)的算法迭代周期從三個(gè)月縮短到兩周,客戶(hù)每?jī)芍芫涂梢愿乱话婺P汀?ldquo;我們能實(shí)時(shí)給客戶(hù)反饋,用戶(hù)也能實(shí)時(shí)把數(shù)據(jù)送標(biāo),基于我們的數(shù)據(jù)管理系統(tǒng),客戶(hù)從數(shù)據(jù)落盤(pán)(數(shù)據(jù)寫(xiě)入磁盤(pán),自動(dòng)駕駛領(lǐng)域主要指采集的數(shù)據(jù)從傳感器到硬盤(pán)或云上的過(guò)程)到數(shù)據(jù)處理、數(shù)據(jù)標(biāo)注、數(shù)據(jù)送檢,到最后把數(shù)據(jù)‘喂’給算法,整個(gè)過(guò)程全部自動(dòng)化” 。

分享到:
標(biāo)簽:智能 石碑 人類(lèi) 機(jī)器 數(shù)據(jù) 羅塞塔
用戶(hù)無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定