為推動(dòng)語(yǔ)言與智能技術(shù)發(fā)展及應(yīng)用落地,2021語(yǔ)言與智能技術(shù)競(jìng)賽在今年3月正式開(kāi)幕,目前已有全球4000多人次報(bào)名參賽。現(xiàn)在,比賽報(bào)名已進(jìn)入倒計(jì)時(shí)階段,歡迎學(xué)術(shù)界和產(chǎn)業(yè)界的研究者和開(kāi)發(fā)者參加本次競(jìng)賽!
數(shù)千支隊(duì)伍參與激烈角逐
2021語(yǔ)言與智能技術(shù)競(jìng)賽由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)和中國(guó)中文信息學(xué)會(huì)(CIPS)聯(lián)合主辦,中國(guó)計(jì)算機(jī)學(xué)會(huì)自然語(yǔ)言處理專委會(huì)、中國(guó)中文信息學(xué)會(huì)評(píng)測(cè)工作委員會(huì)和百度公司共同承辦。2018年至今該競(jìng)賽已經(jīng)成功舉辦三屆。今年的賽題內(nèi)容覆蓋了語(yǔ)言理解、人機(jī)對(duì)話和知識(shí)抽取等多個(gè)自然語(yǔ)言處理的重要研究方向,對(duì)于智能搜索、智能推薦、智能交互等人工智能應(yīng)用具有重要意義。
本屆競(jìng)賽將在第六屆“語(yǔ)言與智能高峰論壇”上舉辦技術(shù)交流和頒獎(jiǎng)儀式,獲勝團(tuán)隊(duì)將分享總計(jì)30萬(wàn)元人民幣的獎(jiǎng)金。屆時(shí),論壇還將邀請(qǐng)國(guó)內(nèi)外學(xué)術(shù)界、產(chǎn)業(yè)界的知名專家學(xué)者,分享語(yǔ)言與智能及相關(guān)領(lǐng)域的發(fā)展趨勢(shì)和創(chuàng)新成果。
截至目前,競(jìng)賽已有超過(guò)4000人次報(bào)名參加。其中,企業(yè)選手覆蓋了互聯(lián)網(wǎng)、AI、通訊、金融、能源、航空航天等多個(gè)領(lǐng)域,其中包括騰訊、華為、阿里巴巴、字節(jié)跳動(dòng)、國(guó)家電網(wǎng)、中國(guó)移動(dòng)等知名企業(yè);來(lái)自國(guó)內(nèi)外知名高校選手占據(jù)總報(bào)名人次的60%,覆蓋了大部分的985、211高校,包括清華大學(xué)、北京大學(xué)、復(fù)旦大學(xué)、中國(guó)人民大學(xué)等,還有慕尼黑工業(yè)大學(xué)、南洋理工大學(xué)、早稻田大學(xué)、愛(ài)丁堡大學(xué)等國(guó)際高校選手報(bào)名參加。
賽題挑戰(zhàn)性顯著提升 三大任務(wù)聯(lián)手“千言”推動(dòng)技術(shù)進(jìn)步
本屆競(jìng)賽設(shè)立了來(lái)源于真實(shí)應(yīng)用需求的三大任務(wù):機(jī)器閱讀理解、多技能對(duì)話、多形態(tài)信息抽取。本屆競(jìng)賽所采用的數(shù)據(jù)集均來(lái)自于中文開(kāi)源數(shù)據(jù)集項(xiàng)目“千言”。與往屆競(jìng)賽僅關(guān)注模型在單一數(shù)據(jù)上的效果不同,本屆競(jìng)賽基于“千言”對(duì)每項(xiàng)任務(wù)設(shè)置了更加豐富的數(shù)據(jù)集合和評(píng)測(cè)維度,期望能夠從準(zhǔn)確性、魯棒性和泛化性等多個(gè)角度對(duì)技術(shù)效果進(jìn)行綜合評(píng)價(jià),從而推動(dòng)技術(shù)更好地適應(yīng)多領(lǐng)域、多場(chǎng)景的產(chǎn)業(yè)應(yīng)用。
機(jī)器閱讀理解是指讓機(jī)器閱讀文本然后回答和閱讀內(nèi)容相關(guān)的問(wèn)題。當(dāng)前的機(jī)器閱讀理解數(shù)據(jù)集大多都只采用單一的指標(biāo)來(lái)評(píng)測(cè)模型的好壞,缺乏對(duì)模型語(yǔ)言理解能力的細(xì)粒度、多維度評(píng)測(cè),導(dǎo)致模型的具體缺陷很難被發(fā)現(xiàn)和改進(jìn)。為了解決這個(gè)問(wèn)題,本次賽題建立了細(xì)粒度、多維度的評(píng)測(cè)數(shù)據(jù)集,從詞匯理解、短語(yǔ)理解、語(yǔ)義角色理解、邏輯推理等多個(gè)維度檢測(cè)模型的不足之處,從而推動(dòng)閱讀理解評(píng)測(cè)進(jìn)入“精細(xì)化時(shí)代”。該數(shù)據(jù)集中的樣本均來(lái)自于實(shí)際的應(yīng)用場(chǎng)景,難度大、考察點(diǎn)豐富,覆蓋了真實(shí)應(yīng)用中諸多難以解決的問(wèn)題。
多技能對(duì)話則指讓機(jī)器融合各個(gè)不同的對(duì)話技能,同時(shí)考察模型在跨技能場(chǎng)景下的通用性。真實(shí)世界的人機(jī)交互會(huì)同時(shí)涉及到多種對(duì)話技能,如何自然地融合多技能對(duì)話是一個(gè)重要的挑戰(zhàn)。因此本次競(jìng)賽聚焦多技能對(duì)話這一任務(wù),在往年數(shù)據(jù)集基礎(chǔ)上豐富了技能種類,覆蓋了知識(shí)對(duì)話、推薦對(duì)話、畫(huà)像聊天、閑聊等多種技能。該任務(wù)下的對(duì)話數(shù)據(jù)覆蓋的對(duì)話技能多樣、領(lǐng)域多樣,對(duì)話交互場(chǎng)景均來(lái)源于真實(shí)的實(shí)際應(yīng)用。
多形態(tài)信息抽取指讓機(jī)器從自然語(yǔ)言文本中抽取實(shí)體、關(guān)系、事件等多形態(tài)知識(shí),旨在使機(jī)器具備從海量非結(jié)構(gòu)化文本信息中自動(dòng)抽取結(jié)構(gòu)化知識(shí)的能力。目前大多數(shù)相關(guān)研究工作僅關(guān)注單一類型信息的抽取效果,缺乏在不同類型信息抽取任務(wù)上的統(tǒng)一評(píng)價(jià)。因此本次競(jìng)賽設(shè)立了多形態(tài)抽取信息任務(wù),希望從不同維度對(duì)結(jié)構(gòu)化知識(shí)抽取效果進(jìn)行綜合評(píng)價(jià)。競(jìng)賽發(fā)布了業(yè)界最大規(guī)模的中文多形態(tài)信息抽取數(shù)據(jù)集,囊括實(shí)體、關(guān)系、事件等不同形態(tài)的結(jié)構(gòu)化知識(shí)抽取,同時(shí)涵蓋句子和篇章兩種粒度的自然語(yǔ)言文本。此次競(jìng)賽希望通過(guò)開(kāi)放的大規(guī)模中文數(shù)據(jù)集,助力信息抽取技術(shù)的進(jìn)一步發(fā)展。
此外,百度飛槳作為中國(guó)首個(gè)自主研發(fā)、功能完備、開(kāi)源開(kāi)放的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái),將為本次競(jìng)賽的參賽者提供技術(shù)支持。本次競(jìng)賽三大任務(wù)均提供了基于飛槳的基線,助力選手快速上手;基于百度飛槳的人工智能學(xué)習(xí)與實(shí)訓(xùn)社區(qū) AI Studio還提供了在線編程環(huán)境、免費(fèi) GPU算力及開(kāi)源算法數(shù)據(jù)支持。
長(zhǎng)久以來(lái),百度一直積極布局“人工智能+X”復(fù)合型人才培養(yǎng),以百度飛槳(PaddlePaddle)為核心,圍繞學(xué)習(xí)、就業(yè)、認(rèn)證、實(shí)踐、比賽等環(huán)節(jié),將高校科研人才與企業(yè)應(yīng)用人才培養(yǎng)緊密結(jié)合。本次競(jìng)賽,百度將全力創(chuàng)造最佳競(jìng)賽條件,進(jìn)一步培養(yǎng)AI人才,推動(dòng)技術(shù)應(yīng)用落地與產(chǎn)業(yè)智能化發(fā)展。
距離報(bào)名截止還有最后一周,競(jìng)賽正在火熱進(jìn)行中,期待更多選手的加入,一起挑戰(zhàn)前沿任務(wù),推動(dòng)語(yǔ)言與智能技術(shù)的發(fā)展!