7月27日,由微博、新浪新聞主辦的人工智能領(lǐng)域行業(yè)峰會——“融合生態(tài) 價(jià)值共創(chuàng)”2022新智者大會召開,在大會“智驅(qū)萬物:AI推動萬物互聯(lián)的加速到來”的議題中,百度技術(shù)委員會主席吳華女士分享了題為《大模型技術(shù)及應(yīng)用》的演講,揭秘大模型的基本原理、發(fā)展趨勢,分享了大模型助力產(chǎn)業(yè)智能化的前沿應(yīng)用。
2022新智者大會-百度技術(shù)委員會主席吳華-主題演講
以下是吳華女士演講實(shí)錄,內(nèi)容經(jīng)編輯略有刪減:
大家好!我是百度的吳華,我今天要分享的主題是《大模型技術(shù)及應(yīng)用》。
我今天的分享包括三個(gè)部分,首先我會介紹大模型的知識,接下來介紹百度文心大模型,之后介紹大模型的應(yīng)用。
我們知道,現(xiàn)在人工智能主要三個(gè)方面:深度學(xué)習(xí)、大數(shù)據(jù)、大算力。三個(gè)結(jié)合起來促進(jìn)了現(xiàn)在人工智能的發(fā)展。
基于這樣的大數(shù)據(jù)、深度學(xué)習(xí)、大算力,我們能夠通過從無標(biāo)注的數(shù)據(jù)中自監(jiān)督的學(xué)習(xí),得到預(yù)訓(xùn)練的大模型。這些大模型在下游各種任務(wù)的應(yīng)用中,只需要少量的任務(wù)數(shù)據(jù),就能取得非常好的效果。
因此,它泛化能力和通用性都非常強(qiáng)。它已經(jīng)成為了人工智能的新方向。
首先,我們來看預(yù)訓(xùn)練大模型的基本原理。
預(yù)訓(xùn)練大模型的基本原理,實(shí)際上有一點(diǎn)像人的教育的過程。自從我們出生,從上小學(xué)、中學(xué),甚至上大學(xué),我們接受的都是通識教育。
在這個(gè)漫長的成長過程中,我們能夠從周圍的文本、圖像、視頻等等,建構(gòu)自己的知識體系。之后接受專業(yè)教育的時(shí)候,我們需要很少量的或者相對短的時(shí)間,就可以獲得專業(yè)的技能。
所以,預(yù)訓(xùn)練大模型也像人類的學(xué)習(xí)一樣,能夠從大量的數(shù)據(jù)中學(xué)習(xí)知識和規(guī)律。在下游的各種人工智能的應(yīng)用中,大模型可以使用少量的標(biāo)注數(shù)據(jù),就能得到很好的效果。
因此,它可以大規(guī)模的、可復(fù)制的進(jìn)行大工業(yè)的落地。
我們知道,預(yù)訓(xùn)練大模型最早是2018年的Bert開始1億的參數(shù)的模型。現(xiàn)在已經(jīng)發(fā)展成了1.2萬億的參數(shù),參數(shù)規(guī)模已經(jīng)提升了1.2萬倍,算力規(guī)模也提升了1152倍,數(shù)據(jù)規(guī)模也提升了587倍。
為什么大家還是在不停增大規(guī)模呢?實(shí)際上隨著參數(shù)規(guī)模的增大,以及數(shù)據(jù)的增大,預(yù)訓(xùn)練大模型的推理能力以及在下游的應(yīng)用過程中的效果越來越好,遷移能力和泛化能力越來越強(qiáng)。因此,這個(gè)模型還在不斷增大過程中。
預(yù)訓(xùn)練大模型最先是在自然語言處理領(lǐng)域得到了發(fā)展。在這個(gè)過程中,預(yù)訓(xùn)練大模型在國際權(quán)威的兩個(gè)數(shù)據(jù)集上,主要是自然語言理解的數(shù)據(jù)集上,超越了人類的水平。
同時(shí),它在知識推理、知識問答、內(nèi)容生成等方面,都得到了極大的提升。
之后,大模型開始應(yīng)用在視覺和跨模態(tài)等領(lǐng)域。在視覺上,通過大模型的訓(xùn)練,在視覺分類、視覺分割等任務(wù)上,其性能也得到了極大的提升。
在跨模態(tài)方面,我們通過文本和圖像融合訓(xùn)練,能夠提升視覺推理、視覺問答等任務(wù)的水平。
最近,跨模態(tài)大模型能夠根據(jù)文本或者說的一句話,就可以生成一幅跟話相關(guān)的或者文本相關(guān)的圖像。圖像的可觀性以及質(zhì)量都非常好,甚至超越了人類的水平。
在預(yù)訓(xùn)練大模型的應(yīng)用或者訓(xùn)練的過程中,實(shí)際上,人類的先驗(yàn)知識是不可或缺的。首先,在GPT-3的訓(xùn)練過程中,人類實(shí)際上通過自己的先驗(yàn)知識,不斷地調(diào)試參數(shù),進(jìn)行超參的設(shè)置。
之后,百度的文心ERNIE 3.0通過引入人類凝煉的知識圖譜,使得模型的效果進(jìn)一步得到提升。之后,我們發(fā)現(xiàn)在應(yīng)用過程中,有不同的已經(jīng)標(biāo)注好的任務(wù)數(shù)據(jù),如果模型能夠?qū)W習(xí)到這些數(shù)據(jù),效果也會得到不斷提升。
因此,通過人工設(shè)置模板,把這些任務(wù)數(shù)據(jù)使得充分利用,也能進(jìn)一步提升這些預(yù)訓(xùn)練模型的效果。
前面說的這三項(xiàng),是三種不同的使用人類先驗(yàn)知識的方法,都是為了提升預(yù)訓(xùn)練大模型的效果。
除了提升效果以外,其實(shí)預(yù)訓(xùn)練大模型,也能夠跟人類協(xié)同,提升人類的效率。
比如說,GitHub使用預(yù)訓(xùn)練模型來生成代碼,這些代碼能輔助程序員提高他寫代碼的效率。
最近,Transformers的部分作者出來創(chuàng)業(yè),創(chuàng)業(yè)了一個(gè)Adept的項(xiàng)目,目標(biāo)是想使這些大模型和人類生活中使用的各種各樣的電子工具結(jié)合,使得人類的生活或者工作的效率提升。
比如說,用模型生成一個(gè)報(bào)表,或者是說創(chuàng)作一段文本等等,使得人類效率能得到大幅度提升。
接下來介紹文心大模型。
文心大模型,包括自然語言處理大模型、視覺大模型、跨模態(tài)大模型、以及生物計(jì)算大模型,生物大模型能提升發(fā)現(xiàn)新藥的效率。
在大模型的基礎(chǔ)上,為了提高行業(yè)應(yīng)用的效率/效果,我們也構(gòu)建了行業(yè)大模型。在實(shí)際應(yīng)用中,我們也提供了各種各樣的工具和平臺,使得使用大模型的流程變得更加簡單。
ERNIE模型是一個(gè)知識增強(qiáng)的預(yù)訓(xùn)練模型,這個(gè)模型有三個(gè)特點(diǎn)。
第一個(gè)特點(diǎn),能夠從大規(guī)模的知識圖譜和海量的無結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí)。除了海量無結(jié)構(gòu)數(shù)據(jù)以外,我們也充分利用了人類的知識。比如說大規(guī)模的知識圖譜,我們能夠通過兩者的協(xié)同來學(xué)習(xí)知識和規(guī)律。
比如說,我們通過掩碼知識圖譜中”作品”這個(gè)詞,指導(dǎo)模型從文本中學(xué)習(xí)這種知識推斷關(guān)系。反過來我們掩碼”作家”這個(gè)詞,能夠通過知識圖譜,去指導(dǎo)還原。
通過這種方法,我們能解決結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一表示的問題,使得學(xué)習(xí)效果進(jìn)一步提升。
我們發(fā)現(xiàn)通過這種方法的學(xué)習(xí),模型能夠有更好的知識推理能力和問答能力。
第二個(gè)特點(diǎn),在ERNIE模型中,能夠同時(shí)融合自編碼和自回歸的結(jié)構(gòu),能夠使這個(gè)模型即能夠理解語言也能夠生成語言。
在理解語言的時(shí)候,我們采用自編碼的方式,模型能夠看上下文。也就是前面的和后面的詞,我都能看到。這樣的話,有利于語言理解的效果提升。
而在生成的時(shí)候,模型只能看到前面已經(jīng)生成的語言。那這樣的話,模型采用自回歸的方法,來進(jìn)行語言生成。
通過這樣的方式,這個(gè)模型能同時(shí)做到自然語言處理里面的語言理解和語言生成。
第三個(gè)特點(diǎn),我們采用了飛漿非常領(lǐng)先的并行技術(shù),能夠高效地支持超大參數(shù)規(guī)模的模型訓(xùn)練。飛槳能夠支持千億規(guī)模的參數(shù)模型訓(xùn)練。我們知道,這么大的參數(shù)訓(xùn)練,不可能在一臺機(jī)器,一張卡,或者說單機(jī)多卡這樣的訓(xùn)練,需要多機(jī)多卡并行訓(xùn)練,因此,我們采用了模型并行、參數(shù)并行、流水線并行、參數(shù)貼片的并行方式,使得模型訓(xùn)練的效率,提升了50%。
基于這樣的一個(gè)基礎(chǔ),所以我們發(fā)布了鵬城-百度·文心大模型,能夠基于飛槳領(lǐng)先的并行技術(shù),以及鵬城先進(jìn)的算力中心,訓(xùn)練2600億的模型,在60多項(xiàng)任務(wù)中達(dá)到了最好的水平。
而且,這個(gè)模型能夠非常高效部署,部署效率能夠達(dá)到用小模型相當(dāng)?shù)男Ч?/p>
知識增強(qiáng)大模型,能夠顯著提升語言理解能力,尤其是復(fù)雜知識推理能力,比如跟GTP-3比,我們的模型能夠提高8%個(gè)點(diǎn)。尤其是在多步推理和常識推理上,知識增強(qiáng)模型表現(xiàn)得更好。
剛才我們提到,模型除了做語言理解以外,還有能做語言生成,而且能做多種風(fēng)格的語言生成。比如說做小說的寫作,還有歌詞的創(chuàng)作,以及詩歌的創(chuàng)作等等。
而且,創(chuàng)作出來以后,我們有做過一些評估。有時(shí)候都不能分出來是人寫的,還是機(jī)器寫的。
同時(shí),我們發(fā)現(xiàn)知識能提升學(xué)習(xí)效率,在模型發(fā)布的時(shí)候,在國際排行榜SuperGLUE上排在榜首,這是自然語言領(lǐng)域權(quán)威的一個(gè)數(shù)據(jù)集合。可以看到我們的模型和GPT-3相比,模型的參數(shù)規(guī)模非常小,但是我們的效果更好。
同時(shí),我們也看到,我們的模型有生成能力。尤其是能生成不同風(fēng)格的文體。比如說,我們能夠?qū)懶≌f,能夠做詩歌的創(chuàng)作,可以寫歌詞等等。
在預(yù)訓(xùn)練大模型中,我們已經(jīng)融入了大規(guī)模的知識圖譜,在實(shí)際應(yīng)用過程中,也有很多已經(jīng)標(biāo)注了跟任務(wù)相關(guān)的知識。
在大模型中,我們也把這些多種多樣的任務(wù)知識,融入到大模型的訓(xùn)練中。而且是通過統(tǒng)一的、基于提示的方式來把這些知識融入在我們的大模型中。
比如說把問答、情感分析,甚至文本生成等等這樣的一些任務(wù)知識,能融入到這個(gè)大模型訓(xùn)練中,可以進(jìn)一步提升下游的任務(wù)效果。
我們看到,在左邊第一張圖中,在公開的數(shù)據(jù)中,我們即使不利用任務(wù)相關(guān)的數(shù)據(jù),這個(gè)模型也能夠顯著提升這些任務(wù)的效果。尤其在真實(shí)場景中,包括語言理解和語言生成的這兩類任務(wù)中,模型的遷移能力也得到了顯著的提升。
除了文本相關(guān)模型,實(shí)際上我們也訓(xùn)練了跨模態(tài)生成大模型。這些模型能夠同時(shí)利用文本和圖像的數(shù)據(jù),同時(shí)做文本到圖像,以及圖像到文本的生成。這樣的話,兩個(gè)任務(wù)能夠互相幫助,進(jìn)一步提升生成的效果。
我們來看一些例子。
上面一排實(shí)際上是從文本到圖像的一個(gè)生成。也就是說,我說一句話,模型能根據(jù)這些話生成相對應(yīng)的圖片。我們看到這些圖片的寫意能力還是非常強(qiáng)的。
下面一排,實(shí)際上是我輸入一個(gè)圖片,這個(gè)模型就能夠輸出一句對這個(gè)圖片的描述。這個(gè)應(yīng)用還是非常好的,這樣的話比如說我們出去游玩,拍了很多照片,但是你檢索的時(shí)候非常難。
那如果能夠生成一句描述,你檢索的時(shí)候就很快、很高效的得到這些圖片。
除了剛才說的底座的文心ERNIE模型,以及ERNIE-VILG跨模態(tài)模型。實(shí)際上,我們在任務(wù)模型中,在下游應(yīng)用中,也需要和任務(wù)相關(guān)的大模型。
我們知道,在自然語言領(lǐng)域中,對話任務(wù)是一個(gè)非常綜合性的任務(wù)。如果我們實(shí)現(xiàn)了機(jī)器自由對話,那我們離通用人工智能就更近了一步。
因此,我們也訓(xùn)練了面向?qū)υ捜蝿?wù)的大模型PLATO。
我們發(fā)現(xiàn),PLATO在對話過程中,你有同樣的上文,可能對應(yīng)不同的回復(fù)。
所以,針對這樣的特點(diǎn),我們提出了基于隱變量的對話生成大模型,能夠解決多樣性的生成問題。
同時(shí),我們在對話的過程中,我們在理解對方說的話的基礎(chǔ)上,模型同時(shí)要回復(fù)。這實(shí)際上是一個(gè)理解和生成結(jié)合的過程。因此,我們用統(tǒng)一的框架來建模理解和生成。
我們看到,基于這樣的原理,發(fā)布了全球首個(gè)百億對話預(yù)訓(xùn)練生成模型,這個(gè)模型效果好,能耗低。同時(shí),我們也發(fā)現(xiàn)在這個(gè)百億模型之前,我們發(fā)布了一個(gè)16億的模型。這個(gè)16億的模型,雖然參數(shù)少,但是效果比其它發(fā)布的更大模型,效果更好。所以,說明它的能耗更低。
我們來看一個(gè)例子,在這個(gè)例子中,首先這個(gè)機(jī)器人實(shí)際上是一個(gè)有自己的人設(shè)。比如說她是女性,她的興趣是人工智能。根據(jù)這樣的設(shè)定,跟人對話的過程中,她能很快的就她的興趣進(jìn)行聊天。
而且,她還能回答人工智能領(lǐng)域相關(guān)的。比如說,關(guān)于模型訓(xùn)練,以及函數(shù)特點(diǎn)的一些問題。同時(shí),她也具有人類的常識。比如說,她也知道要如何算數(shù),計(jì)數(shù)計(jì)的比較準(zhǔn)確。同時(shí),你要出去玩的時(shí)候,她知道今天是雨天,提醒你帶傘。或者提醒你去針對今天的天氣,穿衣等等這樣的一些能力。
接下來,我介紹大模型在實(shí)際應(yīng)用中面臨的一些問題。
在實(shí)際應(yīng)用中,我們面臨三大挑戰(zhàn)。
第一個(gè)是在行業(yè)應(yīng)用中,因?yàn)榇竽P腿狈π袠I(yè)知識,它的能力不能充分的得到體現(xiàn)。
第二個(gè)是在使用的大模型過程中,因?yàn)閿?shù)據(jù)建設(shè)、模型調(diào)試、以及部署的門檻高,也使得大模型在下游的應(yīng)用中,沒有得到充分的利用。
第三個(gè)是大模型對于計(jì)算資源和存儲資源的要求都非常高,所以在資源受限的場景下,也不能很好的被使用。
所以,面對這三個(gè)問題,我們來看看怎么解決。
我們發(fā)現(xiàn),在行業(yè)應(yīng)用中,有一些充分訓(xùn)練的模型,即使沒有利用預(yù)訓(xùn)練技術(shù),效果也比大模型的效果好。
為了解決這個(gè)問題,我們就提出了建設(shè)行業(yè)大模型的一個(gè)方案。也就是說,在通用大模型的基礎(chǔ)上,利用存在大量的、無標(biāo)記的數(shù)據(jù),再訓(xùn)練一個(gè)行業(yè)大模型。這樣的話,使得行業(yè)大模型在行業(yè)相關(guān)的任務(wù)上的效果,能得到極大的提升。
我們來舉幾個(gè)例子。
第一個(gè)是百度和國網(wǎng)合作的一個(gè)知識增強(qiáng)的電力行業(yè)的大模型。
我們發(fā)現(xiàn),在電力行業(yè)也存在很多的結(jié)構(gòu)化知識。充分利用這些結(jié)構(gòu)化的知識,發(fā)現(xiàn)電力行業(yè)大模型,在電力相關(guān)的這些任務(wù)中,能提升相關(guān)任務(wù)的效果,平均能提高3-4個(gè)點(diǎn)之間。
同時(shí),我們發(fā)現(xiàn)另外一個(gè)例子,在金融領(lǐng)域我們跟浦發(fā)銀行合作,也利用了金融領(lǐng)域的結(jié)構(gòu)化知識,提高金融行業(yè)里面的任務(wù)效果。比如說,在命名實(shí)體識別上,我們從60%多提高到90%多,這個(gè)提高還是非常大的。
除了前面舉例的行業(yè)以外,大模型已經(jīng)在各行各業(yè)中得到了非常廣泛的應(yīng)用。比如說,在互聯(lián)網(wǎng)行業(yè)、醫(yī)療行業(yè)、保險(xiǎn)、證券、交通等等這樣的一些行業(yè)里面能大幅的提升效率和效果。
我們剛才提到,大模型在資源受限的場景,不能充分的發(fā)揮效果。因此,我們可以提供大模型小型化的一些方案,比如說裁減、蒸餾、量化、稀疏等。在不同的場景中,可以使用不同的方法,因?yàn)檫@些方法在效果、速度、部署成本、迭代的效率等等方面是各有優(yōu)缺點(diǎn)的。
我們來舉一個(gè)例子,在搜索場景的例子。在這個(gè)場景 里,實(shí)際上當(dāng)時(shí)面臨著一個(gè)非常大的挑戰(zhàn),是千億模型怎么在搜索場景進(jìn)行部署。
我們采用了兩種方法。第一種方法是在訓(xùn)練的過程中同時(shí)進(jìn)行蒸餾,將大模型蒸餾成一個(gè)比較小的模型。這樣的話,能夠用同一個(gè)計(jì)算資源做兩件事,訓(xùn)練多個(gè)模型。這樣的話,節(jié)省了計(jì)算資源。
第二個(gè),為了保證小模型的效果,我們采用了助教的方式。也就是說,我們中間采用了中型的模型來作為助教,來教這個(gè)小模型。也就是說,大模型教中型模型,中型模型教小型模型的方式,使得效果得到了極大的提升。我們當(dāng)時(shí)用了萬分之2.5的參數(shù),就能達(dá)到千億模型96%的效果。所以,基本上是無損的這種方式來做的。
剛才我們提到,大模型在使用過程中,其實(shí)部署的成本比較高,或者門檻比較高。因此,我們把大模型平臺化,在這個(gè)平臺中,我們提供了多種大模型部署方案,以及效果提升的方案,并且提供錯(cuò)誤分析、模型迭代、模型監(jiān)控等等多種功能,使得模型效果能得到充分的保證。
因此,我們提供了工具平臺,而且是面向不同的用戶。比如說,對于專業(yè)的用戶,我們提供了開發(fā)套件;對于零基礎(chǔ)的開發(fā)者,我們提供了EasyDL開發(fā)工具以及平臺;介于兩者之間的,我們提供了BML這樣的一個(gè)開發(fā)平臺。
而且,在這個(gè)平臺上,我們提供了多種服務(wù)。比如說數(shù)據(jù)標(biāo)注、模型調(diào)試,以及效果驗(yàn)證等等一些工具,使得這個(gè)模型部署得到充分的保證。
現(xiàn)在文心大模型在百度的產(chǎn)品上得到了廣泛的應(yīng)用,包括百度搜索、新聞推薦、好看視頻、地圖、小度等等,效果都得到了極大的提升,有的高達(dá)10%以上。
同時(shí),大模型實(shí)際上能提高人的創(chuàng)作效率。因此,大模型也用來文案寫作。比如說之前我們高考作文寫作,大模型也可以來做媲美于人類高考生的作文的寫作,還有做視頻的生成、詩歌的生成等。
基于大模型,我們能生成一個(gè)數(shù)字人,數(shù)字人能根據(jù)圖像或者文字內(nèi)容的不同,有不同的表情、不同的手勢,甚至能夠生成很流暢的一個(gè)視頻。
所以,我們能夠利用大模型,大幅度提高人的生產(chǎn)效率。而且,現(xiàn)在文心大模型已經(jīng)廣泛應(yīng)用于千行百業(yè)。
大模型能夠助力產(chǎn)業(yè)智能化,保險(xiǎn)、金融、醫(yī)療、人力資源、證券、通訊、電商、物流等等行業(yè),得到了充分的使用。
最后,希望我們將來能夠有更多的行業(yè)使用大模型,真正的提升生產(chǎn)效率。
今天我的演講就到這里,謝謝大家!
<結(jié)束>