日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

這篇文章的目的是回顧經(jīng)過時間考驗(yàn)的,被廣泛采用的想法。我將介紹一小部分技術(shù),這些技術(shù)涵蓋了解現(xiàn)代深度學(xué)習(xí)研究所必需的許多基本知識。如果你是該領(lǐng)域的新手,那么這是一個很好的起點(diǎn)。

 

深度學(xué)習(xí)是一個瞬息萬變的領(lǐng)域,大量的研究論文和想法可能會令人不知所措。即使是經(jīng)驗(yàn)豐富的研究人員,也很難告訴公司PR什么是真正的突破。這篇文章的目的是回顧經(jīng)受住時間考驗(yàn)的想法,這也許是人們應(yīng)該依靠的唯一參考標(biāo)準(zhǔn)。這些想法或?qū)λ鼈兊母倪M(jìn)已被反復(fù)使用。他們已經(jīng)“家喻戶曉”。

 

如果你今天要開始學(xué)習(xí)深度學(xué)習(xí),那么理解和實(shí)現(xiàn)這些技術(shù)中的每一個都將為你了解最新研究和開展自己的項(xiàng)目奠定良好的基礎(chǔ)。這就是我認(rèn)為最好的入門方法。以歷史順序?yàn)g覽論文也是了解當(dāng)前技術(shù)的來歷以及為什么會發(fā)明它們。換句話說,我會盡量呈現(xiàn)最小集的想法,最必要的基本知識,了解現(xiàn)代的深度學(xué)習(xí)研究核心發(fā)展歷程。

免費(fèi)pdf好書推薦:

2020最新版《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》中文版PDF免費(fèi)開放下載

劉知遠(yuǎn)老師7月新書-《自然語言處理表示學(xué)習(xí)》免費(fèi)書分享

 

關(guān)于深度學(xué)習(xí)的一個相當(dāng)獨(dú)特的事情是它的應(yīng)用領(lǐng)域(視覺,自然語言,語音,RL等)共享大多數(shù)技術(shù)。例如,某人曾在計算機(jī)視覺深度學(xué)習(xí)領(lǐng)域工作過,整個職業(yè)很快就能在NLP研究中取得成果。特定的網(wǎng)絡(luò)體系結(jié)構(gòu)可能有所不同,但是概念,方法和代碼基本相同。我將嘗試介紹來自各個領(lǐng)域的想法,但此列表有一些警告:

1. 我的目標(biāo)不是為這些技術(shù)提供深入的解釋或代碼示例。將長篇復(fù)雜的論文總結(jié)成一個段落是不容易的。相反,我將簡要概述每種技術(shù),其歷史背景以及與論文和實(shí)現(xiàn)的鏈接。如果你想學(xué)習(xí)一些東西,我強(qiáng)烈建議你嘗試在不使用現(xiàn)有代碼庫或高級庫的情況下,從頭開始在原始PyTorch中重現(xiàn)其中的某些紙本結(jié)果。

 

2. 該列表偏向于我自己的知識和我熟悉的領(lǐng)域。我沒有很多激動人心的子領(lǐng)域。我會堅持大多數(shù)人認(rèn)為的主流領(lǐng)域,包括視覺,自然語言,語音和強(qiáng)化學(xué)習(xí)/游戲。

 

3. 我將只討論具有已知能很好運(yùn)行的官方或半官方開源實(shí)現(xiàn)的研究。有些研究不容易重現(xiàn),因?yàn)樗婕熬薮蟮墓こ烫魬?zhàn),例如DeepMind的AlphaGo或OpenAI的Dota 2 AI,因此在這里我不會重點(diǎn)介紹。

 

4. 有些選擇是任意的。通常,大約在同一時間發(fā)布相當(dāng)相似的技術(shù)。這篇文章的目的不是要進(jìn)行全面的回顧,而是要使剛接觸該領(lǐng)域的新人了解涵蓋很多領(lǐng)域的各種觀點(diǎn)。例如,可能有數(shù)百種GAN變體,但是要了解GAN的一般概念,你學(xué)習(xí)哪一個都沒關(guān)系。

 

2012年-使用AlexNet和Dropout解決ImageNet

Papers

ImageNet Classification with Deep Convolutional Neural Networks (2012)[1]

 

Improving neural networks by preventing co-adaptation of feature detectors (2012) [2]

 

One weird trick for parallelizing convolutional neural networks (2014) [14]

 

Implementations

AlexNet in PyTorch(https://pytorch.org/hub/pytorch_vision_alexnet)

 

AlexNet in TensorFlow(https://github.com/tensorflow/models/blob/master/research/slim/nets/alexnet.py)

一文回顧深度學(xué)習(xí)發(fā)展史上最重要經(jīng)典模型

 

資料來源:https : //papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks

AlexNet通常被認(rèn)為是導(dǎo)致深度學(xué)習(xí)和人工智能研究近來蓬勃發(fā)展的算法。它是基于Yann LeCun開發(fā)的早期LeNet的深度卷積神經(jīng)網(wǎng)絡(luò)。AlexNet 通過結(jié)合GPU的強(qiáng)大功能和先進(jìn)的算法,大大超越了以前對ImageNet數(shù)據(jù)集中的圖像進(jìn)行分類的方法。它證明了神經(jīng)網(wǎng)絡(luò)確實(shí)有效!AlexNet也是最早使用Dropout [2]的平臺之一,此后它已成為提高各種深度學(xué)習(xí)模型的泛化能力的關(guān)鍵組成部分。

 

AlexNet使用的體系結(jié)構(gòu),一系列卷積層,ReLU非線性和最大池化,已成為將來的計算機(jī)視覺體系結(jié)構(gòu)可以擴(kuò)展和建立的公認(rèn)標(biāo)準(zhǔn)。如今,諸如PyTorch之類的軟件庫是如此強(qiáng)大,并且與最新的體系結(jié)構(gòu)相比,AlexNet非常簡單,因此僅需幾行代碼即可實(shí)現(xiàn)。注意,AlexNet的許多實(shí)現(xiàn)(例如上面鏈接的實(shí)現(xiàn))都使用一種怪異的技巧中 描述的網(wǎng)絡(luò)的細(xì)微變化來并行化卷積神經(jīng)網(wǎng)絡(luò)[14]。(https://arxiv.org/abs/1404.5997)

 

2013年-通過深度強(qiáng)化學(xué)習(xí)玩Atari

Papers

Playing Atari with Deep Reinforcement Learning (2013)聽[7]

 

Implementations

DQN in PyTorch(https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html)

 

DQN in TensorFlow(https://www.tensorflow.org/agents/tutorials/1_dqn_tutorial)

一文回顧深度學(xué)習(xí)發(fā)展史上最重要經(jīng)典模型

 

 

資料來源:https : //deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning

在最近在圖像識別和GPU方面取得突破的基礎(chǔ)上,DeepMind的團(tuán)隊成功地訓(xùn)練了一個網(wǎng)絡(luò),可以通過原始像素輸入來玩Atari游戲。而且,相同的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)學(xué)會了玩七種不同的游戲,而沒有被告知任何特定于游戲的規(guī)則,這證明了這種方法的普遍性。

 

強(qiáng)化學(xué)習(xí)與“監(jiān)督學(xué)習(xí)”(例如圖像分類)的不同之處在于,Agent必須在多個時間步長(例如贏得比賽)中學(xué)習(xí)最大化的獎勵總和,而不僅僅是預(yù)測標(biāo)簽。由于Agent直接與環(huán)境交互,并且每個動作都會影響環(huán)境,因此訓(xùn)練數(shù)據(jù)不是獨(dú)立的且分布均勻(iid),這使得許多機(jī)器學(xué)習(xí)模型的訓(xùn)練非常不穩(wěn)定。這是通過使用諸如經(jīng)驗(yàn)重播等技術(shù)解決的[15]。

 

盡管沒有明顯的算法創(chuàng)新可以使這項(xiàng)工作奏效,但這項(xiàng)研究巧妙地結(jié)合了現(xiàn)有技術(shù),在GPU上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)和體驗(yàn)重播,以及一些數(shù)據(jù)處理技巧,以實(shí)現(xiàn)大多數(shù)人無法預(yù)期的令人印象深刻的結(jié)果。這使人們有信心擴(kuò)展“深度強(qiáng)化學(xué)習(xí)”技術(shù),以解決更復(fù)雜的任務(wù),例如Go,Dota 2,Starcraft 2等。

 

此后,Atari Games [21]已成為強(qiáng)化學(xué)習(xí)研究的標(biāo)準(zhǔn)基準(zhǔn)。最初的方法僅解決了7場比賽(超過了人類的基準(zhǔn)),但是在未來幾年中,基于這些思想的進(jìn)步將開始在越來越多的游戲上擊敗人類。蒙特祖瑪?shù)摹稄?fù)仇》是一款特別的游戲,因需要長期規(guī)劃而聞名,被認(rèn)為是最難解決的游戲之一。直到最近[23] [22],這些技術(shù)才在所有57款游戲中都超過了人類的水平。

 

2014年-帶注意力(Attention)的編碼器-解碼器網(wǎng)絡(luò)

Papers

Sequence to Sequence Learning with Neural Networks [4]

 

Neural machine Translation by Jointly Learning to Align and Translate [3]

 

Implementations

Seq2Seq with Attention in PyTorch(https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html#)

 

Seq2Seq with Attention in TensorFlow(https://www.tensorflow.org/addons/tutorials/networks_seq2seq_nmt)

一文回顧深度學(xué)習(xí)發(fā)展史上最重要經(jīng)典模型

 

來源:https : //ai.googleblog.com/2017/04/introducing-tf-seq2seq-open-source.html

深度學(xué)習(xí)最令人印象深刻的結(jié)果主要是與視覺相關(guān)的任務(wù),并且是由卷積神經(jīng)網(wǎng)絡(luò)驅(qū)動的。盡管NLP社區(qū)在使用LSTM網(wǎng)絡(luò)[16]和編碼器-解碼器體系結(jié)構(gòu)[4]進(jìn)行語言建模和翻譯方面取得了成功,但直到注意力機(jī)制[3]的發(fā)明才開始取得令人矚目的成就。

 

在處理語言時,每個token(可能是字符,單詞或介于兩者之間的某種事物)都會被饋送到循環(huán)網(wǎng)絡(luò)(例如LSTM)中,該網(wǎng)絡(luò)維護(hù)一種先前處理過的輸入的memory。換句話說,一個句子與時間序列非常相似,每個token都是一個時間步。這些循環(huán)模型通常很難處理長期的依賴關(guān)系。當(dāng)他們處理序列時,他們很容易“忘記”較早的輸入,因?yàn)樗鼈兊奶荻刃枰ㄟ^許多時間步長傳播。使用梯度下降來優(yōu)化這些模型非常困難。

 

新的注意力機(jī)制有助于緩解這一問題。它通過引入快捷方式連接為網(wǎng)絡(luò)提供了一種在較早的時間步長自適應(yīng)“回頭看”的選項(xiàng)。這些連接使網(wǎng)絡(luò)可以決定在生成特定輸出時哪些輸入很重要。典范的例子是翻譯:生成輸出詞時,通常會映射到一個或多個特定的輸入詞。

免費(fèi)pdf好書推薦:

2020最新版《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》中文版PDF免費(fèi)開放下載

劉知遠(yuǎn)老師7月新書-《自然語言處理表示學(xué)習(xí)》免費(fèi)書分享

 

2014-Adam優(yōu)化器

Papers

Adam: A Method for Stochastic Optimization [12]

 

Implementations

Implementing Adam in Python(https://d2l.ai/chapter_optimization/adam.html)

 

PyTorch Adam implementation(https://pytorch.org/docs/master/_modules/torch/optim/adam.html)

 

TensorFlow Adam implementation(https://github.com/tensorflow/tensorflow/blob/v2.2.0/tensorflow/python/keras/optimizer_v2/adam.py#L32-L281)

一文回顧深度學(xué)習(xí)發(fā)展史上最重要經(jīng)典模型

 

資料來源:http : //arxiv.org/abs/1910.11758

通過使用優(yōu)化器使損失函數(shù)(例如平均分類誤差)最小化來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。優(yōu)化器負(fù)責(zé)弄清楚如何調(diào)整網(wǎng)絡(luò)參數(shù)以使其了解目標(biāo)。大多數(shù)優(yōu)化器

 

基于隨機(jī)梯度下降法(SGD)的變體。但是,許多這些優(yōu)化器本身都包含可調(diào)參數(shù),例如學(xué)習(xí)率。為特定問題找到正確的設(shè)置,不僅可以減少訓(xùn)練時間,而且由于可以找到更好的損失函數(shù)局部最小值,因此也可以得到更好的結(jié)果。

 

大型研究實(shí)驗(yàn)室經(jīng)常運(yùn)行昂貴的超參數(shù)搜索,這些搜索帶有復(fù)雜的學(xué)習(xí)速率計劃,以便從簡單但對超參數(shù)敏感的優(yōu)化器(例如SGD)中獲得最大收益。當(dāng)它們超過現(xiàn)有基準(zhǔn)時,有時是由于花費(fèi)大量資金來優(yōu)化優(yōu)化器的結(jié)果。這樣的細(xì)節(jié)常常在已發(fā)表的研究論文中沒有提到。沒有相同預(yù)算來優(yōu)化其優(yōu)化器的研究人員陷入了更糟糕的結(jié)果。

 

Adam優(yōu)化器建議使用梯度的第一和第二階來自動調(diào)整學(xué)習(xí)率。結(jié)果證明是非常可靠的,并且對超參數(shù)選擇不太敏感。換句話說,Adam經(jīng)常可以正常工作,不需要像其他優(yōu)化程序一樣進(jìn)行廣泛的調(diào)整[24]。盡管調(diào)整得非常好的SGD仍然可以獲得更好的結(jié)果,但是Adam使研究更容易進(jìn)行,因?yàn)槿绻承┦虑椴黄鹱饔茫憔椭肋@不太可能是調(diào)整不當(dāng)?shù)膬?yōu)化器的錯。

 

2014/2015-生成對抗網(wǎng)絡(luò)(GAN)

Papers

Generative Adversarial Networks [6]

 

Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks [17]

 

Implementations

DCGAN in PyTorch(https://pytorch.org/tutorials/beginner/dcgan_faces_tutorial.html)

 

DCGAN in TensorFlow(https://www.tensorflow.org/tutorials/generative/dcgan)

一文回顧深度學(xué)習(xí)發(fā)展史上最重要經(jīng)典模型

 

來源:https://developers.google.com/machine-learning/gan/gan_structure

生成模型(例如變體自動編碼器)的目標(biāo)是創(chuàng)建看起來逼真的數(shù)據(jù)樣本,例如你可能在某處看到的這些人臉圖像。因?yàn)樗麄儽仨殞φ麄€數(shù)據(jù)分布進(jìn)行建模(很多像素!),而不僅僅是將貓或狗分類為判別模型,所以此類模型通常很難訓(xùn)練。生成對抗網(wǎng)絡(luò)(GAN)就是這樣一種模型。

 

GAN的基本思想是串聯(lián)訓(xùn)練兩個網(wǎng)絡(luò)-生成器和鑒別器。生成器的目標(biāo)是生成使鑒別器蒙蔽的樣本,該樣本經(jīng)過訓(xùn)練可以區(qū)分真實(shí)圖像和生成的圖像。隨著時間的流逝,鑒別器將在識別假貨方面變得更好,但生成器也將在欺騙鑒別器方面變得更好,從而生成看起來更逼真的樣本。GAN的第一次迭代會產(chǎn)生模糊的低分辨率圖像,并且訓(xùn)練起來非常不穩(wěn)定。但是隨著時間的推移,變化和改進(jìn),例如DCGAN [17],Wasserstein GAN [25],CycleGAN [26],StyleGAN(v2)[27],以及其他許多人都基于此想法來生成高分辨率的逼真的圖像和視頻。

 

2015年-殘差網(wǎng)絡(luò)(ResNet)

Papers

Deep Residual Learning for Image Recognition聽[13]

 

Implementations

ResNet in PyTorch(https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py)

 

ResNet in Tensorflow(https://github.com/tensorflow/tensorflow/blob/v2.2.0/tensorflow/python/keras/Applications/resnet.py)

一文回顧深度學(xué)習(xí)發(fā)展史上最重要經(jīng)典模型

 

研究人員一直在AlexNet突破的基礎(chǔ)上發(fā)展了一段時間,發(fā)明了基于卷積神經(jīng)網(wǎng)絡(luò)的性能更好的架構(gòu),例如VGGNet [28],Inception [29]等。ResNet是這一系列快速發(fā)展中的下一個迭代。迄今為止,ResNet變體通常用作各種任務(wù)的基準(zhǔn)模型架構(gòu),也用作更復(fù)雜的架構(gòu)的基礎(chǔ)。

 

除了在ILSVRC 2015分類挑戰(zhàn)中獲得第一名之外,ResNet 之所以與眾不同,還在于其與其他網(wǎng)絡(luò)體系結(jié)構(gòu)相比的深度。本文中介紹的最深層網(wǎng)絡(luò)具有1,000層,并且仍然表現(xiàn)良好,盡管在基準(zhǔn)任務(wù)上比其101和152層對應(yīng)的網(wǎng)絡(luò)稍差。由于梯度消失了,訓(xùn)練這樣的深度網(wǎng)絡(luò)是一個具有挑戰(zhàn)性的優(yōu)化問題,它也出現(xiàn)在序列模型中。沒有多少研究人員認(rèn)為訓(xùn)練如此深的網(wǎng)絡(luò)可以帶來良好的穩(wěn)定結(jié)果。

 

ResNet使用了身份快捷方式連接來幫助梯度流動。解釋這些連接的一種方法是ResNet僅需要學(xué)習(xí)從一層到另一層的“增量”,這通常比學(xué)習(xí)完整的轉(zhuǎn)換要容易。這種身份連接是公路網(wǎng)[30]中提出的連接的特例,而連接又受到LSTM使用的門控機(jī)制的啟發(fā)。

 

2017-Transformer

Papers

Attention is All You Need聽[5]

 

Implementations

PyTorch: Sequence-to-Sequence Modeling with nn.Transformer and TorchText(https://pytorch.org/tutorials/beginner/transformer_tutorial.html)

 

Tensorflow: Transformer model for language understanding(https://www.tensorflow.org/tutorials/text/transformer)

 

HuggingFace Transformers Library(https://github.com/huggingface/transformers)

一文回顧深度學(xué)習(xí)發(fā)展史上最重要經(jīng)典模型

 

資料來源:https : //arxiv.org/abs/1706.03762

帶注意力機(jī)制的序列到序列模型(在本文的前面已經(jīng)介紹過)工作得很好,但是由于它們的遞歸特性需要順序計算,因此它們有一些缺點(diǎn)。它們很難并行化,因?yàn)樗鼈円淮沃惶幚硪徊健C總€時間步取決于上一個。這也使得很難將它們縮放到非常長的序列。即使有了他們的注意力機(jī)制,他們?nèi)匀辉诮?fù)雜的遠(yuǎn)程依賴項(xiàng)方面仍在掙扎。大多數(shù)“工作”似乎都是在循環(huán)層中完成的。

 

Transformer解決了這些問題,方法是完全消除重復(fù)現(xiàn)象,并用多個前饋?zhàn)晕谊P(guān)注層代替它,并行處理所有輸入,并在輸入和輸出之間產(chǎn)生相對較短的路徑(使用梯度下降易于優(yōu)化)。這使他們真正快速地訓(xùn)練,易于擴(kuò)展并且能夠處理更多數(shù)據(jù)。為了告訴網(wǎng)絡(luò)有關(guān)輸入的順序(在遞歸模型中是隱式的),Transformers使用了位置編碼[19]。要了解有關(guān)Transformer工作原理的更多信息(一開始可能會有些困惑),我建議你使用圖示指南。

 

要說Transformer比幾乎任何人都預(yù)期的要好,那是輕描淡寫。在接下來的幾年中,它們將成為絕大多數(shù)NLP和其他序列任務(wù)的標(biāo)準(zhǔn)體系結(jié)構(gòu),甚至進(jìn)入計算機(jī)視覺體系結(jié)構(gòu)。

 

2018年-BERT和經(jīng)過微調(diào)的NLP模型

Papers

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [9]

 

Implementations

Fine-Tuning BERT with HuggingFace(https://huggingface.co/transformers/training.html)

一文回顧深度學(xué)習(xí)發(fā)展史上最重要經(jīng)典模型

 

預(yù)訓(xùn)練是指訓(xùn)練模型以執(zhí)行某些任務(wù),然后將學(xué)習(xí)到的參數(shù)用作初始化以學(xué)習(xí)相關(guān)任務(wù)。這具有直覺的意義-已經(jīng)學(xué)會將圖像分類為貓或狗的模型應(yīng)該已經(jīng)了解了有關(guān)圖像和毛茸茸的動物的一般知識。當(dāng)對該模型進(jìn)行微調(diào)以對狐貍進(jìn)行分類時,我們希望它比必須從頭學(xué)習(xí)的模型做得更好。類似地,已經(jīng)學(xué)會預(yù)測句子中下一個單詞的模型應(yīng)該已經(jīng)學(xué)會了有關(guān)人類語言模式的一般知識。我們希望它對于相關(guān)任務(wù)(如翻譯或情感分析)是一個很好的初始化方法。

 

預(yù)訓(xùn)練和微調(diào)已在Computer Vision和NLP中成功使用,但是很長一段時間以來它一直是視覺標(biāo)準(zhǔn),但使其在NLP中正常工作似乎更具挑戰(zhàn)性。大多數(shù)最新結(jié)果仍來自完全受監(jiān)督的模型。隨著Transformer的出現(xiàn),研究人員終于開始進(jìn)行預(yù)培訓(xùn)工作,從而產(chǎn)生了諸如ELMo [34],ULMFiT [35]和OpenAI的GPT之類的方法。

 

BERT是此類開發(fā)的最新成果,許多人認(rèn)為它已經(jīng)開啟了NLP研究的新紀(jì)元。像大多數(shù)其他模型一樣,它沒有經(jīng)過預(yù)測其他單詞的預(yù)訓(xùn)練,而是預(yù)測了句子中任何地方的被屏蔽(有意刪除)的單詞,以及兩個句子是否可能彼此跟隨。請注意,這些任務(wù)不需要標(biāo)記的數(shù)據(jù)。它可以在任何文本上進(jìn)行訓(xùn)練,而且很多!這個預(yù)先訓(xùn)練的模型可能已經(jīng)學(xué)習(xí)了一些關(guān)于語言的一般屬性,然后可以對其進(jìn)行微調(diào)以解決監(jiān)督任務(wù),例如問題回答或情緒預(yù)測。BERT在各種各樣的任務(wù)中都表現(xiàn)出色。HuggingFace等公司輕松下載和微調(diào)針對任何NLP任務(wù)的類似BERT的模型。從那時起,BERT就建立在諸如XLNet [31]和RoBERTa [32]和ALBERT [33]的發(fā)展之上。

 

2019/2020年及以后-BIG語言模型,自監(jiān)督學(xué)習(xí)?

整個深度學(xué)習(xí)歷史上最明顯的趨勢也許就是慘痛的教訓(xùn)。更好的并行化(=更多數(shù)據(jù))和更多模型參數(shù)的算法進(jìn)步一次又一次地贏得了“更智能的技術(shù)”。這種趨勢似乎延續(xù)到2020,其中GPT-3 ,通過OpenAI一個巨大的175十億參數(shù)語言模型,顯示了出乎意料的良好的泛化能力,盡管它的簡單訓(xùn)練目標(biāo)和標(biāo)準(zhǔn)架構(gòu)。

 

同樣的趨勢是諸如對比自監(jiān)督學(xué)習(xí)(例如SimCLR)之類的方法,它們可以更好地利用未標(biāo)記的數(shù)據(jù)。隨著模型變得越來越大,訓(xùn)練起來越來越快,可以有效利用Web上大量未標(biāo)記數(shù)據(jù)并學(xué)習(xí)可以轉(zhuǎn)移到其他任務(wù)的通用知識的技術(shù)變得越來越有價值并被廣泛采用。

分享到:
標(biāo)簽:深度 學(xué)習(xí)
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定