一文回顧深度學(xué)習(xí)發(fā)展史上最重要經(jīng)典模型-魔扣目錄

這篇文章的目的是回顧經(jīng)過時間考驗(yàn)的，被廣泛采用的想法。我將介紹一小部分技術(shù)，這些技術(shù)涵蓋了解現(xiàn)代深度學(xué)習(xí)研究所必需的許多基本知識。如果你是該領(lǐng)域的新手，那么這是一個很好的起點(diǎn)。

深度學(xué)習(xí)是一個瞬息萬變的領(lǐng)域，大量的研究論文和想法可能會令人不知所措。即使是經(jīng)驗(yàn)豐富的研究人員，也很難告訴公司PR什么是真正的突破。這篇文章的目的是回顧經(jīng)受住時間考驗(yàn)的想法，這也許是人們應(yīng)該依靠的唯一參考標(biāo)準(zhǔn)。這些想法或?qū)λ鼈兊母倪M(jìn)已被反復(fù)使用。他們已經(jīng)“家喻戶曉”。

如果你今天要開始學(xué)習(xí)深度學(xué)習(xí)，那么理解和實(shí)現(xiàn)這些技術(shù)中的每一個都將為你了解最新研究和開展自己的項(xiàng)目奠定良好的基礎(chǔ)。這就是我認(rèn)為最好的入門方法。以歷史順序?yàn)g覽論文也是了解當(dāng)前技術(shù)的來歷以及為什么會發(fā)明它們。換句話說，我會盡量呈現(xiàn)最小集的想法，最必要的基本知識，了解現(xiàn)代的深度學(xué)習(xí)研究核心發(fā)展歷程。

免費(fèi)pdf好書推薦：

2020最新版《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》中文版PDF免費(fèi)開放下載

劉知遠(yuǎn)老師7月新書-《自然語言處理表示學(xué)習(xí)》免費(fèi)書分享

關(guān)于深度學(xué)習(xí)的一個相當(dāng)獨(dú)特的事情是它的應(yīng)用領(lǐng)域（視覺，自然語言，語音，RL等）共享大多數(shù)技術(shù)。例如，某人曾在計算機(jī)視覺深度學(xué)習(xí)領(lǐng)域工作過，整個職業(yè)很快就能在NLP研究中取得成果。特定的網(wǎng)絡(luò)體系結(jié)構(gòu)可能有所不同，但是概念，方法和代碼基本相同。我將嘗試介紹來自各個領(lǐng)域的想法，但此列表有一些警告：

1. 我的目標(biāo)不是為這些技術(shù)提供深入的解釋或代碼示例。將長篇復(fù)雜的論文總結(jié)成一個段落是不容易的。相反，我將簡要概述每種技術(shù)，其歷史背景以及與論文和實(shí)現(xiàn)的鏈接。如果你想學(xué)習(xí)一些東西，我強(qiáng)烈建議你嘗試在不使用現(xiàn)有代碼庫或高級庫的情況下，從頭開始在原始PyTorch中重現(xiàn)其中的某些紙本結(jié)果。

2. 該列表偏向于我自己的知識和我熟悉的領(lǐng)域。我沒有很多激動人心的子領(lǐng)域。我會堅持大多數(shù)人認(rèn)為的主流領(lǐng)域，包括視覺，自然語言，語音和強(qiáng)化學(xué)習(xí)/游戲。

3. 我將只討論具有已知能很好運(yùn)行的官方或半官方開源實(shí)現(xiàn)的研究。有些研究不容易重現(xiàn)，因?yàn)樗婕熬薮蟮墓こ烫魬?zhàn)，例如DeepMind的AlphaGo或OpenAI的Dota 2 AI，因此在這里我不會重點(diǎn)介紹。

4. 有些選擇是任意的。通常，大約在同一時間發(fā)布相當(dāng)相似的技術(shù)。這篇文章的目的不是要進(jìn)行全面的回顧，而是要使剛接觸該領(lǐng)域的新人了解涵蓋很多領(lǐng)域的各種觀點(diǎn)。例如，可能有數(shù)百種GAN變體，但是要了解GAN的一般概念，你學(xué)習(xí)哪一個都沒關(guān)系。

2012年-使用AlexNet和Dropout解決ImageNet

Papers

ImageNet Classification with Deep Convolutional Neural Networks (2012)[1]

Improving neural networks by preventing co-adaptation of feature detectors (2012) [2]

One weird trick for parallelizing convolutional neural networks (2014) [14]

Implementations

AlexNet in PyTorch（https://pytorch.org/hub/pytorch_vision_alexnet）

AlexNet in TensorFlow（https://github.com/tensorflow/models/blob/master/research/slim/nets/alexnet.py）

資料來源：https : //papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks

AlexNet通常被認(rèn)為是導(dǎo)致深度學(xué)習(xí)和人工智能研究近來蓬勃發(fā)展的算法。它是基于Yann LeCun開發(fā)的早期LeNet的深度卷積神經(jīng)網(wǎng)絡(luò)。AlexNet 通過結(jié)合GPU的強(qiáng)大功能和先進(jìn)的算法，大大超越了以前對ImageNet數(shù)據(jù)集中的圖像進(jìn)行分類的方法。它證明了神經(jīng)網(wǎng)絡(luò)確實(shí)有效！AlexNet也是最早使用Dropout [2]的平臺之一，此后它已成為提高各種深度學(xué)習(xí)模型的泛化能力的關(guān)鍵組成部分。

AlexNet使用的體系結(jié)構(gòu)，一系列卷積層，ReLU非線性和最大池化，已成為將來的計算機(jī)視覺體系結(jié)構(gòu)可以擴(kuò)展和建立的公認(rèn)標(biāo)準(zhǔn)。如今，諸如PyTorch之類的軟件庫是如此強(qiáng)大，并且與最新的體系結(jié)構(gòu)相比，AlexNet非常簡單，因此僅需幾行代碼即可實(shí)現(xiàn)。注意，AlexNet的許多實(shí)現(xiàn)（例如上面鏈接的實(shí)現(xiàn)）都使用一種怪異的技巧中描述的網(wǎng)絡(luò)的細(xì)微變化來并行化卷積神經(jīng)網(wǎng)絡(luò)[14]。（https://arxiv.org/abs/1404.5997）

2013年-通過深度強(qiáng)化學(xué)習(xí)玩Atari

Papers

Playing Atari with Deep Reinforcement Learning (2013)聽[7]

Implementations

DQN in PyTorch（https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html）

DQN in TensorFlow（https://www.tensorflow.org/agents/tutorials/1_dqn_tutorial）

資料來源：https : //deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning

在最近在圖像識別和GPU方面取得突破的基礎(chǔ)上，DeepMind的團(tuán)隊成功地訓(xùn)練了一個網(wǎng)絡(luò)，可以通過原始像素輸入來玩Atari游戲。而且，相同的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)學(xué)會了玩七種不同的游戲，而沒有被告知任何特定于游戲的規(guī)則，這證明了這種方法的普遍性。

強(qiáng)化學(xué)習(xí)與“監(jiān)督學(xué)習(xí)”（例如圖像分類）的不同之處在于，Agent必須在多個時間步長（例如贏得比賽）中學(xué)習(xí)最大化的獎勵總和，而不僅僅是預(yù)測標(biāo)簽。由于Agent直接與環(huán)境交互，并且每個動作都會影響環(huán)境，因此訓(xùn)練數(shù)據(jù)不是獨(dú)立的且分布均勻（iid），這使得許多機(jī)器學(xué)習(xí)模型的訓(xùn)練非常不穩(wěn)定。這是通過使用諸如經(jīng)驗(yàn)重播等技術(shù)解決的[15]。

盡管沒有明顯的算法創(chuàng)新可以使這項(xiàng)工作奏效，但這項(xiàng)研究巧妙地結(jié)合了現(xiàn)有技術(shù)，在GPU上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)和體驗(yàn)重播，以及一些數(shù)據(jù)處理技巧，以實(shí)現(xiàn)大多數(shù)人無法預(yù)期的令人印象深刻的結(jié)果。這使人們有信心擴(kuò)展“深度強(qiáng)化學(xué)習(xí)”技術(shù)，以解決更復(fù)雜的任務(wù)，例如Go，Dota 2，Starcraft 2等。

此后，Atari Games [21]已成為強(qiáng)化學(xué)習(xí)研究的標(biāo)準(zhǔn)基準(zhǔn)。最初的方法僅解決了7場比賽（超過了人類的基準(zhǔn)），但是在未來幾年中，基于這些思想的進(jìn)步將開始在越來越多的游戲上擊敗人類。蒙特祖瑪?shù)摹稄?fù)仇》是一款特別的游戲，因需要長期規(guī)劃而聞名，被認(rèn)為是最難解決的游戲之一。直到最近[23] [22]，這些技術(shù)才在所有57款游戲中都超過了人類的水平。

2014年-帶注意力（Attention）的編碼器-解碼器網(wǎng)絡(luò)

Papers

Sequence to Sequence Learning with Neural Networks [4]

Neural machine Translation by Jointly Learning to Align and Translate [3]

Implementations

Seq2Seq with Attention in PyTorch（https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html#）

Seq2Seq with Attention in TensorFlow（https://www.tensorflow.org/addons/tutorials/networks_seq2seq_nmt）

來源：https : //ai.googleblog.com/2017/04/introducing-tf-seq2seq-open-source.html

深度學(xué)習(xí)最令人印象深刻的結(jié)果主要是與視覺相關(guān)的任務(wù)，并且是由卷積神經(jīng)網(wǎng)絡(luò)驅(qū)動的。盡管NLP社區(qū)在使用LSTM網(wǎng)絡(luò)[16]和編碼器-解碼器體系結(jié)構(gòu)[4]進(jìn)行語言建模和翻譯方面取得了成功，但直到注意力機(jī)制[3]的發(fā)明才開始取得令人矚目的成就。

在處理語言時，每個token（可能是字符，單詞或介于兩者之間的某種事物）都會被饋送到循環(huán)網(wǎng)絡(luò)（例如LSTM）中，該網(wǎng)絡(luò)維護(hù)一種先前處理過的輸入的memory。換句話說，一個句子與時間序列非常相似，每個token都是一個時間步。這些循環(huán)模型通常很難處理長期的依賴關(guān)系。當(dāng)他們處理序列時，他們很容易“忘記”較早的輸入，因?yàn)樗鼈兊奶荻刃枰ㄟ^許多時間步長傳播。使用梯度下降來優(yōu)化這些模型非常困難。

新的注意力機(jī)制有助于緩解這一問題。它通過引入快捷方式連接為網(wǎng)絡(luò)提供了一種在較早的時間步長自適應(yīng)“回頭看”的選項(xiàng)。這些連接使網(wǎng)絡(luò)可以決定在生成特定輸出時哪些輸入很重要。典范的例子是翻譯：生成輸出詞時，通常會映射到一個或多個特定的輸入詞。

免費(fèi)pdf好書推薦：

2020最新版《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》中文版PDF免費(fèi)開放下載

劉知遠(yuǎn)老師7月新書-《自然語言處理表示學(xué)習(xí)》免費(fèi)書分享

2014-Adam優(yōu)化器

Papers

Adam: A Method for Stochastic Optimization [12]

Implementations

Implementing Adam in Python（https://d2l.ai/chapter_optimization/adam.html）

PyTorch Adam implementation（https://pytorch.org/docs/master/_modules/torch/optim/adam.html）

TensorFlow Adam implementation（https://github.com/tensorflow/tensorflow/blob/v2.2.0/tensorflow/python/keras/optimizer_v2/adam.py#L32-L281）

資料來源：http : //arxiv.org/abs/1910.11758

通過使用優(yōu)化器使損失函數(shù)（例如平均分類誤差）最小化來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。優(yōu)化器負(fù)責(zé)弄清楚如何調(diào)整網(wǎng)絡(luò)參數(shù)以使其了解目標(biāo)。大多數(shù)優(yōu)化器

基于隨機(jī)梯度下降法（SGD）的變體。但是，許多這些優(yōu)化器本身都包含可調(diào)參數(shù)，例如學(xué)習(xí)率。為特定問題找到正確的設(shè)置，不僅可以減少訓(xùn)練時間，而且由于可以找到更好的損失函數(shù)局部最小值，因此也可以得到更好的結(jié)果。

大型研究實(shí)驗(yàn)室經(jīng)常運(yùn)行昂貴的超參數(shù)搜索，這些搜索帶有復(fù)雜的學(xué)習(xí)速率計劃，以便從簡單但對超參數(shù)敏感的優(yōu)化器（例如SGD）中獲得最大收益。當(dāng)它們超過現(xiàn)有基準(zhǔn)時，有時是由于花費(fèi)大量資金來優(yōu)化優(yōu)化器的結(jié)果。這樣的細(xì)節(jié)常常在已發(fā)表的研究論文中沒有提到。沒有相同預(yù)算來優(yōu)化其優(yōu)化器的研究人員陷入了更糟糕的結(jié)果。

Adam優(yōu)化器建議使用梯度的第一和第二階來自動調(diào)整學(xué)習(xí)率。結(jié)果證明是非常可靠的，并且對超參數(shù)選擇不太敏感。換句話說，Adam經(jīng)常可以正常工作，不需要像其他優(yōu)化程序一樣進(jìn)行廣泛的調(diào)整[24]。盡管調(diào)整得非常好的SGD仍然可以獲得更好的結(jié)果，但是Adam使研究更容易進(jìn)行，因?yàn)槿绻承┦虑椴黄鹱饔茫憔椭肋@不太可能是調(diào)整不當(dāng)?shù)膬?yōu)化器的錯。

2014/2015-生成對抗網(wǎng)絡(luò)（GAN）

Papers

Generative Adversarial Networks [6]

Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks [17]

Implementations

DCGAN in PyTorch（https://pytorch.org/tutorials/beginner/dcgan_faces_tutorial.html）

DCGAN in TensorFlow（https://www.tensorflow.org/tutorials/generative/dcgan）

來源：https：//developers.google.com/machine-learning/gan/gan_structure

生成模型（例如變體自動編碼器）的目標(biāo)是創(chuàng)建看起來逼真的數(shù)據(jù)樣本，例如你可能在某處看到的這些人臉圖像。因?yàn)樗麄儽仨殞φ麄€數(shù)據(jù)分布進(jìn)行建模（很多像素！），而不僅僅是將貓或狗分類為判別模型，所以此類模型通常很難訓(xùn)練。生成對抗網(wǎng)絡(luò)（GAN）就是這樣一種模型。

GAN的基本思想是串聯(lián)訓(xùn)練兩個網(wǎng)絡(luò)-生成器和鑒別器。生成器的目標(biāo)是生成使鑒別器蒙蔽的樣本，該樣本經(jīng)過訓(xùn)練可以區(qū)分真實(shí)圖像和生成的圖像。隨著時間的流逝，鑒別器將在識別假貨方面變得更好，但生成器也將在欺騙鑒別器方面變得更好，從而生成看起來更逼真的樣本。GAN的第一次迭代會產(chǎn)生模糊的低分辨率圖像，并且訓(xùn)練起來非常不穩(wěn)定。但是隨著時間的推移，變化和改進(jìn)，例如DCGAN [17]，Wasserstein GAN [25]，CycleGAN [26]，StyleGAN（v2）[27]，以及其他許多人都基于此想法來生成高分辨率的逼真的圖像和視頻。

2015年-殘差網(wǎng)絡(luò)（ResNet）

Papers

Deep Residual Learning for Image Recognition聽[13]

Implementations

ResNet in PyTorch（https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py）

ResNet in Tensorflow（https://github.com/tensorflow/tensorflow/blob/v2.2.0/tensorflow/python/keras/Applications/resnet.py）

研究人員一直在AlexNet突破的基礎(chǔ)上發(fā)展了一段時間，發(fā)明了基于卷積神經(jīng)網(wǎng)絡(luò)的性能更好的架構(gòu)，例如VGGNet [28]，Inception [29]等。ResNet是這一系列快速發(fā)展中的下一個迭代。迄今為止，ResNet變體通常用作各種任務(wù)的基準(zhǔn)模型架構(gòu)，也用作更復(fù)雜的架構(gòu)的基礎(chǔ)。

除了在ILSVRC 2015分類挑戰(zhàn)中獲得第一名之外，ResNet 之所以與眾不同，還在于其與其他網(wǎng)絡(luò)體系結(jié)構(gòu)相比的深度。本文中介紹的最深層網(wǎng)絡(luò)具有1,000層，并且仍然表現(xiàn)良好，盡管在基準(zhǔn)任務(wù)上比其101和152層對應(yīng)的網(wǎng)絡(luò)稍差。由于梯度消失了，訓(xùn)練這樣的深度網(wǎng)絡(luò)是一個具有挑戰(zhàn)性的優(yōu)化問題，它也出現(xiàn)在序列模型中。沒有多少研究人員認(rèn)為訓(xùn)練如此深的網(wǎng)絡(luò)可以帶來良好的穩(wěn)定結(jié)果。

ResNet使用了身份快捷方式連接來幫助梯度流動。解釋這些連接的一種方法是ResNet僅需要學(xué)習(xí)從一層到另一層的“增量”，這通常比學(xué)習(xí)完整的轉(zhuǎn)換要容易。這種身份連接是公路網(wǎng)[30]中提出的連接的特例，而連接又受到LSTM使用的門控機(jī)制的啟發(fā)。

2017-Transformer

Papers

Attention is All You Need聽[5]

Implementations

PyTorch: Sequence-to-Sequence Modeling with nn.Transformer and TorchText（https://pytorch.org/tutorials/beginner/transformer_tutorial.html）

Tensorflow: Transformer model for language understanding（https://www.tensorflow.org/tutorials/text/transformer）

HuggingFace Transformers Library（https://github.com/huggingface/transformers）

資料來源：https : //arxiv.org/abs/1706.03762

帶注意力機(jī)制的序列到序列模型（在本文的前面已經(jīng)介紹過）工作得很好，但是由于它們的遞歸特性需要順序計算，因此它們有一些缺點(diǎn)。它們很難并行化，因?yàn)樗鼈円淮沃惶幚硪徊健Ｃ總€時間步取決于上一個。這也使得很難將它們縮放到非常長的序列。即使有了他們的注意力機(jī)制，他們?nèi)匀辉诮?fù)雜的遠(yuǎn)程依賴項(xiàng)方面仍在掙扎。大多數(shù)“工作”似乎都是在循環(huán)層中完成的。

Transformer解決了這些問題，方法是完全消除重復(fù)現(xiàn)象，并用多個前饋?zhàn)晕谊P(guān)注層代替它，并行處理所有輸入，并在輸入和輸出之間產(chǎn)生相對較短的路徑（使用梯度下降易于優(yōu)化）。這使他們真正快速地訓(xùn)練，易于擴(kuò)展并且能夠處理更多數(shù)據(jù)。為了告訴網(wǎng)絡(luò)有關(guān)輸入的順序（在遞歸模型中是隱式的），Transformers使用了位置編碼[19]。要了解有關(guān)Transformer工作原理的更多信息（一開始可能會有些困惑），我建議你使用圖示指南。

要說Transformer比幾乎任何人都預(yù)期的要好，那是輕描淡寫。在接下來的幾年中，它們將成為絕大多數(shù)NLP和其他序列任務(wù)的標(biāo)準(zhǔn)體系結(jié)構(gòu)，甚至進(jìn)入計算機(jī)視覺體系結(jié)構(gòu)。

2018年-BERT和經(jīng)過微調(diào)的NLP模型

Papers

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [9]

Implementations

Fine-Tuning BERT with HuggingFace（https://huggingface.co/transformers/training.html）

預(yù)訓(xùn)練是指訓(xùn)練模型以執(zhí)行某些任務(wù)，然后將學(xué)習(xí)到的參數(shù)用作初始化以學(xué)習(xí)相關(guān)任務(wù)。這具有直覺的意義-已經(jīng)學(xué)會將圖像分類為貓或狗的模型應(yīng)該已經(jīng)了解了有關(guān)圖像和毛茸茸的動物的一般知識。當(dāng)對該模型進(jìn)行微調(diào)以對狐貍進(jìn)行分類時，我們希望它比必須從頭學(xué)習(xí)的模型做得更好。類似地，已經(jīng)學(xué)會預(yù)測句子中下一個單詞的模型應(yīng)該已經(jīng)學(xué)會了有關(guān)人類語言模式的一般知識。我們希望它對于相關(guān)任務(wù)（如翻譯或情感分析）是一個很好的初始化方法。

預(yù)訓(xùn)練和微調(diào)已在Computer Vision和NLP中成功使用，但是很長一段時間以來它一直是視覺標(biāo)準(zhǔn)，但使其在NLP中正常工作似乎更具挑戰(zhàn)性。大多數(shù)最新結(jié)果仍來自完全受監(jiān)督的模型。隨著Transformer的出現(xiàn)，研究人員終于開始進(jìn)行預(yù)培訓(xùn)工作，從而產(chǎn)生了諸如ELMo [34]，ULMFiT [35]和OpenAI的GPT之類的方法。

BERT是此類開發(fā)的最新成果，許多人認(rèn)為它已經(jīng)開啟了NLP研究的新紀(jì)元。像大多數(shù)其他模型一樣，它沒有經(jīng)過預(yù)測其他單詞的預(yù)訓(xùn)練，而是預(yù)測了句子中任何地方的被屏蔽（有意刪除）的單詞，以及兩個句子是否可能彼此跟隨。請注意，這些任務(wù)不需要標(biāo)記的數(shù)據(jù)。它可以在任何文本上進(jìn)行訓(xùn)練，而且很多！這個預(yù)先訓(xùn)練的模型可能已經(jīng)學(xué)習(xí)了一些關(guān)于語言的一般屬性，然后可以對其進(jìn)行微調(diào)以解決監(jiān)督任務(wù)，例如問題回答或情緒預(yù)測。BERT在各種各樣的任務(wù)中都表現(xiàn)出色。HuggingFace等公司輕松下載和微調(diào)針對任何NLP任務(wù)的類似BERT的模型。從那時起，BERT就建立在諸如XLNet [31]和RoBERTa [32]和ALBERT [33]的發(fā)展之上。

2019/2020年及以后-BIG語言模型，自監(jiān)督學(xué)習(xí)？

整個深度學(xué)習(xí)歷史上最明顯的趨勢也許就是慘痛的教訓(xùn)。更好的并行化（=更多數(shù)據(jù)）和更多模型參數(shù)的算法進(jìn)步一次又一次地贏得了“更智能的技術(shù)”。這種趨勢似乎延續(xù)到2020，其中GPT-3 ，通過OpenAI一個巨大的175十億參數(shù)語言模型，顯示了出乎意料的良好的泛化能力，盡管它的簡單訓(xùn)練目標(biāo)和標(biāo)準(zhǔn)架構(gòu)。

同樣的趨勢是諸如對比自監(jiān)督學(xué)習(xí)（例如SimCLR）之類的方法，它們可以更好地利用未標(biāo)記的數(shù)據(jù)。隨著模型變得越來越大，訓(xùn)練起來越來越快，可以有效利用Web上大量未標(biāo)記數(shù)據(jù)并學(xué)習(xí)可以轉(zhuǎn)移到其他任務(wù)的通用知識的技術(shù)變得越來越有價值并被廣泛采用。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

一文回顧深度學(xué)習(xí)發(fā)展史上最重要經(jīng)典模型

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓(xùn)練成績評定2018-06-03