(0)

首頁資料文庫正文

卷積神經網絡起源范文

時間：2024-04-01 15:33:59

導語：如何才能寫好一篇卷積神經網絡起源，這就需要搜集整理更多的資料和文獻，歡迎閱讀由公務員之家整理的十篇范文，供你借鑒。

卷積神經網絡起源

篇1

【關鍵詞】深度神經網絡序列到序列網絡卷積網絡對抗式生成網路

1 深度神經網絡起源

人工神經網絡（ArtificialNeuralNetworks，ANN）研究是人工智能領域的一個重要分支，在對生物神經網絡結構及其機制研究的基礎上，構建類似的人工神經網絡，使得機器能直接從大量訓練數據中學習規律。其研究最早可以追溯到1957年Frank Rosenblatt提出的感知機模型，他在《The Perceptron： A Probabilistic Model for Information Storage and Organization in the Brain》建立了第一個人工神經網絡數學模型，19世紀80年代末期反向傳播（Back Propagation）算法的發明更是帶來了ANN的學習熱潮，但由于理論分析難度較大，訓練方法及技巧尚不成熟，計算機運算能力還不夠強大，這個時期ANN結構較為簡單，大部分都可等價為單隱層神經網絡，主要是進行淺層學習（Shallow Learning）研究。

2006年Geoffrey Hinton在《A Fast Learning Algorithm for Deep Belief Nets》中提出了逐層貪婪預訓練（layerwise greedy pretraining），顯著提高了MNIST手寫數字識別的準確率，開創了深度學習的新方向；隨后又在《Reducing the Dimensionality of Data with Neural Networks》中提出了deep autoencoder結構，在圖像和文本降維實驗上明顯優于傳統算法，證明了深度學習的正確性。以這兩篇論文為開端，整個學術界掀起了對深度學習的研究熱潮，由于更多的網絡層數和參數個數，能夠提取更多的數據特征，獲取更好的學習效果，ANN模型的層數和規模相比之前都有了很大的提升，被稱之為深度神經網絡（Deep Neural Networks，DNN）。

2 深度神經網絡的現代應用

2010年以來，隨著理論不斷創新和運算能力的增長，DNN被應用到許多領域并取得了巨大的成功。2011年微軟和谷歌的研究員利用DNN將語音識別的錯誤率降低了20%～30%；2012年在ImageNet圖像識別挑戰賽（ILSVRC2012）中DNN更是將識別錯誤率從26%降到了15%；2016年3月DeepMind團隊研發的圍棋軟件AlphaGO以4：1的巨大優勢戰勝了世界圍棋冠軍李世石，2017年1月初AlphaGO的升級版Master以60：0的戰績擊敗了數十位中日韓圍棋高手。當前對DNN的研究主要集中在以下領域：

2.1 語音識別領域

微軟研究院語音識別專家鄧立和俞棟從2009年開始和深度學習專家Geoffery Hinton合作，并于2011年宣布推出基于DNN的識別系統，徹底改變了語音識別的原有技術框架；2012年11月，百度上線了第一款基于DNN的語音搜索系統，成為最早采用DNN技術進行商業語音服務的公司之一；2016年微軟使用循環神經網絡語言模型（Recurrent Neural Network based Language Modeling，RNN-LM）將switchboard的詞識別錯誤率降低到了6.3%。

2.2 圖像識別領域

早在1989年，YannLeCun和他的同事們就提出了卷積神經網絡（Convolution Neural Networks，CNN）結構。在之后的很長一段時間里，CNN雖然在諸如手寫數字問題上取得過世界最好的成功率，但一直沒有被廣泛應用。直到2012年10月，Geoffrey Hinton在ILSVRC2012中使用更深的CNN將錯誤率從26%降到15%，業界才重新認識到CNN在圖像識別領域上的巨大潛力；2012年谷歌宣布基于CNN使得電腦直接從一千萬張圖片中自發學會貓臉識別；2013年DNN被成功應用于一般圖片的識別和理解；2016年DeepMind團隊基于CNN研發了圍棋AI，并取得了巨大成功。

2.3 自然語言處理領域

2003年YoshuaBengio等人提出單詞嵌入（word embedding）方法將單詞映射到一個矢量空間，然后用ANN來表示N-Gram模型；2014年10月NEC美國研究院將DNN用于自然語言處理（Natural language processing，NLP）的研究工作，其研究員Ronan Collobert和Jason Weston從2008年開始采用單詞嵌入技術和多層一維卷積的結構，用于POS Tagging、Chunking、Named Entity Recognition、Semantic Role Labeling等四典型NLP問題；2014年IlyaSutskever提出了基于LSTM的序列到序列（sequence to sequence，seq2seq）網絡模型，突破了傳統網絡的定長輸入向量問題，開創了語言翻譯領域的新方向；2016年谷歌宣布推出基于DNN的翻譯系統GNMT（Google Neural Machine Translation），大幅提高了翻譯的精確度與流暢度。

3 深度神經網絡常見結構

DNN能夠在各領域取得巨大成功，與其模型結構是密不可分的，現代DNN大都可歸納為三種基本結構：序列到序列網絡、卷積網絡、對抗式生成網絡，或由這三種基本網絡結構相互組合而成。

3.1 序列到序列網絡

序列到序列網絡的最顯著特征在于，它的輸入張量和輸出張量長度都是動態的，可視為一串不定長序列，相比傳統結構極大地擴展了模型的適應范圍，能夠對序列轉換問題直接建模，并以端到端的方式訓練模型。典型應用領域有：自動翻譯機（將一種語言的單詞序列轉換為另一種語言的單詞序列），語音識別（將聲波采樣序列轉換為文本單詞序列），自動編程機研究（將自然語言序列轉換為語法樹結構），此類問題的特點在于：

（1）輸入和輸出數據都是序列（如連續值語音信號/特征、離散值的字符）；

（2）輸入和輸出序列長度都不固定；

（3）輸入輸出序列長度沒有對應關系。

其典型如圖1所示。

網絡由編碼器（encoder）網絡和解碼器網絡（decoder）兩部分連接構成：

3.1.1 編碼器網絡

編碼器網絡通常是一個遞歸神經網絡（Recurrent Neural Networks，RNN），網絡節點一般使用長短期記憶模型（Long Short Term Memory，LSTM）實現，序列中里第t個張量xt的輸出yt依賴于之前的輸出序列（y0、y1…yt-1），輸入序列（x0、x1、x2…）那爸梁笠來問淙臚絡，整個序列處理完后得到最終的輸出Y以及各層的隱藏狀態H。

3.1.2 解碼器網絡

解碼器網絡是一個與編碼器網絡結構相同的RNN網絡，以解碼器的最終輸出（Y，H）為初始輸入，使用固定的開始標記S及目標序列G當作輸入數據進行學習，目標是使得在X輸入下Y和G盡量接近，即損失度函數f（X）取得最小值。

解碼器網絡屬于典型的監督學習結構，可以用BP算法進行訓練，而編碼器網絡的輸出傳遞給了解碼器網絡，因此也能同時進行訓練。網絡模型學習完畢后，將序列X輸入編碼器，并將起始標記S輸入解碼器，網絡就會給出正確的對應序列。

3.2 卷積神經網絡

卷積神經網絡將傳統圖像處理的卷積運算和DNN相結合，屬于前饋神經網絡，是在生物視覺皮層的研究基礎上發展而來的，在大型圖像處理上有出色表現。CNN一般由多個結構相似的單元組成，每個單元包含卷積層（convolution layer）和池化層（poolinglayer），通常網絡末端還連接全聯通層（fully-connected layer，FC）及Softmax分類器。這種結構使得CNN非常適合處理二維結構數據，相比其它DNN在圖像處理領域上具有天然優勢，CNN的另一優勢還在于，由于卷積層共享參數的特點，使得它所需的參數數量大為減少，提高了訓練速度。其典型結構如圖2所示：

3.2.1 卷積層（Convolutional layer）

卷積層由若干卷積核構成，每個卷積核在整個圖像的所有通道上同時做卷積運算，卷積核的參數通過BP算法從訓練數據中自動獲取。卷積核是對生物視覺神經元的建模，在圖像局部區域進行的卷積運算實質上是提取了輸入數據的特征，越深層的卷積層所能提取到的特征也越復雜。例如前幾個卷積層可能提取到一些邊緣、梯度、線條、角度等低級特征，后續的卷積層則能認識圓、三角形、長方形等稍微復雜的幾何概念，末尾的卷積層則能識別到輪子、旗幟、足球等現實物體。

3.2.2 池化層（Poolinglayer）

池化層是卷積網絡的另一重要部分，用于縮減卷積層提取的特征圖的尺寸，它實質上是某種形式的下采樣：將圖像劃分為若干矩形區塊，在每個區塊上運算池化函數得到輸出。有許多不同形式的池化函數，常用的有“最大池化”（maxpooling，取區塊中數據的最大值）和“平均池化”（averagepooling，取區塊中數據的平均值）。池化層帶來的好處在于：

（1）減小了數據尺寸，降低參數的數量和計算量；

（2）模糊了各“像素”相對位置關系，泛化了網絡識別模式。

但由于池化層過快減少了數據的大小，導致，目前文獻中的趨勢是在池化運算時使用較小的區塊，甚至不再使用池化層。

3.3 生成式對抗網絡（Generative Adversarial Network，GAN）

生成式對抗網絡最初由Goodfellow等人在NIPS2014年提出，是當前深度學習研究的重要課題之一。它的目的是收集大量真實世界中的數據（例如圖像、聲音、文本等），從中學習數據的分布模式，然后產生盡可能逼真的內容。GAN在圖像去噪，修復，超分辨率，結構化預測，強化學習中等任務中非常有效；另一重要應用則是能夠在訓練集數據過少的情況下，生成模擬數據來協助神經網絡完成訓練。

3.3.1 模型結構

GAN網絡典型結構如圖3所示，一般由兩部分組成，即生成器網絡（Generator）和識別器網絡（Discriminator）：

（1）生成器網絡的目標是模擬真實數據的分布模式，使用隨機噪聲生成盡量逼真的數據。

（2）識別器的目標是學習真實數據的有效特征，從而判別生成數據和真實數據的差異度。

3.3.2 訓練方法

GAN采用無監督學習進行訓練，輸入向量z一般由先驗概率概率pz（z）生成，通過生成器網絡產生數據G（z）。來自訓練集的真實數據的分布為pdata （x），GAN網絡的實質是學習該特征分布，因此生成的數據G（z）必然也存在對應的分布pg （z），而識別器網絡則給出數據來自于真實數據的概率D（x）以及D（G（z））。整個訓練過程的實質就是生成器網絡和識別器網絡的博弈過程，即找到

4 深度神經網絡研究展望

DNN雖然在各大領域都取得了重大的成功，甚至宣告了“智能時代”的來臨，但是與人類大腦相比，DNN在許多方面仍有顯著差距：

4.1 識別對抗樣本的挑戰

對抗樣本是指在數據集中添加微小的擾動所形成的數據，這些數據能使網絡以極高的置信度做出錯誤的判別。在網絡實際使用過程中會帶來非常大的問題，比如病毒制造者可能刻意構造樣本來繞過基于DNN的安全檢查網絡。部分研究指出問題的根因可能在于DNN本身的高度非線性，微小的擾動可能在輸出時產生巨大的差異。

4.2 構造統一模型的挑戰

DNN雖然在很多領域都取得了巨大的成功，但無論是序列到序列網絡、卷積網絡、還是對抗式生成網絡都只適應于特定領域，與此相對的則是，人類只用一個大腦就能完成語音、文本、圖像等各類任務，如何構建類似的統一模型，對整個領域都是極大的挑戰。

4.3 提高訓練效率的挑戰

DNN的成功依賴于大量訓練數據，據統計要使得網絡學會某一特征，平均需要50000例以上的樣本，相比而言人類只需要少量的指導即可學會復雜問題，這說明我們的模型和訓練方法都還有極大的提高空間。

參考文獻

[1]ROSENBLATT F.The perceptron：a probabilistic model for information storage and organization in the brain [M].MIT Press，1988.

[2]HINTON G E，OSINDERO S，TEH Y W.A fast learning algorithm for deep belief nets [J].Neural Computation，1989， 18（07）：1527-54.

[3]HINTON G E，SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J].Science， 2006，313（5786）：504.

[4]SEIDE F，LI G，YU D.Conversational Speech Transcription Using Context-Dependent Deep Neural Networks； proceedings of the INTERSPEECH 2011， Conference of the International Speech Communication Association， Florence，Italy，August，F，2011 [C].

[5]OQUAB M，BOTTOU L，LAPTEV I，et al. Learning and Transferring Mid-level Image Representations Using Convolutional Neural Networks； proceedings of the Computer Vision and Pattern Recognition，F，2014 [C].

[6]SILVER D，HUANG A，MADDISON C J，et al.Mastering the game of Go with deep neural networks and tree search [J].Nature，2016，529（7587）：484.

[7]XIONG W，DROPPO J，HUANG X，et al.The Microsoft 2016 Conversational Speech Recognition System[J].2016.

[8]LECUN Y，BOTTOU L，BENGIO Y，et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE，1998，86（11）：2278-324.

[9]BENGIO Y，DELALLEAU O， LE R N，et al.Learning eigenfunctions links spectral embedding and kernel PCA [J].Neural Computation，2004，16（10）：2197-219.

[10]LEGRAND J，COLLOBERT R.Recurrent Greedy Parsing with Neural Networks [J].Lecture Notes in Computer Science，2014，8725（130-44.

[11]SUTSKEVER I，VINYALS O，LE Q V. Sequence to Sequence Learning with Neural Networks [J].Advances in Neural Information Processing Systems，2014，4（3104-12.

[12]WU Y，SCHUSTER M，CHEN Z，et al. Google's Neural Machine Translation System：Bridging the Gap between Human and Machine Translation [J]. 2016.

[13]GOODFELLOW I J，POUGETABADIE J，MIRZA M，et al.Generative Adversarial Networks [J].Advances in Neural Information Processing Systems，2014，3（2672-80.

作者撾

熱門標簽

心理培訓人文科學概論

相關文章

1卷積神經網絡算法在隧道工程的應用

2卷積運算的數字信號論文

精品范文

1卷積神經網絡的意義

2卷積神經網絡的核心

3卷積神經網絡的優化

4卷積神經網絡在醫學的應用

5卷積神經網絡的改進

6卷積神經網絡意義

7卷積神經網絡實現過程

8卷積在神經網絡中的作用

9卷積神經網絡存在的問題

10卷積神經網絡的深度

亚洲一区综合在线播放