神經網絡卷積層的作用范文
時間:2024-03-27 16:41:02
導語:如何才能寫好一篇神經網絡卷積層的作用,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
【關鍵詞】圖像分類深度 卷積神經網絡 加權壓縮近鄰
1 研究背景
手寫數字識別是一個經典的模式識別問題。從0 到9這10 個阿拉伯數字組成。由于其類別數比較小,它在些運算量很大或者比較復雜的算法中比較容易實現。所以,在模式識別中數字識別一直都是熱門的實驗對象。卷積神經網絡 (Convolutional Neural Networks,CNN),在手寫體識別中有著良好的性能。卷積神經網絡的神經元是局部連接,神經元之間能夠共享權值。深度卷積神經網絡不但可以解決淺層學習結構無法自動提取圖像特征的問題,并且提高了分類的泛化能力和準確度。
2 深度卷積神經網絡
深度卷積神經網絡是一種具有多層監督的神經網絡,隱含層中的卷積層和池采樣層是實現深度卷積神經網絡提取特征的核心模塊,并通過使用梯度下降算法最小化損失函數來進行權重參數逐層反向調節,再經過迭代訓練提高分類精確度。
深度卷積神經網絡的首層是輸入層,之后是若干個卷積層和若干個子采樣層和分類器。分類器一般采用Softmax,再由分類器去輸出相應的分類結果。正常情況下,一個卷積后面都跟一個子采樣層?;诰矸e層里權值共享和局部連接的特性,可以簡化網絡的樣本訓練參數。運算之后,獲得的結果通過激活函數輸出得到特征圖像,再將輸出值作為子采樣層的輸入數據。為了實現縮放、平移和扭曲保持不變,在子采樣層中將之前一層對應的特征圖中相鄰特征通過池化操作合并成一個特征,減少特征分辨率。這樣,輸入的數據就可以立即傳送到第一個卷積層,反復進行特征學習。將被標記的樣本輸入到Softmax分類器中。
CNN 能夠簡化網絡的樣本訓練參數,降低計算難度。這些良好的性能是網絡在有監督方式下學會的,網絡的結構主要有局部連接和權值共享兩個特點:
2.1 局部連接
深度卷積神經網絡中,層與層之間的神經元節點是局部連接,不像BP 神經網絡中的連接為全連接。深度卷積神經網絡利用局部空間的相關性將相鄰層的神經元節點連接相鄰的上一層神經元節點。
2.2 權重共享
在深度卷積神經網絡中,卷積層中每一個卷積濾波器共享相同參數并重復作用,卷積輸入的圖像,再將卷積的結果變為輸入圖像的特征圖。之后提取出圖像的部分特征。
在得到圖像的卷積特征之后,需要用最大池采樣方法對卷積特征進行降維。用若干個n×n 的不相交區域來劃分卷積特征,降維后的卷積特征會被這些區域中最大的或平均特征來表示。降維后的特征更方便進行分類。
3 實驗結果
為了驗證卷積神經網絡的有效性,本實驗中使用以最經典的MNIST 和USPS 庫這兩個識別庫作為評測標準。手寫數字MNIST數據庫有集60000 個訓練樣本集,和10000 個測試,每個樣本向量為28×28=784維表示。手寫數字USPS 數據庫含有7291 個訓練樣本和2007 個測試樣本,每個樣本向量為16×16=256 維。
表1給出了卷積神經網絡在MNIST 和USPS 庫上的識別結果。從表1中可知,深度卷積神經網絡對MNSIT 庫識別率能夠達到97.89%,與用BP 算法得到的識別率94.26%相比,提高了兩個多百分點。對USPS 庫識別率能夠達到94.34%,與用BP 算法得到的識別率91.28%相比,也提高了三個多百分點。
因此,使用深度卷積神經網絡算法訓練在圖像識別中獲得更高識別率。因此,深度卷積神經網絡在識別手寫體字符時有著較好的分類效果。
4 總結
本文介紹深度卷積神經網絡的理論知識、算法技術和算法的結構包括局部連接、權重共享、最大池采樣以及分類器Softmax。本文通過深度卷積神經網絡對兩組手寫識別庫實驗來驗證CNN 有著較低的出錯率。
參考文獻
[1]趙元慶,吳華.多尺度特征和神經網絡相融合的手寫體數字識別簡介[J].計算機科學,2013,40(08):316-318.
[2]王強.基于CNN的字符識別方法研究[D].天津師范大學,2014.
[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.
[4]郝紅衛, 蔣蓉蓉.基于最近鄰規則的神經網絡訓練樣本選擇方法[J].自動化學報,2007,33(12):1247-1251.
作者簡介
關鑫(1982-),男,黑龍江省佳木斯市人。碩士研究生學歷?,F為中國電子科技集團公司第五十四研究所工程師。研究方向為計算機軟件工程。
篇2
關鍵詞:卷積神經網絡;語言模型;分析
1 卷積神經網絡語言模型
CNN語言模型基本結構包括輸入層、卷積層、池化層及后續的分類層。輸入層是表示語言的矩陣,該矩陣可以是通過Google word2vec或GloVe預訓練得到的詞嵌入表示,也可以是從原始數據重新訓練的語言的向量表示。輸入層之后是通過線性濾波器對輸入矩陣進行卷積操作的卷積層。在NLP問題中,輸入矩陣總是帶有固定順序的結構,因為矩陣的每一行都表示離散的符號,例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設置。在這種設置下,僅需要考慮濾波器的高度既可以實現不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問題時,卷積神經網絡的濾波器尺寸一般都是指濾波器的高度。
然后,將卷積層輸出的特征映射輸入池化層,通過池化函數為特征映射進行降維并且減少了待估計參數規模。一般的,CNN池化操作采用1-max池化函數。該函數能夠將輸入的特征映射統一生成維度相同的新映射。通過池化操作,可以將卷積層生成的特征連接成更抽象的高級特征,所得到的高級特征尺寸與輸入的句子不再存在直接關系。
最后,將得到的高級特征輸入softmax分類層進行分類操作。在softmax層,可以選擇應用dropout策略作為正則化手段,該方法是隨機地將向量中的一些值設置為0。另外還可以選擇增加l2范數約束,l2范數約束是指當它超過該值時,將向量的l2范數縮放到指定閾值。在訓練期間,要最小化的目標是分類的交叉熵損失,要估計的參數包括濾波器的權重向量,激活函數中的偏置項以及softmax函數的權重向量。
2 卷積神經網絡語言模型應用分析
CNN語言模型已經廣泛應用于諸如文本分類,關系挖掘以及個性化推薦等NLP任務,下面將對這些應用進行具體的介紹與分析。
2.1 CNN在文本分類中的應用分析
kim提出了利用CNN進行句子分類的方法。該方法涉及了較小規模的參數,并采用靜態通道的CNN實現了效果很優異的句子分類方法。通過對輸入向量的調整,進一步提高了性能實現了包括情感極性分析以及話題分類的任務。在其基礎上為輸入的詞嵌入設計了兩種通道,一種是靜態通道,另一種是動態通道。在卷積層每一個濾波器都通過靜態與動態兩種通道進行計算,然后將計算結果進行拼接。在池化層采用dropout正則化策略,并對權值向量進行l2約束。最后將該算法應用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數據集。MR數據集為電影評論數據集,內容為一句話的電影評論,其分類包括積極情感極性與消極情感極性兩類。SST-1與SST-2數據集為斯坦福情感樹庫是MR數據集的擴展,但該數據集已經劃分好了訓練集、驗證集及測試集并給出了細粒度的標記,標記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數據集為主觀性數據集,其分類任務是將句子分為主觀句與客觀句兩類。TREC數據集為問題數據集,其分類任務是將所有問題分為六類,例如關于數字、人物或位置等信息的問題。CR數據集為評論數據集,包括客戶對MP3、照相機等數碼產品的評論,其分類任務是將其分為積極評價與消極評價兩類。MPQA數據集是意見極性檢測任務數據集。通過實驗證明,該方法在這幾個典型數據集上都能取得非常優異的效果。
2.2 CNN在關系挖掘中的應用分析
Shen等人提出了一種新的潛在語義模型,以詞序列作為輸入,利用卷積-池化結構為搜索查詢和Web文檔學習低維語義向量表示。為了在網絡查詢或網絡文本中捕捉上下文結構,通過輸入單詞序列上下文時間窗口中的每個單詞來獲取詞匯級的n-gram語法特征,將這些特征聚合成句子級特征向量。最后,應用非線性變換來提取高級語義信息以生成用于全文字符串的連續向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠將輸入的詞序列轉變為letter-trigram表示向量。在卷積層通過上下文特征窗口發現相鄰單詞的位置特征,并變現為n-gram形式。然后通過max池化將word-n-gram特征合并為句子級的高級特征。在池化層之后增加了語義層來提取更高級的語義表示向量。
2.3 CNN在個性化推薦中的應用分析
Weston等人提出了一種能夠利用標簽(hashtag)有監督的學習網絡帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數據文本上通過預標注的100,000標簽進行訓練。該方法除了標簽預測任務本身能取得好的效果外,學習到的特征對于其它的文本表示任務也能起到非常有效的作用。該模型與其它的詞嵌入模型類似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時將標簽也使用查找表來表示。對于給定的文檔利用10萬條最頻繁出現的標簽通過評分函數對任何給定的主題標簽進行排序。
其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標簽t的詞嵌入表示。因此,通過對分數f(w,t)進行排序可以獲取所有候選主題標簽中排序第一的話題進行推薦。實驗數據集采用了兩個大規模語料集,均來自流行的社交網絡文本并帶有標簽。第一個數據集稱作people數據集,包括搜集自社交網絡的2億1000萬條文本,共含有55億單詞。第二個數據集被稱作pages,包括3530萬條社交網絡文本,共含有16億單詞,內容包括企業、名人、品牌或產品。
3 結束語
卷積神經網絡應用于語言模型已經取得了非常大的發展,對于自然語言處理中的各項任務均取得了優異的結果。本文通過對幾項典型工作的分析,探討了不同卷積神經網絡模型結構在不同任務中的表現。通過綜合分析可以得出以下結論。首先,CNN的輸入采用原始數據訓練的向量表示一般效果會優于預訓練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設置;最后,為了優化結果可以采用dropout正則化處理。
篇3
(廣東外語外貿大學 金融學院,廣東 廣州 510006)
摘 要:作為一個具有巨大應用前景研究方向,深度學習無論是在算法研究,還是在實際應用(如語音識別,自然語言處理、計算機視覺)中都表現出其強大的潛力和功能.本文主要介紹這種深度學習算法,并介紹其在金融領域的領用.
關鍵詞 :深度學習;受限波茲曼機;堆棧自編碼神經網絡;稀疏編碼;特征學習
中圖分類號:TP181 文獻標識碼:A 文章編號:1673-260X(2015)01-0037-03
1 深度學習的研究意義
深度學習是一類新興的多層神經網絡學習算法,因其緩解了傳統訓練算法的局部最小性,引起機器學習領域的廣泛關注.深度學習的特點是,通過一系列邏輯回歸的堆棧作為運算單元,對低層數據特征進行無監督的再表示(該過程稱為預學習),形成更加抽象的高層表示(屬性類別或特征),以發現數據的分布式特征表示.深度學習的這種特性由于與腦神經科學理論相一致,因此被廣泛應用于語音識別、自然語言處理和計算機視覺等領域.
生物學研究表明[1]:在生物神經元突觸的輸出變化與輸入脈沖的持續時間有關,即依賴于持續一定時間的輸入過程,輸出信號既依賴于輸入信號的空間效應和閾值作用,也依賴于時間總和效應.
傳統的深度學習方法雖然較好地模擬了生物神經元的一個重要特性——空間總和效應上的深度,卻忽視了生物神經元的另一個重要特性——時間總和效應上的寬度[2].因此,對于連續的時間變量問題(如語音識別),傳統深度學習方法只能將連續的時間函數關系轉化為空間關系,即離散化為時間序列進行處理.這樣做有幾個弊端:
(1)可能造成深度學習算法對時間采樣頻率的十分敏感,魯棒性較差.這使得,不同時間尺度下,需要使用不同的數據和算法.這無疑是十分不方便的;
(2)導致深度網絡規模過大,使得計算開銷增大、學習效果變差、泛化性能降低;
(3)難以滿足實際應用對算法的實時性的要求,更難以體現連續輸入信息的累積效應,大大降低深度學習算法的實用性.
因此,對傳統的深度學習算法進行改進,使其不但具有“深度”,亦能具有“寬度”,能夠對連續時變數據進行更好的特征提取、提高算法效率和實用性,顯得勢在必行.基于這個切入點,本項目借鑒時頻分析與小波分析中的方法,結合數學分析領域中的泛函分析技術,與堆棧自編碼神經網絡相結合,提出一種新的深度學習算法——深度泛函網絡.為了驗證算法的有效性及優越性,本項目將把新算法應用于金融時間序列的領域.
在目前國內外對于深度學習的研究中,幾乎沒有任何將深度學習技術運用于金融數據的研究.通過提出并運用得當的深度序列學習方法,我們期望從金融數據中抽取更高級的、具有經濟學意義或預測性意義的高級特征(與人工設計的“技術指標”相對應),并開發相應的量化交易策略,并與其它傳統算法進行對比,以說明所提算法的可行性和優越性.
2 國內外研究現狀
人類感知系統具有的層次結構,能夠提取高級感官特征來識別物體(聲音),因而大大降低了視覺系統處理的數據量,并保留了物體有用的結構信息.對于要提取具有潛在復雜結構規則的自然圖像、視頻、語音和音樂等結構豐富數據,人腦獨有的結構能夠獲取其本質特征[3].受大腦結構分層次啟發,神經網絡研究人員一直致力于多層神經網絡的研究.訓練多層網絡的算法以BP算法為代表,其由于局部極值、權重衰減等問題,對于多于2個隱含層的網絡的訓練就已較為困難[4],這使得實際應用中多以使用單隱含層神經網絡居多.
該問題由Hinton[5]所引入的逐層無監督訓練方法所解決.具體地,該法對深度神經網絡中的每一層貪婪地分別進行訓練:當前一層被訓練完畢后,下一層網絡的權值通過對該層的輸入(即前一層的輸出)進行編碼(Encoding,詳見下文)而得到.當所有隱含層都訓練完畢后,最后將使用有監督的方法對整個神經網絡的權值再進行精確微調.在Hinton的原始論文中,逐層貪婪訓練是通過受限波茲曼機(Restricted Boltzmann Machine,RBM)以及相對應的對比散度方法(Contrastive Divergence)完成的.與通常的神經元不同,RBM是一種概率生成模型,通常被設計為具有二元輸入-輸出(稱為Bernoulli-Bernoulli RBM).通過對每一層的受限波茲曼機進行自底向上的堆棧(如圖1),可以得到深度信念網(Deep Belief Network,DBN).
除了生成式的RBM,還有其他的深度學習結構被廣泛使用和研究.如堆棧自編碼神經網絡(Stacked Auto-Encoder Network,SAEN)[6],以及深度卷積神經網絡(Deep Convolutional Network)[7]等.前者的優勢在于可以簡單地采用通常的BP算法進行逐層預訓練,并且引入隨機化過程的抗噪聲自編碼網絡(Denoising SAEN)泛化性能甚至超過DBN[8];而后者則通過權值共享結構減少了權值的數量,使圖像可以直接作為輸入,對平移、伸縮、傾斜等的變形具有高度不變性,因此在圖像識別領域有著廣泛應用.
近年來,稀疏編碼(Sparse Encoding)和特征學習(Feature Learning)成為了深度學習領域較為熱門的研究方向.B.A.Olshausen[9]等針對人腦的視覺感知特性,提出稀疏編碼的概念.稀疏編碼算法是一種無監督學習方法,它用來尋找一組“過完備”的基向量來更高效地表示輸入數據的特征,更有效地挖掘隱含在輸入數據內部的特征與模式.針對稀疏編碼的求解問題,H.Lee等在2007年提出了一種高效的求解算法[10],該算法通過迭代地求解兩個不同的凸規劃問題以提高效率.同年,H.Lee等發現,當訓練樣本為圖像時,對DBN的訓練進行稀疏性的約束有利于算法學習到更高級的特征[11].例如,對手寫識別數據集進行訓練時,稀疏性約束下的DBN算法自主學習到了“筆畫”的概念.
基于[10,11]的研究成果,R.Raina等[12]提出了“自導師學習(Self-Taught Learning)”的概念.與無監督學習(Unsupervised Learning)和半監督學習(Semi-supervised Learning)不同,自導師學習利用大量易獲得的無標簽數據(可以來自不同類別甚至是未知類別),通過稀疏編碼算法來構建特征的高級結構,并通過支持向量機(Support Vector Machine,SVM)作為最終層分類器對少數有標簽數據進行分類.這種更接近人類學習方式的模式極大提高了有標簽數據的分類準確度.與之類似,H.Lee,R.Grosse等[13]提出了一種具有層次結構的特征學習算法.該算法將卷積神經網絡與DBN結合,并通過稀疏正則化(Sparsity Regularization)的手段無監督地學習層次化的特征表征.圖像識別實驗表明,該算法能夠自主學習得出“物體(Object Parts)”的概念,較好體現了人腦視覺感知的層次性和抽象性.
3 發展趨勢
由于信號處理、語音識別、金融時間序列分析、視頻分析等領域的實時應用需求,研究能夠處理連續時變變量、自然體現時間聯系結構的深度學習算法(即深度序列學習,Deep Sequence Learning)成為了新的研究熱點.G.W.Taylor,G.E.Hinton等[14]提出時間受限波茲曼機(Temporal RBM,TRBM).該模型使用二值隱含元和實值可視元,并且其隱含元和可視元可以與過去一段歷史的可視元之間可以有向地被相連.同時,該模型被用于人類動作識別,并展現出了優秀的性能.針對TRBM的一些不足,一些改進算法也不斷涌現,如[15,16].然而,該類深度學習模型雖然考慮了動態的時間變量之間的聯系,但依然只能處理離散時間問題,本質上還是屬于轉化為空間變量的化歸法.同時,在自編碼網絡框架下,依然缺乏較好解決時間過程(序列)問題的方案.
4 金融時序數據中的應用
傳統金融理論認為,金融市場中的證券價格滿足伊藤過程,投資者無法通過對歷史數據的分析獲得超額利潤.然而,大量實證研究卻表明,中國股票價格波動具有長期記憶性,拒絕隨機性假設,在各種時間尺度上都存在的可以預測的空間.因此,如何建立預測模型,對于揭示金融市場的內在規律,這無論是對于理論研究,還是對于國家的經濟發展和廣大投資者,都具有重要的意義.
股票市場是一個高度復雜的非線性系統,其變化既有內在的規律性,同時也受到市場,宏觀經濟環境,以及非經濟原因等諸多因素的影響.目前國內外對證券價格進行預測的模型大致分為兩類:一是以時間序列為代表的統計預測模型;該類方法具有堅實的統計學基礎,但由于金融價格數據存在高噪聲、波動大、高度非線性等特征,使得該類傳統方法無法提供有效的工具.另一類是以神經網絡、支持向量機等模型為代表的數據挖掘模型.該類模型能夠處理高度非線性的數據,基本上從擬合的角度建模.雖然擬合精度較高,但擬合精度的微小誤差往往和市場波動互相抵消,導致無法捕捉獲利空間甚至導致損失,外推預測效果無法令人滿意.因此,建立即能夠處理非線性價格數據,又有良好泛化能力的預測模型勢在必行.
——————————
參考文獻:
〔1〕Zhang L I, Tao H W, Holt C E, et al. A critical window for cooperation and competition among developing retinotectal synapses[J]. Nature, 1998, 395(6697).
〔2〕37-44.歐陽楷,鄒睿.基于生物的神經網絡的理論框架——神經元模型[J].北京生物醫學工程,1997,16(2):93-101.
〔3〕Rossi A F, Desimone R, Ungerleider L G. Contextual modulation in primary visual cortex of macaques[J]. the Journal of Neuroscience, 2001, 21(5): 1698-1709.
〔4〕Bengio Y. Learning deep architectures for AI[J]. Foundations and trends? in Machine Learning, 2009, 2(1):1-127.
〔5〕Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.
〔6〕Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 1096-1103.
〔7〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.
〔8〕Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. The Journal of Machine Learning Research, 2010, 9999: 3371-3408.
〔9〕Olshausen B A, Field D J. Sparse coding with an overcomplete basis set: A strategy employed by V1?[J]. Vision research, 1997, 37(23): 3311-3325.
〔10〕Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[J]. Advances in neural information processing systems, 2007, 19: 801.
〔11〕Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2[C]//NIPS. 2007, 7: 873-880.
〔12〕Raina R, Battle A, Lee H, et al. Self-taught learning: transfer learning from unlabeled data[C]//Proceedings of the 24th international conference on Machine learning. ACM, 2007: 759-766.
〔13〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.
〔14〕Taylor G W, Hinton G E, Roweis S T. Modeling human motion using binary latent variables[J]. Advances in neural information processing systems, 2007, 19: 1345.
篇4
【摘要】 目的建立了一種無損的、可在線快速測定斯普林注射液中核糖和多肽含量的新方法。方法采用光譜儀掃描不同批次的斯普林注射液樣品的紫外光譜,然后采用經典的分析方法測定對應樣品中核糖和多肽的含量,應用徑向基神經網絡(RBFNN)建立了斯普林注射液樣品的紫外光譜與其中核糖和多肽含量間的定量關系模型。通過選擇最有效的光譜預處理方法、網絡的最優拓撲結構參數和最佳擴展常數對模型進行最優化。結果應用最優模型對斯普林注射液預測集樣品中核糖和多肽含量,預測均方根誤差(RMSEP)分別為0.013 2和0.013 8。結論 紫外光譜方法測定斯普林注射液中核糖和多肽含量,預測精度高,方法簡便可行,且多組分可同時測定,為測定中藥組分含量提供了一條新途徑。
【關鍵詞】 紫外光譜 徑向基神經網絡 斯普林注射液
斯普林注射液(小牛脾提取物注射液)是用于提高機體免疫力的藥物。從健康小牛健康脾臟中提取的高活性的分子多肽物能刺激骨髓肝細胞增殖,升高外周血白細胞,促進造血功能的恢復,有效地緩解化療藥物所導致的血細胞減少、出血等副作用,而且能激活機體免疫系統,明顯地減輕患者疼痛,有效緩解化療所導致的惡心、嘔吐,恢復患者體力,改善睡眠,穩定情緒,增加食欲,提高患者生活質量[1]。李霞等[2]對貴州少數民族地區的住院治療的88例晚期腫瘤病人進行了斯普林與參麥注射液對照治療觀察,結果顯示斯普林對晚期癌癥病人全身狀況改善方面有較好的輔助治療。斯普林注射液主要有效成分為核糖和多肽,而這些主成分常規分析方法主要為Folin酚法、高效液相色譜法[3]、凱氏定氮法[4],分光光度法[5]等,這些方法均需要對樣品進行預處理,需要很多有機試劑,操作繁瑣,本文采用紫外光譜結合徑向基神經網絡[6](RBFNN)建立快速無損定量分析斯普林注射液中核糖和多肽含量的新方法。
1 器材
1.1 儀器 紫外可見近紅外分光光度計(UV-3150,日本島津公司)。
1.2 試劑與材料 斯普林注射液(吉林馬應龍制藥有限公司,中國);D-核糖;三氯醋酸;牛血清白蛋白。
2 方法與結果
2.1 紫外光譜的采集 采用紫外可見近紅外分光光度計對不同批次的斯普林注射液40個樣品進行紫外光譜掃描,光譜波長范圍設為200~400 nm,光譜通帶寬度設置為2 nm,每個樣品掃描3次,取平均光譜作為該樣品的光譜。斯普林注射液紫外光譜如圖 1,本文采用RBFNN建立斯普林注射液樣品紫外光譜與其中的核糖和多肽含量間的定量分析模型,應用所建立的模型可同時測定斯普林注射液樣品中核糖和多肽的含量,該方法具有簡單、快捷、無污染和無預處理等優點。
圖1 斯普林注射液樣品紫外光譜
2.2 核糖含量的測定 精密稱取D-核糖適量,用5%三氯醋酸溶液溶解制成20 μg/ml的標準溶液。分別精密移取0.5,1.0,1.5,2.0和2.5 ml的標準溶液于具塞試管中,用5%三氯醋酸溶液定容至2 ml各加入3,5-二羥基甲苯溶液2.0 ml,搖勻,水浴中準確加熱30 min,迅速冷卻,于650 nm波長處測定吸光度,標準曲線回歸方程為Y=22.080X-0.008,R2=0.997。精密移取2 ml供試品液,按照標準曲線制備的方法測定不同批次斯普林注射液樣品中核糖含量。表1 各樣品集中核糖和多肽含量的統計
2.3 多肽含量的測定 采用Folin酚法測定斯普林注射液中多肽含量,以牛血清白蛋白為標準品繪制標準曲線,曲線回歸方程為Y=1.369 9X-0.013 3,R2=0.996,線性范圍為0.025~0.250 mg/ml。
斯普林注射液樣品中核糖和多肽含量統計見表1。
2.4 徑向基神經網絡定量分析模型的建立采用卷積平滑、一階導數、二階導數和標準正態變量轉換(SNV)分別對所有斯普林注射液樣品的紫外光譜進行預處理,然后采用主成分析方法對原始光譜和預處理后光譜矩陣進行主成分分析(PCA),根據第一主成分與第二主成分得分作圖,將樣品分為校正集、預測集和驗證集樣品,以主成分得分作為RBFNN網絡的輸入節點,以“2.2”項和“2.3”項所測得的核糖和多肽含量為輸出節點,建立測定斯普林注射液中核糖和多肽含量的定量分析模型,為了避免模型出現過擬和,本實驗引進逼近度(Da)為模型優化參數,對模型輸入節點數、隱含節點數和擴展常數進行優化,逼近度(Da)的計算方法如式(1)和(2):
ea=[ncn]ec+[nvn]ev+│ec-ev│ (1)
Da=cea(2)
式中ea,ec,ev分別是逼近誤差、校正集均方根誤差(RMSEC)和驗證均方根誤差(RMSEV),n, nc, nv,分別為樣品總數、校正集樣品數和驗證集樣品數。C是常數(本文中C取0.000 1),主要以調整Da大小方便于作圖,模型的預測能力以預測均方根誤差(RMSEP)來評價,RMSEC,RMSEV和RMSEP的算法可參考文獻[7]。
2.5 徑向基神經網絡模型的優化
2.5.1 光譜預處理方法的選擇 分別采用一階導數、二階導數、卷積平滑光譜和SNV光譜預處理方法對斯普林注射液樣品的原光譜進行預處理,然后應用PCA的方法對原始光譜和各預處理后的光譜進行主成分提取,以主成分得分作為輸入節點建立測定斯普林注射液樣品中核糖和多肽含量的定量分析模型,各光譜所建立的最優模型的性能參數列于(表2),由表 2而可以看出,在測定核糖含量時,采用一階導數光譜所建立的模型的RMSEC,RMSEP和RMSEV最小,同時它具有最大的Da值,而在測定多肽含量時,采用SNV光譜所建立的模型的RMSEC,RMSEP和RMSEV最小,Da值也為最大值,因此確定測定核糖和多肽含量時,最有效的光譜預處理方法分別為一階導數光譜法和SNV方法。表2 原始光譜及不同預處理后光譜所建立的測定核糖和多肽含量最優模型的性能參數
2.5.2 光譜輸入節點數的選擇 采用PCA方法對光譜進行分析,提取光譜前20主成分,分別以前3~20主成分的得分作為RBFNN的輸入節點,為了避免模型出現過擬合的現象,以逼近度(Da)為評價標準,考察輸入節點數對模型性能的影響見圖2,由圖 2可以看出,在測定核糖合多肽含量時候,最佳的輸入節點數分別為10和13。
圖2 輸入節點數對測定斯普林注射液中核糖與多肽
含量的定量分析模型的RMSEC,RMSEV和Da的影響
2.5.3 隱含節點數的選擇 RBFNN是從0個神經元開始訓練,通過檢查輸出誤差使網絡自動增加神經元,直到誤差達到要求或是最大隱含層神經元數為止。隱含節點太少,擬合不充分;隱含節點增加得過多會過擬合。所以本文以Da為模型優化的標準,選出最合適的隱含層節點數。圖 3是在最不同隱含節點數對Da的影響,由圖 3可以看出測定核糖和多肽模型的最佳隱含節點數均為19。
圖3 隱含節點數對測定斯普林注射液中核糖
與多肽含量的定量分析模型的RMSEC,RMSEV和Da的影響
2.5.4 擴展常數的選擇 擴展常數的大小關系到擬合函數變化的快慢,從而影響模型的擬合程度,以Da為標準,考察擴展常數在0.3~9范圍內對模型的影響,以選擇合適的擴展常數,結果如圖 4所示,由圖 4可以看出,在測定斯普林注射液樣品中的核糖和多肽含量時模型最適的擴展常數分別為0.6和1.2。
2.6 最優模型的建立 采用RBFNN結合紫外光譜建立測定斯普林注射液樣品中核糖和多肽含量的定量分析模型,模型經過選擇最有效的光譜預處理方法、最適的輸入節點數、隱含節點數和擴展常數,得到最優的模型,應用最優的模型預測各樣品集的核糖和多肽含量,預測值與化學測量值間的相關性如圖 5,由圖 5可以看出預測值與化學測量值吻合的很好,說明該方法可行。
2.7 最優模型對預測集樣品的預測 采用“2.6”項中所建立的最優模型對預測集樣品中的核糖和多肽含量進行預測,預測均方根誤差(RMSEP)分別為0.013 2和0.013 8,預測值和真實值列于表 3,計算預測值與真實值間的絕對誤差和樣品回收率,由表 3可以看出,核糖含量的預測值與真實值間絕對誤差不大于0.023,平均回收率為101.224%,而多肽預測值間的絕對誤差不大于0.033,平均回收率為101.651%,說明預測值與真實值吻合的比較好,模型預測能滿足要求。表3 最優模型對預測集樣品中核糖和多肽含量預測值與真實值統計結果
3 討論
本實驗應用徑向基神經網絡結合紫外光譜建立了測定斯普林注射液中核糖和多肽含量的定量分析模型,文中引進逼近度作為模型優化的參數,可有效地避免模型發生過擬合現象。模型經過優化后,對預測集樣品中的多肽和核糖含量進行預測,預測均方根誤差(RMSEP)達到0.0132和0.0138,說明模型具有很高的預測精度,可應用于斯普林注射液質量監測。
本實驗方便快捷,不需有機試劑,無污染,操作簡單,并可兩組分同時檢測,質量準確,可應用于斯普林注射液生產的質量檢測和在線監控。
【參考文獻】
[1] 張吉鳳, 趙 雷, 夏大文. 斯普林對小鼠免疫功能影響的研究[J].中華腫瘤防治雜志, 2005, 12(7):519.
[2] 李 霞, 張 萍, 杜迎春, 等. 斯普林改善晚期惡性腫瘤全身狀況的療效觀察[J].腫瘤, 2005, 25(6):633.
[3] 張津楓, 王健剛, 鄧國才, 等. 葡萄糖發酵液D-核糖含量的高效液相色譜分析[J].高等學?;瘜W學報, 2001, 22(1):43.
[4] 呂偉仙, 葛 瀅, 吳健之, 等. 植物中硝態氮、氨態氮、總氮測定方法的比較研究[J].光譜學與光譜分析, 2004, 24(2):204.
[5] 陳蓮惠, 劉紹璞, 劉忠芳, 等. 堿性二苯基萘基甲烷染料褪色光度法測定透明質酸鈉[J].分析化學, 2004, 32(5):698.
[6] 毛利鋒, 沈 明, 程翼宇. 毛細管電泳徑向基神經網絡校正法定量分析核苷[J].化學學報, 2004, 62(19):1917.
篇5
關鍵詞: 受限玻爾茲曼機; 深度模型; 隱藏單元; 學習方法
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2014)11-10-04
RBM learning method comparison
Lu Ping, Chen Zhifeng, Shi Lianmin
(Dept. of Information, Suzhou Institute of Trade & Commerce, Suzhou, Jiangsu 215009, China)
Abstract: With the deep learning on the breakthrough of models, algorithms and theory studies, models based on Boltzmann machine have been used in many areas in recent years, such as target recognition and natural language processing. The concept of Boltzmann machine is presented. The restricted Boltzmann machine's advantage is also pointed out. In this paper, the learning method of RBM is described in detail and some typical learning algorithms widely used are compared. The study on learning algorithms will still be a core issue in deep learning area.
Key words: RBM; depth model; hidden units; learning method
0 引言
當前深度學習(deep learning)作為機器學習中新興的代表,由于其具有能夠處理大規模的數據、自動提取有意義的特征、完成數以百萬計的自由參數的學習等諸多淺層模型所無法匹敵的能力,而受到各領域的廣泛關注。目前深度學習模型已經被逐漸應用于圖像分類、目標識別、自然語言處理、數據挖掘等各類應用中。當前的深度模型,如深度信念網絡(deep belief net,DBN)、深度玻爾茲曼機(deep Boltzmann machine, DBM)等均采用的是由受限玻爾茲曼機(restricted Boltzmann machine,RBM)堆疊而成。在RBM中,可見層各單元之間與隱藏層各單元之間無連接的拓樸結構使得其模型相對簡單,參數學習相對容易,因此使用RBM作為構建深度模型的基礎結構單元成為研究人員的最佳選擇。雖然深度學習模型還有堆疊自動編碼器(stacked auto encoders)、卷積神經網絡(convolutional neural net,CNN)等,但由于以RBM為核心的結構在深度模型中占據著核心的地位,因此本文主要關注于RBM的模型結構與其中的學習方法。
1 玻爾茲曼機概述
1.1 玻爾茲曼機
玻爾茲曼機(Boltzmann machine, BM)是源于物理學的一種基于能量函數的建模方法,能夠描述變量的高層相互作用。雖然BM中學習算法復雜,但其模型與算法有完備的物理解釋與數理統計理論基礎。Hinton與Sejnowski最早將BM模型引入人工神經網絡中,用于自動提取數據的內在特征表示。將BM作為單層反饋網絡時,具有與Hopfield網絡類似的對稱權值,且每個單元與自已無連接。網絡由可見層與隱藏層組成,對應的網絡節點也可以分為可見單元(visible unit)與隱藏單元(hidden unit),每個單元不存在自回路,圖1給出了BM的示意圖。
圖1 BM模型結構示意圖
由于其中樣本分布服從玻爾茲曼分布故命名為BM ,BM由二值單元構成,各單元的狀態隨機,且只可取0或1兩種狀態,1指代單元處于激活(on)狀態,0則指代此單元處于斷開(off)狀態。由于每個單元僅有2種狀態si={0,1},因此網絡的總的能量函數為:
⑴
其中wij為神經元i與j之間的連接權重,θi為神經元i的閾值。神經元i狀態為0與1所產生的能量的差值則可表示為:
⑵
si=1的概率為:
⑶
其中T為系統的溫度。相應的,si=0的概率則為:
⑷
由式(3)/式(4)可得:
⑸
進一步將上式推廣到網絡中任意兩個全局狀態α與β,有:
⑹
此即為玻爾茲曼分布的表達式。
1.2 受限玻爾茲曼機
由于BM的模型結構復雜,學習時間很長,而且無法確切地計算BM所表示的分布,甚至獲得BM表示分布的隨機樣本也非常困難。為此,Smolensky提出了受限玻爾茲曼機(restricted Boltzmann machine, RBM)模型,其結構如圖2所示。與一般BM相比,RBM具有更優的性質:在給定可見層單元輸入時,各隱藏層單元的激活條件獨立;反之亦然。這樣盡管RBM所表示的分布仍無法有效計算,但卻可以通過Gibbs采樣獲得服從RBM分布的隨機樣本。
圖2 RBM模型結構示意圖
RBM也可以被看作為一個無向圖(undirected graph)模型,其中v為可見層,用于表示輸入數據,h為隱藏層,可以看作為特征提取器,W為兩層間對稱的連接權重。若一個RBM中可見層單元數為n,隱藏層單元數為m,用向量V與h分別表示可見層與隱藏層的狀態,當狀態(v,h)給定時,與BM類似,則RBM中的能量定義為:
⑺
其中wij為可見單元i與隱藏單元j之間的連接權重,ai為可見單元i的偏置,bj為隱藏單元j的偏置。θ={wij,ai,bj}指代RBM中所有參數集。當θ確定時,則可根據式⑺的能量函數獲得(v,h)的聯合概率為:
⑻
其中z(θ)為保證P(v,h|θ)成為概率分布的歸一化項,也稱為劃分函數。若可見單元服從某種概率分布,根據RBM的給定可見單元時各隱藏單元激活狀態獨立的條件,可獲得隱藏單元為1的條件概率為:
⑼
同理,若令隱藏單元服從某種概率分布,可見單元向量v為1的條件概率分布為:
(10)
因此可以獲得在給定可見單元向量v時隱藏單元j的條件概率及給定隱藏單元向量h時可見單元i為1的條件概率分布為:
(11)
其中,為sigmoid激活函數。
2 RBM中的學習
為了學習RBM中的參數集θ,以擬合給定的訓練數據,可以通過最大化RBM在訓練集上的對數似然函數而獲得,假設訓練集中樣本數為T,有:
(12)
這樣獲得最優的參數θ*則可以采用隨機梯度上升法求得使的最大值,為此,對logP(v(t)|θ)求參數θ的偏導數有:
(13)
其中為求關于分布P的數學期望。由于訓練樣本已知,所以上式中前一項期望易求得,但對于P(h,v|θ)需要求得隱藏單元與可見單元的聯合分布,由于劃分函數Z(θ)的存在,無法直接計算,而只能采用一些采樣方法獲得其近似值。若分別用與指代P(h|v(t),θ)和P(h,v|θ)分布,則對式(13)中關于連接權重Wij,可見單元偏置ai和隱藏單元偏置bj的偏導數分別為:
(14)
RBM的學習過程可以分為正階段與負階段兩個步驟。在正階段,可見單元狀態取訓練輸入樣本值,經采樣得到隱藏單元。在負階段中,從當前模型采樣得到可見單元與隱藏單元狀態,重建可見單元狀態。BM的學習即通過調節連接權重,使得模型定義的概率分布P-(va)與訓練樣本集定義的概率P+(va)一致,如果采用K-L散度度量兩個概率的近似程度:
(15)
當且僅當P+(va)=P-(va)時,G=0,即兩個分布完全一致。這樣可以通過不斷調節連接權重來使模型確定的概率分布與數據概率分布的K-L散度盡可能接近。RBM的學習步驟如下:
⑴ 隨機設定網絡的初始連接權重wij(0)與初始高溫;
⑵ 按照已知概率P(va)依次給定訓練樣本,在訓練樣本的約束下按照SA算法運行網絡到平衡狀態,統計,同樣在無約束條件下按同樣的步驟運行網絡相同次數,統計;
⑶ 修改各個連接權重:wij(k+1)=wij(k)+Δwij。
重復上面的步驟,直到-小于某個閾值,獲得合適的權重。
3 RBM學習方法對比
當前在對RBM的研究中,典型的學習方法有Gibbs采樣(Gibbs sampling)算法,變分近似方法(variational approach),對比散度 (contrastive divergence,CD)算法,模擬退火 (simulate annealing) 算法等。下面對這些方法進行對比。
3.1 Gibbs采樣算法
Gibbs采樣(Gibbs sampling)算法是一種基于馬爾可夫鏈蒙特卡羅(Markov Chain Monte Carlo, MCMC)策略的采樣方法。給定一個N維的隨機向量X=(X1,X2,…,XN),若直接求取X的聯合分布P(X1,X2,…,XN)非常困難,但如果可以在給定其他分量時,求得第k個分量的條件分布P(Xk|Xk-),其中Xk-=(X1,X2,…,Xk-1,Xk+1,…,XN)指代排除Xk的其他N-1維的隨機向量,則可以從X的一個任意狀態[x1(0),x2(0),…,xk(0)]開始,利用條件分布,對各分量依次迭代采樣。隨著采樣次數增加,隨機變量[x1(n),x2(n),…,xk(n)]將會以幾何級數的速度收斂于聯合分布P(X1,X2,…,XN)。在訓練RBM的迭代過程中,可以設置一個收斂到模型分布的馬爾可夫鏈,將其運行到平衡狀態時,用馬爾可夫鏈近似期望值。
使用Gibbs采樣算法具有通用性好的優點,但是由于每次迭代中都需要馬爾可夫鏈達到極限分布,而Gibbs采樣收斂度緩慢,需要很長的時間,因此也限制了其應用。
3.2 變分方法
變分方法(variational approach)的基本思想是通過變分變換將概率推理問題轉換為一個變分優化問題。對于比較困難的概率推理問題,對應的變分優化問題通常也缺乏有效的精確解法,但此時可以對變分優化問題進行適當的松弛,借助于迭代的方法,獲得高效的近似解。在變分學習中,對每個訓練樣本可見單元向量v,用近似后驗分布q(h|v,μ)替換隱藏單元向量上的真實后驗分布p(h|v,θ),則RBM模型的對數似然函數有下面形式的變分下界:
(16)
其中H(?)為熵函數。
使用變分法的優勢在于,它能夠在實現最大化樣本對數似然函數的同時,最小化近似后驗分布與真實后驗分布之間的K-L距離。若采用樸素平均場方法,選擇完全可因式分解化的分布來近似真實后驗分布:,其中q(hj=1)=μj,訓練樣本的對數似然函數的下界有如下的形式:
(17)
采用交替優化的方式,首先固定參數θ,最大化上式學習變分參數μ,得到不平均場不動點方程:
(18)
接下來,再給定變分參數μ,采用Gibbs采樣法與模擬退火方法等其他方法更新模型參數θ。在實際使用中,使用變分方法能夠很好地估計數據期望,但由于式(17)中的負號會改變變分參數,使得近似后驗分布與真實后驗分布的K-L距離增大,因此將其用來近似模型期望時不適用。
3.3 對比散度算法
對比散度(contrastive divergence, CD)學習方法由Hinton提出,能夠有效地進行RBM學習,而且能夠避免求取對數似然函數梯度的麻煩,因此在基于RBM構建的深度模型中廣泛使用。CD算法使用估計的概率分布與真實概率分布之間K-L距離作為度量準則。在近似的概率分布差異度量函數上求解最小化。執行CD學習算法時,對每個批次的各訓練樣本運行n步Gibbs采樣,使用得到的樣本計算。則連接權重的CD梯度近似為:
(19)
其中pn為n步Gibbs采樣后獲得的概率分布。通常在使用中只需要取n=1即可以進行有效的學習,因此在使用中較為方便。但CD算法隨著訓練過程的進行與參數的增加,馬爾可夫鏈的遍歷性將會下降,此時算法對梯度的近似質量也會退化。
3.4 模擬退火算法(Simulated Annealing)
模擬退火算法是對Gibbs采樣算法的改進,由于Gibbs采樣收斂速度緩慢,因此模擬退火算法采用有索引溫度參數的目標分布進行采樣,其核心思想是模擬多個不同的溫度并行運行多個MCMC鏈,每個MCMC鏈在一個有序序列溫度ti上,且t0=1
4 結束語
隨機深度神經網絡的興起,借助RBM來學習深層網絡逐漸成為了研究的主流,作為深度網絡的基礎單元結構―RBM,也成為深度學習領域中的核心,它為人們解決各類問題提供了一種強有力的工具。本文對RBM的基本模型進行簡要介紹,并對RBM的各種學習方法進行對比分析。目前RBM的各種學習算法仍各有利弊,尚未有滿足各種場合要求的學習方法。因此,進一步研究如何有效減少計算復雜性,簡化網絡拓撲結構,以及快速有效的RBM學習方法仍將在深度學習模型中占據重要的地位。
參考文獻:
[1] 李海峰,李純果.深度學習結構和算法比較分析[J].河北大學學報(自
然科學版),2012.32(5):538-544
[2] Salakhutdinov R, Hinton G E. An efficient learning procedure for
deep Boltzmann machines[J]. Neural Computation,2012.24(8):1967-2006
[3] 孫志軍,薛磊,許陽明,王正.深度學習研究綜述[J].計算機應用研究,
2012.29(8):2806-2810.
[4] 鄭胤,陳權峰,章毓晉.深度學習及其在目標和行為識別中的新進展[J].
中國圖象圖形學報,2014.19(2):175-184
[5] 程強,陳峰,董建武,徐文立.概率圖模型中的變分近似推理方法[J].自
動化學報,2012.38(11):1721-1734
[6] Geoffrey E. Hinton,Simon Osindero,Yee-Whye T eh. A fast
learning algorithm for deep belief nets[J]. Neural Computation,2006.18(7):1527-1554
[7] Ruslan Salakhutdinov,Geoffrey Hinton. Deep Boltzmann Machines[J].
JMLR W&CP,2009.5:448-455
篇6
1.人臉識別管理的優劣勢分析
人臉識別技術是通過生物特征進行識別的技術,通過識別每個人的臉部特征,將采集的圖像與系統的圖像庫信息進行比對,實現識別的目的。其有3個優點,一是非接觸性,被考勤人員不需要和相關設備直接接觸,而指紋采集和一卡通刷卡則必須接觸設備;二是非強制性,只要出現在人臉采集的特定區域時,設備便會主動采集信息;三是并發性,若在特定區域同時出現多人時,可以將全部人臉信息記錄。人臉識別技術也有缺點,一是容易受到光線環境的影響,若光線過強或嚴重不足都會影響人臉信息的采集;二是易受到頭發、飾物遮擋的影響,有可能造成采集人像的不完整,導致比對信息失敗。這些確定會在一定程度上影響數據采集的準確性,會造成比對結果的判斷不準確,但隨著人臉識別技術算法的不斷更新,精確度也會得以提升。
2.人臉識別的關鍵技術
1)人臉關鍵點檢測
人臉關鍵點檢測是在人臉檢測的基礎上,自動確定人臉各關鍵點的位置,如眼角、瞳孔、鼻尖、嘴角等。不能忽視了初始狀態對關鍵點檢測的影響。采用基于深度初始化網絡的人臉關鍵點檢測算法,能夠有效克服初始位置、人臉姿態、表情等因素對關鍵點檢測精度的影響,從而得到人臉各關鍵點的準確位置。
2)人臉紋理正規化
將不同光照、姿態或表情的人臉,還原至良好光照、正面和無表情的人臉,減小待匹配人臉圖片與信息庫中人臉圖片的差異,從而降低特征提取和識別的難度。在光照嚴重不足或太過強烈、角度過大、表情夸張的情況下,如果強行改變光照強度、旋轉至正面人臉、還原至正常表情,必然會引入大量“非自然”信息,使得正規化的人臉產生畸變、扭曲和紋理缺失。這樣不僅不會對人臉識別產生幫助,反而會降低其性能??梢越梃b人臉合成和生成對抗網絡的方法,通過初始數據庫的搭建、紋理正規化網絡的構建以及網絡的融合訓練,實現一個端到端的、由數據驅動的紋理正規化網絡和特征識別網絡。它能夠在提取深度特征的過程中,自適應地根據人臉識別的任務對人臉的紋理進行光照、姿態和表情的正規化,從而達到提高人臉識別性能的目的。
3)人臉特征提取
基于深層卷積神經網絡,通過融合人臉多尺度特征信息,獲取高層語義特征表達,提升人臉特征的區分性。促使同一個人的人臉特征表達具有更高的相似性,不同人臉的特征表達相似度更低。
4)人臉特征比對
針對人臉識別中經常遇見的跨場景人臉識別問題,如待驗證照片與現場照片非同源、年齡跨度大、分辨率和角度差異明顯等問題,采取自適應學習方法。通過算法縮小不同場景圖像之間的數據分布差異,將不同場景的人臉圖像映射到同一個具有更好表達能力的特征空間進行比較,從而保證同一個人的人臉特征表達具有更高的相似性分數,不同人臉的特征相似性分數更低。
3.人臉識別管理系統的功能模塊
1)基礎數據的獲取
初始化數據是整個系統運行的基礎,可以將學生的基本信息整體導入系統,特別是身份證的完整信息,包含證件照。給學生管理人員開放權限,可供查詢、修改、刪除數據等維護功能?;拘畔⒅薪Y構和屬性字段比較簡單的部分直接導入,對于哪個時間段是正常簽到、遲到、早退、曠課、晚歸等,需要進行單獨標明。同時也需要將人臉識別設備和教室信息進行綁定,條件允許的情況下,各教室配備一臺識別設備。若成本過高,則可考慮每層樓配備一臺設備,將每層樓的教室信息與設備綁定。
2)教務系統的接入
考勤數據是基于每學期的課程安排和作息時間安排,在此之上增加學生的出勤狀態。通過教務系統的接入,直接獲取班級的排課情況,并將作息時間安排一并導入,則可通過數據的對接,實現考勤情況的記錄。
3)識別數據日志
數據日志用于記錄學生到教師或者宿舍樓的時間點,與基礎數據中的導入的身份證照片、學號、班級等信息建立對應關系。因此,當人臉識別設備識別到信息是,便會登記采集數據的時間,通過與基礎數據庫的信息之間的綁定關系,記錄下采集數據時的圖像、學號、日期、時間、識別設備、教室等信息。