談流身份鑒別技術研究進度

時間:2022-06-30 09:40:37

導語:談流身份鑒別技術研究進度一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

談流身份鑒別技術研究進度

1基本概念及框架

S.Muthukrishn最早提出了流數據[4]概念,認為“流”是建立在“瞬間”基礎上的,具有連續、無限、快速的特點。流交換的主體是流,它也是流身份鑒別技術的研究對象。流身份鑒別的目的是在流交換中對流數據源身份進行鑒別,以保證流身份的可信。

定義1:流[5]是在一段時間內,由<源IP地址、目的IP地址、源端口號、目的端口號、協議號>五元組唯一表示的單向數據包集合。流的特點:1)動態性:流中的元素實時、有序、連續地到達,整個數據集合呈現出動態特征,這意味著所有的數據包不是一次到達的,而是潛在變化的;2)無限性:動態性導致流是無界或近似無界的。隨著時間的流逝,數據包不斷產生直至流終結。3)單次掃描:由于流的動態性,使得服務器對流的處理僅能訪問很少的次數。

定義2:流交換[6]是一段時間內由同一種應用產生的在一對源IP地址和目的IP地址間傳輸的雙向報文流。流交換的特點是:1)不可預測性:流交換的數據量、內容不可預測;2)低時延:由于應用系統對延時敏感,流交換要求具有低延時特性。

定義3:身份鑒別[7]是采用密碼技術,依照安全性高的協議,通過交換承載信息使系統審查身份的過程。

定義4:流身份鑒別是在流交換中,以流特征統計量為基礎,采用密碼技術,通過交換承載信息,鑒別信源身份的過程。流身份鑒別的基本框架[8]如圖1所示。當網絡流數據經過監測點A時,監測點統計信源發送的流特性,或改變流的某些特性,并將相應的特征信息存入中心服務器。被監測的流在交換時會遭受一些干擾和形變。最終,當被擾亂之后的流到達監測點B時,監測點通過統計流的特征值,或提取流的特征,再和中心服務器的記錄進行對比,從而裁決經過的流身份。

2面臨的關鍵問題

因為流身份鑒別技術采用基于特征的方式進行統計、標記,所以該技術對于包丟失、包亂序、流混雜等問題較為敏感。而在流交換過程中,由于網絡抖動或敵手惡意攻擊會出現以上問題,它們統稱為流變換問題。基于此流變換是流身份鑒別技術面臨的關鍵問題。已有的流變換問題分為兩類:流內變換問題[9-12],即單一流中數據包的變換;流間變換問題[13-16],即多流間相互的變換。

2.1流內變換問題圖2-5列舉了常見的流內變換問題。1)虛假數據包添加是向流中添加不屬于原有流的數據包現象。絕大部分跳板主機會利用加密和添加虛假數據包實現流的去關聯性;2)包丟失是流交換過程中出現的有意或無意的隨機數據包丟棄現象。它在正常的流交換中時有發生,也可能是敵手刻意為之;3)包重組是流交換過程中出現的相鄰包合并或分裂現象。這種情況常常伴隨跳板主機、網絡的配置產生。4)包亂序是流交換過程中出現的數據包序號錯亂現象。它常常由網絡抖動、時間擾亂攻擊等因素引起。

2.2流間變換問題圖6-8列舉了常見流間變換問題。5)流混雜是多條不相關的流隨機混淆成新流的現象。它常出現在匿名通信系統中;6)流分離就是一條流分離成了多個子數據流的現象。這種情況常常伴隨跳板主機、網絡的配置產生;7)流合并是多條相同目IP地址的流合并成一個數據流的過程。它與流分離是相反的過程。

3典型技術分析

從時間角度,為了解決流身份鑒別問題,1991年S.Snapp首次提出基于主機的DIDS方案。由于基于主機的檢測方法是建立在信任監控主機的基礎上,一旦有主機被敵手控制,它提供的信息會誤導中心服務器對流身份的鑒別。于是S.StanifordChen在1995年提出了基于網絡的Thumbprints方案,該方案通過提取報文內容摘要獲得會話指紋、比較判斷兩個會話的關聯性,從而實現身份鑒別。之后又陸續有學者提出了基于包數量、包時間、RTT等特征的方案。為了提高檢測效率、降低計算復雜度,1998年D.Schnackenberg提出了基于網絡的IDIP方案。XinyuanWang等人又提出了基于不同載體的流水印技術。隨著流水印技術的廣泛應用,鑒別流身份的作用不僅僅局限于判斷該流是否被標記過,而要獲得更多的信息,HoumansadrA等學者于2012年提出了流指紋鑒別技術,愈加注重水印的編碼內容。通過文獻分析方法,把流身份鑒別技術分類。首先以可信終端的選擇為依據,分為基于主機和基于網絡兩種類型,現有的絕大部分流身份鑒別技術方案都是基于網絡實現的;其次,按照檢測方式將流身份鑒別技術分為主動檢測方式和被動檢測方式,被動流關聯技術就是通過被動檢測方式實現的;主動檢測方式再依據編碼信息內容劃分為主動流追蹤技術和流指紋鑒別技術。

3.1被動流關聯

被動流關聯技術是以統計學為基礎,通過較長的觀測,利用數據挖掘得到不同流在統計方面的特性的技術,也叫流檢測。因為在絕大部分應用中,流交換是雙向對稱或雙向非對稱的,所以流檢測主要利用相關流在內容、時間等特性的不變性和相關性前提下進行流的關聯。它具有準確性、非線性[21]和不可感知性的特點。

3.2主動流追蹤

主動流追蹤技術以流檢測為基礎,結合數字水印思想,通過增加不同數據流某些方面的特性差異實現流追蹤,也叫流水印。它主要通過調制發送端數據包特性,從而增加不相關流的差異性、增強相關流的相似性,并在接收端鑒別這種異同性,以此達到鑒別流身份的目的。在流檢測的基礎上,它又具有獨異性、自同步性、高效性和神秘性的特點。按照上文載體的分類,將典型技術歸納如下:

基于包載荷[29]的流水印技術:包載荷是數據包所攜帶的數據量,它又分為存放數據的有效載荷(payload)以及其余的“管理”部分。由于包載荷具有較高的健壯性,所以最初的流水印方案是以包載荷為載體的。Wang等人于2001年提出了可休眠的水印追蹤框架。這種方法相較于被動流關聯,潛在的優勢有:a將入侵檢測和入侵追蹤分離;b無需記錄所有進出的流;c無需時鐘同步,可以有效抵抗包重放;d準確率高。但該方法基于包內容,和具體協議有關,要求包是不變量,所以并不適用于加密的情況,且易受到攻擊者檢測和過濾。2008年RamsbrockD又提出通過添加填充字符改變包長度的方法。這種方法可以應對SSL加密、多節點、網絡流量混雜的情況。

基于長度-時間[30,31]的流水印技術:長度-時間是通過調整包載荷長度,結合時間戳,構成的組合載體。由于加密、包重組等方式易造成包載荷的內容不可見和長度變換,從而導致檢測的效率下降、準確率降低,所以通過加入時間戳信息,結合包載荷可以提高檢測的效率和準確性。Wang于2008年提出了基于長度-時間的載體方式,在追蹤僵尸主控機方面有效地解決了低流量、跳板、加密、流混雜這四個問題。并在PlanetLab平臺上達到了近乎100%的檢測率。但是由于包載荷這種載體本身存在隱蔽性差、載體容量小的問題,基于包載荷的流水印技術在這兩方面先天地存在缺陷。

基于流速率[32-34]的水印技術:流速率就是流數據的速率。針對包載荷本身存在神秘性差的問題,有學者通過選用流速率作為載體提高流水印的神秘性。FuXin-wen提出在無線網絡環境下,先將時域水印轉換為特征不變的頻率,再利用電磁干擾將水印嵌入無限網絡流數據的方法。但是這種方法難以抵抗數字過濾攻擊,導致水印編碼無法提取。隨后YuWei又通過修改發送者流量的速率,結合直序擴頻技術,以達到提高水印容量、可靈活選用參數、無需長時間訓練的目的;但該方案只適用于流量速率固定的情形,與實際應用有一定的差距。2011年Jun等人提出了對FuXin-wen的方案進行了改進。它利用PN碼技術實現了1)可以較好抵御均方自關聯的檢測;2)可以追蹤匿名網絡中的多條流。但是這種方法存在的問題就是難以產生符合要求的PN序列。

基于包時延(IPD)[35-43]的水印技術:IPD是流中特定的一對數據包先后到達的時間差。它是針對包載荷載體容量小的問題提出的,且這種載體具有較好的神秘性、對時延敏感等優點。但是它易受到時間擾亂。Wang于2003年提出了針對時間擾亂問題的水印技術,這種方法針對加密和符合獨立恒等分布的隨機時間擾亂問題具有一定的魯棒性。但是此方案存在三個問題:1)IPD分布模型與實際不符;2)難以有效應對虛假數據包添加;3)由于使用固定的最大包時延值以及需較多包以嵌入單個水印位,所以難以有效抵御時間擾亂。針對第一個問題,Amir提出了網絡流數據符合泊松分布的假設,雖然在只有網絡抖動的理想環境下是成立的,但是在實際環境下很難成立。針對第二個問題,Peng等人將包匹配技術用于水印方案中,它在一定時間限制的條件下,提出了權衡檢測率、誤報率和計算復雜度的多個算法。并且通過實驗證實了該方案可有效地在有垃圾包的流數據中發掘所有相關數據包,以達到流身份鑒別的目的。針對第三個問題,Pan通過將數據包先分組,再隨機調整部分包間時延的方法實現了嵌入水印。通過驗證每組的平均IPD值的差異以及水印位的值,從而決定是否調整以及如何調整包時間,以此嵌入具有抵御時間擾亂特質的水印。與此同時,ParkYH提出了自適應的水印技術,這種自適應性是通過測量包時延或包大小、對所要嵌入的水印進行調整來實現的。該方法最大的突破在于其可用在數據包較少的情況,同時可以較好地抵抗網絡抖動帶來的失真。這種方案能容忍任何形式的時間擾亂,并且正確檢測率可達到幾乎100%。由于以上方案在嵌入水印時要產生較大的延時,Houmansadr提出了利用直序擴頻技術,引入微小延遲的方案。同時,他通過非盲檢測方式降低了時間復雜度,但是該方法存在以下三個問題:1)假設攻擊者不能夠主動對流進行變換;2)需要假設網絡數據流服從獨立泊松分布;3)需要數據庫支撐,所以實際應用部署較難。隨后XunGong針對Houmansadr方案中的第二個問題提出了一種基于隱馬爾科夫模型的隱形水印技術。該方案利用量化索引調制方法,將水印隱形地嵌入IPD中。同時利用基于隱馬爾科夫模型的最大似然解碼方案,以提高水印檢測的準確率和效率。

3.3流指紋鑒別所謂指紋是指可以提供數據源信息、嵌入端身份等其他依具體應用而定的信息。流指紋鑒別技術是流水印技術的發展和提升,目前研究處于起步階段。它以密碼學和統計學為基礎,依托流水印技術,通過改進水印內容,向流中添加唯一指紋信息實現流數據身份的鑒別。流指紋鑒別技術具有以下新特性:1)唯一性:流指紋信息具有唯一屬性值,可以唯一地標識流的身份。2)大容量:從信息論角度看,相較于流標記,指紋信息容量大。

4研究熱點和前景展望

經過學者們多年的不懈努力,流身份鑒別技術逐步發展起來,并取得了一定的成果。但從解決流變換問題的效果和實際應用的狀況來看,該技術還未達到所期待的效果。目前流身份鑒別技術存在的研究熱點和發展趨勢主要有一下四個方面:

載體選擇方法在流身份鑒別技術中,載體的選擇是基礎。已有的載體選擇方式比較單一,且每種載體都有自身存在的弊端及針對它的攻擊。所以通過研究如何對載體進行優化、組合,可從根本上提高流身份鑒別方案抵御流變換的能力。

網絡流量模型構建方法在目前的研究中,網絡流量對于指紋嵌入和提取的影響缺乏合適的解決方案模型[49]。且已有的方案都是假設時間擾亂是隨機的,網絡流量服從泊松分布[50],這些往往和實際情況不相符。

指紋信息研究這個問題分為指紋信息的容量、內容、和健壯性三方面。指紋信息容量問題是流身份鑒別技術中的一個難點問題。因為到目前為止,還沒有可以對某種載體可嵌入的容量進行準確計算的理論方法。同時,已有的指紋信息都是無意義的,這方面研究有待開展。另外,修改流中的某些特征本身易造成指紋存在性及參數泄露等問題,所以如何進一步提高指紋的健壯性,從而更好地抵御流變換也是重要的問題。

實際部署研究流身份鑒別技術的實際應用難點主要包括嵌入點和監測點的部署、自適應能力以及多流追蹤能力。首先,現有的不同部署方式缺乏一定的規范性和合理性分析;其次,針對不同類型流數據、不同網絡環境,流身份鑒別技術要能自適應地選擇指紋參數,提高對環境的適應能力;最后在實際網絡環境下,由于多條流經過同一跳板時會有一定的干擾,不利于流身份的鑒別。所以實際部署難點亟待解決。結束語流身份鑒別技術已成為研究的熱點并得到了廣泛的應用。隨著該技術的不斷發展,它必將在流源身份可信、流范圍控制、監管網絡流和流安全交換等方面發揮愈加重要的作用。

作者:雷程張紅旗孫奕杜學繪單位:解放軍信息工程大學河南省信息安全重實驗室