網頁歸類算法應用論文

時間:2022-03-20 02:16:00

導語:網頁歸類算法應用論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

網頁歸類算法應用論文

自有文字和書籍以來,人類就開始注意文章的分門別類和編撰目錄。那些目錄事實上就將文章按照的類別進行了分類。九十年代以來,Internet以驚人的速度起來,Web的容量增長迅速,平均每天增加100萬個頁面。技術發展到今天,靠人來閱讀互聯網上信息和對網上信息做分門別類和已經不可能。

搜索引擎的分類瀏覽模式由此應運而生論文。它的目錄分類的質量較高,檢索效果好;但是需要人工維護,因此存在成本高、信息更新慢、維護的工作量大的缺點。而基于模糊技術的網頁自動歸類能依據網頁中所包含的文本的語義將大量的網頁自動分門別類,從而更好地幫助人們把握信息。

網頁模糊歸類步驟與算法

簡單地說,網頁自動歸類所要完成的任務就是在給定的分類體系下,根據網頁的內容自動地確定網頁關聯的類別。如果從純數學角度來看,網頁分類的過程實際上就是一個多對多的映射過程。依據“貝葉斯假設”的內容,可以假定組成網頁的元素在確定網頁類別的作用上相互獨立。這樣,可以使用網頁中出現的字或詞的集合來代替網頁,即用一個向量來表示文本:D(W1,W2,W3……Wn),其中Wi為第i個元素(以下均稱為“特征項”)的數值。當然,這將丟失大量關于網頁內容的信息,但是這種假設可以使網頁的表示和處理形式化,從而讓計算機可以處理網頁。

構成網頁中的文本的詞匯,數量是相當大的,因此,表示網頁的向量空間的維數也相當大,可以達到幾萬維,所有幾萬個詞匯對網頁分類的意義是不同的。首先,需要考慮詞語的性質。一些通用的、各個類別都普遍存在的詞匯對分類的貢獻是很小的,因此特征提取過程需要去掉對表達網頁類別不太重要的詞匯。例如“的”、“地”、“得”、“著”、“了”等等。其次,在某特定類中出現比重大而在其他類中出現比重小的詞匯對文本分類的貢獻大,為了提高分類精度,可以利用詞語的互信息量篩選出針對該類的特征項集合。具體操作是算出每個詞語的互信息量并排序,然后抽取前n個詞語作為該類別的特征項,抽取的原則是反復試驗使得網頁歸類效果最優?;バ畔⒘?I)計算公式由下式給出:

為了讓計算機為我們進行網頁的自動歸類,必須先對計算機進行訓練。只要訓練網頁足夠多,那么由計算機進行的歸類活動也將是準確的。所有的訓練樣本都需表示為向量。并使用每個詞的相對詞頻(TF-IDF公式)對網頁樣本的特征項進行量化。然后,將每個類別中的所有訓練樣本數據合成為一個平均參照樣本,計算方法就是將每個特征項的值求算術平均。相對詞頻計算公式由下式給出:

在歸類過程中,采用三級模糊綜合評判。一級指標因素集(網頁中出現位置)包括:網頁題名、文章標題、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML標記。二級指標因素集(詞性)包括:名詞,動詞,形容詞,副詞,介詞,連詞,助詞,數字,符號。三級指標因素集:待分類網頁中所包含的全部詞語的頻數。評價集確定為V={V1(不屬于0),V2(不太可能屬于0.25),V3(可能屬于0.5),V4(很可能屬于0.75),V5(屬于1)}。

專家隨機抽取了300篇網頁,對這些網頁進行人工自由標引、人工打分、詞頻統計,并進行統計數據的分析、,將一級指標因素權重集確定為A={0.128,0.128,0.128,0.104,0.104,0.104,0.06,0.06,0.06,0.06,0.05,0.05};根據語言學專家對各類別中不同詞性的詞語對標志一個類別(以中圖分類法為標準)重要性程度統計和評分,將二級指標因素權重集確定為An={0.28,0.18,0.24,0.06,0.05,0.04,0.04,0.06,0.05};根據詞語的互信息量確定出三級指標因素權重為Anm={Anm1,Anm2…Anmx}其中,Anmx即為對應詞語的互信息量

隸屬函數采用卡夫曼教授提出的隸屬函數確定方法(正態分布模型)確定如下:

①詞頻針對“不屬于”的隸屬函數

②詞頻針對“不太可能屬于”的隸屬函數

③詞頻針對“不可能屬于”的隸屬函數

④詞頻針對“很可能屬于”的隸屬函數

⑤頻針對“屬于”的隸屬函數

其中,axyz是訓練樣本中詞語的相對詞頻;x為樣本網頁中對應詞的統計詞頻;系數是通過人工評判得到一些特殊點,由待定系數法求出的。

下面就要根據多級模糊綜合評判的計算方法與步驟將待歸類網頁與所有類別的平均參照樣本進行一遍計算,得出一組表示該網頁與各個類別貼近度的數值。然后按照“最大隸屬原則”,將網頁劃到Vn值最大的對應的類別中;或者用“域值法”,事先確定一個不大于1的域值λ,若Vn>λ則認為網頁屬于此類別,因此,一個網頁可能同時屬于多個類別。

網頁模糊歸類實例

(1).前期工作

•簡化的分類的標準:類,類,科教類

•訓練樣本數目:48篇(三類各16篇)

•待歸類網頁:

•一級指標因素及權重:U={U1=0.5,U2=0.5}

•二級指標因素及權重:U1={U11=1.0}

U2={U21=0.4},U22=0.26),U23=0.34}

•三級指標因素及權重:

U11={U111=0.86},U112=0.14)}

U21={U211=0.11,U212=0.35,U213=0.21,U214=0.06,U215=0.10,U216=0.17}

U22={U221=0.26,U222=0.38,U223=0.36}

U23={U231=0.46,U232=0.54}

•經濟類訓練網頁樣本相對詞頻:

a11={a111(經濟1.2),a112(快訊1.2)}

a21={a211(我國1.1),a212(經濟2.2),a213(水平1.8),a214(三年0.5),a215(人民0.9),a216(生活1.3)}

a22={a221(實現1.3),a222(翻番1.8),a223(提高1.7)}

a23={a231(連續1.6),a232(日益1.7)}

(2).模糊綜合評判

首先統計待分類網頁的各個詞語的絕對詞頻如下:

U11={U111(經濟1),U112(快訊1)}

U21={U211(我國1),U212(經濟2),U213(水平1),U214(三年1),U215(人民1),U216(生活1)}

U22={U221(實現1),U222(翻番1),U223(提高1)}

U23={U231(連續1),U232(日益1)}

總共可以得到4個一級模糊綜合評判矩陣如下:

構造二級模糊綜合評判矩陣

①采用M(∧,∨)算子的運算結果

②采用M(•,)算子的運算結果

構造三級模糊綜合評判矩陣

①采用M(∧,∨)算子的運算結果

②采用M(•,)算子的運算結果

多因素綜合評判

①采用M(∧,∨)算子的運算結果

②采用M(•,)算子的運算結果

網頁歸類決策

通過三輪計算得出下表:

樣本與類別貼近度經濟類體育類科教類

采用M(∧,∨)算子0.680.310.42

采用M(•,)算子

0.800.160.27

不管采用哪一種算子,如果用“最大隸屬原則”判斷,顯然都應該屬于“經濟類”;如果用“域值法”(λ=0.6)判斷,也應該都屬于“經濟類”。

結果分析

由上述算例可以看出,若用“最大隸屬原則”判斷,取λ=0.68,采用M(∧,∨)算子的算法就無法對此網頁歸類了,而采用M(•,)算子卻可以對網頁正確歸類。另外,采用M(•,)算子的結果區分效果比較明顯,與人工歸類的結果比較接近。由此可見,采用M(•,)算子的算法明顯優于采用M(∧,∨)算子的算法。

本文的實例網頁最后得出的與“經濟類”網頁的貼近值僅0.8,比理想值(人工估計為0.9)偏低了了一些,與其他類別的貼近值也存在一些偏差。這是因為本文中舉的例子為了簡單起見,訓練文本才48篇,導致計算機訓練不足;另外,待歸類網頁過于簡單。這些都導致了歸類結果與理想值的偏差,在實際情況下,這些都可以避免。

作者在自行開發的“網頁模糊歸類測試系統”平臺上作了大量對于網頁的歸類測試工作(詳見附錄),測試文檔與訓練網頁都是取自“新聞網”新聞網頁。在訓練網頁達到1200篇的時候,歸類準確率封閉測試為85.73%,開放測試為78.82%。雖然這種以模糊綜合評判為核心的算法實現的系統初始化工作比較繁重,但是歸類的結果準確率很高,因此還是非常具有實際價值的。

[1]卜東波.聚類/分類及其在大規模文本挖掘中的,北京:院技術研究所,2000.

[2]邊肇祺,張學工.模式識別(第二版),北京:清華大學出版社,2000,83-159,284-300.

[3]韓正忠,方寧生.模糊數學應用,南京:東南大學出版社2003.2

[4]劉智穎.語言理解與機器翻譯,清華大學出版社2001.7

[5]劉祖根.基于WordNet的文本分類技術研究和實現,長江大學2002

[6]龐劍鋒,卜東波,白碩.基于向量空間模型的文本自動分類系統的研究與實現,計算機應用研究,2001,9(9):23-26.

[7]劉增良.模糊技術與應用選編,北京航空航天大學出版社,1997.2(1)ISBN7-81012-691-1

[8]孫貽源.模糊數學,華中工學院出版社,1984

[9]張俊福.應用模糊數學,地質出版社,1988.11