雷雨話劇范文

時間:2023-03-23 12:45:00

導語:如何才能寫好一篇雷雨話劇,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

雷雨話劇

篇1

[關鍵詞]孫道臨;改編,《雷雨》;電影

話劇《雷雨》創作于1933年,發表于1934年的《文學季刊》第一卷第3期。50年以后的1983年,孫道臨對它進行了改編、導演,由上海電影制片廠拍攝成同名電影,孫道臨在電影中扮演了周樸園的角色。這雖說是一次大膽的嘗試,成功的地方有目共睹,但美中不足的是,孫道臨在改編、導演《雷雨》時,有兩個方面偏離了的本來意思:刪去《雷雨》的序幕和尾聲,使電影的整體結構性與內在感染力大大削弱;對人物階級性的重心偏移,使電影的主要人物失卻原有的厚重感和真實性。

1942年,曾將巴金的小說《家》改編成為同名話劇,因為他改編的幅度很大,所以當他把稿件交給巴金時感到心中不安,但巴金看過以后卻“欣然肯定”了他的改編,這一點使他“終身不能忘懷”。1983年,孫道臨將話劇《雷雨》改編成同名電影之后,卻沒有發表任何關于這次改編的意見,有意思的是,他卻在1985年,和他的女兒萬方一起將其話劇劇本《日出》改編成電影,也由上海電影制片廠隆重推出。這至少說明,是很注意改編作品的,他對孫道臨改編《雷雨》是持保留態度的。

電影是一種現代化的綜合藝術,按照常規它在時間的把握上、道具的籌備上、光、電、聲的綜合搭配上,都應當比話劇更具操作上的靈活性和方便性。但孫道臨卻很輕率地將《雷雨》的序幕和尾聲刪去了。其實,對《雷雨》的序幕和尾聲是相當重視的,但是歷來的導演們,從來不注重的感覺,致使《雷雨》的序幕和尾聲幾乎沒有被搬上過舞臺,這使非常失望:“《雷雨》被斫去了‘序曲’和‘尾聲’,無頭無尾,直挺挺一段軀干擺在人們面前?!粢晃稇{信自己的主見,不肯多體貼作者執筆時的苦心,便率爾刪除,這確實是殘忍的。”、萬方1985年將《日出》改編為電影劇本時,首先就“增加了序幕”,也增加了尾聲――“光明的尾巴”。

孫道臨之所以這樣做,可能有多方面的原因,但重要的一點是他沒有很好地理解的《雷雨?序》,寫作《雷雨》的序幕和尾聲的真正用意是“仿佛有希臘悲劇Chorus一部分的功能,導引觀眾的情緒入于更寬闊的深思的海?!薄癈horus”的意思就是“合唱隊”“合唱”,所以,在此我們可以明顯看到希臘悲劇中合唱隊的影響和啟示。是想用音樂的功能來表達文學的意思。

開幕時,外面遠處有鐘聲。教堂內合唱頌主歌同大風琴聲,最好是Bach:High Mass in B Minor Benedictus qui venaitDomino Nomini――屋內寂靜無人。

……老婦人漸漸倒在地上,舞臺全暗,聽見遠處合唱彌撒和大風琴聲……大彌撒聲。

在第四幕結束時,作者又呼應前面:

舞臺漸暗,奏序幕之音樂(High Mass-Bach)若在遠處奏起,至完全黑暗時最響,與序幕末尾音樂聲同。幕落,即開,接尾聲。

在尾聲中:

開幕時舞臺黑暗。只聽見遠處教堂合唱彌撒聲同大風琴聲,序幕姊弟的聲音。

在此所最想運用的是巴赫的《b小調彌撒曲》,這部彌撒曲包括四部五個樂章,一共27個樂段,其音域廣泛、結構復雜、技巧繁復、意蘊豐富,可以說是整個宗教音樂中最有代表意義的華章,具有濃重的宗教氣氛,而且它包含了全宇宙中所有的事件經歷、全人類所有的情感,當然也是想概括或者代表周樸園一生及其一家人的遭遇?!禸小調彌撒曲》出現在“序幕”和“尾聲”中對全劇具有一種預告、總結、照應和涵蓋作用。它的旋律自然、樸素、優美,在教堂演唱時,具有莊嚴肅穆的色彩;人們聽后可消除塵世俗念,體會上帝的神圣與慈愛。因此,在“序幕”和“尾聲”中,以演奏巴赫的《b小調彌撒曲》為主,另外還有不可忽視的且與之相協調的彌撒合唱聲,由音樂起,以音樂終,使全劇具有濃郁的肅穆的氛圍,觀眾被深深地吸引到劇情中去了。孫道臨改編、導演的《雷雨》開幕時比較簡單、直接,畫面上首先出現的是江南水鄉,一艘輪船穿過江橋,劈波斬浪向前挺進,這可能是告訴觀眾周樸園從無錫來到北方某城市;音樂也是比較單調的管弦樂的交替或并行演奏,其旋律和節奏相對簡潔,如此效果,觀看電影后能不表示遺憾嗎?經過10年“”以后,的性格幾乎變得圓滑起來,有時簡直就是一個“好好先生”。如果他對電影《雷雨》沒有很大的反感情緒,他一般情況下肯定是要說話的,但他卻什么也未表示。這些不太重視音樂的導演們從一開始就割裂了對《雷雨》的整體思維,割裂了文學和音樂之間那種微妙而神奇的聯系,使其感染力大大削弱。

其次,還想讓序幕和尾聲給觀眾以“所謂的‘欣賞的距離’。這樣,看戲的人們可以處在適中的地位來看戲,而不至于使情感或者理解受了驚嚇?!睂O道臨導演的電影《雷雨》一開始就直奔主題,沒有給觀眾一個預設的心理;到結束時,舞臺上風聲、雨聲、叫聲、哭聲、槍聲此伏彼起,一瘋、一傻、一逃、三死悲慘欲絕,丟下一個痛苦的周樸園。觀眾對故事『青節的變化感到目不暇接,給人的感覺是緊張激烈,扣人心弦,讓觀眾一刻也得不到休息與放松,使觀眾看了以后心里很累。這樣,從根本上違背了的本意。眾所周知,“電影改編貴在創造,但終究不過是一種‘二度刨作’。與一般創作相比,其自由度就少得多,要受到許多限制。”。改編者“要懂得原著的長處在哪里,不足在哪里,不要把原著的缺點擴張了,也不要把原著的精華損傷了……方是忠于原著的最好態度?!鄙虾0爬傥鑸F將《雷雨》改編為大型芭蕾舞劇,不但對改編以后的幾個重要人物的性格的表現給予了首肯,同時,“對舞劇《雷雨》的音樂、舞美設計也很贊賞”。兩年之后卻沒有給孫道臨改編、導演的同名電影《雷雨》以一個字的說法,個中原因不言自明。

1956年《劇本》記者采訪了,并撰文《同志漫談(家)的改編》,在文中說:“改編者必須盡力理解原著精神,融會貫通……只有把原著加以消化,成為自己的血肉,改編的劇本才會有生命?!瓕憚”静粦摾鲜潜徽胃拍钔现摺W髡咚员徽胃拍钔现?,這說明他還是落在政治的后面,作者的生活、思想沒有趕上政治的要求,因此在寫作的時候常常處于被動的狀態?!睂O道臨所改編、導演的電影《雷雨》在政治性方面有著明顯的缺陷。

在《雷雨》電影中,魯侍萍似乎變成了一個頂天立地、敢于斗爭的無產階級女性形象:她與周樸園狹路相逢在周公館,但她卻顯得非常主動、鎮靜,兩次主動要借機 溜走,離開周公館,而周樸園卻是主動、及時叫她留下。孫道臨所要表現的是魯侍萍要走,周樸園要留;但在話劇劇本中所要表現的正好相反:魯侍萍要留,周樸園要趕:

周樸園:(看她不走)你不知道這間房子底下人不準隨便進來么?

魯侍萍:(看著他)不知道,老爺。

周樸園:你是新來的下人?

魯侍萍:不是的,我找我的女兒來的。

周樸園:你的女兒?

魯侍萍:四鳳是我的女兒。

周樸園:那你走錯屋子了。

魯侍萍:哦。――老爺沒事了?

周樸園:(指窗)窗戶誰叫打開的?

魯侍萍:哦。(很自然地走到窗前,慢慢地走向中門)

當周樸園提醒她走錯了屋子的時候,她還是留戀不已,沒話找話地問“老爺沒事了?”以延宕時間,然后利用關窗戶的時機,再一次創造機會,果然周樸園又開始打昕30年來他一直打聽的那件事,沒想侍萍回答得比他問的還清楚:自己的隱私別人居然知道得更詳細。這使周樸園感到很難堪,第二次發出了逐客令:

周樸園好,你先下去。讓我想一想。

魯侍萍

老爺,沒有事了?(望著樸園,眼淚要涌出)老爺,您那件雨衣,我怎么說?

這時,魯侍萍卻不愿走,又問了一句“老爺。沒事了?”,然后主動說出只有他倆知道的繡有“梅”字的綢襯衣,同時發出了深情的呼喚:“樸園,你找侍萍么?侍萍在這兒?!?/p>

孫道臨雖然說曾一度扮演過話劇《雷雨》中的周萍和周沖,但是由于1983年是個特殊的年代――改革開放剛剛開始,所以他的心中還一直有“階級斗爭”這根弦,而且是緊繃繃的。在電影中,孫道臨儼然是讓魯侍萍審判周樸園,甚至將受苦受難30年的魯侍萍歇斯底里地撕碎周樸園給她的支票的細節也改成了魯侍萍很輕蔑、很自信地把支票放在煤油燈上燒掉,把第三幕中魯大海要拿手槍去找周家復仇而侍萍誓死阻止的情節也全部省略。

當然,與此同時,孫道臨把周樸園的形象也進行了一番修改,真正地把周樸園塑造成了一個所謂“專橫、冷酷、自私、虛偽”的資本家形象。關于周樸園形象的復雜性大家都不陌生,藍棣之曾經問過一個不到10歲的小女孩兒,問她看過話劇《雷雨》以后認為劇中最好的是哪個人,這個小女孩兒居然說是“周樸園”,這證明原本并沒想把周樸園寫得很壞,因為的父親萬德尊就是周樸園形象的原型之一,在主觀上也是不會那樣做的。但是,孫道臨在電影中卻把周樸園話語和動作大塊大塊地刪除。

①周樸園在感覺到魯侍萍的關窗戶動作非常熟悉的時候,問:“你貴姓?”“你在無錫是什么時候?”

②周樸園問魯侍萍:“你在無錫是什么時候?”

③周樸園說:“無錫是個好地方?!?/p>

④周樸園一直在親自打聽或派人打聽魯侍萍的下落。

篇2

【關鍵詞】虛擬場景;路經規劃;八叉樹;A*算法

中圖分類號:TP39文獻標識碼A文章編號1006-0278(2013)06-172-01

一、引言

隨著虛擬現實技術的日益成熟,只有景色、建筑物等一般視景信息的虛擬場景已不能滿足人們的視覺需求,迫切需求一個有生命的對象引入到虛擬場景中,增加瀏覽者的沉浸感。虛擬場景中虛擬人的路徑規劃是虛擬現實研究中的一項關鍵技術。目前,研究者們已經把研究的重心放在如何為虛擬人規劃出一條行走的最優路徑,使虛擬人的路徑導航更具有真實感和可信度。

由于虛擬環境中的模型多由三角面網格組成,通過使用基于空間多層次劃分的八叉樹方法,充分發揮了其空間劃分的優勢,加快了場景的渲染速度,減少了確定對象的處理時間以及存儲空間①。

文章采用八叉樹和A*算法相結合的方法,對路徑進行規劃,并對A*算法做了改進,以適應八叉樹的存儲結構。

二、密集型區域八叉樹劃分算法

八叉樹是由四叉樹推廣到三維空間而形成的一種三維柵格數據結構,它作為一種場景組織方法,廣泛應用于虛擬現實系統,可顯著減少對場景中多邊形進行排序的時間。

由于傳統八叉樹對空間的劃分是均勻的,導致了最終生成一個結構不平衡的八叉樹,從而增加整個八叉樹的存儲空間以及各結點的遍歷時間。文章采用了對傳統八叉樹算法進行改進,采用基于密集型區域八叉樹劃分方法。密集型區域八叉樹的網格劃分算法是對每一子空間重新建立最小包圍盒,這樣避免了在建立頂點樹時,由于該部分頂點在空間上分布不均勻而導致樹的深度的增加,進而減少了存儲空間,加快了網格模型數據的讀取速度。另外,由于建立了頂點的最小包圍盒,在誤差較小時,只有空間距離比較近的頂點才會聚合在一起;而相距較遠的頂點只有在深層次簡化時才會聚合,這些特點在一定程度上保證了簡化時網格模型的逼真度。

密集型區域八叉樹劃分方法的算法描述如下:

步驟1使用OBB包圍盒方法建立模型的最小包圍盒。

步驟2以包圍盒的X軸、Y軸、Z軸方向的中分面作為分割基準,將包圍盒平均劃分為八個子包圍盒。

步驟3如果每個子空間內存在物體的屬性不相同或未達到規定的限差,則重新從步驟1開始進行劃分。否則,劃分結束,并對劃分后的每一個結點記錄下結點編號、劃分標志、結點在頂點樹中的深度以及它所含的景物面片表的入口指針。

三、A*算法

A*算法是建立在典型的Dijkstra算法上的,是由Hart,Nilsson,Raphael等人首先提出的。該算法的創新之處在于選擇下一個被檢查的節點時引入了已知的全局信息,對當前節點距終點的距離做出估計,作為評價該節點處于最優路線上的可能性的量度,這樣就可以首先搜索可能性較大的節點,從而提高了搜索過程的效率。

下面是對A*算法的介紹,我們首先來介紹一下啟發式搜索中的估計函數。因為在啟發式搜索中,對位置的估價是十分重要的。估價函數的表示如下:

其中是節點的估價函數,是已知的,指在狀態空間中從初始節點到節點的實際代價;是從結點到目標節點最佳路徑的估計代價,它體現了搜索的啟發信息,啟發信息決定著算法的啟發能力。啟發信息越多,估價函數就越好,即約束條件越多,則排除的節點就越多,說明這個算法越好。這種做法存在一個平衡的問題,也會使算法的準確性下降。具體的說,代表了搜索的廣度優先趨勢,當時,可以省略,這樣就提高了搜索效率。

A*算法是一個可采納的最好優先算法。A*算法的估價函數可表示為:

這里,是估價函數,是起點到終點的最短路徑值,是到目標的最短路經啟發值。由于這個其實是無法預先知道的,所以我們用前面的估價函數做近似。代替,但需要滿足(在大多數情況下都滿足時,可以不用考慮)。代替,并滿足??梢宰C明應用這樣的估價函數是可以找到最短路徑的。

四、基于密集型區域八叉樹的A*算法改進

由于使用八叉樹存儲結構存儲的環境地圖擴展步長不一致,采用傳統的A*算法效率較低,因此對A*算法做了改進,以適應八叉樹結構的搜索。改進的辦法是從葉節點開始搜索并為Open表設置兩個優先隊列,命名為隊列1和隊列2(隊列1中存放的節點總是高于隊列2),在兩個隊列中分別存放相鄰層次的全部節點,層次越高的優先級越高。通過這種分層次的搜索,也大大縮小了搜索的空間并縮短了搜索時間,這樣一來大大提高了搜索效率。

五、結束語

針對于復雜的3D環境,文章根據八叉樹適合虛擬場景劃分的特點,采用了一種適合密集型區域的八叉樹劃分方法,進行場景劃分。為適合八叉樹的存儲結構,對A*算法做了改進,引入優先級隊列并采用了分層結構,采用了從葉節點到根節點的搜索方法,規劃出了虛擬人行走的最優路徑。

篇3

關鍵詞:聚類算法;并行;K-means;PAM

中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2009)24-7010-03

Research on Parallelizing Based on Clustering Algorithm

PENG Hou-wen, YANG Shuang, HE Feng-cheng

(Dalian University of TechnologyNational Exemplary Software School, Dalian 116620, China)

Abstract: Cluster analysis is an important component of data mining, aiming at improving the executive efficiency of clustering. In this paper, a method of parallel operating is applied to k-means algorithm and PAM algorithm, in order to improve these two algorithms. Experiments show that: parallel k-means algorithm has better performance than serial k-means algorithm; and k-means algorithm has better parallelism and extendibility than PAM algorithm. Finally, this paper puts forward the idea of introducing the method of parallel operating into spectral clustering algorithm technology.

Key words: clustering algorithm; parallelizing; k-means PAM

所謂數據挖掘,簡言之是指在大量的數據中發現、提取潛在的有用信息和知識的過程。聚類分析是數據挖掘法技術中重要組成部分,聚類分析是指根據數據中對象及其之間的關系,將數據對象分組。其目標是,使組內的對象相互之間是相似的(相關的),而不同組中的對象是不同的(不相關的)。組內的相似性(同質性)越大,組間差別越大,聚類效果就越好[1]。

由于數據挖掘是從海量數據中提取有用信息,處理效率問題成了對海量數據處理的瓶頸之一,傳統的單機串行算法效率較低;由于部分聚類算法中蘊涵并行性,所以為了解決處理效率問題,將并行化的程序設計思想(并行處理)引入聚類算法,同時降低算法的復雜度,使用機群系統進行并行計算,從而有效的縮短聚類的時間。

1 K-means算法

1.1 傳統K-means聚類算法

K-means算法以k為輸入參數,把包含n個對象的集合分為k個簇,使得結果簇內的相似度高,而簇間的相似度低。簇的相似度是關于簇中對象的均值度量,可以看做簇的質心或重心[2]。

傳統K-means算法的處理流程如下:

輸入: k:簇的數目

D:包含n個對象的數據集

輸出:k個簇的集合

方法:

1) 從D中任意選擇k個對象作為初始簇重心

2) Do

3) 根據簇中對象的均值,將每個對象(再)指派到最相似的簇

4) 更新簇均值,即計算每個簇中對象的均值

5) while 數據集中所有對象的平方誤差和E不再發生變化

通常,采用平方誤差準則,其定義如下:

其中,E是數據集中所有對象的平方誤差和,p是空間中的點,即給定對象,mi是簇Ci的均值(p和mi都是多維的)。換言之,對于每個簇中的每個對象,求對象到簇中心距離的平方再求和。這個準則試圖使得生成的k個結果簇盡可能的緊湊和獨立。

1.2 并行化K-means改進算法

隨著并行處理技術的快速發展,越來越多的研究人員嘗試將并行處理方法應用于提高聚類算法的效率,通過研究發現K-means算法具有很大的并行性。首先,可將待挖掘的數據集N劃分為t個數據子集,t為并行處理環境中處理機的數目;然后將劃分后t個數據子集分別發送到t臺處理機進行數據聚類處理;最后主機將收到的節點機的聚類結果計算平方誤差準則函數E的值,并將前后兩次結果做差,如果差的絕對值小于閾值10-6,則處理結束,否則繼續循環處理。并行K-means算法的流程如圖1所示。

1.3 實驗結果與分析

我們搭建工作站機群系統,通過以太網卡等連接5臺PC機(Intel P4.17GHz、256MB RAM,安裝LINUX redhat OS),采用Master/Slave模式的數據并行策略,建立基于消息傳遞的工作站機群系統,用MPI進行算法編程驗證實驗。

本實驗的主要目的是驗證并行化后的K-means算法的執行時間和效率,所以為了簡單起見,本實驗中的數據是通過計算機隨機產生的整型數據。同時,我們將并行與串行算法的實驗結果相比較,當進行算法比較時,把程序運行10次并取平均值進行作圖比較(如圖2)。

從圖2中我們可以看出并行K-means在數據集較大時表現出比串行K-means更好的執行效率,而當數據集較小時,主要由于并行計算中PC間通信時耗較大,所以單機串行算法表現出相對更高的執行效率。實驗可以證明K-means算法在并行機群上具有了良好的并行性和可擴展性。

2 PAM算法

2.1 PAM聚類算法

PAM是k中心點(k-medoid)算法之一,它試圖確定n個對象的k個劃分。在隨機選擇k個初始代表對象之后,該算法反復試圖選擇簇的更好的代表對象。分析所有可能的對象對,每對中的一個對象看作是代表對象,另一個看做非代表對象。對于每個這樣的組合,計算結果聚類的質量。對象oj被那個可以使誤差值減少最多的對象所取代。再一次迭代中產生的每個簇中最好的對象集合成為下次迭代的代表對象。最終集合中的代表對象便是簇的代表中心。PAM算法的處理流程如下[2]:

輸入:k: 結果簇的個數

D: 包含n個對象的數據集合

輸出:k個簇的集合

方法:

1) 從D中任意選取k個對象作為初始的對象或種子

2) repeat

3) 將每個剩余對象指派到最近的代表對象所代表的簇

4) 隨機地選取一個非代表對象Orandom

5) 計算用Orandom交換代表對象Oj的總代價S

6) if S

7) until不在發生變化

2.2 并行化PAM改進算法

為了使問題簡單化,首先我們選擇任意的當前k個對象作為節點{Ol,…,Ok}。對于PAM算法,當每一步結束時,一種情況是找到一個代價最小的相鄰節點,另一種情況是算法結束(當前節點代價最小)[3]。如果我們需要從當前節點移動到一個新的節點,我們必須交換一個已選對象和一個未選對象。為了保證已選對象在前k位,我們交換他們的下標。這樣{Ol,…,Ok}會一直作為當前節點,而且不會受到當前節點移動的影響。

PAM的主要任務是檢查當前節點的所有相鄰節點,而且必須在劃分的同時檢查[3]。假設在p個進程(記為p1,p2,…,pp)上運行PAM算法。算法描述為:

1)將所有相鄰節點寫在列表中并按下標(升序)排序;

2)前[k(n-k)/p]個相鄰節點指派給p1,接著的[k(n-k)/p]個相鄰節點指派給 p2,…,最后的[k(n-k)/p]個相鄰節點指派給process p;

3)p個進程并行,并且報告各自相鄰節點n1,…,np;

4)如果沒有相鄰節點被報告,算法結束(當前節點的代價最小);

5)從n1,…,np中選擇代價最小的節點,將此節點改為當前節點,重復第一步。

下面舉一個例子簡單說明該算法,給定一個對象集{1,2,3,4,5,6,7},假設k=4,“1234”相鄰節點為(用上述方法得到):1235,1236,1237(i=4);1245,1246,1247(i=3);1345,1346,1347(i=2);2345,2346,2347(i=1)。

每個進程被指派任務后,各自查找代價最小的節點,最后所有的進程(除了p1)將得到的節點報告給p1,由p1作比較工作。

2.3 實驗結果與分析

利用2.3中搭建的工作站機群系統,此時用3臺PC機,進行PAM算法的執行效率驗證,并對比串行和并行PAM的執行時間(如圖3),由于PAM算法不適用于大量數據集的處理,所以實驗n取1000以內的數值。

從圖3中我們可以看出并行PAM的執行時間比串行PAM的執行時間長,并沒有提高算法的執行效率,由此我們可知K-means算法有比PAM更好的并行性和可擴展性。

3 具有并行性的其他聚類算法

聚類算法中除了上述K-means、PAM算法具有潛在的并行性和可擴展性外,還有一些算法可以進行并行化處理例如:并行硬聚類算法中的K-mediods,面向大規模數據庫系統的BIRCH算法,處理非數值屬性聚類的CACTUS算法,子空間聚類算法ENCLUS等[4],以及模糊聚類算法中的FCM等算法,理論上也具有在并行機群上的加速性。

4 進一步研究方向與展望

近年來誕生了聚類算法中的一個嶄新分支和研究熱點―譜聚類算法,譜聚類算法建立在譜圖理論之上,其實質是將聚類問題轉化為圖的最優劃分問題,相對于傳統的聚類算法有許多優勢,并在實踐中取得了很好的效果。由于譜聚類算法一般可以歸納總結為三個步驟[5]:

步驟一:構造數據集表示矩陣Z;

步驟二:計算Z的前k個特征值和特征向量,構造特征值的向量空間;

步驟三:利用K-means或其它傳統聚類算法對特征向量進行聚類。

由于譜聚類算法研究中可以運用K-means算法等具有并行性的聚類算法進行特征向量的聚類,所以本文對K-means算法并行化的研究也可以運用于譜聚類的并行化,提高譜聚類算法的執行效率,是很有前景的研究問題。

參考文獻:

[1] Tan P N, Steinbach M, Kumar V. Introduction to Data Mining[M].Beijing:POSTS& TELECOM PRESS,2006.

[2] Jia W H, Micheline Kamber. Data Mining Concepts and Techniques[M]. Beijing: China Machine Press,2006.

篇4

關鍵詞關鍵詞:流形學習;子空間聚類;低秩表示法(LRR);稀疏子空間聚類(SSC);變化率

DOIDOI:10.11907/rjdk.162181

中圖分類號:TP312文獻標識碼:A文章編號文章編號:16727800(2017)001002903

引言

隨著科學技術的發展,各類數據量迅猛增長。然而,并不是所有數據都是精煉且真實有效的,海量數據中存在著冗余與錯誤。如何對這些數據進行快速、有效的處理,從而找到數據之間的內在聯系成為解決很多問題的關鍵。因此對高維數據進行相關性分析、聚類分析、結構分析,挖掘數據背后的價值與意義尤為重要。

對高維數據進行分析處理,當前應用比較廣泛的維數約減技術有流形學習[1]和子空間聚類[2]。流形學習的前提是假設在一個高維歐式空間均勻地對數據進行采樣,然后將高維數據映射到低維,使得數據的低維表示能體現高維數據的本質信息[3];子空間聚類是假設一組數據屬于多個線性子空間的并集,將這組數據進行分類,使得不同的類對應不同的子空間。

高維數據的結構一般為低維的,可以用位于相同子空間的低維數據對高維數據進行稀疏表示,因此設計一種能分析低維多流形非相似結構數據的算法更具有一般性和適用性。本文針對低維多流形非相似結構數據,提出一種基于變化率聚類的算法,從而更有效進行聚類分析。

1基于變化率的子空間聚類算法

1.1算法描述

為更好地對低維多流行非相似結構的數據進行聚類分析,本文提出一種基于變化率的子空間聚類算法。該算法的基本思想是:首先觀察數據,若數據來源于多個維數不等的數據結構,則先根據按屬性重要性篩選出的維對不同結構的數據進行分類;然后在同構數據點之間按其變化率進行劃分,若變化率超過一定的閾值β,則分到不同的類中,若小于等于β則分到同一類;最終得到各個不同結構的分類。任意兩點之間的變化率為:RC(X,Y) = Yi + 1 -Xi + 1 Yi -Xi (1)算法描述如下:

輸入:數據集D,簇數k。

輸出:k個簇。

Step1:按一定的準則選擇重要屬性。

Step2:根據重要屬性將不同結構的數據劃分開,形成m個中間簇。

Step3:對中間簇中的數據按變化率RC進行分類,如果兩點之間的變化率大于β,則劃分為不同的類;否則劃為一類。

Step4:重復Step3直到中間簇都被劃分完。

Step5:輸出k個簇。

1.2對比算法選取

在子空間聚類算法中,應用比較多的是基于譜聚類的方法,首先根據樣本點之間的關系構造圖譜,然后利用NCut[4]等譜聚類方法得到分割結果?;谧V聚類的子空間分割方法中比較有代表性的是低秩表示法(LRR)[5]和稀疏子空間聚類(SSC)[6]算法。

低秩表示法(LRR)算法是為了從包含錯誤的數據中恢復子空間結構而提出的。在給定的一組數據樣本中,每一個都可以被表示為在一個字典中的一個基數線性組合,LRR旨在找到所有共同數據的低秩表示。通過選擇一個特定的字典,LRR可以很好解決子空間聚類問題。對于被任意錯誤污染的數據,LRR還可以近似的恢復行空間,LRR是一個有效的且具有魯棒性的子空間聚類算法。

稀疏子空間聚類(SSC)可以用來聚類位于低維子空間的并集的數據點。關鍵思想是,從其它點獲得無窮多的可以表示的數據點,并用一個稀疏表示來對應從相同的子空間選擇的點。這促進了譜聚類算法框架下用來推斷數據的聚類子空間的稀疏優化程序。該算法處理接近于子空間交集的數據點是有效的,另一個關鍵優勢在于它可以通過合并數據的模型到稀疏優化程序來直接處理數據干擾,如噪音、稀疏的無關記錄和缺失記錄。在運動分割和聚類方面,該算法都具有較高的實用性。

2實驗結果與分析

為了驗證基于變化率的子空間聚類算法的有效性與實用性,本文選取三幅變化率較為明顯的低維多流行結構圖進行聚類分析實驗。

2.1實驗一結果與分析

從圖2可以看出,對分布在獨立子空間中的兩條直線上的數據進行聚類,若每條直線上的數據為一類,則本文提出方法的聚類結果明顯要比LRR和SSC好。LRR和SSC算法聚類效果欠佳的原因在于對數據分解處理后用K-means算法[8]進行聚類,K-means算法以距離度量為基礎,適合于發現球狀簇,對于線性數據的聚類效果并不理想。本文算法和LRR算法的主要誤差都在于圖像交叉相似的部分,但LRR算法的聚類誤差部分明顯大于本文算法的聚類誤差部分,而SSC算法基本無法聚類該圖數據。

3結語

本文提出一種基于變化率聚類的算法,首先觀察數據,按屬性重要性篩選出的維對不同結構數據進行分類,然后在同構數據點之間按其變化率進行分類,若變化率超過一定的閾值β,則分到不同的類中;若小于或等于β,則分到同一類,最終得到各個不同結構的分類。此算法能夠有效對低維多流形非相似結構的數據進行聚類分析,聚類效果明顯優于LRR、SSC等傳統算法,且時間復雜度較低,可以進一步應用到圖像分類、運動識別等領域。

參考文獻:

[1]JB TENENBAUM,VD SILVA,JC LANGFORD.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(5500):23192323.

圖4實驗三結果

[2]E ELHAMIFAR,R VIDAL.Sparse subspace clustering[C].IEEE Conference on Computer Vision and Pattern Recognition,2009:27902797.

[3]鄭媛媛.基于非負矩陣分解的數據表示算法研究及其應用[D].南京:南京理工大學,2013.

[4]J SHI,J MALIK.Normalized cuts and image segmentation[J].IEEE Transactions Pattern Analysis Machine Intelligence,2000,22(8):888905.

[5]G LIU,Z LIN,S YAN,et al.Robust recovery of subspace structures by lowrank representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):171184.

[6]E ELHAMIFAR,R VIDAL.Sparse subspace clustering:algorithm,theory,and applications[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(11):27652781.

篇5

關鍵詞:數據結構;可視化;設計

在我國的科學技術得到迅速發展的過程中,科學計算的工作量也開始變得愈來愈大,可視化的方法能夠有效的幫助工作人員進行獲取更多的信息,從而更為直觀的來對計算的結果進行分析。由于受到計算機性能以及軟件平臺限制,在最初的可視化軟件系統方面都是在高性能圖形工作站進行發展的,對數據結構可視化類庫的設計能夠有效的將效率得到提高。

一、數據結構可視化類庫設計的重要性及目的

(一)數據結構可視化類庫設計的重要性

在使用以及學習數據結構和程序設計過程中,實現數據結構的可視化能夠有效的提高對數據結構的直觀分析,從而加深理解。在對程序進行調試的過程中,通過數據結構可視化類庫能夠有效的將編程的效率得以提高。從目前的發展情況來看,已經有了諸多的應用廣泛的可視化集成開發環境,其中最為常見的就是Visual C++等,這些可視化的集成開發環境簡化了程序界面的設計,對編寫界面的程序降低了難度,從而有效的提高了軟件的開發效率。

(二)數據結構可視化類庫設計的目的

在數據結構可視化類庫設計的目的上就是使得JVDSCL能夠比較容易的在不同用途中進行應用,這就是要加強其靈活性,JVDSCL能夠直接的應用到軟件應用程序的開發方面,在開發人員方面也能夠通過JVDSCL來進行對新的數據結構進行構造,另外就是加強其可靠性的目的,在這一方面是JVDSCL的最為主要的目的,還有就是面向對象的目的,數據結構是JVDSCL的主要對象,同時算法也是對象,它們保存運行的結果以及提供訪問結果的接口。

二、數據結構可視化類庫的設計和實現探究

(一)數據結構可視化類庫的設計探究。在對數據結構可視化類庫進行設計的過程中,要對問題進行綜合性的考慮,其中在JVDSCL方面它主要是在Java集合庫基礎上來進行對原有的數據結構類中進行的擴展,與此同時也在這一過程中添加了相應的較為復雜化的數據結構,最為常見的就是樹圖。在JVDSCL過程中對可視化數據結構進行構造來實現數據結構的可視化,而這一可視化的數據結構也是在Java集合庫當中的原有數據結構類的操作基礎上進行的,另外就是增添了一些可視屬性以及對可視化的接口進行了提供。在每種數據結構都會有著多種顯示的模式,這就需要開發人員進行有機的選擇,而在JVDSCL當中,對于每種數據結構會有這多種布局的方法來對其加以布局。

在對數據結構可視化類庫進行設計的內容上主要就是基本的可視化接口的設計以及顯示模式和布局方法。其中在可視化接口的設計方面,最為主要的接口就是V Collection接口,它不僅是能夠提供Collection接口的基本方法,同時也提供可視化接口,在這一內容上主要有 void draw,操作上就是重畫指定的數據結構,通過display Mode參數值來決定選用的顯示模式,在這一接口中的參數c是表示數據結構所顯示的顏色。在顯示模式的設計當中,JVDSCL的每種數據結構都會有不相同的顯示模式,如下圖所表示的兩種模式。

另外,在布局的設計上,關于數據結構可視化的關鍵問題就是圖形的布局問題,這對于相關的研究人員對數據結構和算法的效果理解有著非常密切的關系。而在JVDSCL當中的最為主要的就是線性布局的方法以及圖布局的方法,針對于每種不同的布局在算法的實現上也是不同的。其中在線性的布局方面,主要是能夠適用于隊列和線性表的數據結構,在對線性的布局方法上其基本的算法框架就是獲取數據的元素個數以及依靠著所顯示大小和數據元素個數進行對布局的大小值進行計算。如下圖所示。

在圖布局的設計方面在算法上是屬于二維彈性模型的算法,最為基本的思想就是在二維平面上進行計算。這一方法比較的適合圖等數據結構,在JVDSCL當中能夠提供的多種算法實現圖的可視化,其中有基于遺傳模擬退火算法圖的三維可視化以及以上所說的二維彈性模擬算法等??梢暬夹g的主要目的就是來輔助人們增強認知上的能力,而在計算機的可視化技術方面能夠將其作為是信息的處理工具,以此來考慮多樣化的樣本以及變量和聯系。

(二)數據結構可視化類庫的實現分析。在數據結構的可視化類庫的實現方面由于本論文的篇幅有限簡要進行講述,數據結構動態演示系統演示了各種不同算法的數據結構變化的過程,這還需要相關的設計人員在大量的畫圖操作上得以實現,比如對鏈表的結點的繪制,對于JVDSCL的應用就不需要自己來編碼就能夠實現畫圖的操作,在動態演示系統方面有了很大程度上的層次性提高,在這一過程中設計人員不需對數據結構的布局進行考慮,在JVDSCL自身已經有了布局的功能,只需要根據自身的的需要來進行重寫即可實現。另外,在對數據結構中的draw()進行調用也能夠有效的實現數據結構的可視化。

三、結語

總而言之,對于數據結構的可視化類庫的設計以及實現能夠有效的將軟件的重用性和擴展性得到提高,在JVDSCL的基礎上進行對其加以設計,對軟件的開發設計的效率有了明顯的提高,在未來我國的軟件技術設計水平不斷提升的過程中,也定能夠在這一領域取得更加優異的設計成果。

參考文獻:

[1]楊曉波,陳邦澤.數據結構課程實踐教學體系研究[J].實驗技術與管理,2013,(08).

[2]馮月華.《數據結構》課程改革下的一堂教學實例――最小生成樹[J].隴東學院學報,2014,(03).

篇6

一、器具的用途

例1現有器具如圖1所示。

(1)吸取和滴加少量液體時用_____;洗滌試管應使用_____。(填器具名稱)

(2)若利用圖1中的器具進行實驗:溶解氯化鈉時還需要添加的器具是_________;加熱高錳酸鉀制取氧氣,還需要的鐵制器具是_________。

分析:試管、試管夾、玻璃棒、酒精燈、滴管、鐵架臺、燒杯、量筒、集氣瓶是化學實驗中的常用器具,同學們應熟練掌握這些器具的用途及使用時的注意事項。量取一定體積的液體用量筒,而吸取或滴加少量液體則用膠頭滴管。燒杯可用作較大量試劑反應或配制溶液的容器。試管刷用來刷洗玻璃器具,如試管。酒精燈是常用的加熱器具。鐵架臺用于固定和支持各種器具,常用在加熱、過濾等實驗中。玻璃棒用于攪拌、過濾或轉移液體。

[答案:(1)膠頭滴管;試管刷(2)玻璃棒;鐵架臺(帶鐵夾)]

二、藥品的取用

例2學習化學,要經常做實驗。下列實驗操作中正確的是( )。

A.將鼻子湊近容器口聞藥品的氣味

B.將試管中用剩的藥品倒回試劑瓶中

C.用手抓取固體藥品

D.用藥匙取用固體粉末藥品

分析:取用藥品時要遵循“三不”原則,即不能用手接觸藥品;不要把鼻孔湊到容器口去聞藥品(特別是氣體)的氣味;不得嘗藥品的味道。取用固體藥品一般用藥匙,塊狀藥品可用鑷子夾取。實驗剩余的藥品要放入指定容器內,不能倒回原瓶,也不能隨意丟棄,更不能帶出實驗室。

(答案:D)

例3剛接觸化學實驗,張琳同學對基本操作還不很熟悉。圖2分別表示她完成的實驗操作,正確的一項是( )。

分析:取用細口瓶中的藥液時,瓶塞要倒放在桌上,標簽朝手心,瓶口緊挨著試管口。量筒用來度量液體藥品的體積,量液時,量筒必須平放,視線與量筒中液體的凹液面的最低處保持水平。吸取和滴加少量液體試劑用滴管,且滴管應懸空放在試管上方,不要接觸試管壁,也不要伸入試管中。托盤天平用于稱量固體藥品的質量,使用時,稱量物放在左盤,砝碼放在右盤,即“左物右碼”。

(答案:B)

三、給物質加熱

例4具備基本的實驗技能是進行科學探究活動的基礎和保證。圖3中實驗操作不正確的是( )。

分析:使用酒精燈時,要注意三個“禁止”:禁止向燃著的酒精燈里添加酒精;禁止用一只酒精燈引燃另一只酒精燈;禁止用嘴吹滅酒精燈。給液體加熱可以用試管、燒杯、燒瓶、蒸發皿等,但用燒杯或燒瓶給液體加熱時,應將燒杯或燒瓶放置在石棉網上。給試管中的液體加熱時,液體體積不能超過試管容積的1/3要傾斜一定角度,試管口不可朝著自己或有人的方向。除掌握以上幾點外,加熱時還要注意玻璃器具外壁不能有水,玻璃容器的底部不能跟燈芯接觸,先預熱再集中加熱等問題。

(答案:B)

四、器具的連接

例5王鵬同學是某??萍寂d趣小組的積極分子,喜歡動手做各種化學實驗。但在他的下列操作中有一項是不正確的,該項是( )。

A.把試管放在實驗臺上再使勁塞進橡皮塞

B.先用水把玻璃管口潤濕,再稍稍用力將其插入膠皮管

C.按由下向上、從左往右的順序連接各種器具

D.實驗結束后拆下裝置,將要洗滌的器具洗滌干凈

分析:連接器具應遵循由下向上、從左往右的順序.往試管口塞橡皮塞時,左手拿試管,右手拿橡皮塞慢慢轉動,塞進試管口,切不可把試管放在實驗臺上再使勁塞進橡皮塞,因為這樣做容易壓破試管。將玻璃管插入橡皮塞的孔或膠皮管中時,都要先把玻璃管口用水潤濕,且要用手抓住插入端的玻璃管,以免玻璃管折斷。

(答案:A)

五、器具的洗滌

例6請指出李雯同學在一次實驗考核中出現的錯誤操作( )。

A.用試管刷刷洗試管內壁不易洗掉的物質

B.將洗凈的試管倒放在試管架上

C.滴瓶上的滴管用過后立即用清水沖洗干凈

D.玻璃器具洗凈后,內壁附著的水既不聚成水滴,也不成股流下

分析:每次實驗完成后,將玻璃器具洗滌干凈是良好的實驗習慣,但,一要注意用正確的方法洗滌;二要注意該洗則洗,該洗時才能洗。如,燒得很熱的玻璃容器就不能立即用冷水沖洗;用過的滴管要立即用清水沖洗干凈,以備再用;嚴禁用未經清洗的滴管再吸取別的試劑。但滴瓶上的滴管與滴瓶配套使用,屬于“專管專用”,使用后就沒有必要再用水沖洗。

(答案:C)

六、操作的順序

例7初中化學實驗中,有許多涉及操作上“先”與“后”的問題,如果把“先”與“后”順序顛倒,就會影響實驗效果或導致事故的發生。試寫出下列幾種情況的“先”與“后”。

(1)用托盤天平稱量固體藥品,___________________。

(2)實驗室制取氣體,________________________________。

分析:按照規定的步驟和方法進行操作是實驗取得成功的重要保證。如,給物質加熱時,要先預熱再集中加熱;過濾時,要先靜置后過濾;加熱高錳酸鉀制取氧氣的實驗結束時,應先從水槽中移出導管,然后再熄滅酒精燈。托盤天平用于稱量固體藥品的質量,在稱量前先把游碼放在標尺的零刻度處,檢查天平是否平衡。如果天平未達到平衡,則應調節橫梁右端的平衡螺母,使天平平衡。天平平衡后,在左盤中放稱量物,右盤中放砝碼,然后移動游碼使天平平衡,記錄數值。凡是制取氣體的實驗,都必須先檢查裝置的氣密性,只有在確認裝置不漏氣的前提下,才能裝入藥品進行實驗。

[答案:(1)先調平,再稱量 (2)先檢查氣密性,再裝藥品]

[練習]

1.過濾是化學實驗中的一項重要基本操作,其中不需要使用的器具是( )。

A.量筒 B.漏斗

C.燒杯 D.玻璃棒

2.下列操作中,正確的是( )。

A.用鑷子夾取塊狀的藥品

B.用托盤天平稱量藥品時,先加小砝碼,再加大砝碼

C.將盛有液體藥品的試管固定在酒精燈外焰處加熱

D.沒有說明藥品用量時,液體取1~2 mL,固體取1~2g

3.下列實驗基本操作或事故處理,正確的是( )。

A.為安全起見,將用剩的藥品丟棄到水池中

B.酒精燈打翻著火,用濕抹布撲蓋

C.喝少量的某無色液體,看是酸味還是無味

篇7

關鍵詞:數據挖掘;簇;聚類算法

中圖分類號:TP301.6文獻標識碼:A文章編號:1672-7800(2012)010-0033-03

基金項目:湖南省大學生研究性學習和創新性實驗計劃項目(JSU-CX-2011-28)

作者簡介:張露(1991-),女,吉首大學軟件服務外包學院學生,研究方向為計算機科學;張彬連(1978-),女,吉首大學軟件服務外包學院講師,研究方向為計算機科學。

0引言

隨著信息和科學技術的高速發展,各行業積累的數據量迅速增長,而更重要的是如何從大量的、不完全的數據中提取出有用的信息。而在數據挖掘中充當重要角色的就是聚類,它在識別數據的內在結構方面具有獨到的作用。而數據挖掘工具以及工具提供的可選擇的算法是實現數據挖掘目的的墊腳石。數據的類型、聚類的目的應用決定了選擇哪一類聚類算法,其中聚類是把物理或者抽象對象分組成為由類似對象構成的多個簇的過程,即把數據對象分成多個類或簇,在同一個簇中的對象具有較高的相似度,而不同簇中的對象差異較大。它對未知數據的分析和劃分能起到非常有效的作用。此外,通過聚類,能夠識別密集和稀疏的區域,發現全局的分布模式,以及數據屬性之間的相互關系等。為了找到效率高、通用性強的聚類方法,人們從不同角度提出了許多種聚類算法,大致可分為層次方法、劃分方法、基于密度的方法、基于網格的方法和基于模型的方法這五大類。

1典型聚類算法分類及其優缺點分析

1.1基于劃分的聚類算法

首先,給定一個樣本為n的數據集,然后根據給定要創建劃分的數目k,將數據劃分為k個組(kn),每個組相應地表示一個簇,同時滿足以下的條件:①每個組至少包含一個樣本;②每個樣本屬于且僅屬于一個簇。算法要事先給出要創建的劃分的數目k,創建一個初始劃分,然后采用循環定位技術,通過根據簇類之間的差異把對象從一個劃分移動到另一個劃分的方法來改善劃分質量。評價劃分的好壞的標準一般是在同一個類中的對象盡可能“接近”,而不同類中的對象盡可能“遠離”。為達到全局最優的目的,基于劃分的聚類會要求窮舉所有可能的劃分。其中包括以下典型的劃分方法:k-平均、k-中心點、CLARA、CLARANS等。

1.1.1基于簇的重心技術:k-平均算法

(2)k-平均算法的優缺點:①優點:當滿足結果簇是緊湊的,并且簇與簇之間明顯分離式的前提條件,k-平均算法能發揮較好的效果,而且在處理大數據集時,是有相對可伸縮的和有效率的;②缺點:該算法有其限制條件,只有在簇的平均值被定義的基礎上才能使用,這就使得可能不適應某些應用的數據,要求用戶必須事先給出k的取值。在大部分實際應用中,最終的聚類數量并不能得到一個確切的數目,且該算法遇到非凸面形狀的簇,或者遇到在大小上存在很大差別的簇時,聚類效果不明顯。而且,它對于帶有“噪聲”的空間數據和離群數據是敏感的。該算法經常止于局部最優。

1.1.2基于有代表性的對象的技術:k-中心點方法

1.1.3基于選擇的k-中心點CLARANS方法

(1)CLARANS方法的處理流程:首先,不考慮整個數據集合,用實際數據的抽樣來作為數據的樣本;然后,用PAM方法從樣本中選擇中心點;返回最好的聚類結果作為輸出。

(2)CLARANS方法的優缺點:①優點:該算法的效率較高,能夠發現最“自然的”結果簇數目,且能夠檢測離群點,且相應地拓展了數據處理量的伸縮范圍;②缺點:該方法的聚類質量對采取的抽樣方法依賴性強,且最中心點的要求較高。而且對于大數據量、時間復雜度和空間復雜度都很大。

1.2基于層次的聚類算法

根據樹的形成過程,層次分解的方向的不同可以分為以下兩種類型:

(1)自底向上(凝聚)聚類方法。該方法一開始將每個對象作為單獨的一個組,然后繼續與相近的對象或組合并,直到所有單獨的組都被合并,成為一個整體,或者達到一個終止條件。

(2)自頂向下(分裂)聚類方法。與凝聚法相反,該策略先將所有對象置于一個簇中,在迭代的每一步中,在一個簇的基礎上分裂為更小的簇,直到最終每個單獨的簇中包含一個對象,或者達到一個終止條件。下面介紹其代表算法。

1.2.1BIRCH算法

(1)BIRCH算法包括階段:階段一是BIRCH掃描數據庫,建立初始化的CF樹,嘗試把數據內在的聚類結構保留下來;階段二是BIRCH算法采用某個聚類算法對CF樹的葉節點進行聚類。

(2)BIRCH算法的優缺點:①優點:引入的聚類特征樹概括了聚類的有用信息,且占用空間較元數據集合小,只需要一次性訪問數據庫,速度快,伸縮性好,對增量或動態聚類也非常有效,不需要大量遞歸運算。②缺點:由于CF樹每個節點的大小受限制,并不總是對應于用戶所認為的一個自然聚類,而且算法的工作效率依賴于簇的球形要求。

1.2.2CURE算法

(1)CURE算法工作原理:選擇了屬于聚合方法和分解的中間做法。選擇數據空間中具有代表性的點。且在選擇簇中分散的對象中產生一個簇的代表點,然后根據一個特定的分數或者收縮因子向簇心“收縮”或移動它們。

(2)CURE算法優缺點:①優點:能識別非球狀以及大小不一的聚類,能更好地處理孤立點。對于大型的數據庫,它也具有良好的伸縮性,且不影響聚類的質量;②缺點:聚類結果容易受到參數設置的影響,且CURE算法對分類屬性不進行處理工作。

1.3基于密度的聚類算法

基于密度的聚類算法并不是基于各種各樣的距離而是基于密度的。這樣就能克服基于距離的算法只能發現“圓形”類的缺點,它可以發現任意形狀類的聚類結果。該方法的思想就是,只要一個區域中的點的密度大于某個閾值,就把它加到與之相近的聚類中。以下介紹其代表算法DBSCAN算法和OPTICS算法。

1.3.1DBSCAN算法

(1)DBSCAN算法思想:首先通過檢查數據庫中每個點的ε-鄰域內的鄰居點數衡量改點所在空間的密度。來尋找聚類。如果一個點p的ε-鄰域名超過某個指定閾值MinPts個點,則建一個新簇以p作為核心對象,然后再反復地尋找從這些核心對象直接密度可達的對象,當沒有新的點可以被添加時,該過程即結束。

(2)DBSCAN算法優缺點:①優點:能夠把具有足夠高密度的區域劃分為簇,對帶有“噪聲”的空間數據比較敏感,可以發現任意形狀的聚類;②缺點:參數的設置難以確定,對參數值是非常敏感的,容易導致誤差很大的聚類結果,且全局密度參數不能刻畫其內在的聚類結構。

1.3.2OPTICS算法

(1)OPTICS算法思想:采用影響函數,即用一個數字函數來形式化地模擬每個數據點的影響;所有數據點的影響函數的總和可以由數據空間的整體密度模型化得到;可以通過確定密度吸引點來得到聚類,且此時全局密度函數在密度吸引點達到局部最大。

(2)OPTICS算法優缺點:①優點:該算法的數據基礎非常堅實,并且概括了其他的聚類算法;其良好的聚類特性在處理有大量“噪聲”的數據集合時充分體現出來了;提供了簡單而有效的數學技術給高維數據集合的任意形狀的聚類;速度較快;②缺點:聚類結果會容易受到密度參數和噪聲閾值等參數的影響。

1.4基于網格的聚類算法

基于網格的聚類方法采用的數據結構是一個多分辨率的網格。它將數據空間分為有限數目的單元,形成網結構,所有的處理對象是單個的數據單元,這種處理方法與目標數據庫中記錄的個數并不存在很大的關系。以下介紹其中的STING算法。

(1)STING算法工作原理:STING是一種基于網格的多分辨率聚類技術,它將空間區域劃分為矩形單元,通常存在多個級別的矩形單元,這些單元形成了一個層次結構:高層的每個單元由多個低一層的單元組成,且事先計算和存儲關于每個網格單元屬性的統計信息,在查詢處理時就能使用這些統計參數,達到不一樣的效果。

(2)STING算法優缺點:①優點:基于網格的計算與查詢是相對獨立的;在處理數據和增量更新方面能夠更加方便;效率較高;②缺點:最底層的粒度影響算法的質量,且該算法在構建一個父單元時,忽略了子單元與相鄰單元間的關系,導致結果簇的形狀的邊界不穩定。

1.5基于模型的聚類算法

基于模型的聚類算法嘗試優化給定的數據和某些數學模型之間的適應性,是基于“數據是根據潛在的概率分布生成的”這一假設而提出的。該方法主要包括統計學方法和神經網絡方法這兩大類。以下介紹其中的COBWEB算法。

(1)COBWEB算法工作原理:COBWEB算法采用分類屬性-值對來描述其輸入對象,以一個分類樹的形式來構造層次聚類,并且在啟發式估算度量方法以及分類效用的指導下開展樹的構建工作。

(2)COBWEB算法優缺點:①優點:對劃分過程中類的數目能自動修正,不需要用戶提供這樣的輸入參數,可以找到分類對象的最好結點;②缺點:該算法基于的“每個屬性上的概率分布式彼此獨立的”假設不總是成立的;更新和存儲聚類代價相當高,可能導致時間和空間復雜性發生劇烈的變化。

2結語

分層聚類的突出亮點是它能夠生成比較規整的類集合,聚類結果不依賴元素的初始排列或輸入次序,與聚類過程的先后次序并沒有直接的關系,聚類結果相對穩定,不易導致類的重構。但它也存在著部門缺點,如計算開銷較大,對異常數據比較脆弱。劃分聚類的優點是運算量小,能運用于處理龐大的樣本數據,也為實時處理提供了一定的可能性。但要求用戶必須預先給出聚類的參數,還要靠度量函數來判定所給出解的優劣程度。網格聚類處理速度快,處理時間與數據對象的數目無關,聚類時間獨立于數據規模和數據次序,伸縮性極好。缺點是只能發現邊界是水平或垂直的聚類,不能檢測到斜邊界,也不適用于高維情況,并存在量化尺度的問題。密度聚類多用于時空信息處理、消除奇異值,并且可以在帶有“噪聲”的空間數據庫中發現形狀任意、個數不定的聚類,適合大型、高維數據集等方面具有較好的特性。對于所提到的上述聚類算法,可以從可伸縮性、處理不同類型屬性的能力、發現任意形狀的簇、處理噪聲數據的能力、對輸入順序的敏感性、處理高維數據的能力、需要決定的輸入參數最少以及對輸入記錄順序不敏感這些方面來進行比較分析,以更好地了解這些聚類算法。

參考文獻:

[1]HUANGZX,MICHAELK.Anoteonk-modesclustering[J].JournalogClassification,2003(2).

[2]PELLEGD,MOOREA.X-meansextendingk-meanswithefficientestimationofthenumberoftheclusters[C].Proceedingsofthe17thIC-ML,2000.

[3]ERTOZL,STEINBACHM,KUMARV.Findingclustersofdifferentsizes,shapesanddensitiesinnoisy,highdinensionaldata[R].MinneapolisUniversityofMinnesota,2002.

[4]MARQUESJP,WRITTEN,WUYF,etal.PatternRecognitionConcepts,MethodsandApplications(2nded)[M].Beijing:TsinghuaUniversityPress,2002.

[5]DHILONI.Co-clusteringDocumentsandwordsusingbipartitespec-tralgraphpartitioning[C].SanDiegaProceedingsofthe7thACMSIGKDD,2001.

[6]SAMBASIVAMS,THEODOSOPOULOSN.AdvanceddataclusteringminingWebdocuments[J].IssuesinInformingScienceandInformationTechnology,2006(3).

[7]NANNIM,PEDRESCHID.Time-Focusedclusteringoftrajectoriesofmovingobjects[J].JournalofIntelligentInformationSystems,2006(3).

[8]BIRANTD,KUTA.ST-DBSCAN:ANalgorithmforclusteringspatial-temporaldata[J].Data&KnowledgeEngineering,2007(1).

[9]CRISTOFORD,SINOVICIDA.Aninformation-theoreticalapproachtoclusteringcategoricaldatabasesusinggeneticalgorithms[C].ArlingtonThe2ndSIAMICDM,WorkshoponClusteringHighDinen-sionalData,2001.

篇8

>> 河北省農業自然災害財政救助的問題與對策分析 城鄉統籌的河北省重大自然災害防御與補償機制設想 基于聚類分析法的遼寧省主體功能區劃分 基于因子―聚類分析的河北省經濟發展水平差異研究 氣溫升高與地膜覆蓋對河北省棉花熟區劃分的影響 基于聚類分析的礦業經濟區劃分研究 基于聚類分析對河北省各市三次產業就業人員差異化的研究 自然災害的能量 農業自然災害對通貨膨脹的影響基于動態面板的實證分析 基于聚類分析方法的人口區劃研究 江西省樟樹市主要氣象災害風險區劃分析 園藝樹種的自然災害及其預防分析 自然災害救援物流系統的流動要素分析 匈奴政權興衰中的自然災害因素分析 分析大型自然災害的救災物資管理 自然災害的社會學分析綜述 基于主成分聚類分析的云南省干旱自然分區 不做自然災害的“幫兇” 煤礦生產的自然災害 果園自然災害的防御 常見問題解答 當前所在位置:,2010-12-08.

[5] 延平軍.災害地理學[M].西安:陜西師范大學出版社,1989.

[6] 西北師范大學地理系.中國自然地理圖集[M].中國地圖出版社,2007.

[7] 徐建華.計量地理學[M].北京:高等教育出版社,2008.

[8] 張 超,楊秉賡.計量地理學基礎[M].北京:高等教育出版社.2008.

[9] 高 ,蒙小亮,勞小青.基于聚類分析的海南島雷電災害易損度風險區劃[J].自然災害學報,2013,22(1):175-182.

[10] 王 芳,陳 浩,王 瑛,等.面向地震災害的河北省救災物資儲備庫選址研究[J].自然災害學報,2013,22(2):29-35.

[11] 王汝正, 王正新.模糊聚類分析在區域自然災害區劃的應用――以四川省為例[J].災害學,1993,8(1):6-12.

篇9

1 問題的提出

旅游是人們外出旅行與游覽的綜合,是游客在地域空間的流動。無論是往返于常住地和目的地之間,還是在目的地內各景區之間的旅游活動,都必須借助良好的交通設施和工具,因此,便捷的交通成為溝通旅游者和目的地的橋梁和紐帶。改革開放30余年來(特別是近20年),我國交通運輸網絡發生了巨大的變化。2008年年底,全國交通運輸線路總里程達到639.45萬千米,是1985年的4.62倍,其中,民航通航里程248.16萬千米,是1985年的8.88倍。民用機場數翻了一番,民航旅客構成多元化,私人出行增長迅猛,旅客吞吐量比1985年增加了18504萬人次,年均增長高達14.50%,北京、上海和廣州3大樞紐機場均進入全球機場前50強行列。鐵路通車里程7.97萬千米,是1985年的1.44倍,高速鐵路從無到有,既有線路改造成效顯著,電氣化里程是1985年的6倍多,新增91座現代化鐵路客站,旅客運輸能力大為提升,鐵路客運總量是1985年的1.3倍,高速鐵路日發送旅客達到92.5萬人。公路通車里程373.02萬千米,是1985年的4倍,僅次于美國,居全球第2。其中,高速公路通車里程達6.5萬千米,居全球第2,與歐盟27國相當。公路客運量是1985年的5.63倍,年均增長7.47%。交通運輸的快速發展,極大地促進了我國入境旅游和國內旅游的快速發展。1985~2008年,入境客流量增加了1.14億人次,年均增長8.63%;國內客流量增加了14.98億人,年均增長8.53%。

有關旅游與交通運輸的關系,國外相關研究開展較早。倫德格倫(lundgren)、皮爾斯等(pearce,etal)對交通在旅游中的作用進行了探討。倫德格倫、斯圖爾特等(stewart,et al)對旅游者空間行為和遷移規律進行了分析。德斯蒙德(desmond)、托馬斯(thomas)、丹尼爾(daniel)、蒂亞戈(tiago)分析了包機旅游及航空運輸的作用。國內該方面的研究起步較晚,汪正元分析了交通對旅游的影響和制約作用。保繼剛認為,現代旅游業的發展與交通運輸緊密相連,交通運輸的便利程度是衡量旅游業發展的重要標志。劉南分析了杭甬高速公路開通對杭州、寧波和紹興旅游發展的影響。張濤認為,旅游交通是發展旅游業的命脈,是旅游生產力的重要組成部分。金鳳君等認為,鐵路客運提速對城市間旅游業的分工與合作十分有利??婃壕?、王勁松分析了旅游交通成本對旅游業的影響及對策。何調霞等、馬麗君等研究了中國旅游業與航空運輸業的關系。張文嘗等對北京、成都和大連城市居民出行交通方式和結構進行了分析。王兆峰分析了旅游交通對張家界旅游的影響。陳曉、李悅錚探究了城市交通系統和旅游系統之間的協調模式。周蓓研究了四川省航空旅游網絡空間特征及其結構。朱茲、張明等分析了鐵路建設對旅游業的影響。

國內外學者關于旅游與交通運輸的關系研究,主要集中在某種交通方式對旅游需求的影響及對旅游目的地發展的影響。國外學者較關注航空和公路(私家車)交通對旅游的影響,研究具有較為明顯的深度和廣度。國內學者注重理論的探討,對于重大的鐵路和公路工程建設的旅游效應較為關注。但在研究方法方面,定性分析多于定量分析;研究層次上著眼個別區域或個別線路的個案分析,而忽視整體的宏觀研究,且研究的交通方式也較單一。由于不同的交通方式具有不同特點,在游客運輸中擔負著不同的角色,以及國內旅游與入境旅游對交通方式的不同選擇,因此,上述研究既不能提供航空、鐵路、公路等運輸的發展對入境旅游和國內旅游產生何種影響及具有什么邊際彈性,也不能從地區差異上提供各省區交通運輸對旅游業發展的適宜性特征。本文嘗試運用宏觀的時空結合方法:首先,利用1985~2008年時間序列數據,分析旅游客流量與交通客運量的協整關系;然后,依據2006~2007年30個省區截面數據,分析旅游客流量與交通客運量的統計規律,并劃分其依賴一偏好類型,從時空變化上定量分析交通運輸業對旅游業的拉動作用,對于認識交通運輸與旅游發展的關系有很重要的現實意義。

2 概念模型、數據說明與研究方法

2.1概念模型與基本假設

張文嘗等認為,交通運輸是中國國民經濟發展的基礎產業。對于旅游業的發展來說,交通運輸更是必不可少的先決條件。從旅游客源地來說,旅游交通連接著旅游目的地和景區,幫助游客實現外出旅游;從旅游目的地來說,旅游交通聯系客源地、組合旅游產品,使旅游接待和景點旅游得以實現。根據抽樣調查和問卷調查資料,依據空間尺度將旅游交通劃分為兩個層次,如圖1所示。第一層是大中尺度的長途交通,主要是航空和鐵路,一般運送空間尺度大于100千米,主要承擔從客源地到目的地的大中尺度空間移動,包括入境旅游和跨省區旅游。航空旅游具有快捷、直達、舒適等特點,但價格比較昂貴;鐵路旅游具有運量大、價格低廉等特點,但速度較慢。這兩種交通運輸方式對于旅游業的發展來說,主要解決游客“進得來”和“出得去”的問題。第二層是中小尺度的短途交通,主要為公路旅客運輸,一般運送空間尺度小于100千米,是游客在目的地(中心城市)到風景區之間交通,省內旅游和市內交通以公路為主。因公路運輸快捷靈活,主要解決游客在目的地“散得開”的問題。

基于上述認識,本出如下兩點假設:(1)入境旅游及客流量在30個省區的分布主要受航空運輸和鐵路運輸的影響。因為,入境旅游客流量在各省區的分布主要是大中尺度的旅游流,入境游客可支配收入高、旅游時間寶貴、活動范圍大,航空和鐵路是長距離旅行的主要交通方式;至于人境旅游者在各城市內的交通運輸,多由旅行社專配旅游車輛來完成,一般不計入公共交通系統。(2)國內旅游客流量在30個省區的分布,主要受公路交通和鐵路運輸的影響。因為國內旅游一部分是本省游客在本省區內的旅游(大約占20%~40%)①;另外,跨省區的國內旅游,因國內居民收入較低,航空運輸票價較為昂貴,2000年之前乘坐飛機手續復雜,鐵路成為國內大中尺度旅游的主要交通工具。

2.2數據說明

本研究所選用的基礎數據包括兩個序列:(1)1985~2008年中國旅游客流量和交通運輸客運量數據,共包括3個子序列:①入境客流量,反映入境旅游業發展狀況,記為tf;②國內旅游客流量,反映國內旅游發展狀況,記為td;③航空、鐵路、公路客運量,反映陸路交通運輸系統的運輸能力,分別記為al、rw、hw。這些數據均來自1986—2009年《中國旅游年鑒》、《中國統計年鑒》、《中國交通年鑒》等官方統計資料。(2)30個省區的截面數據。為了分析各省區入境旅游、國內旅游與航空運輸、公路運輸的關系,本文還選取2006年全國30個省區的截面數據(西藏除外),分別以上述時間序列分析中的關鍵因素,采用截面數據分析入境客流量與航空客運量、國內旅游客流量與公路客運量的關系。

旅游業是環境敏感的脆弱產業,極易受到各種危機事件的影響。1989年的政治風波、1998年的亞洲金融危機、2003年的sars危機、2008年的汶川地震等,均對中國入境旅游和國內旅游產生較大影響,為了在較平穩的序列中分析旅游客流量與交通客運量的關系,本文依據本底趨勢線理論,對1989年、1998年、2003年和2008年的入境旅游和國內旅游數據進行了內插訂正。

2.3研究方法

本研究采用時間序列和截面數據結合的方法,分析交通運輸對旅游業的影響。首先,利用時間序列的單位根檢驗方法,對交通運輸巨變與旅游業發展的長期穩定關系進行檢驗,在存在長期均衡關系的基礎上,建立誤差修正模型進行短期均衡關系調整的檢驗;然后,利用格蘭杰因果關系檢驗法,對交通運輸與旅游業因果關系進行檢驗,從時間序列數據分析中認識交通運輸與旅游業發展的因果關系;最后,利用2006年30個省區的截面數據,分析入境旅游客流量與航空客運量、國內旅游客流量與公路客運量的統計相關性,依據相對偏差劃分依賴一偏好類型,尋找旅游客流量與主要交通運輸方式之間的空間差異。

3 時間序列分析與格蘭杰因果關系檢驗

3.1時間序列的穩定性檢驗

要分析變量之間的協整關系并建立var模型,首先需對變量進行是否具有單位根平穩性檢驗。只有變量在同階平穩的條件下,才能對其進行協整分析。常用adf方法來驗證,該方法可以通過對如下3個模型進行檢驗:模型1-不含有常數項和時間趨勢項,模型2-含有常數項而沒有趨勢項,模型3一含有常數項和趨勢項。如果其中任何一個adf值大于麥金農臨界值,則可以認為該序列沒有單位根,是平穩的時間序列。因此,本文對取自然對數后的變量以及它們的差分序列作平穩性檢驗。結果見,表1。

從表1可以看出,在1%顯著性水平下,所有變量水平值都是非平穩的。經過一階差分后,在5%顯著性水平下,國內客流量(ltd)、入境客流量(ltf)、公路客運量(lhw)、鐵路客運量(lrw)和航空客運量(lal)為平穩性變量,即為一階單整序列。

3.2協整檢驗

協整理論是20世紀80年代由恩格爾(engle)和格蘭杰(granger)提出的。其基本思想是,盡管兩個(或兩個以上)變量中每個都是非平穩的,但其線性組合有可能相互抵消趨勢項的影響,成為一個平穩的變量。協整檢驗的常用方法是e—g兩步法,對于多個變量之間的協整關系,可以使用基于向量自回歸模型的約翰森(johansen)檢驗法。為分析變量ltd、ltf與lrw、lhw、lal之間的長期穩定關系,本文采用約翰森模型對其進行協整檢驗。選擇方程中含有截距項,根據aic和sc準則,將滯后階數確定為2,檢驗結果如表2和表3所示。

從表2可以看出,在5%顯著性水平上,人境客流量與公路、鐵路、航空客運量之間存在長期穩定的均衡關系。采用ols方法,其協整方程如下:

ltf=-0.350486lrw +(1. 51442)

1.121560lhw 0.348604lal+(-2.43182) (1.92863)-22.04167 (1)

從方程的系數可以看出,各時間序列變量都顯著地進入了協整方程,反映了變量之間存在長期穩定的趨勢。從長期來看,鐵路客運對入境客流量的彈性為-0.350486,公路客運對入境客流量的彈性為1,121560,民航客運對入境客流量的彈性為0.348604。王海江和苗長虹認為,我國客運交通聯系具有明顯的距離衰減規律,公路、鐵路和航空客運最佳營運距離為150千米、700千米和1300千米。入境游客由國外進入中國及在中國大區之間移動的空間距離較大,依賴長途交通,主要以航空客運為主;而在各省區內部,大部分省區內航班班次少,加之高速公路網發達、快捷等優勢,游客在省區內部移動主要由公路運輸承擔,一個人境游客在省內的移動,可產生10~20個公路客運人次,導致公路客運彈性系數很高。對入境客流量而言,鐵路客運產生的負效應是由于航空客運、公路客運部分替代效應和鐵路客運距離衰減雙重作用所致。

從表3可以看出,在5%顯著性水平上,國內客流量與公路、鐵路、航空客運量之間存在長期穩定的均衡關系。采用ols方法,其協整方程如下:

ltd=1.049012lrw+0.881197lhw-00.172383lal-24.06571

轉貼于

(-2.0803) (-1.96406) (-2.13556) (2)

從方程的系數可以看出,各時間序列變量都顯著地進入了協整方程,反映了變量之間存在長期穩定的趨勢。從長期來看,鐵路客運對國內客流量的彈性為1.049012,公路客運對國內客流量的彈性為0.881197,民航客運對國內客流量的彈性為0.17383。中國地域遼闊,國內游客在超過150千米的省區之間主要由鐵路客運承擔,或鐵路客運和公路客運交替承擔。各省區十分重視公路網絡的建設,尤其是高速公路的快速發展。公路較鐵路網絡密集和完善,筆者依據國內游客抽樣調查數據估算,約有20%~40%的游客在本省區內發生。因此,在省區內旅游移動主要由公路客運完成。航空客運對國內客流量增長貢獻相對較小,是因為在省區之間或省區內空間位移,航空客運較鐵路客運和公路客運費用高,加之我國經濟發展水平不高,居民可自由支配收入水平較低,航空客運不是國內大多數游客出行首選交通方式,以及早期航空客運比重較小等因素所致。

3.3誤差修正模型

上述協整分析分別給出了ltf、ltd與lrw、lhw、lal之間的長期穩定均衡關系,而這種長期穩定關系是在短期動態過程的不斷調整下得以維持的。根據granger定理,一組具有協整關系的變量具有誤差修正模型的表達形式。因此,在協整檢驗的基礎上,筆者進一步建立包括誤差修正項在內的誤差修正模型,以此來研究模型的短期動態和長期調整特征。將長期關系模型中的各變量以一階差分形式重新加以構造,并將長期關系模型所產生的殘差序列作為解釋變量引入。作為解釋變量引入的長期關系模型的殘差,代表著在取得長期均衡過程中各時點上出現“偏誤”的程度。分別建立ltf與lrw、lhw、lal以及ltd與lrw、lhw、lal如下形式的修正模型:

3.3.1 入境客流量(ltf)短期波動向長期均衡調整的誤差修正模型

dltf=-0.716022ecm-0.280582dltf(-1)+0.548099dltf(-2)-0.017133dlrw(-1)+0.015559dlrw(-2)-1,171688dlhw(-1)+0.893335dlhw(-2)+1,022703dlal(-1)+0.029439dlal(-2)+0.0329289

r2=0.618536 (3)

誤差修正方程(3)中各參數的系數,可分別看作是各滯后量對dltf的彈性系數,可對其進行彈性分析。其中,dltf(-1)和dltf(-2)為入境客流量的1期和2期滯后,系數分別為-0.28058和0.548099,說明前1年或前2年客流量每增長1%,將促使下年客流量下降0.28058%或第2年增長0.548099%;dlrw(-1)和dlrw(-2)為鐵路客運量的1期和2期滯后,系數分別為-0.017133和0.0155589,說明前1年或前2年鐵路客運量每增長1%,將促使下年客流量下降0.017133%或第2年增長0.0155589%;dlhw(-1)和dlhw(-2)為公路客運量1期和2期滯后,系數分別為-1.171689和0.893335,說明前1年或前2年公路客運量每增長1%,將促使下年客流量下降1.171689%或第2年增長0.893335%;dlal(-1)和dlal(一2)為航空客運量1期和2期滯后,系數分別為1.022703和0.029438,說明前1年或前2年航空客運量每增長1%,將促使下年客流量增長1.022703%或第2年增長0.029438%。從彈性分析可看出,入境客流量增長對自身發展的推動作用不顯著,而交通客運量增長對下年入境客流量增長起到重要的作用,尤其航空客運量增長貢獻最大。ecm項系數反映了對偏離長期均衡的調整力度。當修正系數為l時,入境客流量和鐵路、公路、航空客運量均衡的誤差,將在下年就可以調整到均衡狀態。方程(1)中ecm系數為-0.716022,說明入境客流量與鐵路、公路、民航客運量之間的均衡關系,對當期非均衡誤差的修正能力較強,符合反向修正機制原理。

3.3.2國內客流量(ltd)短期波動向長期均衡調整的誤差修正模型

dltd=-0.243782ecm+0.576056dltd(-1)+0.269367dltd(-2)-0.348364dlrw(-1)+0.083713dlrw(-2)+0.510915dlhw(-1)+0.654979dlhw(-2)+0.260907dlal(-1)+0.093286dlal(-2)+0.113737

r2=0.517116 (4)

方程(4)中,dltd(-1)和dltd(-2)為國內旅游1期和2期滯后,系數分別為0.5760和0.2694,說明上年或前2年國內客流量每增長1%,將使今年或明年國內客流量增長0.5760%和0.2694%;dlrw(-1)和dlrw(-2)為鐵路客運量1期和2期滯后,系數分別為-0.3484和0.0837,說明上年或前2年鐵路客運量每增長1%,將使今年國內客流量下降0.3483%和第2年增長0.0837%;dlhw(-1)和dlhw(-2)為公路客運1期和2期滯后,系數分別為0.5109和0.6550,說明上年或前2年公路客運每增長1%,將使今年和第2年國內客流量增長0.510915%和0.654979%;dlal(-1)和dlal(-2)為航空客運l期和2期滯后,系數分別為0.2609和0.0933,說明上年或前2年航空客運量增長1%,將使今年和第2年國內客流量增長0.2609%和0.093286%。彈性分析結果顯示,國內客流量1期和2期滯后都對自身發展有推動作用,這是國內發展的慣性或稱為系統的記憶性。而公路、鐵路、航空的l期滯后對國內客流量有明顯的推動效應,2期滯后的推動作用相對較小,相比較而言,公路客運對國內客流量增長貢獻最大。而偏差調整項ecm系數為-0.243782,說明國內客流量與公路、鐵路、民航客運量的均衡關系對當期非均衡誤差調整能力不強,當國內旅游短期波動偏離長期均衡時,會以(-0.244)的調整能力將其拉回均衡狀態。

3.4格蘭杰因果檢驗

通過協整檢驗,表明變量ltf,ltd分別與lrw、lhw和lal之間存在協整關系。但是,這種長期的均衡關系究竟是旅游客流量引起交通客運量變動的結果,還是交通客運量引起旅游客流量的結果?旅游客流量和交通客運量在波動中孰為因孰為果還是互為因果?這需要對旅游客流量和交通客運量進行格蘭杰因果關系檢驗。張曉峒認為,滯后期數的選取是任意的,以xt和yt為例,如果xt-1對yt存在顯著性影響,則不必再做滯后期更長的檢驗,否則應該再做滯后期更長的檢驗。因此,本文按照這一原則選擇格蘭杰檢驗的滯后期為2,結果如表4。

表4表明,在10%顯著水平下,入境客流量方面,公路客運量與入境客流量之間存在單向格蘭杰因果關系,格蘭杰因概率為0.06571,因此,拒絕原假設,表明公路客運能夠促進入境客流量的增長;入境客流量與航空客運量存在單向格蘭杰因果關系,格蘭杰因概率為0.08605,因此,拒絕原假設,即入境客流量增長對航空客運量具有拉動效應。我國地域遼闊,省區之間的距離相當于歐洲國與國之間的距離,入境旅游者從境外入境中國大陸及在大陸較遠各省區間進行旅游,基本上都屬于大尺度上的空間位移,對長距離的交通工具飛機和火車依賴較大,因此,入境旅游對航空客運拉動作用明顯。鐵路客運量與入境客流量之間存在單向格蘭杰因果關系,格蘭杰因概率為0.01962,因此,拒絕原假設,表明我國鐵路提速和高鐵的建設對入境旅游者的增長和其在境內中尺度上空間位移產生了積極作用。國內客流量方面,公路客運量與國內客流量為單向格蘭杰因果關系,格蘭杰因概率為0.10026,因此,拒絕原假設,即公路客運對國內客流量增長具有促進效應。短距離的省區間及省區內,因汽車具有靈活、方便和快捷等優勢,加之通向旅游景區高等級公路的修建,旅游者出行主要以汽車為主。航空客運量與國內客流量存在單向格蘭杰因果關系,格蘭杰因概率為0.05458,因此,拒絕原假設,即航空客運發展對國內客流量增長能起到一定的推動效應,航空運輸的特點能較好地滿足經濟實力強和對時間要求高的部分旅游者的需求。

檢驗結果還顯示,在10%顯著水平下,入境客流量不是公路客運量和鐵路客運量的格蘭杰因概率分別為0.52387和0.20404,接受原假設,即入境旅游對公路客運和鐵路客運推動作用不大。國內客流量與鐵路客流量之間不存在格蘭杰因果關系,格蘭杰因概率為0.47319和o,28107,接受原假設,即國內客流量與鐵路客運量無顯著互相推動效應。國內客流量與航空客運量和公路客運量的格蘭杰因概率分別為0.20358和0.39884,接受原假設,即國內客流量對航空客運和公路推動效應不明顯。這些檢驗結果都與事實有出入,但這并不代表旅游客流量對交通運輸客運量沒有促進作用。格蘭杰因果關系檢驗只是基于時間序列數據的分析,是在特定顯著性水平的定量判斷,并不能完全排除理論上的質性分析。質性分析可以發現,交通運輸是旅游必不可少的先決條件,是連接客源地與目的地的必不可少的工具,因此,無論是入境客流量,還是國內客流量都是交通運輸客流量的重要組成部分,對交通客運量增長的作用是顯而易見的,旅游客流量在交通客運量中的比重逐年上升就表明了這一點。隨著《關于加快旅游業發展的意見》綱領性文件的出臺,這一比重還將進一步上升。這也說明格蘭杰因果關系分析存在某些方面的局限。格蘭杰因果性檢驗是時間上的“先后次序”(或前因后果)關系,而不是一般意義上的因果關系。它要求變量必須是平穩的(無趨勢項)。若原始變量的時間序列不平穩,就要對變量作對數變換或多級差分處理,這種處理有可能會扭曲原始變量間的因果關系,所以才得出“不是因果關系”的結論。

4 交通客運量與旅游客流量關系的統計分析及地域類型劃分

時空互照,旅游客流量與交通客運量非線性時間序列的規律,在某種情況下也可以通過空間差異反映出來。我國東部北京、上海、廣東是3個最大的入境口岸,國際航空客運和國內航空客運都十分發達,成為人境旅游的三大高地;而浙江、江蘇、河南、四川、廣東、山東等省區,人口眾多、公路運輸發達,國內旅游居于全國領先地位。下面著重以入境旅游與航空客運、國內旅游與公路客運為對象,采用30個省區截面數據,分析交通客運量與旅游客流量的關系并劃分其地域類型。

4.1入境客流量與航空客流量關系的統計分析

入境旅游是大尺度、高消費、高選擇的高層次旅游。因受旅行時間等因素的限制,國外旅游者往往選擇經濟發達、基礎設施較好的熱點城市和級別較高的景點旅游。我國幅員遼闊,地域差異大,各省區在交通區位和旅游資源豐度上存在較大差異,使得各省區接待的入境游客有較大差別。依據國家旅游局抽樣調查資料,外國旅游者入境中國及在各省區之間的流動,50%依靠民航運輸,20%依靠鐵路客運,而公路主要承擔城市內部和旅游景點之間的短途運輸①。本節以航空客運為關鍵變量,分析各省區入境客流量與航空客運量的關系。以2006年30個省區截面數據為依據,以入境客流量為因變量,航空客運量為自變量,制作x—y關系散點圖,結果表明,入境客流量與民航客運量呈明顯的線性相關。其中,廣東、上海、北京航空客運量位居前三名,入境客流量排全國前3名,并且遠遠超過其他省區;中西部的陜西、云南、四川、重慶航空客運量較高,入境客流量也領先其他省區。本文采用ols法進行回歸分析,其回歸方程如下:

tf=0.1079al+61.765 (5)

可決系數r2=0.758,擬合效果較好,符合預測要求。由方程(5)可知,航空客運量的邊際彈性系數為0.1079,即航空客運量每增加1萬人次,入境客流量將增加0.1079萬人次。

仔細觀察圖中散點分布,可以發現各省區在入境旅游與航空客運上存在較大差異。為了分析這種散點分布對回歸方程的偏差,本文借用孫根年早期提出的依賴一偏好指數模型,分省區比較入境客流量與航空客運量的地區差異。依賴一偏好指數計算公式為:

轉貼于

εi=[sti/tti]

其中:sti為入境客流量統計值,tti為回歸方程的預測值。依據對依賴一偏好指數的計算和偏離程度,得到全國30個省區入境客流量對航空客運量的偏離指數類型。結果見表5。

表5表明,在所統計的30個省區中,強依賴或偏好省區有4個,占13.33%;較強依賴或偏好省區有8個,占26.67%;中等依賴或中等偏好省區有9個,占30%;較弱依賴或偏好省區有7個,占23.3%;弱依賴或偏好省區有2個,占6.6%。內蒙古、上海、山東、廣西依賴指數高于1.45,內蒙古和廣西地處邊陲,上海是出入境口岸,江蘇和浙江經濟發達,對航空需求大;天津、江蘇、河北、遼寧、黑龍江、安徽、福建、云南依賴指數處于1~1,45,多處于邊陲或內陸,對航空依賴明顯;北京、浙江、河南、湖北、湖南、廣東、重慶、四川、陜西依賴指數處于0.7~1,北京和廣東是出入境口岸,陜西、四川和重慶則地處內陸,對航空有依賴;山西受北京影響,吉林受遼寧影響,江西受上海、江浙等影響,航空依賴指數較??;青海和寧夏地處邊緣地區,旅游資源豐度不高,入境旅游客流量較小,對航空需求低。

4.2國內客流量與公路客運量關系的統計分析

經過近20年的發展,我國國內旅游已進入大眾化階段,旅游人數屢創新高。盡管受到金融危機的影響,2009年國內旅游仍達到19.3億人次,出游率達到1.5次/人,較2008年增長16.3%。但由于經濟發展水平所限,國內旅游仍具有低消費、中近距離等特點,30%以上游客為本省區內旅游。因公路運輸靈活、方便,鐵路運輸票價低廉,此兩種方式是國內旅游主要的交通運輸方式。本節以公路客運量為關鍵變量,分析各省區國內旅游與公路客流量的關系。以2006年30個省區截面數據為依據,以國內旅游客流量為因變量,公路客運量為自變量,制作x—y散點圖,結果發現,回歸方程可決系數很低,方程擬合效果不理想。分析發現北京、上海和天津國內客流量大,但公路客運量小,與其是中國最大的直轄市有關,影響了方程的回歸,隨后剔除三者,做新的散點圖,結果表明,國內客流量與公路客運量呈明顯的二次函數關系。其中,東部沿海的浙江、山東和江蘇國內客流量很大,中部安徽國內客流量排在第l位,西部地區四川國內客流量位居首位。本文采用ols法進行回歸分析,其擬合的二次曲線回歸方程如f:

td=-0.0055hw2+0.193hw-0.121 (6)

可決系數r。=o,7673,擬合效果較好,符合預測要求。根據依賴一偏好指數公式,得到各省區國內旅游客流量對公路客運量的依賴一偏好指數類型。結果見表6。

表6表明,在所統計的27個省區中,強依賴或偏好省區有2個,占所統計省區的7,41%;較強依賴或偏好省區12個,占44,44%;中等依賴或中等偏好省區9個,占33,33%;弱依賴或偏好省區4個,占14,81%。青海和寧夏多山,地形復雜,航空與鐵路網絡少,國內旅游主要依賴公路運輸;浙江、山東和四川等省境內公路網絡密度大,尤其浙江和山東不僅高等級公路比例高,而且四通發達,出行十分方便。遼寧、河南和陜西不僅公路網絡發達,更重要的都是我國鐵路交通樞紐,高速列車和動車組較多,航空線眾多,在一定程度上降低了對公路運輸的需求。中度依賴一偏好型的省區9個,占33.33%,這些省區中,廣東和湖北省鐵路與航空網絡發達,基本已形成了民航、鐵路和公路運輸三位一體的交通網絡。因此,國內旅游對公路運輸依賴適中。而甘肅、湖南、廣西、重慶等省區大部分鐵路網絡不發達,高等級鐵路少,經濟發展水平較低,而且境內多山,因此,國內出游主要以公路為主。弱依賴一偏好型的省區4個,占14.81%,依賴一偏好指數在0.6以下,這些省區都地處我國邊疆地區,地形復雜、多山,且距離遠,與外界聯系以鐵路和航空運輸為主,對公路運輸需求很小。

5 結論

盡管旅游業的發展,促進了交通運輸的發展,但是交通運輸功能巨大,并非完全是為旅游業服務的,因為貨物運輸、國內外非旅游者的運輸,也是交通運輸的重要任務。在旅游業發展之前,交通運輸已經存在,并在客貨運輸中擔負著重要的功能。20年來,隨著交通運輸的快速發展,尤其是航空客運逐漸普及,鐵路提速、高速鐵路的修建,公路和高速公路的發展,對我國旅游業的發展起到了巨大的推動作用。本文利用1985~2008年的時間序列數據和2006年全國30個省區的截面數據,分析了旅游客流量與交通客運量的關系。結果發現:

(1)基于時間序列的協整分析發現,長期內,旅游客流量與交通客運量之間存在著長期穩定的均衡關系。彈性系數表明,交通運輸業對旅游業的發展具有顯著的推動作用。格蘭杰因果關系檢驗表明,航空客運量和公路客運量與入境客流量之間存在單向格蘭杰因果關系,航空客運與公路客運對入境旅游的推動作用很大。入境客流量與航空客運量之間存在單向格蘭杰因果關系,即入境旅游能推動航空客運的增長。航空客運量和公路客運量與國內客流量之間存在單向格蘭杰因果關系,即公路客運和航空客運的增長促進了國內旅游的發展。

(2)誤差修正模型分析發現,對于入境旅游,短期動態內,航空客運量、鐵路客運量和公路客運量的1期和2期滯后效應中,航空客運量對入境客流量增長具有積極的推動作用,鐵路客運量和公路客運量1期效應不顯著。當短期波動偏離長期均衡時,系統將以-0.716022的調整力度將非均衡狀態拉回到均衡狀態。對于國內旅游,短期動態內,航空客運量、鐵路客運量和公路客運量的1期和2期滯后效應中,公路客運量和航空客運量對國內客流量增長具有較大推動效應,鐵路客運量1期滯后效應微弱。當短期波動偏離長期均衡時,系統將以-0.243782的調整力度將非均衡狀態拉回到均衡狀態。

(3)基于對全國30個省區截面數據的分析,發現入境客運量與航空客運量呈明顯的線性相關,航空客運量的邊際彈性為0.1079,即民航客運量每增加1萬人次,入境客流量將增加0.1079萬人;國內旅游與公路客運量呈明顯的二次函數關系。這種基于主導因素的分析,忽略了鐵路客運的空間再分配作用。

(4)依據各省區入境客流量對航空客運量的依賴一偏好差異,本文將全國30個省區劃分為5種類型。其中,內蒙古、上海、江蘇、浙江、山東、廣西依賴指數高于1.45,天津、河北、遼寧、黑龍江、安徽、福建、云南依賴指數處于1~1.45,北京、河南、湖北、湖南、廣東、重慶、四川、陜西依賴指數為0.7~1,而青海和寧夏對航空需求低。

篇10

關鍵詞:顏正華;痞滿;關聯規則;聚類算法

DOI:10.3969/j.issn.1005-5304.2013.03.013

中圖分類號:R2-05;R256.32 文獻標識碼:A 文章編號:1005-5304(2013)03-0031-03

顏正華教授是國醫大師,首都國醫名師,治驗甚眾,尤擅長胃脘痛、痞滿、便秘、腹痛等消化系統病證的診療。本研究首先收集、整理顏正華教授治療痞滿處方,進而基于“中醫傳承輔助系統(V1.1)”軟件,采用關聯規則apriori算法、復雜系統熵聚類等無監督數據挖掘方法,分析處方中藥物的使用頻次及藥物之間的關聯規則、處方規律,探討顏正華教授治療痞滿的用藥經驗,希冀為闡明顏正華教授痞滿用藥思想提供參考。

1 資料與方法

1.1 處方來源與篩選

本研究以2005-2010年顏正華教授在北京中醫藥大學國醫堂出診處方為來源進行篩選,以鄧鐵濤、董建華主編《實用中醫內科學》[1]中痞滿主要癥狀為評判標準,共篩選痞滿處方143首。

1.2 分析軟件

“中醫傳承輔助系統(V1.1)”軟件,中國中醫科學院中藥研究所提供。軟件集關聯規則、聚類算法、頻次統計等算法、功能于一體,可用于名老中醫處方的儲存、分析、挖掘[2]。

1.3 處方錄入與核對

將上述篩選后的處方錄入“中醫傳承輔助系統(V1.1)”。錄入完成后,由2人負責數據的審核,以確保數據的準確性。通過“中醫傳承輔助系統(V1.1)”軟件中“數據分析”模塊中的“處方分析”功能,進行用藥規律挖掘。

1.4 數據分析

1.4.1 提取數據源 在“中醫疾病”項中輸入“痞滿”,提取出治療痞滿的全部處方。

1.4.2 頻次統計分析 將痞滿處方中每味藥的出現頻次從大到小排序,并將“頻次統計”結果導出。

1.4.3 組方規律分析 “支持度個數”(表示在所有藥物中同時出現的次數)分別設為30,“置信度”設為0.9,按藥物組合出現頻次從大到小的順序進行排序;“規則分析”分析所得的規則。

1.4.4 新方分析 首先進行聚類分析(核心算法包括改進的互信息法、復雜系統熵聚類),在聚類分析前,先選擇合適的相關度和懲罰度,然后點擊“提取組合”按鈕,發現新組方(基本算法是無監督的熵層次的聚類),并可以實現網絡可視化展示。

2 結果

2.1 用藥頻次

對顏正華教授143首痞滿處方中的藥物頻次進行統計,使用頻次>30的有20味藥(見表1)。使用頻次前3位分別是陳皮、香附、赤芍。

2.2 基于關聯規則分析的組方規律分析

按照藥物組合出現頻次由高到低排序,前3位分別是“陳皮、香附”,“佛手、陳皮”,“赤芍、陳皮”。見表2。分析所得藥對的用藥規則見表3。支持度為30、置信度為0.9條件下的藥物關聯規則網絡展示見圖1。

2.3 基于熵聚類的處方組方規律分析

2.3.1 基于改進的互信息法的藥物間關聯度分析 依據處方數量,結合經驗判斷和不同參數提取數據的預讀,設置相關度為8,懲罰度為4,進行聚類分析,得到處方中兩兩藥物間的關聯度。關聯系數0.03以上的藥對見表4。

2.3.2 基于復雜系統熵聚類的藥物核心組合分析 以藥物間關聯度分析結果為基礎,按照相關度與懲罰度約束,基于復雜系統熵聚類,演化出3~4味藥核心組合,結果見表5。在以上核心組合提取的基礎上,運用無監督熵層次聚類算法得到治療痞滿新處方,見表6。

3 討論

本研究應用“中醫傳承輔助系統(V1.1)”軟件,運用關聯規則和聚類算法分析顏正華教授治療痞滿的用藥經驗。經關聯算法分析,顏教授治療痞滿常用的藥物包括:陳皮、香附、赤芍、砂仁、佛手、白芍、枳殼、茯苓、紫蘇梗、煅瓦楞子、夜交藤、丹參、青皮、炒酸棗仁、旋覆花、炒枳殼、當歸、炒神曲、烏藥、柴胡等。出現頻次較高的藥對有:陳皮、香附,佛手、陳皮,赤芍、陳皮等?;诟倪M的互信息法的關聯度較大的藥物組合有:麥冬-生谷芽,煅瓦楞子-焦三仙,赤芍-炙甘草,煅瓦楞子-懷牛膝,赤芍-香附,麥冬-焦三仙等。基于復雜系統熵聚類的治療痞滿的核心組合主要有:茯苓-柏子仁-葛根,白芍-炒白芍-赤芍,白芍-烏藥-赤芍,白芍-赤芍-清半夏,青皮-旋覆花-烏藥等?;陟貙哟尉垲惖闹委熎M新處方有:白芍,炒白芍,赤芍,清半夏;黨參,大棗,炒白術,旋覆花,煅瓦楞子,紫蘇梗;枳殼,炒薏苡仁,柴胡,炒谷芽;枳殼,柴胡,郁金,炒枳殼等。

以上研究結果較好地驗證了顏正華教授診療胃脘痛的治療經驗。顏教授認為,痞滿病位在胃脘,與肝脾關系密切。病機有虛實之異,且多虛實并見。基本病機為脾胃功能失調,升降失司,胃氣壅塞。辨證以辨寒熱虛實為要點,并應與胃痛的辨證要點互參。治療原則是調理脾胃、理氣消痞。

陳皮是出現頻率最高的藥物,其味辛、苦,性溫,歸脾、肺經,功能理氣健脾、燥濕化痰,善治中焦寒濕脾胃氣滯,脘腹痞滿,還可用于食積氣滯、脘腹脹痛等。香附是出現頻率第二的藥物,其味辛、微苦、微甘,性平,歸肝、脾、三焦經,功能疏肝解郁、理氣調中。善散肝氣之郁結,可治肝氣郁結之胸膈痞滿。赤芍與白芍均為處方常用藥,且常配伍同用。赤芍味苦,性微寒,歸肝經,功能清熱涼血;散瘀止痛;白芍味苦、酸,微寒,歸肝、脾經,功能養血斂陰、柔肝止痛。二者配伍同用,共奏活血散瘀止痛之功。砂仁為芳香化濕藥,氣味辛,性溫,歸脾、胃、腎經,化濕醒脾、行氣溫中之效均佳,故凡濕阻或氣滯所致之脘腹脹滿等脾胃不和諸癥常用。佛手味辛、苦,性溫,歸肝、脾、胃、肺經,功能疏肝解郁、理氣和中、燥濕化痰,可用于脾胃氣滯兼痰濕之痞滿。枳殼味苦、辛、酸,性溫,歸脾、胃、大腸經,功似枳實但作用緩和,長于行氣開胸、寬中除脹,有祛邪而不傷正之特點。顏老用藥平和輕靈,故方中多用枳殼,而少用枳實。茯苓味甘、淡,性平,歸心、脾、腎經,功能利水滲濕、健脾寧心。取其消補兼具之特點,痞滿有脾虛之象者常用之。紫蘇梗味辛、甘,性微溫,歸肺、脾、胃經,功能寬胸利膈,用于胸腹氣滯之痞滿。煅瓦楞子為顏老治療肝胃不和、痞滿反酸之常用藥。其味咸,性平,歸肺、胃、肝經,功能消痰軟堅、化瘀散結、制酸止痛,煅后制酸止痛效佳,常用于肝胃不和之痞滿[3-4]。

本研究基于中醫傳承輔助系統平臺開展顏正華教授用藥規律數據挖掘研究,獲得了既往傳統醫案整理和統計學研究未獲得的新知識、新信息,為顏正華教授痞滿治驗的深入挖掘和傳承提供了參考。

參考文獻:

[1] 鄧鐵濤,董建華.實用中醫內科學[M].上海:上??茖W技術出版社,1984.

[2] 盧笑暉,單琦瑋.基于中醫傳承輔助系統分析的盧尚嶺教授治療頭風病用藥經驗[J].中國實驗方劑學雜志,2012,18(9):5-8.

[3] 吳嘉瑞,張冰.國醫大師顏正華臨床經驗實錄[M].北京:中國醫藥科技出版社,2011.149.