社會類論文范文10篇

時間:2024-05-04 16:21:00

導語:這里是公務員之家根據多年的文秘經驗,為你推薦的十篇社會類論文范文,還可以咨詢客服老師獲取更多原創文章,歡迎參考。

社會類論文

社會科學類學術管理論文

【內容提要】哲學社會科學類學術期刊雖然在理論上存在文化產品和文化商品屬性,但在市場經濟的背景下必須著重深化對其知識屬性和學術屬性的認識。并且,市場經濟越是發達,越要求有更高學術品位的哲學社會科學類期刊與之相適應,以進一步地推進哲學社會科學的繁榮,促進市場經濟的發展。知識和學術屬性是哲學社會科學類學術期刊的安身立命之本,這不僅是社會分工使然,更是社會進步的需要。

【摘要題】期刊工作

【關鍵詞】哲學社會科學類學術期刊/知識屬性/學術屬性

【正文】

伴隨中國出版業市場化步伐的加快,期刊必然面臨生存與發展的抉擇。在中國強大的期刊陣容中,哲學社會科學類學術期刊占有重要的份額。哲學社會科學類學術期刊是否也應進入市場?是否也應絕對“斷”掉“皇糧”,在商海里“自謀生路”?類似問題一直為學術界、期刊界專家、同人所關注。從宏觀上看,哲學社會科學類學術期刊屬于出版物范疇,屬于文化產品之列。但需要特別指出的是,作為出版物的哲學社會科學類學術期刊不僅具有產品屬性、商品屬性,而且其知識屬性、學術屬性更為重要。兩者相權,后者才是哲學社會科學類學術期刊的本原屬性。確切地說,哲學社會科學類學術期刊是特殊的產品、商品,其特殊性在于其知識屬性、學術屬性遠遠高于其產品和商品屬性。哲學社會科學類學術期刊在市場經濟大潮中的定位應首先是學術和知識,其次才是產品和商品;學術和知識屬性才最能代表哲學社會科學類學術期刊質的規定性。

查看全文

社會學類專業創業教育論文

一、大數據背景下社會學類專業創業教育內涵

(一)高校社會學類專業培養特征

社會學類專業以追求社會效益、實現社會公平為培養目標,重點培養學生掌握社會學的理論和社會調查技能,能夠從事社會及區域規劃、組織及行政管理,勞動管理與人力資源開發、市場調查與咨詢、發展項目評估等科研、教學及實際工作。人才目標定位與大數據運用密切相關,由于社會學的發展與現代化進程密切相關,因而成為近年來各種新興學科中發展最為迅速、最為活躍的一個領域。目前在西方發達國家里,社會學的發展已經成為僅次于經濟學的一門重要的社會科學學科。隨著我國改革的進一步深化、社會變遷的加速、人們生活方式的變化,各種新的現象、新的事物、新的矛盾、新的社會問題將出現,為專門解決社會問題的社會學創造了一個大好的發展機會。另一方面,隨著我國的進一步開放,與社會學相關的產業也必然會進一步完備,從而使社會學的教、學、研、應用密切結合,迎接大數據時代的挑戰。

(二)大學生創業教育內涵

“創業教育”是由英語中“enterpriseeduca-tion”翻譯而來的,創業教育指通過開發和提高學生創業基本素質和創業能力的教育,使學生具備從事創業實踐活動所必需的知識、能力及心理品質,是未來的人應掌握的“第三本教育護照”?,F代意義的創業主要是指創業主體為了盡可能地滿足自身需求,充分運用現有的知識、經驗、信息與技能等,通過認真思索、勇于創新、大膽實踐,創造新業績的一種社會實踐活動。創業素質的人才應具有的能力包括:創造力和創造精神、學習能力、技術能力、團隊合作精神、解決問題能力、信息收集能力、敏銳的洞察力、研究和完成項目的能力、環境適應能力和獻身精神等。大學生創業教育應將創業精神、創業意識、創業知識、創業能力、創業人格以及開創型個性人才培養作為教育課程的主要內容,根據教育對象分類實施。

二、大數據背景下地方高校社會學類專業創業教育的意義

查看全文

人類社會倫理關系宿主論文

編者按:本文主要從引言;人類中心主義立場;非人類中心主義立場;環境整體主義觀;結語進行論述。其中,主要包括:人類生活的環境是一個多向度、立體、完整的環境、環境倫理確有其特殊性,它在一定意義上也的確可以被看做是人與自然之間的倫理關系、環境倫理自身的性質完全可以解答環境倫理的依據問題、非人類中心主義環境倫理學的意識核心、非人類中心主義因缺乏對現實的細致關注而無力回應、“人與自然、人與社會、社會與自然”的存在構成了世界、整體主義的環境倫理學,是在方法論上超越以上幾種思維方式、環境整體主義的價值觀在很大程度上否定了已有的主體性、主張放棄首要次要之分等,具體請詳見。

摘要:20世紀是人類科學取得巨大成就的時期,也是地球環境急劇惡化、環境危機全球化和日益嚴重的時期。本文通過環境整體主義道德哲學的核心意識結構闡釋人類追求的最高價值即是生態系統的整體利益,它既涵蓋了整體主義的和諧發展論,又包括完整的環境正義觀。

關鍵詞:環境倫理人類中心主義非人類中心主義環境整體主義

1引言

人類生活的環境是一個多向度、立體、完整的環境,人類的道德生活也同樣是立體式的、多向度的。因此,基于這種現實基礎的環境倫理學必然是能夠接納和包容、超越和整合以人本主義立場和非人本主義立場構建的環境倫理學。把是否有利于維持和保護生態系統的完整、和諧、穩定、平衡和持續存在作為衡量和評判人類社會發展和生存方式的根本尺度和驗證標準。這種倫理學具有明顯的后現代性和深刻的實踐意義。

2人類中心主義立場

查看全文

人類社會知識經濟論文

1石器化社會

人類從動物界分化出來以后,逐漸直立行走,雙手被解放出來。于是,人類從事大量的勞動,發明和制造簡單的工具。石刀、石鉆的出現標志著人類征服自然的開始。后來,發明了鉆木取火和弓箭,制造并大量使用手工磨刻的石器,用于采摘野果和獵取野獸,以便維持自身的生存與繁衍。此時,原始人群居于洞穴。到了新石器時代,人類發明了耕作、播種和圈養牲畜,從而人類石器化社會過渡到游牧化社會。

2游牧化社會

隨著牧群逐水草遷移,原始人走出洞穴,開始居無定所,過著以牧養牲畜為主的游牧生活,并形成游牧部落。在部落之間出現了以牲畜為主的交換。隨后,在部落內部發生了牲畜私有和私人交換,公有制逐漸解體。后來耕作、播種技術飛躍發展,人們開始建造草屋,集體開拓耕地,出現了以耕作為主的居住在固定場所的農業部落。由于耕作技術的大發展和私有制的建立,農業部落逐漸轉化為村社,形成了種族群體并從牧養牲畜轉向發展農業。

3農業化社會

人類社會發展到農業化階段,是以農業生產(農作物的栽培、育種、耕作、灌溉等)為主。土地是基本的生產資料,勞動對象主要是自然界有生命的植物,人們利用植物的固有功能生產自身所需的產品,后來,由于農業技術的改進,勞動生產率大大提高,出現了剩余的農業產品。于是,一些人以剩余的農業產品交換土地和雇傭出賣勞動力的農民或苦力,從而形成了奴隸主和奴隸階層,以及后來的地主和雇農階層。這些奴隸主和地主,作為上層統治階級,阻礙了生產力的發展。然而,科學技術的洪流滾滾向前,歷法的制定,極大地推動了農業的蓬勃發展。自然科學、社會科學、思維科學相繼出現,形成了比較發達的知識系統,將經驗、技藝、技術知識與直接勞動融為一體。但是,在農業化社會,“范圍有限的知識并沒有發展成為同勞動相分離的獨立力量”。

查看全文

發展人類健康長壽的社會要素研究論文

論文關鍵詞:人類健康可持續發展;健康資源;健康需求;要素;功能;限制

論文摘要:健康是人類生存和發展的基礎,健康發展是人類永恒的追求.人類社會的可持續發展,有賴于人類健康的可持續發展.人口、資源、環境、經濟、社會諸要素與人類健康都有著十分密切的關系,人類健康的可持續發展取決于人地關系、區際關系、代際關系的和諧,它要求在滿足當代人健康需求的同時不損害后代人滿足其需求的能力,在滿足本區域健康需求的同時不損害其他區域滿足其需求的能力.健康需求是人類最基本的需求,包括確保身體狀態完好的需求、確保精神狀態完好的需求、確保社會狀態完好的需求,但是,經濟條件、技術狀況、社會組織對健康需求的可滿足性、健康資源的可獲得性、健康服務的可進人性構成限制.

健康是人類生存和發展的基礎,健康發展是人類永恒的追求.人類社會的可持續發展,有賴于人類健康的可持續發展;堅持以人為本,全面、協調、可持續的科學發展觀,必須提高人的健康素質和生活質量;生命健康是推動整個社會走上生產發展、生活富裕、生態良好的文明發展道路的前提.因此,人類健康可持續發展是值得特別重視的嶄新的研究領域.基于這樣的認識,我們在分析人類健康與可持續發展關系的基礎之上,提出了人類健康可持續發展的概念,并對該概念的內涵和特性作了初步的分析[Cil.這里,我們進一步對人類健康可持續發展系統的要素、功能、需求、限制等理論問題進行探討,希望大家繼續賜教.

1人類健康可持續發展系統的要素與功能

1.1人類健康可持續發展系統的要素

可持續發展系統是由人口、資源、環境、經濟、社會等要素相互聯系、相互影響、相互作用形成的自然一經濟一社會復合系統,區域性是其本質特性Czl.人類健康可持續發展作為區域可持續發展系統的子系統,它側重于人類自身的全面發展,更能體現出以人為本的科學發展觀,健康是其要素系統中起關鍵作用的“序參數”.

查看全文

人類社會自我控制機制論文

摘要:在人類的社會生活中存在著兩個領域、兩個系統;一個是人類的意志可以自覺地起作用的系統,可稱為人為系統,另一個是不以人類的意志為轉移的系統,可稱為非人為系統,即社會自我控制系統。人類社會的自我控制系統的最重要的表現是人類積累剩余產品的機制。正確地處理這兩個系統的關系,不但極大地影響著社會科學的發展,而且也極大地影響著社會主義的實踐。研究這兩個系統的關系,特別是揭示人類自我控制系統及其運行機制,是社會科學永恒性的任務。

關鍵詞:人為系統非人為系統社會自我控制機制社會剩余產品的積累

在辯證唯物主義的認識論上有一個著名的命題,即自由是對必然的認識,后來又有人補充說,自由是對必然的認識和改造。雖然人們也承認人類對于必然的認識是一個無窮的過程,永無止境,但是似乎有一種定論,即凡是已被人類認識的東西,人們便獲得了充分的自由。在這個范圍內,人的意志便可以主宰一切,特別是在社會歷史領域中,更加如此。因為社會歷史發展的過程是由人參加的,是由無數個體的人的行為構成的,而每一個人的行為都是受其意志支配的。這樣說來,既然人類的歷史是由無數人的意志的復雜的結合而構成的,因而它也應該是完全以人的意志為轉移的了。但事實并非這樣。歷史唯物主義告訴我們:“歷史是這樣創造的:最終的結果總是從許多單個的意志的相互沖突中產生出來的,而其中每一個意志,又是由于許多特殊的生活條件,才成為它所成為的那樣。這樣就有無數互相交錯的力量,有無數個力的平行四邊形,而由此就產生出一個總的結果,即歷史事變,這個結果又可以看作一個作為整體的、不自覺地和不自主地起著作用的力量的產物。因為任何一個人的愿望都會受到任何另一個人的妨礙,而最后出現的結果就是誰都沒有希望過的事物。所以以往的歷史總是象一種自然過程一樣地進行,而且實質上也是服從于同一運動規律的。”(1)這里所說的“作為整體的、不自覺地和不自主地起著作用的力量”便象一只無形的手,在指揮著、控制著人們的行為,規劃著人類社會發展的軌道,推動著人類社會發展的總進程。因此可以說,人類歷史的發展既是以人們的意志為轉移的,又是不以人們的意志為轉移的。就其具體過程來說,由于每一個歷史事件都是人們行為的結果,因此,是以人們的意志為轉移的。但是就整個進程和趨勢來說,又是不以人們的意志為轉移的。因為人們的意志相互作用的總的結果是誰也沒有想到也無法事先知道的。也就是說,人類在推動歷史車輪的前進,但總的方向和軌道是朝著什么樣的目標前進,則是人類無能為力的。人類可以認識它(相對地)卻不能改變它。這樣,在人類的社會生活中便形成了兩個領域、兩個系統:一個是人類的意志可以自覺地起作用的系統,可以簡稱為人為系統,另一個是“作為整體的、不自覺地和不自主地起著作用的力量”的領域,或稱為非人為的系統,這就是人類社會自動控制的系統。

人類社會的自動控制系統表現在社會生活中的許多方面,但是其最重要、最基本的方面就是人類社會剩余產品的積累機制。這種機制最典型地表現出過程的不以人的意志為轉移的客觀性質。剩余產品的積累是人類社會文明的基礎。沒有剩余產品的積累就不可能有擴大再生產,就不可能有生產勞動和社會管理的分化,就不可能有腦力勞動和體力勞動的分化,也就不可能有科學、文化、教育、藝術等等的產生和發展。而當人類的社會生產從原來的沒有生產剩余產品能力的狀態中剛剛顯示出具有生產少許剩余產品的能力時,人類社會便自動地、自發地形成了積累剩余產品的機制。對于這樣一種機制,過去人們往往只知其然而不知其所以然。為此,我們需要對這種機制的形成進行一次簡要的歷史考察,以便更深刻地了解人類自動控制系統作用的性質和過程。

我們知道,人類生存的物質基礎是各種生活資料的生產和再生產。但是自從人類產生到現在的一、二百萬年的時間內,人類在任何一個時期所產生的物質資料都不足以充分滿足人類全體成員的需求。因為人類的需求是一個變量,它具有不同的層次而且是隨著人類社會生產的發展而不斷增長的。到現在為止,其增長的速度仍比社會生產的發展要快些。因此,對以往的每個時代來說,即使把每年所生產的全部物質資料都讓人們消費光,也無法充分滿足人們的需求。而如果這樣做的話,則人類將永遠不可能有擴大的再生產,甚至簡單的再生產也很難維持。那么人類社會便會永遠停止在最原始、最落后的水平上,即接近于動物的水平上,不但物質生活不會進步,而且也不會有人類的文化、科學、藝術、教育等事業。而且人類社會若不能向前發展,也就有可能在長期停滯中滅亡。那么人類社會怎樣才能不斷地向前發展呢?對于人類來說,能夠保證它不斷向前發展的唯一的物質前提就是剩余產品的積累。只有社會積累了一定數量的剩余產品,社會的再生產才能不斷擴大,也才有可能使一部分人相對地從生產中分離出來,從事文化、藝術、科學、教育等事業,使人類的精神生活也不斷向前發展。

人類是如何積累剩余產品的呢?在人類從地球上產生之后的漫長歲月里,社會生產力的水平是極低的。人們通過狩獵和采摘野生的植物果實,只能維持一種半饑半飽的生活,而沒有如何剩余而言。在這種情況下便沒有剩余產品積累的問題,因而就不能提供推動人類社會發展的物質前提,使人類社會長期處于蒙昧和野蠻的時期。隨著人類社會分工的發展,特別是經歷了三次大的社會分工之后,人類便逐漸產生了生產剩余產品的能力。但是有了生產剩余產品的能力,并不能直接引出剩余產品的積累,事實上這兩者之間的聯系更經歷了一個十分復雜的過程。這是因為,當社會開始具有生產剩余產品的能力的同時,人類的需求也同步地發展起來。在這種情況下,生產剩余產品能力所提供的余地,很快就會被填平,而很難顯示出(甚至不可能顯示出)剩余產品和必要產品的區別。因而一開始,剩余產品的積累就意味著壓縮必要的消費水平。要求每一個社會成員自愿地、自覺地做到這一點是不可能的。因為它超越了人們認識的可能性。誰都不可能認識到自己忍受消費被減少的痛苦去為社會積累剩余產品,從而推動社會進步的必要性。即使有一位先知向人們講清其中的道理,并取得了人們的同意,事情也無法操作。因為剩余產品的積累除了具有擴大再生產和交換的意義之外,更重要的是要養活一部分脫離生產勞動的人,使他們能享有比勞動者優厚的生活去從事為人類社會進步所需要的其他領域的活動。那么對于哪些人有資格充當這種角色,人們是不可能達成一致意見的。既然希望人們自覺、自愿地去為積累剩余產品而壓縮自己的必要消費是不可能的,這就決定了剩余產品的積累一開始就是違反人們意愿的,因而是必須靠強制來實現的。這樣,社會就需要有一種控制機制,使得既能實現剩余產品的強制性扣除,又能使社會生產持續不斷地進行下去。然而原始的氏族社會是沒有也不可能有這種控制機制的。因此,這種控制機制生長的過程也必定是原始氏族社會的解體和滅亡的過程。這樣一種控制機制至少要包括以下的內容:

查看全文

人類社會發展經驗概括論文

編者按:本文主要從從烏托邦主義、技術決定論到公眾規劃理論:人本思想貫穿始終并不斷深化;從“田園城市”到“全球城市”:要素關注日益廣泛和全面;從終極藍圖到有機更新和精明增長:逐步形成協調與可持續理念;從學習借鑒到批評提升:走中國特色的科學發展之路進行論述。其中,主要包括:城鄉規劃工作與社會經濟發展密切相關,被認為是城市建設與發展的龍頭、當時的城市規劃和建筑中,突出的特征是追求人的尺度、早期的城市規劃師們洞察了無序城市化的弊端、系統方法、理性決策和控制論被引入到城市規劃中來、世界政治經濟及國際關系變化起伏、城市應當被當做一個大舞臺,認識這個舞臺有助于我們認識創造這個舞臺的整個社會等,具體請詳見。

[摘要]本文從不同角度討論了在城市規劃領域人們對社會發展的認識從局部到全面、從孤立到協調、從“終極藍圖”到可持續發展的演進脈絡,以期說明科學發展觀是在汲取世界各國發展經驗教訓、借鑒國外發展理論有益成果的基礎上提出來的,是對人類社會發展經驗的深刻總結和高度概括。

[關鍵詞]西方城市規劃理論;科學發展觀;學習借鑒;批評提升

城鄉規劃工作與社會經濟發展密切相關,被認為是城市建設與發展的龍頭?,F代城鄉規劃的起源觸發于工業革命后城鄉發展過程中面臨的多種社會問題,其理論在波瀾壯闊的近現代社會實踐中不斷修正、調整、創新,始終圍繞著經濟社會以及人的發展。城市規劃理論本身發展變化的過程從一個側面反映了近現代各時期人們對發展的觀點態度。考察規劃理論的發展歷程,我們可以清晰地看到人們對社會發展的認識從膚淺漸入深刻、從單一趨于綜合、從武斷走向科學的一條線索。

一、從烏托邦主義、技術決定論到公眾規劃理論:人本思想貫穿始終并不斷深化

大約公元前1000年,對自由生活的向往造就了古希臘人獨立意識、決斷性格及閑暇、優雅的生活態度。當時的城市規劃和建筑中,突出的特征是追求人的尺度、人的感受以及同自然環境的協調。這可以說是后來整個人本主義的思想歷史的發源。17世紀開始的工業革命席卷歐美,隨著大量勞動力涌入,城市規模迅速擴張,功能日趨復雜,布局更為混亂。加之嚴重的工業污染,突出的貧民窟現象,混亂的社會秩序造成城市生活質量日趨下降,居民的生存環境急劇惡化。由此引發的各種社會問題催生了現代城市規劃。人認識到這樣無序的城市建設所帶來的災難性結果,并試圖提出一個合理的城市模型以解決這一系列問題,改善居民生活狀況??梢哉f自城市規劃理論發展之初,對人的關懷就成為其緊扣的核心與主題。

查看全文

虛擬世界對人類社會發展的影響論文

摘要:虛擬世界的出現引發了人類社會的深刻變革,同時對人類社會發展提出了新課題,得到了世界各國政府的高度重視。虛擬世界的興起,使人與世界的關系已從一定程度上超越了傳統意義上主—客二元對立的模式,代之以主一主平等交流的格局,構建起一個主體間相互促進、相互生成的和諧景觀,最終讓人物化或者讓物人化。

關鍵詞:物化人化虛擬世界雙重影響

一、消極影響

1.物化

這里是指代人的物化,指操作者利用數字化技術,對物理世界進行模擬、仿真、變形、縮微或擴張后,產生出一個凝聚著人的意識因素的虛擬世界。尼葛洛·龐蒂忠告我們:“每一種技術或科學的饋贈都有其黑暗面?!碧摂M世界的出現一方面極大地推動了社會經濟、政治和文化發展,并有助于社會主義和諧社會的構建;另一方面,它在上述領域也產生了某些負面影響,對人類社會發展提出了新課題,并為實現社會經濟、政治和文化等的持續發展帶來了新的挑戰,造成了人的物化。

比如在現實生活中的網絡隱私,也是虛擬空間中不可忽視的重要問題,隱私是人的一種生存特性,同時也是人的一項重要權利。隱私蘊涵并體現了人的個性、人格、尊嚴、自由和價值維度。隱私是人獨有的生存特性。隱私是個人的私生活,而且是重要獨享的私生活。只要人有羞恥心、自尊心,只要人有一定的獨立性、個性,人就會維護自己的隱私,因此,擁有隱私也是人與動物的又一區別。私人生活空間是隱私寓居之所,也是隱私存在的條件和領域,隱私是存在于私人生活空間隱秘的私人事務、私人活動和私人信息。私人生活空間無論對于民主、自由與價值追求還是對于法制的構建都是必要的。關注隱私問題、重視隱私權的保護體現了社會文明進步的要求。隱私受到窺視和侵害,私人生活空間受到騷擾和擠壓,人的尊嚴和權利就得不到保障。我國社會長期重整體輕個人,抹殺了個人作為社會存在的個性。隱私觀念和隱私權意識是淡薄的,甚至在某種程度上是缺失的。隨著社會發展和文明的進步,人的主體意識增強,人們對于私人生活空間范圍內個人自由的追求越來越強烈,隱私問題日益得到社會關注。維護隱私權是人維護個人自由、尊嚴和價值的需要,也是對人的深層關注,是人類走向文明的表現。但是人們在這樣的一個過程中,卻自己物化了自己,讓自己活在一個單向度的社會。

查看全文

科學論文首條推特積累速度與用戶類型

1引言

較快的數據積累速度,與廣泛性、多樣性和開放性一同,被認為是Altmetrics最主要的特征[1,2]。相比于出版延遲等因素所導致的傳統引用數據的時間滯后性[3-5],Altmetrics數據可以在科學后的較短時間內實現快速積累,以此為論文影響力計量提供早期評價指標[6]。從科學論文在線發表的時刻開始,文獻管理工具或社交媒體平臺上圍繞論文所開展的學術交流活動和用戶傳播行為就有可能被追蹤記錄下來,構成早期的Altmetrics數據。這些非正式的數字學術足跡,一般不需要經過同行評議、學術出版等流程,因此能在論文在線可見后極短時間內出現并且被捕捉[7,8]。例如論文在發表后不久,便會在Mendeley上積累起大量的讀者數據,而引用數據則一般需要經過幾年的積累才初具規模[9,10]。反之,快速積累的社交媒體數據,也增強了論文在網絡環境中的可見度,為論文帶來更多點擊與訪問[11]。在諸多Altmetrics數據來源中,推特(Twitter)數據不僅是論文覆蓋率最高的數據來源之一[12,13],而且表現出最快的積累速度[14,15]。推特數據的快速積累具體表現為:當科學論文可在線獲取的短短幾小時甚至幾分鐘內,就已經被推特用戶提及,從而積累起推特數據[16,17]。受到預印本的影響,論文甚至會在正式發表之前就已經受到推特關注[18]。因此,對于大部分僅擁有推特數據的科學論文而言,它們的首條推特是Altmetrics數據從無到有的分界線,意味著它們首次在社交媒體平臺為用戶可見,是社交媒體傳播的起點。以往關于科學論文推特傳播問題的研究,大部分關注的是論文推特提及次數與未來引用次數的相關關系[19-21],或是總推特提及次數隨時間推移的積累模式與速度[22]。但對于科學論文推特傳播的起點,即來自何地的哪類用戶在何時實現了科學論文的首次推特傳播,還缺乏具體定量分析。在傳統文獻計量學領域,科學論文獲得首次引用的積累速度與模式已受到學者關注[23,24]。本文則著眼于科學論文獲得的首條推特,對WebofScience的論文中擁有推特數據進行了大規模分析,以回答以下研究問題:第一,科學論文首條推特的積累速度如何?對于不同學科領域的論文而言,發表后一般需要經歷多長時間才能獲得首條推特?第二,科學論文的首條推特是由哪些類型的推特用戶的?首條推特和后來的其他推特是否有不同的推特用戶構成比例?第三,科學論文首條推特的用戶來自哪些國家/地區?來自論文作者國家/地區的推特用戶是否會最先關于這些論文的推特?

2數據來源與研究方法

要對科學論文的首條推特進行分析,首先需要確定論文具體的正式發表日期和所有推特的時間。文獻計量學分析中常用的宏觀時間尺度,如年、月等,并不適用于分析在微觀時間尺度(日、小時等)內能夠實現快速積累的推特數據,更無法用于識別科學論文的首條推特。因此,本文使用Crossref記錄的精確到日的DOI號創建日期代表論文正式發表日期,論文所有推特的日期與用戶信息則通過DOI號從Altmet-ric.com提供的數據集中匹配獲取。2.1Crossref記錄的DOI創建日期Crossref(www.crossref.org)是一個正式成立于2000年1月的國際學術出版商聯盟,目前已成為開放科學(OpenScience)的重要數據整合者和提供者。截至2018年9月,Crossref已收錄了逾1億條學術文獻記錄[25]。Crossref最主要的產品之一,是其為成員提供的數據對象標識符(DOI)注冊與儲存服務。本文使用Crossref記錄的科學論文DOI號的創建日期,作為科學論文正式發表日期的。由于DOI創建日期精確到了具體日期的層次,本文得以實現在微觀時間尺度(日)上,對科學論文獲得首條推特的耗時進行度量。Altmetric.com從2011年10月開始追蹤記錄論文的推特傳播數據,因此本文選取發表于該時間點之后的論文作為研究對象。自2012年1月1日至2016年12月31日的五年時間里,共有6,859,973篇WebofScience論文(僅考慮Article和Review兩種文獻類型)擁有被Crossref記錄的DOI號。通過對DOI號的匹配,本文從Crossref采集了這些論文的DOI創建日期,以代表論文正式發表日期。2.2Altmetric.com記錄的科學論文的推特數據本文基于所選取的6,859,973篇論文的DOI號,通過Altmetric.com提供的數據集搜索匹配了它們的推特傳播數據。截至2017年10月,共有2,221,737篇論文(占32.4%)積累了推特數據。根據Altmetric.com記錄的所有推特的時間,每篇論文的首條推特,以及與之相關的推特日期、推特用戶地理位置、用戶類型等數據,同時被提取出來以進行分析。有預印本的論文相比于其他論文而言,具有在電子出版環境下優先可見的優勢,有可能更早被推特用戶提及,因此,33,879篇有預印本的論文(占1.5%,即Altmetric.com記錄有ArXivID的論文)被剔除。對于其余的2,187,858篇論文,本文比較了所有論文的DOI創建時間與Altmetric.com記錄的首條推特時間。正常情況下,推特提及應該發生在之后,但有149,212篇論文的首條推特時間早于DOI創建時間,除預印本的影響外,可能的原因還包括:第一,部分情況下,Crossref記錄的DOI創建日期與出版商正式在線的日期之間存在細微偏差,論文上線日期可能實際上早于記錄中的DOI創建日期。當這類論文在上線后迅速獲得推特提及,其首條推特時間便有可能早于記錄中的DOI創建日期;第二,由于出版商合并等客觀原因,Crossref記錄的DOI號可能根據要求更新創建日期,導致已經發表了一段時期的論文獲得一個新的DOI創建日期,從而使得以往已經積累的推特的時間早于新的DOI創建日期。為保證分析的準確性,這些首條推特日期先于DOI創建日期的論文也被剔除。最終,2,038,646篇WebofScience論文及其首條推特數據被選取為本文的研究對象。所有6,859,973篇論文以及2,038,646篇擁有首條推特的樣本論文的發表年份分布狀況如圖1所示。2012—2016年這五年間,總數呈增長趨勢,且獲得首條推特(即至少擁有一條推特數據)的論文的數量也逐年增加。發表于2015、2016年擁有推特數據的論文的比例相較于前幾年也有明顯提升,2015年和2016年分別有34.6%和34.1%的論文積累了推特數據。2.3CWTS學科分類體系為比較不同學科領域科學論文在獲得首條推特時表現的差異性,本文使用CWTS學科分類體系對2,038,646篇樣本論文進行了領域分類。CWTS學科分類體系是由Waltman和VanEck提出的基于引文關系的單篇論文學科分類體系[26]。相比于WebofScience使用的基于期刊的學科分類體系,基于單篇論文的CWTS學科分類體系能對論文的所屬學科和具體研究方向進行更詳細的分類,并且解決了發表于多學科期刊上的論文無法進行有效分類的問題[27]。在科研評價的實踐中,CWTS學科分類體系已被應用于“萊頓世界大學排名”(LeidenRanking,http://www.leidenranking.com/)。CWTS學科分類體系基于引文關系,對WebofScience數據庫收錄的三種可引用類型的文獻:研究論文(Article)、綜述(Review)、信函(Letter)進行了聚類,這些單篇論文形成了4047個有著各自具體研究主題的子類,即圖2中的4047個圓點。這些細分子類又聚集成高層的五大學科類型,分別是人文與社會科學、生物醫學與健康科學、物理學與工程學、生命與地質科學、數學與計算機科學。五個學科類型的布局如圖2所示。

3結果分析

3.1具有推特數據的論文的學科分布當一篇論文收獲了首條推特,也就意味著該論文積累了至少一條推特數據。圖3展示了6,859,973篇論文形成的4047個子領域中,2,038,646篇具有推特數據的樣本論文的分布狀況。每個圓點代表一個子領域,圓點的大小由該領域內總論文數量決定。圓點顏色取決于各個子領域中至少有一條推特數據的論文的比例(Proportionofpaperswithatleastonetweet,PP(Tw≥1))。當子領域內擁有推特數據的論文的比例較高(即PP(Tw≥1)數值更接近于1)時,圓點偏向紅色;當該比例較低(即PP(Tw≥1)數值更接近于0)時,圓點偏向藍色。比照圖2的CWTS分類體系可以看出,人文與社會科學、生物醫學與健康科學、生命與地質科學的論文推特數據的覆蓋率更高,這些學科領域的論文更容易受到推特關注。而在物理學與工程學和數學與計算機科學這兩個領域,具有推特數據的論文比例較低。從各個學科論文的具體推特數據覆蓋比例來看(見表1),生物醫學與健康科學為44.8%,位列所有學科第一位;人文與社會科學位列第二,比例為42.2%;其后是生命與地質科學領域,該領域有31.7%的論文受到了推特關注;物理學與工程學、數學與計算機科學的比例非常低,分別為13.4%和6.9%,出自這兩個學科領域的論文在推特平臺上的受關注度相對較低。3.2首條推特的積累速度通過計算論文正式發表日期(DOI號創建日期)與首條推特日期之間的天數差值,可以得知每篇論文收獲首條推特的耗時(天),即在后的第幾天,論文獲得了首條推特。圖4分別展示了五個學科領域內,歷經不同天數獲得首條推特的論文的比例。首條推特的耗時被分為六個時間階段:0—1天(當天和接下來的第一天)、2—6天(后的第二天至第一周內)、7—30天(的第一周后和第一個月內)、31—180天(的第一月后和半年內)、181—364天(的半年后和一年內)、365天—(的一年后)。五個領域具有推特數據的論文中,都有過半的論文在發表后一個月內積累了首條推特,超過80%的論文在一年之內被推特提及。但獲得首條推特的耗時,有著較明顯的學科差異。物理學與工程學領域的論文盡管推特覆蓋率不高,但總體收獲首條推特的速度更快,該領域論文的首條推特有43.5%是在后的前兩天獲得,約80%發生在后的第一個月內。生命與地質科學、生物醫學與健康科學的論文在各時期獲得首條推特的比例,僅次于物理學與工程學領域。相比之下,人文與社會科學和數學與計算機科學領域里,在發表較長一段時間后才獲得首條推特的論文比例更高。尤其是數學與計算機科學的論文,逾40%是在發表一個月之后才獲得首條推特,12.3%是在發表一年后才積累了首條推特。表2展示了五個學科領域內,論文獲得首條推特的平均耗時。其中物理學與工程學領域的論文平均經歷了最短的時間獲得了首條推特(約52天),隨后是生物醫學與健康科學、生命與地質科學領域的論文,平均耗時約66天獲得首條推特。人文與社會科學和數學與計算機科學領域的論文獲得首條推特的耗時較長,分別為95天和134天。數學與計算機科學領域不僅只有很小比例的論文被推特提及,而且論文一般是在發表較長一段時間后,才被推特用戶關注。3.3首條推特的推特用戶類型分布Altmetric.com主要根據推特用戶的個人簡介關鍵詞、有鏈接關系的期刊的類型和關注者列表這三項個人用戶信息,將過科學論文相關推特內容的推特術期刊和學術出版商存在頻繁鏈接關系的用戶;實踐工作者(Practitioner):臨床醫師或者從事臨床醫學研究的研究者;科研人員(Researcher):熟悉科學文獻的用戶;社會公眾(Memberofthepublic):與科學文獻沒有鏈接關系并且不屬于以上任何一種類型的用戶。本文選取的2,038,646篇樣本論文的首條推特,是由180,114個不同的推特賬號的,其中169,312個推特用戶(占94.0%)擁有Altmetric.com識別并匹配的身份類型。此外,為比較論文獲得的首條推特和后來其他推特的用戶構成,本文采集了這2,038,646篇樣本論文的全部推特數據以及用戶類型數據。2,038,646篇論文獲得的全部推特由1,550,615個不同的推特賬號,其中1,438,031個推特用戶(92.7%)擁有Altmetric.com識別的身份類型。圖5比較了CWTS五大學科領域內,首條推特和后來其他推特的四種類型的用戶構成比例。對于各個學科的論文而言,科學傳播者在首條推特中所占的比例要明顯高于在后來其他推特中所占的比例??茖W傳播者是與學術期刊、學術出版商頻繁關聯的一類推特用戶。期刊與出版商的工作促成了科學論文的在線發表,科學傳播者往往能第一時間接收到論文出版信息,并將其到推特平臺,從而提高了論文的可見度。實踐工作者主要是從事臨床科學的用戶,他們更加關注自身所處領域的論文,在生物醫學和健康科學中所占的比例明顯更高??蒲腥藛T是最熟悉科學論文的人,他們在推特傳播中的作用僅次于社會公眾(即Altmetric.com無法根據用戶資料明確劃分身份類型的高于在后來其他推特中所占的比例,其他領域的情況則相反。無論是首條推特還是其他推特,物理學與工程學領域的論文擁有最高比例的科研人員參與論文的推特傳播,該領域論文的首條推特有大約32%是由科研人員的,這一比例顯著高于其他學科領域。表3列舉了五大學科領域內,四類推特用戶論文首條推特的平均耗時(天)。物理學與工程學領域的論文獲得首條推特的平均耗時最短,不論首條推特是由哪類用戶的。數學與計算機科學領域的論文獲得首條推特的平均耗時相對最長,除了科學傳播者貢獻的首條推特(平均58天),要快于對人文與社會科學領域論文的首條推特(平均83天)??傮w來看,除人文與社會科學領域外,科學傳播者論文首條推特的平均耗時是最短的。在生物醫學與健康科學、物理學與工程學、生命與地質科學領域,科研人員首條推特的速度僅次于科學傳播者。而在人文與社會科學和數學與計算機科學領域,實踐工作者卻展現出較快的首條推特速度。3.4首條推特的推特用戶國家/地區分布樣本論文獲得的2,038,646條首條推特中,1,002,728條(占49.2%)具有Altmetric.com識別的用戶地理位置信息。這些了論文首條推特的用戶的國家和地區分布狀況如圖6所示。美國與英國是最大的兩個首條推特用戶來源國。第一時間科學論文相關內容的推特用戶絕大部分來自北美、西歐和澳洲,相比之下,來自南美、非洲、東歐和亞洲的用戶較少。本文從WebofScience中采集了首條推特用戶地理位置可被識別的論文的作者機構數據,以統計這些論文是由來自哪些國家/地區的作者發表的。當來自多個國家/地區的作者合作發表一篇論文時,每個國家/地區都計作發表了一篇論文。發表了具有推特數據的論文最多的20個國家/地區及其論文積累的首條推特的數量(括號中)如圖7所示。這些國家/地區的論文所收獲的首條推特的用戶來源,則通過堆積百分比條形圖來表示。每一個子塊代表來自某一國家/地區了首條推特的用戶的比例,越靠近左側,就表示來自這個國家/地區的推特用戶比例越高。來自論文作者本國/地區的推特用戶用紅色子塊突出顯示。由美國、英國和西班牙這三個國家作者發表的論文,吸引了最高比例的來自本國的用戶第一時間在推特平臺相關內容。由于來自美國和英國科學論文首條推特的用戶絕對數量最多,對于其他大部分國家/地區發表的論文,來自這兩個國家的推特用戶同樣占據了最高比例,緊隨其后的,是來自本國的推特用戶最早相應論文的推特內容。然而對于意大利、中國、韓國和中國臺灣而言,其論文首條推特的用戶來源構成則較為特殊。來自西班牙的推特用戶在美國和英國之后,是意大利發表的科學論文收獲的首條推特的第三大來源。而中國、韓國和中國臺灣這三個亞洲國家和地區,盡管擁有推特數據的論文總數量較高,但首條推特用戶來自本國/地區的比例則較低,分別僅有1.2%、1.4%和0.8%的首條推特是由本國/地區用戶的,遠遠低于其他國家/地區的這一比例。由圖6可知,來自這三個國家/地區了科學論文首條推特的用戶的數量較少,因而可能導致了相比于其他更為活躍首條推特的國家而言,來自本國/地區的用戶比例較低。圖8詳細列舉了積累了首條推特的論文數量最多的20個國家/地區所獲得的來自這20個國家/地區的用戶貢獻的首條推特的比例。美國與英國是最主要的了首條推特的用戶來源國,分別對各個國家/地區論文首條推特的貢獻比例幾乎都占據了20%以上。除西班牙、意大利、中國、韓國和中國臺灣以外,其他國家/地區來自當地的推特用戶對本國/地區的首條推特貢獻率緊隨美國和英國之后,比例處于6.4%(丹麥)至21.2%(澳大利亞)之間。

查看全文

學術論文社交媒體可見性分析

1引言

互聯網的發展催生社交媒體的繁榮,越來越多的學者在社交媒體上進行學術信息交流,學術論文、著作等出版物也得以在社交媒體中廣泛傳播。學術出版物的社交媒體可見性有助于學術成果的傳播同時增強公眾感知[1],也有利于學者提升學術聲譽和獲取信任[2]。同時,社交媒體拓展了傳統基于被引量的學術影響力評價體系[3],使得科研產出的社會影響力也受到學者關注。當前,學術成果的社會影響力主要通過其社交媒體可見性進行衡量,各類基于社交媒體的Altmetrics指標,本質都是探究觀測對象是否被社交媒體提及或分享,即科研產出是否在社交媒體中可見。學術論文作為科學研究成果的主要載體,其影響力是衡量學者及科研機構影響力的關鍵。學術論文的社交媒體可見性反映前沿知識從學界向更廣受眾的傳播和擴散,體現了在學術界以外更為廣泛的傳播力和影響力,預測學術論文的社交媒體可見性有助于理解其在社交媒體中的傳播力和客觀探討學術論文的社會影響力。學術論文在社交媒體中的傳播是科學的社會傳播途徑之一,相關研究大多集中于探討傳播模式和傳播路徑[4],也有學者探究學術論文傳播平臺的差異以及社交媒體用戶分享論文的動機[5]。然而,鮮有學者對學術論文在社交媒體中是否可見及其影響因素進行研究。學術論文作為一種信息,其傳播受到本身的多維特征影響[6]?;诖?,本文以預測學術論文在社交媒體中的可見性為目標,從論文、作者與期刊三個方面探究學術論文社交媒體可見性的影響因素,并以糖尿病相關論文為例,采用多種機器學習算法預測其在推特中的可見性,對比分析不同算法的性能差異和各影響因素的貢獻大小。

2相關研究

2.1學術文獻的社交媒體傳播模式。學界使用社交媒體人數的增加,加速了學術論文的傳播,使得學者、論文、出版物的社交媒體可見性得以增強[7-8]。學術論文在社交媒體中的傳播模式以及傳播所帶來的社會關注度的提升成為學者們的研究熱點。不同類型社交媒體平臺的功能與受眾存在明顯差異,較多研究針對單一平臺傳播特征進行探討,或對比不同平臺的傳播差異。推特(Twitter)與臉書(Facebook)作為面向公眾的社交媒體平臺的典型代表,是主要的關注對象。Alperin等以推特中得到廣泛傳播的學術論文為研究對象,通過探究其轉發者粉絲網絡的構成,發現大多數學術論文主要在單連接的社區中傳播,并且向公眾的傳播較為有限[4]。Zhang等則發現論文相關推文(Tweet)的時機和推特帳戶類型會影響其在社交媒體上的受關注程度[5]。以學者為主要用戶的學術型社交網絡如Mendeley、ResearchGate等同樣備受關注。相關研究主要集中于探究平臺中被廣泛傳播的論文的特征、傳播效果[9]以及傳播受眾類型[10]等。另外,學術論文在不同類型社交媒體平臺中的傳播差異也是學者們關注的熱點。Holmberg和Vainio就以推特和Mendeley為例,探究了影響學術論文在不同社交媒體中引起在線關注的原因,發現Mendeley上的關注是由于學術界的讀者而引起的,而推特上受到關注的原因則與更廣泛的社會受眾有關[11]。綜上所述,鮮有學者關注學術論文在社交媒體上是否可見這一問題,亟需探究具有怎樣特征的學術論文能夠在社交媒體中可見。2.2面向影響力預測的學術論文特征。針對文獻被引量預測的研究對學術論文的特征選擇與描述的關注較多。Tahamtan等從198篇相關文獻中識別出28個與引用頻次相關的學術論文特征,并將其分為論文相關、作者相關與期刊相關三個維度[12]。Xie等則從論文相關、作者相關、參考文獻相關以及引文相關四個維度構建學術論文特征描述框架,該框架共包含66種可能與引文數量相關的特征,其中46個特征被證實與論文被引量具有顯著相關性[13]。盡管學者針對學術論文特征類別的劃分方式不同,但總的來看可分為論文、作者以及期刊等三個方面。論文相關特征的研究關注點大多是與論文知識內容無關的“外部特征”,如文章長度[14]、關鍵詞個數[15]、文章的類型[16]、文章的語言、出版時長、參考文獻數量[13]、資助基金[17]以及開放獲取情況[18]。也有部分學者考察了能夠表征文章知識內容的特征,諸如論文質量、創新性、研究主題[19-20]等。然而,如何科學合理地量化相應特征仍是亟需解決的問題。其次,作者數量、作者基于引文的學術影響力(如h指數)、作者發文量以及作者所屬機構等作者相關特征[21]也得到學者廣泛關注。隨著國際合作論文的日益頻繁,學術論文是否存在跨國合作、作者的國別數量是否與論文影響力、質量相關也成為學者們關注的焦點[22]。學術論文期刊的級別一定程度上能夠反映論文的質量,期刊相關特征也成為相關研究討論的重點。其中,期刊影響因子[23]、出版語言[24]、出版形式[25]等特征與論文被引量之間的關系得到眾多學者的關注。此外,一些Altmetrics指標,如提及數、讀者數、下載數等,也被用作學術論文特征[26-27]。2.3數據驅動的學術論文影響力預測。學術論文的影響力包括學術影響力與社會影響力兩方面。針對論文學術影響力的預測較多,相關研究主要利用論文的多維度特征建立模型預測論文的被引頻次[28-29]。例如,Yu等使用論文的外部特征、作者、出版物以及引文的特征,基于逐步回歸分析預測論文的被引量[30]。Cao等提出了一種利用論文出版后短期(3年)的被引量預測其未來被引量的方法[31]。Singh研究了論文早期引用者的影響力對論文長期的被引頻次的影響[32]。也有學者將論文所在學術網絡的相關信息用于預測其未來的被引頻次。例如,Sarigöl等利用科學家的合著網絡和作者集中度的方法來預測高被引論文[33];Pobiedina等使用引文網絡的頻繁圖形模式挖掘提高了論文被引頻次預測的準確率[34]。常用的預測論文被引頻次方法包括經典的機器學習方法、時間序列模型、復雜網絡的鏈路預測等方法。用于預測被引頻次的機器學習方法包括邏輯回歸、樸素貝葉斯、支持向量機、隨機森林[35]和人工神經網絡[28]等分類算法模型,以及分位數回歸[36]、半連續回歸[37]、梯度提升回歸樹[38]等回歸模型。而時間序列模型的方法側重于對論文被引頻次累積過程的分布進行建模[39-40],并基于不同的分布模型確定論文未來的被引頻次。復雜網絡的鏈路預測方法則是利用論文的引文網絡,常采用基于節點的相似性和基于最大似然估計的方法預測論文之間的引用關系[41-42],從而達到預測論文被引頻次的目的。學術論文的社會影響力比其學術影響力更加難以衡量。目前,學者對于如何客觀評價學術論文的社會影響力仍缺乏統一認識,針對論文社會影響力預測的研究較少,相關方法也存在不足??紤]到論文的學術影響力和社會影響力都受到論文本身特征的影響,本研究借鑒論文學術影響力預測的相關方法,來預測學術論文社交媒體可見性。

3論文社交媒體可見性預測方法

3.1學術論文特征框架構建?;谝酝槍W術論文特征的研究,本文從論文、作者和期刊三個方面構建學術論文多維特征框架,選擇了26個具有代表性的特征用于后續的機器學習算法模型。(1)論文特征論文相關特征主要包括研究內容、形式結構和學術影響力三方面的多個特征。在研究內容方面,使用主題類別和WebofScience類別兩個特征來揭示論文的內容。論文形式結構的特征是指與內容無關的外部特征,包括論文的語言、文章類型、開放獲取狀態、論文長度(頁數)、關鍵詞數量、資助基金、出版時間等屬性。論文的學術影響力特征是之后一段時間內,所獲得的使用次數和被引頻次等。論文相關特征如表1所示。為確定論文的主題類別,本研究將論文題錄數據中每一篇論文的標題、摘要、關鍵詞等文本進行連接,形成語料庫,對語料庫進行清洗并轉化為文檔-詞頻矩陣,在此基礎上設置不同的主題數分別訓練LDA(LatentDirichletAllocation)主題模型,并計算模型的困惑度,根據最小困惑度原則確定最佳主題數,通過最佳主題模型確定每一篇學術論文的所屬主題。(2)作者特征論文作者及科研機構的學術水平和影響力也對其傳播有一定影響,權威機構和專家學者的研究成果更容易獲得媒體的報道和公眾的關注,也更容易在社交媒體上可見。本文從學術論文作者影響力和作者合作程度兩個方面確定了12個作者相關特征。其中,作者影響力方面的特征包括作者發文量、被引量及H指數[43]等指標??紤]到全部作者對論文均有貢獻,而第一作者和通訊作者通常更加重要。因此,本研究分別從第一作者、通訊作者和全部作者(團隊)的角度計算了以上作者影響力指標,合計9個特征。作者合作程度方面的特征包括作者數量、作者機構數量和國別數量,這些特征反映了學術論文的國際合作程度和論文被主動傳播的機會。作者相關的特征如表2所示。若論文的題錄信息中未注明通訊作者,視第一作者為通訊作者,以避免相應特征出現缺失值。此外,針對同名作者,本文以文獻[44]中的方法為基礎,根據作者的orcid、姓名、地址等信息按圖1中規則進行作者消歧。首先對比兩個作者的orcid,若不一致,則判定為不同作者;若作者的orcid信息缺失,則對比兩位作者的標準姓名縮寫[45](縮寫形式為姓在前、名在后,且只縮寫名而不縮寫姓)。若標準姓名縮寫不一致,則判定為不同作者;否則,繼續對比兩位作者的完整姓名,若出現不一致,則判定為不同作者;否則繼續計算作者通訊地址的相似度,若兩位作者的地址相似度大于0.8或兩個地址存在包含關系,則認為通訊地址一致,判定為同一個作者。為檢驗作者消歧方法的有效性,本文通過解析WOS數據集中的作者字段,得到全部作者記錄,從中隨機抽取274組共1004條同名作者,分別檢索每位作者對應的原論文并通過文章詳情頁進入相應作者的WOS個人主頁,通過對比每組同名作者的主頁鏈接及內容是否完全一致,對作者身份進行人工判別。同時,根據圖1中的消歧方法編寫Python程序進行自動消歧試驗,對比人工判別和機器判別的結果后發現,本文提出的作者消歧方法的準確率達到98.3%。(3)期刊特征期刊是學術時的重要載體,期刊的影響力也在一定程度上反映了學術論文的研究質量和學術價值。高影響力的期刊往往對論文的質量和創新性要求更高,也更加受學者關注。因此,發表在高影響力期刊上的論文可能更容易被關注和傳播,期刊的影響力對學術論文的社交媒體可見性也存在影響。為客觀表征期刊影響力,本文選取了JournalCitationReports中3個較為重要的指標,分別是總被引量、影響因子和特征因子分值,它們從三個方面反映了期刊的特征。其中,總被引量這一絕對統計量反映期刊在當年總體規模上的影響力。影響因子則消除了不同期刊發文量的差異,是反映期刊學術影響力的相對統計量。而特征因子分值還考慮了引文所在期刊的質量,并排除了自引。通過對三個指標的各年數據進行平均,可以消除同一期刊的影響力在時間維度上的差異,使不同期刊的影響力對比更為客觀?;谶@3個JCR指標分別計算年平均值形成的期刊相關特征如表3所示。3.2基于分類的論文社交媒體可見性預測模型。(1)分類模型整體流程社交媒體可見性主要用于表征學術論文是否能夠在社交媒體上被提及與傳播,本研究將學術論文的社交媒體可見性預測問題轉為二分類問題,分類模型的整體流程如圖2所示。首先,基于學術論文的特征框架從原始數據集中提取論文的多維特征,并將論文在推特上的總提及量作為其社交媒體可見性的評估指標,由此得到每一篇論文的類別標簽。若論文的推特總提及量大于0,說明是社交媒體可見的,標記為正類,若推特總提及量等于0或論文在altmetric.com平臺無任何記錄,則標記為負類。其次,將論文樣本集劃分為訓練集和測試集,選擇適當的分類算法在訓練集上擬合模型,在測試集上對各模型的性能進行評估及對比。最后,使用性能最佳的預測模型,對新論文的類別標簽進行預測,對以達到利用論文、期刊和作者等多維特征預測學術論文社交媒體可見性的目的。(2)特征編碼與標準化特征編碼。對于論文相關特征中的主題類別、WebofScience類別、語言、文章類型、開放獲取狀態等5個離散特征,使用基于Python的機器學習工具scikit-learn進行one-hot編碼,將其全部轉化為向量形式,便于參與機器學習模型的計算。特征標準化。使用z-score標準化將全部特征保持在同一尺度上,并使得轉換后的數據符合標準正態分布。計算公式如下:𝑧−𝑠𝑐𝑜𝑟𝑒=𝑥−𝜇𝜎(1)其中,𝜇為特定特征列的樣本均值,𝜎為對應特征列的樣本標準差。(3)分類算法選擇與訓練結合學術論文數據集的特征和二分類任務的特點,本研究選擇了邏輯回歸、支持向量機、樸素貝葉斯、LightGBM、AdaBoost、隨機森林以及人工神經網絡等7種不同的機器學習算法分別實現分類模型。將經過預處理的學術論文數據集隨機劃分為80%的訓練集和和20%測試集,并在訓練集上采用k折交叉驗證的方法調整超參數。已有研究表明,10折交叉驗證提供了在偏差與方差之間的最佳平衡[46],因此實驗中k設置為10。各機器學習模型訓練完成后,分別調用模型對測試集中的學術論文樣本的社交媒體可見性進行預測,并將預測結果與其真實的類標簽對比,以評估各個分類器的性能。選擇常見的二分類模型性能評估指標對預測模型進行評估,包括模型的準確率(Accuracy),模型的精確率(Precision)和召回率(Recall)以及F1-得分(F1-score)。

查看全文