論文學術創新力特征研究

時間:2022-05-06 05:04:01

導語:論文學術創新力特征研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

論文學術創新力特征研究

1引言

HeatonJeremyPW指出創新力在學術部門中發揮著非常重要的作用【1】,對論文學術新力進行評價有助于發現創新價值高、能較大程度推動學科發展的論文,從而促進科研人員的學術創新。目前關于學術創新力的研究成果雖然不多,但學術創新力評價正在逐漸引起國內外學術界的關注。目前與創新力評價相關的研究較多,包括高校創新力、學科創新力、企業創新力等,但直接研究學術創新力評價的文獻非常少。因此本文在進行文獻搜集和參考時,不僅參考了學術創新力評價相關的文獻,還參考了與學術創新力相似的學術影響力以及學科創新力等方面的文獻。

2相關研究

目前,論文的學術創新力評價方法主要分為兩大類,分別是以同行評價為主要手段的定性評價法和基于文獻計量學的定量評價法。2.1同行評議法。同行評議最早源于1416年威尼斯共和國邀請同行專家對專利進行評審,該方法被大規模采用是在19世紀的美國,由美國科學基金會組織和實施。之后,德意志的聯合研究會、歐洲科學基金會、加拿大的社會科學與人文基金會等組織都開始采用同行評議的方法,同行評議逐漸成為被國際學術界廣泛采用的一種學術評價手段。同行評議這種評價方法雖然被廣泛使用,但一直存在著較多的弊端。不同專家本身的思維認知和掌握的知識體系不同,對同一問題按照同一標準產生的觀點也存在不同,并且還有其他因素可能會限制專家的判斷,因此該方法易受到專家主觀性的影響。另外,當面臨海量評價數據時,專家評議的速度慢,耗時長,效率低下,這些都是制約同行評議方法使用的因素。2.2文獻計量法。文獻計量法就是基于與創新力評價相關的量化指標來衡量論文創新力的大小。在目前的評價方法中,學術創新力評價的文獻計量法包括單個特征指標評價法、以影響力測度創新力法、指標體系評價法、基于論文內容的評價法、構造創新力評價指標法五類方法。(1)單個特征指標評價法【2-3】。這類方法主要包括用h指數,影響因子等單個特征指標來衡量學術創新力。單個特征指標能在某種程度上體現出論文的質量,但h指數高的作者產出的論文并不一定都具有很高的創新力,影響因子高的論文質量高,但質量高的論文可能是對之前的文獻進行了歸納總結,也可能是對現有的理論進行了實證研究,其創新力不一定高。因此,僅用h指數或影響因子這些單個特征指標進行論文的學術創新力評價存在不合理性。(2)以影響力測度創新力法【4-7】。目前,有很多學者將創新力和影響力等同,認為影響力大的論文其創新力一般都比較高,而影響力評價的方法體系和指標體系已經比較成熟,所有很多學者直接用學術影響力的指標和方法進行學術創新力的評價。但實際上學術影響力和學術創新力之間不能等同,影響力高的論文創新力不一定高,因此直接使用影響力測度創新力存在不科學性。(3)指標體系評價法【8】。這類方法從多個不同的角度提取與學術創新力相關的指標,利用相關指標構建用于學術創新力評價的指標體系,之后通過熵權法、層次分析法或專家評測法確定各指標的權重,最后加權求和得到創新主體的學術創新力。該方法雖然分析角度比較完整,但各個變量對學術創新力的作用機制非常復雜,簡單使用加權求和的方法測度創新力也存在不合理性。(4)基于論文內容的評價法【9】。主要通過自然語言處理的手段,從題錄數據或者全文內容中提取出能表征論文創新點的數值特征或者文字特征,得到同領域論文創新力的相對大小?;谡撐膬热莸脑u價法指標提取過程復雜,且通常只能對同領域的論文進行評價。(5)構造創新力評價指標法【10-15】。在關于學術創新力評價的研究中,還有一些學者基于引文或者知識網絡構造了新的學術創新力評價指標,用構造的指標值指示學術創新力的大小。構造的某些指標存在定義方式過于直白、可解釋性不強等缺點,該方法考慮到的數據維度有限。2.3研究現狀述評。通過分析國內外學術創新力評價的研究現狀,發現目前的研究還存在許多不足。在學術創新力影響因素的相關研究中,文獻大多集中在對論文影響力的影響因素的研究上,鮮有文獻真正結合學術創新力的概念、特點和過程對學術創新力的影響因素進行分析和實證研究。不管使用定性法還是定量法對學術創新力進行評價,都需要按照一定的指標和準則做出判斷,因此結合創新力的特點提取出真正影響學術創新力的因素非常有必要。通過上文對學術創新力評價方法研究現狀的分析可知,與其他四類定量評價方法相比,構造指標體系法只使用一個構造的指標衡量論文的學術創新力,可操作性強。這類方法從引文網絡或者知識網絡的角度出發,探究學術創新力的相關規律,能相對有效地對論文的學術創新力進行評價。因此本文嘗試使用構造指標法構造學術創新力特征指標體系。目前有代表性的構造指標法主要包括下面三種:“S指數”測度法【11】、基于期刊組合的測度法【14】、動態網絡測度法【15】,在這三種方法中,基于期刊組合的測度方法認為只要在參考文獻中對期刊進行了新的組合,即實現了創新,目前這種定義方式過于直白,可解釋性不強,并且這種方法的計算過于復雜。“S指數”評價法和動態網絡評價法都符合科學簡單、測量維度單一、基于結構屬性等原則【11】,能有效地對論文的學術創新力進行評價。相比較而言,動態網絡評價法不僅關注了論文的參考文獻和引證文獻,還關注了引證文獻引用結構的特征,更能體現出論文對學科知識的革新程度。另外,動態網絡評價法的被引頻次遠大于“S指數”評價法,該方法的被認可程度高。圖書情報領域的理論和方法體系相對比較成熟,大部分工作都是對現有工作的革新,動態網絡測度法更偏向于測度常規性革新,因此本文選擇動態網絡測度法對論文進行創新力值的標注。動態網絡測度法如圖1所示,圖1是論文的引用結構圖,在圖中,中間的灰色方塊代表論文,左邊的圓形代表論文參考文獻的集合,右邊較大的圓形代表論文的引證文獻集合。根據引用結構,引證文獻有三類:圖中綠色的方框表示引證文獻既引用了論文i又引用了論文的參考文獻j,紅色方框表示引證文獻只引用了論文i,藍色方框表示引證文獻只引用了論文的參考文獻j。圖1學術創新力的動態網絡測度法該文章認為,在論文的引用結構中,如果引證文獻只引用了該論文,沒有引用論文的參考文獻,證明該論文對現有理論、技術的革新程度較大,即該論文具有很大的創新力。如果該論文的所有引證文獻既引用了該論文,又引用了該論文的參考文獻,就認為論文對于已有知識理論的改變很小,該論文幾乎不具有創新力。據此將創新力公式定義如下:D=ni-nkni+nk+nk(1)其中ni表示引證文獻只引用了你的論文,nj表示引證文獻既引用了你的論文,又引用了你的論文的參考文獻,nk表示引用者只引用了你的參考文獻。該值基于引用結構度量了創新性,該值的取值范圍是[-1,1],值越接近于1,說明文章的學術創新力越強。認為被引頻次為0的文章不具有創新力,創新力值記為-1。

3學術創新力特征指標構建

學術創新力歸納為創新主體通過創新過程產生新理論、新方法、新應用等新知識的能力。根據概念可知,學術創新力表示的是創新主體產生新知識的能力,這種能力在創新過程中產生,最終體現在創新成果中。因此,要對學術創新力進行測度,需要對創新過程和創新成果進行研究,提取出能表征創新力值的特征。創新過程可以分為三個階段【8】:創新積累階段、創新產出階段和創新擴散階段。相應地,根據創新過程將學術創新力分為創新吸收力、創新產出力和創新擴散力。對學術創新力進行評價,不僅要考慮跟創新過程有關的指標,還要考慮能影響學術創新力的內在因素,這些因素無關創新過程或創新成果。綜合上面的分析,將學術創新力的一級指標歸納為創新吸收力指標、創新產出力指標、創新擴散力指標和學術創新力評價的其他內在影響指標。如表1所示。3..1創新吸收力指標。學術論文的創新并不是憑空想象,而是具有繼承性和發展性,科研工作者在進行科學研究時需要對同一領域的現有知識進行采集、整理和吸收。學術創新的吸收階段依托的主要介質是跟研究內容相關的參考文獻【16】,高質量的參考文獻能為創新主體提供有價值的知識理論和方法體系,激發學者新的想法,為論文創新的前期工作奠定基礎。因此,本文將參考文獻的相關特征作為創新吸收力的評價指標,評估論文在創新過程中對現有知識的吸收和采納程度。采用參考文獻數量表征吸收數量,參考文獻被引頻次和參考文獻期刊影響因子均值表征吸收質量,參考文獻中近三年論文占比表征吸收速度,參考文獻的學科廣度分布表征吸收的廣度。學科分布廣度計算是將論文參考文獻的分類號作為參考文獻所屬的學科領域,使用參考文獻來自不同學科的程度表示創新吸收的廣度。信息熵是香農提出來的用于量化信息的指標【17】,用于描述狀態的不確定程度。本文借鑒信息熵的概念,定義了如下公式來表示論文d創新吸收的廣度:H(d)=-∑i=1kpilogpi(2)其中k是論文d的參考文獻所屬的學科類別數,pi是參考文獻中屬于第i類的論文篇數與總參考文獻數量的比值。當所有的參考文獻都來自同一學科領域時,該公式的值為0。該公式的值越大,表明參考文獻涉及的學科領域越廣,創新吸收的廣度越大。3.2創新產出力指標。創新主體在對已有的學術成果進行借鑒和吸收后,會激發腦內對某一問題的思考和靈感,從而在原有的研究基礎上創造出新方法或者新理論。創新主體的創新過程無法物化,但科研成果是創新的最終結果,也是創新力最直接的表現形式。在研究成果中,作者可能基于之前研究方法的不足,對方法做出了改進;或者將之前零碎的知識融合創新,構建出某研究領域完整的知識體系;或者通過對學科基礎知識的研究,提出新的觀點理論??蒲谐晒w現了創新主體思考的過程與結果,因此,本文將創新成果即論文的各種特征作為創新力評價的特征指標。除了采用論文的字數、論文所在期刊的影響因子和期刊論文被引頻次的均值表征創新產出力外,還采用論文和參考文獻的相似度表征論文的新穎性,論文涉及的主題范圍表征論文主題分布的廣度。論文新穎性和論文主題分布廣度的選取依據和計算方法如下:(1)論文新穎性一般來說,論文內容的新穎性可以通過論文和其他文獻的相似度來表示。若相似度較高,證明論文和其他文獻的差異度小,文章的新穎性低。相反地,低相似度意味著論文的高新穎性。來自不同領域的論文之間肯定存在著較低的相似度,依據其他所有論文計算出來的新穎度值不準確。通常認為論文和其參考文獻所在的研究領域相同或者相似,所以本文借鑒文獻【18】的公式,用論文和其參考文獻之間的相似度表示新穎性:Novelty(d)=1|DR|∑d∈DR∑w∈Vp(w|d)logp(w|d)p(w|d')(3)其中DR是論文的參考文獻集,V是根據論文及其參考文獻的內容構建的無重復詞匯集,p(w|d)是單詞w在論文d中出現的概率,定義如下:p(w|d)=num(w|d)∑w∈Vnum(w'|d)(4)該公式的原型是KL散度【19】(Kullback–Leiblerdiver⁃gence,KLD),它用于衡量兩個概率分布之間的差異性。在這里該值用于衡量單詞在論文和參考文獻中分布的差異,該值越大,論文和參考文獻的相似性越低,論文的新穎性越高。(2)論文主題分布的廣度每篇論文雖然都有核心的研究目標,但不同論文涉及到的主題范圍不同。論文用到的主題概念越多,說明論文涉及的學術領域越廣泛,論文具備創新力的可能性越高。因此,本文將主題分布的廣度作為創新產出力評價的一個指標。借鑒文獻【20】中的公式,論文主題分布的廣度定義如下:diversity(d)=1|Z|∑zi∈Z-p(zi|d)logp(zi|d)(5)其中Z是論文涉及到的主題集合,P(zi|d)表示文檔d所分配的主題z∈Z的概率分布。此概率分布可以使用主題模型LDA【21】來計算得到。LDA是一種概率生成方法,輸入論文的內容和主題個數,可以得到文檔在各個主題下的概率分布。3.3創新擴散力指標。學術創新的過程表現為“吸收—創新—擴散—再創新—再擴散”,學術創新擴散是指科研工作者的學術成果被他人引用和借鑒,催動其他學者新想法的涌現。知識創新后的擴散程度和范圍能反映出學術創新的價值和被認可度,是學術成果創新力最直接的表現形式。本文采用的科研成果形式是學術論文,論文創新產生的影響可以通過被引用的特征量化。因此,本文使用引證文獻的相關特征來測度創新擴散力。具體包括采用被引頻次表征擴散數量,采用引證文獻的平均被引頻次和引證文獻期刊影響因子的均值表征擴散的質量,采用論文擴散到不同學科的程度表征擴散廣度,擴散廣度的計算方法同創新吸收的廣度,在計算時需把參考文獻的相關特征替換為引證文獻對應的特征。3.4學術創新。力其他內在影響指標以上的評價指標是基于論文的創新過程提取出來的,實際上除了以上指標,還有一些其他因素會影響論文的創新力。本文選取合著者因素、作者聲望、論文受資助情況三個方面分析影響學術創新力的特征。合著因素主要是通過合作者數量和合作者所在機構數來表征。作者聲望主要通過第一作者總被引頻次、h指數、參與發表的文章數量,論文最大被引次數,平均被引頻次五個方面來表征?;鹳Y助主要分為不同的等級:重大國家級基金、國際級基金、省部級基金、一般基金和無基金。

4實證分析-以圖情學為例

4.1數據來源。核心期刊刊載的論文質量較高,具有一定程度的學術創新力,因此本文研究的期刊論文選自圖書情報領域的18種核心期刊,他們分別是:《情報科學》,《中國圖書館學報》,《圖書情報工作》,《大學圖書館學報》,《圖書館雜志》,《圖書館論壇》,《現代圖書情報技術》,《圖書館建設》,《圖書情報知識》,《情報資料工作》,《情報學報》,《圖書館》,《情報理論與實踐》,《情報雜志》,《圖書館工作與研究》,《圖書館理論與實踐》,《圖書館學研究》,《圖書與情報》。本文選取發表時間在2012-2016年期間的論文,選擇這個時間段發表的論文主要有三個原因,一是時間較新,這個時間段發表的論文能有效反映出圖書情報領域最近幾年的創新狀態。二是時間間隔較長,獲取到的論文數量多,有利于實證分析。三是提取的論文特征包括引證文獻相關的特征,而論文的被引高峰在之后的三到五年,選用這個期間發表的論文得到的特征數值更準確,有利于模型的構建與檢驗。CNKI作為國內權威的知識服務平臺,收錄了上述提到的18種期刊,本章用到的數據都是從CNKI中獲取到的。從每種期刊中隨機選擇50篇論文,共獲得900篇論文,剔除作者是機構單位而非個人的論文和特征缺失較多的論文,共得到期刊論文855篇。4.2學術創新力評價值的計算。利用從CNKI中獲取到的數據,根據動態網絡測度法的公式(1)計算出每篇論文的創新力值。855篇論文的創新力值分布如圖2所示,橫軸是論文的標號,縱軸是論文對應的創新力值。從圖中可以看出,選取論文的創新力值分布較為分散,這有利于本文模型的構建和實證分析。有少量文章的創新力值是-1,這些文章幾乎沒有創新力,文章被參考的價值較小。有部分文章的創新力值達到1,這些文章具有很高的創新性,對圖書情報學科的發展起到了很大的推動作用。從圖中可以看出創新力在0.5~1之間的論文數量最多,有471篇,占比55%。創新力在-1~-0.5之間的論文只有86篇,占比10%。本文選擇的動態網絡測度法偏向于測度常規性創新,即新論文對已有知識的革新程度。本文選取的論文均來自圖書情報領域的核心期刊,這些期刊含專業情報信息量大,期刊刊載的論文質量高,能代表專業領域的發展水平,是推動圖書情報領域發展的核心力量,因此核心期刊的論文大部分都具有一定程度的常規創新性,圖3表明本文選取的數據是有效的。4.3學術創新力。評價的特征值計算對于單篇論文,從CNKI中可以獲取到論文的作者、作者所在的單位、摘要、基金名稱、分類號、參考文獻的數量、被引頻次等信息,同時可以獲取到所有參考文獻、引證文獻的具體信息,對于論文的每個作者也能獲取到作者的研究方向、發文數量等。由于本文選取的論文數據量大,特征難以直接提取,所以采用Python爬蟲的方式獲得了需要的字段。在所有的22個特征中,有些特征數值是可以從CNKI中直接獲取到或者根據基本字段信息進行簡單計算得到的,有些特征需要經過比較復雜的處理才能獲取。易獲取到的字段信息在表2中(以“電子商務中在線評論內容對評論有用性影響的實證研究”這篇文章為例)。除了以上指標,還有一些指標的處理和計算比較復雜。對于參考文獻來自不同學科的程度X5這一指標,我們根據參考文獻的分類號劃分參考文獻所屬的學科類別,劃分好學科類別后根據公式3-2計算出吸收的廣度這一指標值。以“電子商務中在線評論內容對評論有用性影響的實證研究”這篇文章為例,該文章的參考文獻有8篇,其中5篇是外文文獻,無法獲取其分類號,其余3篇的分類號分別是“F49”,“F274;F49”,“F224;F274;F713.36”。對于分類號缺失的情況,將分類號補充為文章本身的分類號,因為一般認為文章和其參考文獻所屬的學科領域相似,這里將5篇的分類號補全為G202。當分類號的前三個字符相同,即將文獻歸為同一學科類別。對于有多個分類號存在的文章,可以隨機選擇一個分類號劃分其所在的學科類。對于指標X14采取相同的處理辦法。在計算論文的新穎性X7時,利用的是論文和其參考文獻的相似度。由于獲取全文比較困難,本文只獲取文章的標題和摘要,因此將文章的標題和摘要作為文章的主要內容,并基于標題和摘要計算相似度。整個公式的計算是基于單詞的,本文首先使用Pyhton中的中文分詞組件“Jieba”對標題和摘要進行分詞,繼而構建詞集、進行相似度計算。需要注意的是,論文的有些參考文獻是英文文獻,很難計算中文詞匯和英文單詞之間的相似度,因此本文計算相似度時只使用了中文文獻。在計算論文主題分布的廣度X8時,需要先使用LDA主題模型計算文檔在主題下的概率分布。這里仍然將論文的標題和摘要作為主要內容,使用Jieba組件對每個文檔進行分詞。運行LDA主題模型時,將文檔的分詞列表轉化為向量作為輸入,設置主題個數是20,每個文檔在主題下的概率分布以向量的形式輸出。以上幾個比較難計算的字段信息見表3(仍以“電子商務中在線評論內容對評論有用性影響的實證研究”為例)。44.4單個特征與學術創新力的相關性分析本部分用散點圖,考察各個單個特征與學術創新力的相關性,得出三類特征,分別是單個特征與學術創新力無明顯相關性(14個),部分相關性(7個)和密切相關(1個)。4.4.1無明顯相關性。以參考文獻所在期刊的影響因子X3的均值與創新力的關系散點圖為例,無明顯相關性的特征散點圖如圖4所示。出現類似散點圖的特征還有參考文獻中近三年的論文占比X4,參考文獻學科分布的廣度X5,論文的字數X6,論文的新穎性X7,論文主題分布的廣度X8,發表期刊的影響因子X9,發表期刊的均被引量X10,被引頻次X11,擴散到的學科廣度X14,第一作者論文的總被引頻次X17,第一作者發文數量X19,第一作者論文的平均被引頻次X21,基金等級X22。理論上認為參考文獻來自不同學科的程度越大,作者參考的各個領域的知識越多,更易從知識的交叉點中找到創新點,但從學科分布廣度X5和創新力的關系散點圖中沒有發現該規律,論文主題分布廣度X8以及擴散到的學科廣度X14也同樣與創新力沒有直接相關關系。新穎性X7高的論文可能從新的角度去挖掘了某個問題,但不一定具有理論或者實踐上的價值,所以與按照動態網絡法計算出來的創新力沒有直接相關關系,這說明,并不是新穎性越高,創新力越高,新穎性不等同于創新力。發表期刊的影響因子X9高的文章的創新力值也可能比較低,影響因子低的論文的創新力值也存在比較高的情況,這進一步說明,僅從影響因子來評判論文創新力是不科學的。發表期刊的均被引量X10與影響因子X9密切相關,這一特征與創新力也沒有直接關系。論文被引頻次X11,第一作者論文的總被引頻次X17,以及第一作者論文的平均被引頻次X21與創新李均無直接關系,這些特征一般用來衡量影響力,這又一次論證了影響力高的不一定創新力強。此外,基金資助X22與創新力也無明顯關系,這說明,至少在圖情領域,是否獲得基金資助并不直接影響創新力。4.4.2部分相關性。(1)參考文獻的數量X1與平均創新力相關性的特征散點圖如圖5所示。圖5參考文獻的數量與平均創新力從圖5可以看出,隨著參考文獻數量的增加,文章的創新力值減少,當參考文獻的數量大于20時,該指標與創新力的相關性不明顯。這說明一些原創文章提出了新的理論和觀點,參考文獻較少,但是當參考文獻達到一定數量時,有些論文創新力高,表明這些論文在參考了大量文獻的基礎上提出了自己的改進方法,有些論文創新力低,表明這些論文只是對前人的工作做了一些綜述和應用,沒有提出新的理論和觀點。這種狀況與事實也是相吻合的。(2)所有參考文獻被引頻次的均值X2和創新力值的關系如圖6所示。參考文獻被引頻次的均值X2被引頻次的均值大部分集中在0-200之間,在這個區間中,兩者的相關性不明顯。當被引頻次的均值大于600時,對應的文章基本都具備較高的創新力。圖6參考文獻被引頻次的均值與創新力(3)引證文獻被引頻次的均值X12和創新力值之間的關系如圖7所示。從圖中觀察到,引證文獻被引頻次的均值集中在0-6之間,在這個區間范圍內兩指標之間的相關性不明顯。當x12的取值大于6時,大部分文獻的創新力值比較高。這說明當論文的引證文獻的質量都比較高時,該論文一般具有較高的創新力。圖7引證文獻的平均被引頻次與創新力(4)合作者的數量X15與論文創新力值的關系如圖8所示。論文的創新力隨合作者數量的增加而減小,當合作者數量超過4時,論文創新力會隨著合作者數量的增加而增加,當合作者數量超過8時,論文的創新力值又降至最低。(5)合作者所在的機構數X16與創新力的關系如圖9所示。從圖中可以看出當機構數為2時,論文的創新力達到最低,機構數超過2時,論文的創新力隨機構數增加,此時機構數和創新力值呈正相關關系。(6)第一作者的h指數X18與論文的創新力之間的關系如圖10所示。觀察圖發現,第一作者h指數為0的論文幾乎不具備創新性。h指數在0-15之間的論文的創新力值比較穩定,保持在0.5附近。當h指數大于15時,論文作者的聲望很高,但論文的創新力值相差較大,說明學術地位較高的作者其產出的創新力不一定很高。(7)第一作者論文的最大被引量X20與創新力值的關系如圖11所示。從圖中可以看出,在一定范圍內,創新力值隨最大被引量的增加而增加。超過某個范圍后,論文的創新力值隨最大被引量的增加呈下降趨勢。4.4.3密切相關。引證文獻影響因子的均值X13和創新力的相關性關系如圖12所示。圖的大致趨勢是,創新力值隨著引證文獻影響因子的增加在不斷地增加。引證文獻影響因子的均值越大,說明引證文獻的質量越高,該文章為其他文章提供的參考價值越大。這個指標對創新力值有比較明顯的影響。

5結論與展望

通過對單個特征與創新力值相關性的分析可以發現,大部分特征對創新力值的作用規律不明顯,該結果不能說明這些特征與論文的學術創新力不相關或者本文構建的評價指標體系無效,這說明各個變量不是線性作用于創新力值,論文的學術創新力是多因素綜合作用的結果,但是多因素對創新力的綜合作用機制比較復雜,使用指標體系法中的加權求和得出的結果也存在不合理之處。因此,使用機器學習模型讓數據以自適應的方式學習根據各個特征評價創新力值很有必要,未來將對這類方法進行相關的探索。

作者:錢玲飛 賀婉瑩 楊建林 單位:1.南京航空航天大學經濟與管理學院 2.南京大學信息管理學院