大數據知識管理與服務平臺建設研究

時間:2022-09-23 10:04:30

導語:大數據知識管理與服務平臺建設研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

大數據知識管理與服務平臺建設研究

摘要:信息科技發展水平是國家的核心競爭力,建設以知識服務為目標的科技資源已成為國家軟實力的重要標志。本文以中國科協數據中心的大數據為支撐,圍繞計算機科學與人工智能領域的前沿方向、研究機構、高端人才、科技成果等科技管理與服務要素展開討論,提出了構建大規模實體要素之間的知識網絡圖譜,形成立體全景科技態勢感知服務能力,為宏觀科技管理與決策提供支持服務的具體設想。

關鍵詞:大數據;知識管理與服務;平臺

1背景綜述

信息科技發展水平是國家的核心競爭力,建設以知識服務為目標的科技資源已成為國家軟實力的重要標志。當今世界,各國科技資源在影響區域決策、引導社會輿論、服務公共事務、體現國家軟實力等方面發揮著重要作用。高端科技資源建設,不僅是國家進行宏觀決策的有力支撐,也是推進國家治理體系和治理能力現代化的重要內容,加快以計算機科學與人工智能為代表的科技領域知識管理與服務能力建設,是科技強國的緊迫需求。在產業數字化發展的背景下,國家大力支持大數據融合應用在產業創新發展中發揮更大作用。我國國家發展和改革委員會于2020年12月23日的《關于加快構建全國一體化大數據中心協同創新體系的指導意見》中提出,要加強全國一體化大數據中心頂層設計,以形成行業數據大腦、城市數據大腦為發展目標,利用政務大數據、工業大數據、城市大數據、大數據公共服務、行業數字轉型五點措施深化大數據融合應用創新,提升政務大數據綜合治理能力,加強大數據公共服務支撐,推動行業數字化轉型升級,推進工業大數據平臺建設,加快城市大數據創新應用[1]。中國科學技術協會(以下簡稱“中國科協”或者“科協”)是中國科學技術工作者的群眾組織,是中國共產黨領導下的人民團體,是黨和政府聯系科學技術工作者的橋梁和紐帶,是國家推動科學技術事業發展的重要力量。匯聚科協系統數據資源的科協數據中心是“智慧科協”建設的核心和基石,是驅動“三駕馬車”高速發展的重要支撐[2]。匯聚科協內外部數據,尤其是外部數據,引領數據資源的有效治理和共享融合,開展以數據的深度挖掘與融合應用為特征的智能化應用,打造科技行業動態感知、互聯、智能的“智慧科協”,是中國科協信息化建設的重要內容。中國科協信息中心于2018年年初啟動了中國科協數據中心建設,目前已建成集數據采集、存儲、加工分析和展示等功能于一體的數據中心技術平臺,匯聚了中國科協、全國學會和地方科協各組織節點的數據資源,一定程度上解決了數據分散、數據標準不一致、數據共享互通難等問題。本平臺的建設是在此基礎上,圍繞計算機科學與人工智能領域的前沿方向、研究機構、高端人才、科技成果等科技管理與服務要素,構建大規模實體要素之間的知識網絡圖譜,形成立體全景科技態勢感知服務能力。

2建設目標

大數據知識管理與服務平臺建設目標是依托中國科協學科門類齊全、領域交叉充分、智力資源密集的獨特優勢,聚焦科技領域,堅持問題導向,以全球視野動態匯聚、融合關聯中國科協內外資源,構建面向全球科技領域的覆蓋面廣、權威性高、實時性強的科技大數據資源池,形成“科技領域—專家人才—科研成果”的科技資源知識圖譜,建成“研究興趣/學術影響/研究方向”等立體、多維、高精度的專家畫像標簽體系,建成計算機科學與人工智能科技領域研究熱點、趨勢、人才態勢感知服務,利用復雜網絡關系分析、機器學習等挖掘技術,為宏觀科技管理與決策提供支持服務。

3設計思路與主要功能

平臺的設計思路是圍繞建設智慧科協大數據知識管理與服務平臺的總體目標,以計算機科學、人工智能兩個重點領域為需求牽引,建設可擴展的科技資源網絡關系圖譜、面向領域的科技態勢感知等服務。平臺總體設計架構如圖1所示。平臺的主要功能包括大數據知識管理與服務平臺、計算機科學與人工智能科技資源池、科技資源知識圖譜處理與融合和科技態勢感知服務四個方面。

3.1大數據知識管理與服務平臺

大數據知識管理與服務平臺主要基于已有數據基礎和技術基礎,快速開發、定制計算機科學與人工智能大數據知識管理與服務平臺(以下簡稱“平臺”),針對科協實際需求,重點面向計算機科學與人工智能科學兩個典型的學科,實現包括知識查詢、合作分析、網絡挖掘、熱點趨勢等功能的定制性研發。3.1.1知識查詢知識查詢包括人才查詢、機構查詢、學會查詢和成果查詢四大類。其中成果查詢又分為國內期刊查詢、國內論文查詢、國際論文查詢、專利查詢四大類。針對查詢的人才、機構、學會、期刊、國內論文、國際論文,點擊對應的檢索結果會提供對應的人才畫像、機構畫像、學會畫像、期刊詳情、國內論文詳情、國際論文詳情等信息。3.1.2合作分析合作分析是指在科技網絡圖譜中,以指定兩個實體作為輸入,通過一些指標要素包括成果—論文、成果—標準、成果—專利、成果—獎勵合作情況進行科技實體之間合作關系的網絡分析,從而可以獲得兩個指定實體間的合作分析圖譜。3.1.3網絡挖掘網絡挖掘是指通過查詢發現指定科技人才之間或指定科技機構之間基于知識網絡的直接關聯網絡信息,并用可視化網絡圖譜形式展示出來。在查詢中,首先指定科技人才的姓名或科技機構的名稱,同時指定查詢條件,如時間范圍等,查詢當前指定科技實體與其他同類科技實體及相關各類成果,組成科技實體與各類成果的網絡圖譜。網絡圖譜中科技人才、科技機構、科技文獻等都可鏈接到該實體知識主頁。3.1.4熱點趨勢科技文獻代表著科學研究的最新前沿,科技文獻中的關鍵詞在一定程度上可以反映一段時間內科技發展的熱點方向。在不同學科領域內,學術研究熱點狀況與熱點發展趨勢都是科技人員、科研管理部門普遍關注的焦點。因此,研究指定學科領域內的研究熱點趨勢,分析指定熱詞的歷史研究趨勢,并對未來某段時間某一領域的研究熱點進行預測,對科學研究及科技管理具有非常重要的參考價值。

3.2計算機科學與人工智能科技資源池

計算機科學與人工智能科技資源池(以下簡稱“資源池”)是平臺所有數據資源的綜合集成,是查詢、統計、關聯、圖譜及可視化等各類功能的數據基石。資源池實現了各來源科技數據資源的導入和集成管理。資源池支持中國科協現有業務數據資源導入并支持開放數據的獲取。主要導入的科協數據包括學會基本信息、學會LOGO圖片數據、學會人員數據、青科獎及青年女科學家等各類人才數據。資源池中的資源種類覆蓋計算機科學與人工智能領域中高端人才基本信息、科技組織(企業組織、研究機構、學會等)、研究成果(論文、專利、標準、專著)等信息。其中,中高端人才覆蓋中國科學院院士、中國工程院院士、杰青、優青、青年女科學家、中科院“百人計劃”等。

3.3科技資源知識圖譜處理與融合

科技資源知識圖譜處理與融合以科技人才、科技成果、組織機構為核心,結合基于規則的方法和人工智能方法,實現數據的高效消歧與融合,構建基于科技大數據的多維統計數據倉庫,建成面向科技服務的知識圖譜。

3.4科技態勢感知服務

基于統一的邏輯數據視圖,面向科技領域發展態勢,梳理態勢感知決策支持的指標體系,研究能夠反映高端科技態勢感知的模型,如高端人才合作網絡圖譜、研究熱點分析、科研專家畫像、影響力分析等。運用大數據、可視化等技術構建動態的態勢感知決策支持系統,從而更客觀、更科學地反映領域的發展態勢與水平,為科技管理與服務提供輔助決策??萍紤B勢感知服務以高端科技知識服務為核心,建立機構、人才、成果等的態勢感知服務,為計算機科學相關領域的研究者及科技管理者提供更全面的領域知識和更具針對性的學科領域和合作者信息,為科技人員與科技管理者提供很好的信息獲取服務和幫助。建立科技態勢感知算法庫,以大數據中心建成的數據倉庫為數據來源,利用其提供的多維數據統計結果和面向科技服務的知識圖譜進行分析輸入,以對科技態勢感知的決策支持指標進行分析。

4總結

為進一步強化“智慧科協”建設示范落地工作,發揮第二引擎的支撐作用,中國科協信息中心結合我國大數據、人工智能、新能源、區塊鏈等新一代信息技術的發展動態,聚焦中國科協、全國學會核心業務需求的痛點,依據“盤活數據資產、發揮數據效能,科學性、可行性、創新性、前瞻性相結合”的原則,統籌開展了大數據知識管理與服務平臺建設工作,嘗試在科技人才精準服務、科技人才成長規律以及科技人才區域流動等方面提供大數據決策支撐服務。截至2020年年底,平臺站在全球人才制高點,從全球、全國兩個視角匯聚各類實體數據資源,共設計了數據實體14大類,數據資源池實體數據總量超過1.7億;以人、機構、成果為紐帶和數據組織核心,對所有類型實體數據資源進行全面融合,形成融會貫通的大規模關系網絡,并基于此實現了多類深層知識分析挖掘,系統邊(關系)數據量超過17億。在一定程度上,實現了科協現有業務數據資源與互聯網數據資源的消歧與融合,在資源共享、業務協同、決策支持等方面取得了一定效果。數據作為生產要素的屬性表明,其未來必將走向市場。數據應用范圍將從傳統的組織內部應用為主,發展為支撐內部和服務外部并重,數據資產應用和服務范圍的擴大,將成為組織戰略發展的一部分。今后一段時期,組織能否樹立數據作為生產要素的戰略意識,挖掘和利用數據價值、盤活數據資源,實現數據資產保值到增值,決定了組織能否邁出生產要素到生產力轉化的重要一步。

參考文獻:

[1]杜小勇,盧衛,張峰.大數據管理系統的歷史、現狀與未來[J].軟件學報,2019,30(1):127-141.

[2]馮新翎,何勝,熊太純,等.“科學知識圖譜”與“Google知識圖譜”比較分析:基于知識管理理論視角[J].情報雜志,2017,36(1):149-153.

作者:李森 單位:中國科協信息中心