公共文化大數據系統的實踐

時間:2022-08-11 11:00:21

導語:公共文化大數據系統的實踐一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

公共文化大數據系統的實踐

摘要:本文針對公共數字文化服務高效、高質量發展問題,介紹了以數據分析為抓手的公共文化大數據系統建設思路。總結實踐經驗,提出大數據系統建設過程中需要重點關注的問題,為各地公共文化服務機構大數據建設提供參考。

關鍵詞:公共文化服務;大數據;系統建設;實踐

近年來,我國公共文化服務體系建設得到了長足發展,公共文化服務正在從“有沒有”“缺不缺”向“好不好”“精不精”轉型升級,大數據系統的建設在改善公共文化服務質量、提升服務效能方面得到了社會的廣泛認同。文化和旅游部全國公共文化發展中心基于帶動、引領全國公共數字文化服務工作的考量,開展了公共文化大數據系統的探索性建設研究,為今后公共文化機構的決策方式調整,更科學、更準確地保障大眾的文化權益,奠定了理論和實踐基礎。

公共文化大數據系統建設基礎

“十三五”時期,我國通過規劃實施公共文化云平臺、中國文化網絡電視、邊疆萬里數字文化長廊、數字文化館、數字圖書館等一系列項目,有力地推動了全國公共文化服務的數字化提檔升級。數字化工作的逐步開展,為公共文化大數據分析與利用奠定了基礎,也使今后利用大數據為公共文化服務賦能成為了可能。

公共文化大數據系統建設實踐

明確當前需求與云計算、區塊鏈等應用技術不同,大數據建設是一個工程體系。公共文化大數據系統,是現代公共文化服務體系數字化服務的一種高度濃縮。公共文化大數據系統在建設上需要圍繞未來的核心服務集群設計,逐步建立知識庫、模型庫、知識圖譜和算法庫,既要利用數字化技術面向公共文化機構采集數據,作為決策依據,也要面向個人用戶采集數據,開展“千人千面”的智能推薦。這些工作,需要龐大的人力、物力和財力的支持,比較可行的方式是采取分步走的方式開展建設。在現階段,考慮到后續經費的可持續投入等因素,筆者所在單位文化和旅游部全國公共文化發展中心將分析與展示問題的優先級提到了前面,考慮優先對公共數字文化工程已有的數據進行采集,優先建立相應的分析模型對數據進行統計、分析,生成部分成果數據集,并提供數據的可視化展示。通過基本系統的搭建和探索,為今后公共文化大數據系統的體系化建設奠定起步基礎。系統設計與搭建在建設公共文化大數據系統過程中,我們首先按照網絡安全等級保護三級標準建設一個基于hadoop(分布式系統基礎架構)的、可擴展的大數據架構體系。在系統功能方面,要求系統具備大數據采集、數據存儲、數據加工、數據展示等多種功能。在技術設計方面,采用模塊化建設,使系統具有良好的可擴展性和伸縮性,以適應業務系統自身的不斷調整、修改和優化。在成果展示方面,采用可視化技術,支持不同場景、不同終端可形象地展示各類數據。同時提出應允許第三方平臺(如:文化和旅游部應急指揮平臺)調用或集成相應的展示頁面,通過標準接口進行數據共享服務等要求。在分析了當前公共數字文化服務主要需要后,將后臺管理、數據展示、數據應用、MPP數據倉庫、數據分析、數據管控、數據安全、數據采集、數據抽取、數據轉換、數據加載(ETL)、數據存儲等定為核心業務模塊??紤]前期采集數據量及計算任務量有限的因素,系統建設支出可按最小配置部署,在10臺服務器上完成初步搭建,部署數據展示Web端、存儲集群、核心軟件、管理節點、計算分析和負載均衡等服務即可。數據的采集與處理大數據系統的數據采集,決定著系統的成敗。在數據采集上,我們現階段主要考慮采集的對象為國家公共文化云系統集群及以往全國公共數字文化工程建設項目中所取得的存量數據。之所以這樣考慮,是依據先易后難的原則,優先將能采集的、好采集的一網打盡。之后再考慮比較難以采集的外部數據以及技術上的半結構化和非結構化數據。在第一階段,我們通過接口方式采集日志數據、報表數據,線下采集統計數據、文字介紹、報告等約4億條。完成數據采集后,需要對數據進行處理。經過篩選,我們共提取出了2379個有效指標項,約1500個數據字段,形成84張原始數據存儲表和2283萬條可用數據。這些數據,將成為后續的分析和可視化的基礎。數據的分析與可視化在數據分析方面,結合公共數字文化服務的實踐,我們探索嘗試建立了12個業務模型、3個數學算法模型提供決策使用。其中業務統計與分析模型包括:經費投入模型、人才隊伍模型、兩館一站模型、軟硬件設施模型、線上服務模型、活動情況模型、用戶情況模型、公共文化云模型、地方文化館站模型、基礎數據模型、群體傾向模型和服務效能模型。數學算法模型包括:基礎數據相關性模型、一元線性回歸模型和歐幾里得距離模型。對于業務模型的分析,主要采用統計、聚類、對比的方法,包含的內容為:中央轉移支付各省經費情況、各級公共文化機構基本情況、各省兩館一站從業人員情況、各省軟硬件設施情況、兩館一站線上線下活動情況、網站實時訪問情況、新媒體和社會化合作服務效果、用戶數量/訪問來源/年齡段分布情況、服務人群到館/活動參與/男女比例/網站訪問時段傾向、服務能力/服務效率/服務效益情況等。數學算法模型中,如:相關性算法模型,主要利用皮爾森相關系數(Pearson),通過對圖書館從業人員數、各活動參加人次、總流通人次、網站訪問量、文化館文藝活動觀眾人次、本單位受訓人次、志愿者服務隊人數等數據的分析,得到文化館(站)的相似性,從而進一步分析不同地域、不同文化館之間的共性聯系,用于指導相關機構進一步改善服務。數據分析的目的是為決策提供支撐,因此在完成數據的分析后,需要以可視化的形式提供一目了然的呈現??梢暬暮诵氖峭怀鲋攸c,而非將所有信息平鋪直敘式羅列。在最初階段,可優先考慮突出呈現訪問量、活動人次、注冊用戶、數字資源總量、館舍面積、從業人員數量等。實時訪問情況、各地投入和服務情況則可以單獨界面進行呈現。此外,為了滿足使用數據的實時性和便捷性要求,也針對移動端進行了可視化的建設。

系統建設的經驗與啟示

做好整體規劃。這里既包括對數據采集分析流程的規劃、對數據類型的規劃、基礎運行環境的規劃,也包括數據分析結果與應用系統服務形成完整反饋閉環的規劃。在頂層設計的基礎上開展具體工作,可使工作事半功倍。以需求為驅動、可擴展性為靈魂。公共文化大數據的落地,需抓住幾個典型需求驅動型的應用,讓大數據分析效果立竿見影。同時,大數據系統的建設必須考慮可擴展性。需求不斷變化,大數據系統也會隨著需求的變化不斷更新升級。大數據系統的可擴展性是應對未來變化的基本要求。重視數據標簽的管理。數據標簽是大數據應用質量的基石。好的數據標簽可以產生質量高的大數據應用系統。建立一個可編輯、可修改、可擴充、可升級的大數據標簽管理系統是公共數字文化服務未來高質量發展的必然需求。強化數據安全。數據安全問題,包括系統本身設計的安全、數據庫安全、數據傳輸與交換的安全、數據內容的安全以及數據管理的安全等。在建設大數據系統之初,就應嚴格按照《中華人民共和國數據安全法》《中華人民共和國網絡安全法》的要求設計和執行。提供人才保障。大數據系統從建設到使用產生效果,離不開高素質人才的參與。專業技術機構可以協助建設的只能是與業務內容相關度較低的部分,而諸如數據的采集要求、內容鑒別、分析利用等則需要既懂公共文化業務又懂大數據技術的人才參與其中。加強人才隊伍建設,加大人才隊伍持續培養,是未來公共文化大數據建設必須作為長期戰略進行考慮和開展的內容。

結語

公共文化大數據建設是一項系統工程,從目前的實踐看來,盡管我們在探索過程中取得了一些成效,但是建設過程中涉及的一些重要理論問題、關鍵技術、標準規范、適用指標還有待進一步研究和突破。近日,文化和旅游部正式印發《“十四五”公共文化服務體系建設規劃》,對公共文化大數據系統建設也指明了發展方向。“十四五”時期,相信在各地公共文化機構的共同努力下,公共文化大數據建設必然會取得長足的發展,推動公共文化服務向著更高水平邁進。相信在各地公共文化機構的共同努力下,公共文化大數據建設在“十四五”時期必然會取得長足的發展,推動公共文化服務向著更高水平邁進。

參考文獻:

[1]完顏鄧鄧,王子健.大數據環境下公共數字文化服務模式創新研究[J].圖書與情報,2020(05):59-66.

[2]冷小嚴.新時代文化館數字化建設的幾點思考[J].中國民族博覽,2018(08):54-55.

[3]周奚如.文化館數字化建設困境和思路[J].劇影月報,2019(04):97-98.

[4]蘆麗麗.5G新媒體平臺大數據系統運維體系的建設[J].現代電視技術,2021(04):104-108.

[5]易成岐,竇悅,陳東,郭明軍,王建冬.全國一體化大數據中心協同創新體系:總體框架與戰略價值[J].電子政務,2021(06):2-10.

[6]馬霖,余倩男.智慧黃山時空大數據建設與應用實踐[J].測繪與空間地理信息,2021,44(05):101-104,109.

作者:劉平 焦延杰