海洋環境數據系統設計論文

時間:2022-04-02 10:39:56

導語:海洋環境數據系統設計論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

海洋環境數據系統設計論文

1引言

傳統的海洋數據服務一般是專項專建、專人專用,針對人群比較單一、數據類型比較簡單,而且在項目結束后通常建設的數據庫和應用系統由于沒有后期的經費支撐而停用。本研究提出的海洋環境數據在線服務系統(以下簡稱系統),涵蓋了多專項、多學科的數據,在原有數據庫、應用系統、專網基礎上進行系統集成、數據庫擴建,為海洋局屬各單位提供共享服務。系統是運用面向服務架構的設計思想搭建應用系統。采用并行數據庫技術實現大數據量的存儲、加載、更新、查詢等操作,利用ETL調度工具實現源數據庫到并行數據庫的數據抽取、轉換和轉載,減少重新建庫的工作量。采用虛擬化技術整合存儲、服務器、網絡資源,建設數據中心集群,提高資源利用率,采用域控管理機制實現數據安全管理,權限管理。采用VPN認證管理機制,保障系統安全正常運轉。

2系統設計

系統通過面向服務的總體架構,以數據的匯集、處理、應用為基礎主線,采用高速并行技術,結合虛擬化技術等先進IT技術,設計系統的邏輯架構、功能架構、物理架構與技術架構。

2.1邏輯架構

系統總體架框架由數據層、管理層和應用層3部分構成,數據層是指通過對歷史收集、專項調查、在線傳輸等方式收集,采用數據集、數據庫方式進行數據存儲與管理;管理層是指對使用系統的用戶進行統一認證、用戶管理、數據授權等實現用戶有效可控的管理;應用層是指為用戶提供數據的在線查詢檢索、數據時空分布檢索、產品加工處理等應用服務,滿足用戶多樣化的需求。應用層與管理層通過內網和專網訪問數據層,實現數據的管理、查詢、處理等服務。

(1)數據層。數據層主要由原始數據、基礎數據和成果數據3部分組成。原始數據是指海洋儀器現場采集的原始資料、現場匯交的紙質或者電子資料等。原始數據采用文件方式存儲,基于原始資料清單和數據庫文件目錄等方式進行管理。類型包括海洋觀測原始資料、海洋監測原始資料、專項調查匯交資料等?;A數據是指對原始數據進行整理、排重、質量控制等處理之后形成的標準化數據。內容主要包括專項調查數據、觀測實時資料數據與國際業務化數據等,專項調查數據包括水文、氣象等9個學科,觀測實時資料數據包括海洋站、雷達、浮標等。基礎數據采用數據庫存儲方式,根據基礎數據的資料類型、資料格式、數據觀測頻率、數據傳輸頻率、數據量等設計數據庫結構。成果數據是指經過信息提取、多源數據融合、數值模型分析、統計分析等手段處理后形成的數據。成果數據由要素數據、成果專題數據、資料目錄數據組成,采用數據庫存儲方式。要素數據是以基礎數據為基礎,根據數據的專題應用保障和服務需求,按照時間、空間、專題要素等進行組織的數據。成果專題數據主要包括數值型產品和圖形產品,涵蓋海洋再分析產品、實況分析產品、潮汐預報產品和海洋專題產品等。資料目錄數據主要包括原始數據集目錄索引、標準數據集目錄索引、產品數據目錄索引等。

(2)管理層。管理層主要負責系統的用戶管理、資源管理、業務流程管理和運行監控管理等內容。用戶管理包括用戶的創建、更改和刪除、角色管理、功能授權與數據授權;資源管理包括目錄索引管理、數據導航管理、信息管理與信息資源管理;業務流程管理包括數據申請、虛擬機管理、數據審批管理等;運行監控管理包括運行環境監控、數據資源監控與用戶行為監控。

(3)應用層。應用層依托于中心內網和海洋專網,基于并行數據庫技術和虛擬化技術,實現海洋局屬單位間的數據在線服務。應用層主要包括:數據時空分布展示、數據查詢檢索服務、數據共享虛擬環境、產品制作與產品導出功能。數據時空分布展示是利用數據的經緯度、時間范圍、站次數等關鍵信息,通過統計計算數據量,依據色彩圖例,進行時空分布展示。數據查詢檢索服務包括數據庫查詢檢索和數據集查詢檢索。該服務可提供基于矢量地圖及影像地圖的地圖顯示控件的數據查詢服務,以及使用關鍵字對數據進行查詢。產品制作是指對資料進行整理、標準化處理,開展數據識別、解碼等預處理操作,利用數據統計分析工具進行產品的加工制作。產品導出是指對用戶加工制作產生的產品成果提供數據的導出功能,實現數據從虛擬機到本機的導出服務。

2.2物理架構

按照系統設計,對系統運行硬件環境進行搭建,硬件環境涵蓋原始數據文件存儲區、數據庫存儲區、數據處理區、數據服務區。按照網絡布局可化為中心內網和海洋專網,內網為中心內部用戶提供在線服務的入口,專網主要包括海洋觀測網、海洋監測網、數字海洋網;數字海洋網為海洋局屬單位提供在線服務的入口,用戶經由內網/數字海洋網通過VPN身份認證后方可進入用戶主頁,通過登錄進入個人虛擬工作環境(即用戶虛擬機),用戶可在虛擬機中對數據進行查詢、處理和產品制作。系統經由海洋觀測網和海洋監測網接收實時、延時觀測和監測的海洋數據,并發送到系統的文件存儲區和處理資料臨時存儲區,由存儲管理系統進行數據的接收、存儲和管理。利用用戶授權管理將數據分發到數據處理用戶的虛擬機中。數據處理用戶通過中心內網登錄到虛擬機后,開展數據整理、標準化處理工作后,將處理結果按照指定的路徑存放。由數據傳輸系統同步傳輸到產品制作用戶的虛擬機中,用戶可開展產品加工制作并將成果按照指定的路徑存放。最終由數據交換系統存儲到統一的資料存儲管理區。ETL處理系統經過數據抽取、清洗、轉換等處理,將數據處理結果和產品加載入庫,最終經由中心內網和海洋專網為海洋局屬單位提供數據共享服務。

3系統功能實現

系統通過用戶唯一入口登錄,保證數據安全;開發數據處理系統,完成數據格式化轉換;利用ETL處理系統,完成并行數據庫的數據處理與調度,包括數據抽取、數據轉換與清洗及數據加載;開發數據庫檢索、數據集檢索、文件輸出審批和文件導出等應用程序;開發系統運行監控管理系統,對系統的運行環境、數據狀況和用戶行為進行監控和管理。

3.1數據處理分系統

3.1.1實時數據處理子系統

根據海洋環境數據觀測的采集規范和編碼規定,對接收、收集和整合的大量海洋調查、業務化觀測/監測等資料,按照資料類型、觀測儀器、觀測手段、要素內容等特點,開展數據識別、解碼、數字化、數據項檢查、代碼檢查等預處理,按照時間、空間和觀測資料類型進行排重、排序和初步質量控制,剔除異常數據,依據數據來源、時間、地點等信息對數據文件進行挑選、過濾、分類存放,同時完善和新建相應的海洋環境數據存儲標準,對資料進行標準化格式轉換。

3.1.2歷史數據處理子系統

系統根據海洋環境數據觀測設備性能、儀器訂正參數、資料種類、觀測要素類型、觀測方式、資料時空分布、要素數據經驗范圍等特點,配置質量控制參數,采用相應的質量控制方法,對各類海洋環境數據進行精細化的計算機自動質量控制和人工審核。質量控制方法包括范圍檢驗、非法碼檢驗、相關檢驗、季節性檢驗、一致性檢驗、著陸點檢驗、梯度檢驗、尖峰檢驗、氣候學檢驗和極值檢驗等。

3.2數據庫加載分系統

數據庫加載系統包括通用數據庫加載系統與并行數據庫加載系統。通用數據庫加載系統是通過加載文件清單的方式進行數據管理,清單文件是對每類數據的特征描述,包括文件類型、文件名、調查機構、絕對路徑、備注等信息,通過一條記錄就可以確認數據類型并找到數據存儲位置。清單文件的組織結構與數據庫表結構一致,且加載系統可實現清單列名與數據庫列名對應關系的動態調整,清單配置文件設置完成后,單擊上傳,將清單的記錄入庫,加載過程中可通過狀態條查看加載進度。并行數據庫加載系統先按照數據庫結構利用ETL處理系統通過抽取數據文件的相關信息形成庫文件,將庫文件存放在規定的目錄下,并查看庫文件的文件表結構,創建相應的數據庫表,創建shell腳本并制定源文件和目標文件,最后寫入數據庫。

3.3數據查詢檢索分系統

系統主要分為兩大模塊:關鍵字查詢和圖形化檢索。系統界面左側顯示海洋資料體系結構,右側用于經緯度區域選擇地圖和查詢結果瀏覽。用戶首先在左側選擇相應的航次,然后在右側地圖圈定需求的區域,再輸入關鍵字,查詢該區域的特定信息,或查詢特定區域的所有信息,或查詢所有區域的特定信息,并能夠對查詢結果進行統計、排序、固定格式表格的導出。

3.4運行監控管理分系統

通過建立運行環境監控信息數據庫,確定數據庫中各類監控信息表、監控要素字段、監控狀態字段、表關系和數據字典等,實現運行環境監控、數據監控與用戶行為監控的實體建設。

3.4.1運行環境監控與管理子系統

運行環境監控與管理子系統包括硬件環境監控和軟件環境監控兩部分。硬件環境監控是通過對系統局域網硬件設備運行的日志信息進行提取、分析,實現對服務器、存儲陣列、交換機、路由器、防火墻等設備故障診斷、告警等功能。軟件環境監控是通過研制各商業軟件(操作系統、數據庫軟件等)與各業務系統(數據處理軟件等)運行日志讀取接口,實時讀取日志信息并加載運行環境監控信息數據庫。

3.4.2數據資源監控與管理子系統

數據資源監控與管理子系統通過對數據匯集狀態實時監控,實現信息反饋、到期告警、匯集情況季報與年報輸出等功能,實現對海洋數據處理和質量情況的實時監控和預警、數據處理任務。調度管理;通過提取用戶登錄日志、數據庫與數據集訪問日志、數據申請信息進行分析,實現數據的服務內容、服務對象、應用領域情況的實時監控。

3.4.3用戶行為監控與管理子系統

用戶行為監控與管理子分系統實時對用戶的登錄、數據資源訪問、外部設備使用、軟件安裝預警和設備接入等行為進行監控,具有終止用戶操作、告警提示、季度分析報告輸出等功能,在提供用戶方便使用的前提下保障系統的穩定運行。

4關鍵技術

根據系統總體功能定位,在已有的工作基礎之上,以數據的匯集、處理、存儲、管理、服務過程為主線,采用操作系統、數據庫、數據管理與共享3層軟件體系,集成各類自主研發功能,構建靈活、穩定的架構模式。架構主要基于虛擬化技術、并行處理技術、數據檢索并行處理技術與J2EE技術等關鍵技術。

4.1虛擬化技術

由于用戶對處理器、內存等硬件和操作系統需求不同,用戶工作使用的數據處理軟件、資料質量控制軟件和產品制作軟件不盡相同,為滿足用戶需求,同時提高服務器、存儲陣列等資源的利用率,采用服務器虛擬化技術實現滿足不同用戶需求的虛擬機,同時消除服務器與存儲陣列對應用系統的物理局限性。服務器虛擬化技術是將一個物理服務器虛擬成若干個服務器使用,使得單個物理服務器上可以運行多個虛擬服務器。

4.2并行處理技術

利用高速并行處理引擎,完成多層次海洋數據體系動態更新的ETL(抽取、轉換、加載)并行處理,實現整個系統的數據處理與調度,包括數據抽取、數據傳輸、數據轉換與清洗、數據加載以及調度監控。

4.2.1數據抽取

數據抽取的方式包括:全表刷新、時間戳增量、日志增量和時間戳比較。系統采用時間戳增量方式完成數據的抽取,時間戳增量方式是通過記錄時間將增量數據從源數據抽取出來,以附加的方式加載到高速數據存儲中,完成源數據中的記錄定期更新。時間戳增量方式是在源系統需要抽取的數據表中增加時間戳字段,用以表示數據的修改或新增時間,在數據抽取時通過它來識別和抽取增量數據。

4.2.2數據轉換

由于海洋數據通過調查、匯交、網載等多種手段獲取,每種手段來源的數據存在定義不規范、格式不統一等情況,導致系統的源數據存在重復、錯誤、格式不一等情況。數據轉換是將多來源、多調查手段、多要素和多格式的數據進行轉換,形成格式統一、實用性強的數據存儲層。

4.2.3數據加載

將業務系統和源數據庫層抽取、轉換后的數據加載、更新到目標數據庫中。根據業務數據的實際情況,對不同業務系統的數據采用不同的加載周期;根據數據的抽取策略以及業務規則確定,采用直接追加、全部覆蓋、更新追加等多種方式進行處理。

4.2.4高速并行調度

利用高速并行ETL調度,按照既定步驟完成數據抽取、轉換、加載的全部時間和流程的調度任務。調度的內容包括:從各業務系統到數據層的調度,實現多來源數據的提取、轉換和加載;從數據層到數據存儲的調度,實現了原始數據、基礎數據、產品數據的高速并行存儲;從數據存儲到應用層的調度,實現數據的并行查詢檢索。

5結束語

海洋環境數據在線服務系統實現了內部資源整合和數據業務流程的規劃設計,完成了海洋數據從接收、整理、標準化處理到產品加工的一體化管理與服務。但是系統仍存在很多不足,如數據加載程序中間過程仍需要人工干預,數據三維可視化方面存在不足。因此其進一步改進目標是實現數據的自動化加載,開發信息可視化展示系統。

作者:宋曉姜曉軼韓璐遙王漪單位:國家海洋信息中心國家海洋局數字海洋科學技術重點實驗室