電子文件存用分離研究和實現

時間:2022-06-27 09:15:35

導語:電子文件存用分離研究和實現一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

電子文件存用分離研究和實現

1引言

信息化是當今社會發展的一大趨勢,以計算機技術和網絡技術為核心的現代信息處理技術正深入到社會的各個領域和各個層次,大量的信息資源以電子文件的形式產生和出現。這些電子資源中,相當大一部分具有相當高的保存和利用價值。如何安全、高效和長久的利用好這些電子資源已經成為一個迫切需要解決的問題。

2電子文件存用分離的必要性

伴隨電子政務和辦公自動化在我國的的快速發展和高度普及,大量具有保存價值的電子文件不斷產生。但是,目前對這些電子文件的管理和利用仍然存在著很多問題。

2.1電子文件的安全性堪憂

目前,我國大部分檔案系統中對電子文件的利用都是基于電子文件原件的利用。對于這種利用方式,電子文件的真實性無法得到有效的保障,電子文件的外泄和擴散缺乏有效的控制手段,電子文件受到病毒感染和人為破壞的風險性比較高。

2.2電子文件的利用效率比較低

電子文件能否有效利用是衡量一份電子文件存在價值的一個重要的指標。在我國,目前電子文件的利用效率仍然比較低。產生這種現狀的主要原因是我們缺乏對電子文件進行有效利用的手段,對電子文件進行利用的成本比較高。2.3電子文件的管理還缺乏統一的事實標準和格式自1999年以來,我國相繼了《電子文件歸檔與管理規范》(GB/T18894-2002)、《紙質檔案數字化技術規范》(DA/T31-2005)、《公務電子郵件歸檔與管理規則》(DA/T32-2005)等電子文件管理的規范和規則。但是我們現有的管理系統和與規范相適應的技術手段仍然有限,我們還缺乏對規范實現的技術支撐體系。

3電子文件存用分離的設計思路

電子文件的存用分離是指對各種類型格式的電子文件,通過中間件的加工和轉換后以一種統一的標準格式進行利用的技術手段。通過存和用的分離,可以保護原電子文件的安全,提高電子文件的利用效率,并且能夠統一文件的格式以完成對規范和標準的支撐。

4電子文件的特點———多樣化和封閉性

實現電子文件存用分離的瓶頸是電子文件類型和格式的多樣化和相當大一部分電子文件格式的封閉性。電子文件格式的多樣化是指當前我們所產生的電子文件的類型多樣化和電子文件格式的多樣化。我們所常見的電子文件型和電子文件格式如表1所示。電子文件格式的封閉性是指某種類型或者某種格式的電子文件是某一廠商私有的電子文件格式,他實現的時候并沒有遵循某種格式標準,實現之后也沒有將他所使用的格式公開化,也沒有將其格式提交給某一標準組織。要想對該文件進行標準化解析有一定的難度。所幸的是,對于這種文件格式,廠商一般會為開發者提供部分的API來訪問電子文件的部分信息。要實現電子文件的存用分離,我們必須借助某一種手段,規避電子文件的多樣化和封閉性的特點。標準化是實現復雜問題簡單化的一種有效方式和手段,借助標準化的定義,對文件的結構進行標準化約束和規范,從而能夠達到解決問題的目的。圖1描述了實現電子文件存用分離的系統架構圖。文件解析引擎接口實際上就是定義了一套標準。它包括文件屬性接口API、文件內容接口API和文件樣式接口API。

4.1文件屬性解析接口

文件屬性接口API用于規范提取文件的屬性信息。這些屬性接口API包括的接口方法如表2所示。

4.2文件內容解析接口

文件內容解析接口主要定義了讀取各種格式文件的文本內容的規范。為了保持文本信息使用過程中的一致性和通用性,應該采用一種通用的、標準化的規范來定義這些文本信息。HTML作為應用非常廣泛的規范和標準,我們可以采用這種標準來定義我們的文件內容信息。HTML通過標記符號來標記要顯示在網頁中的各個部分。網頁文件本身是一種文本文件,通過在文本文件中添加標記符,可以告訴瀏覽器如何顯示其中的內容(如:文字如何處理,畫面如何安排,圖片如何顯示等)。

4.3文件樣式解析接口

文件樣式接口API定義了格式化文件內容中文本信息的規范。級聯樣式表(CascadingStyleSheet)簡稱“CSS”,通常又稱為“風格樣式表(StyleSheet)”,它是用來進行網頁風格設計的。通過設立樣式表,可以統一地控制HMTL中各標志的顯示屬性。級聯樣式表可以使人能有效地控制網頁外觀。使用級聯樣式表,可以精確指定網頁元素位置,外觀以及創建特殊效果的能力。

5電子文件解析相關技術

文件解析仍然是制約電子文件存用分離發展的瓶頸,選擇合適的技術平臺是實現存用分離的關鍵。以下將列出對當前比較流行,使用比較廣泛的電子文件進行解析的關鍵技術和平臺。

5.1JAVA平臺

Java是一種可以撰寫跨平臺應用軟件的面向對象的程序設計語言,是由SunMicrosystems公司于1995年5月推出的Java程序設計語言和Java平臺(即JavaSE,JavaEE,Ja-vaME)的總稱。Java技術具有卓越的通用性、高效性、平臺移植性和安全性,廣泛應用于個人PC、數據中心、游戲控制臺、科學超級計算機、移動電話和互聯網,同時擁有全球最大的開發者專業社群。在全球云計算和移動互聯網的產業環境下,Java更具備了顯著優勢和廣闊前景。

5.2Office文檔解析技術———POI

ApachePOI是用Java編寫的免費開源的跨平臺的Ja-vaAPI,ApachePOI提供了對MicrosoftOffice格式文件讀和寫的功能。ApachePOI是創建和維護操作各種符合OfficeOpenXML(OOXML)標準和微軟的OLE2復合文檔格式(OLE2)的JavaAPI。ApachePOI可以使用Java讀取、創建和修改MSExcel文件、MSWord和MSPowerPoint文件。ApachePOI主要包括如下模塊。HSSF:提供讀寫MicrosoftExcelXLS格式檔案的功能。XSSF:提供讀寫MicrosoftExcelOOXMLXLSX格式檔案的功能。HWPF:提供讀寫MicrosoftWordDOC格式檔案的功能。HSLF:提供讀寫MicrosoftPowerPoint格式檔案的功能。HDGF:提供讀MicrosoftVisio格式檔案的功能。HPBF:提供讀MicrosoftPublisher格式檔案的功能。HSMF:提供讀MicrosoftOutlook格式檔案的功能。

5.3PDF文檔解析技術———PDFBox

PDFBox是一個開源的可以操作PDF文檔的JavaPDF類庫。它可以創建一個新PDF文檔,操作現有PDF文檔并提取文檔中的內容。它具有以下特性:(1)將一個PDF文檔轉換輸出為一個文本文件。(2)可以從文本文件創建一個PDF文檔。(3)加密/解密PDF文檔。(4)向已有PDF文檔中追加內容。(5)可以從PDF文檔生成一張圖片。(6)可以與JakartaLucene搜索引擎的整合。

5.4圖片文件解析技術———OCR光學字符識別中間件

OCR是英文(OpticalCharacterRecognition)的縮寫,意為光學字符識別。通過光學掃描儀和計算機的配合,OCR軟件將圖像數據進行運算分類后,將圖像數據轉化為計算機內碼。它可以極大地減輕數據錄入工作的強度、提高數據錄入的速度。OCR技術應用是信息資源建設中的最重要階段,OCR技術同時是數據加工的核心技術。北京漢王科技有限公司自1985年起就開始從事OCR技術的研究工作,曾受到國家863計劃、國家自然科學基金委員會、中國科學院的支持,研究內容涉及到中文、英文、日文、韓文的印刷體識別,中文的手寫體識別,手寫數字識別,表格識別與還原,版面分析與還原,中文OCR系統。漢王在處理各類資料方面積累了大量的經驗,特別是漢王的錄入工廠廣泛應用于包括圖書館,檔案館,國家專利局,各類數據加工商如清華同方,萬方數據等企、事業單位。在各行業中作為他們的有效工具,極大地提高了數據的處理效率。目前漢王OCR核心各項關鍵技術均位于國際領先水平。

6總結

實現電子文件存用分離的關鍵是標準的定義和推廣,本文提出了一種實現存用分離的解決思路和解決方案。但真正將存用分離廣泛運用到實際生產中仍然需要廣大廠商的積極參與和推廣。