《電子技術(shù)應用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應用 > 基于OCR技術(shù)的主數(shù)據(jù)管理功能研究與實現(xiàn)
基于OCR技術(shù)的主數(shù)據(jù)管理功能研究與實現(xiàn)
2015《電子技術(shù)應用》智能電網(wǎng)增刊
馬思碩1,張 冰2,張 瑩3
(1.國網(wǎng)北京市電力公司 信息通信分公司,北京 100071; 2.國家電網(wǎng)公司信息通信分公司,北京 100761; 3. 北京國電通網(wǎng)絡(luò)技術(shù)有限公司,北京 100761)
摘要: 主數(shù)據(jù)的應用與數(shù)據(jù)質(zhì)量息息相關(guān)。國家電網(wǎng)公司為進一步完善業(yè)務(wù)應用數(shù)據(jù)的質(zhì)量和安全管理,推進建設(shè)了主數(shù)據(jù)管理系統(tǒng)。然而目前主數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)創(chuàng)建效率有待提升,供應商主數(shù)據(jù)的審核依舊采用人工審核方式。本文通過采用漢字OCR技術(shù)實現(xiàn)了供應商主數(shù)據(jù)的自動輔助審核功能,提高了數(shù)據(jù)質(zhì)量和維護效率,提升了用戶體驗,獲得了較高的用戶滿意度。
Abstract:
Key words :

  馬思碩1,張  冰2,張  瑩3

  (1.國網(wǎng)北京市電力公司 信息通信分公司,北京 100071;

  2.國家電網(wǎng)公司信息通信分公司,北京 100761; 3. 北京國電通網(wǎng)絡(luò)技術(shù)有限公司,北京 100761)

  摘  要主數(shù)據(jù)的應用與數(shù)據(jù)質(zhì)量息息相關(guān)。國家電網(wǎng)公司為進一步完善業(yè)務(wù)應用數(shù)據(jù)的質(zhì)量和安全管理,推進建設(shè)了主數(shù)據(jù)管理系統(tǒng)。然而目前主數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)創(chuàng)建效率有待提升,供應商主數(shù)據(jù)的審核依舊采用人工審核方式。本文通過采用漢字OCR技術(shù)實現(xiàn)了供應商主數(shù)據(jù)的自動輔助審核功能,提高了數(shù)據(jù)質(zhì)量和維護效率,提升了用戶體驗,獲得了較高的用戶滿意度。

  關(guān)鍵詞: 主數(shù)據(jù);數(shù)據(jù)質(zhì)量;OCR技術(shù)

0 引言

  隨著國家電網(wǎng)公司信息化工程的進一步深化和推進,公司對業(yè)務(wù)數(shù)據(jù)和信息化數(shù)據(jù)進一步重視,數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全已成為公司關(guān)注的重中之重。當前信息行業(yè)越來越重視對大數(shù)據(jù)的應用,利用目前已有的業(yè)務(wù)數(shù)據(jù)對行業(yè)和公司的發(fā)展進行判斷和預測,未來服務(wù)中心和咨詢中心的核心也將是對數(shù)據(jù)的分析和處理,這對信息數(shù)據(jù)的規(guī)范性和質(zhì)量提出了更高的要求。通過進一步規(guī)范數(shù)據(jù)和提升數(shù)據(jù)質(zhì)量,滿足大數(shù)據(jù)時代對于數(shù)據(jù)更加嚴格的要求[1]。

  主數(shù)據(jù)的應用與數(shù)據(jù)質(zhì)量相輔相成、互相推動。主數(shù)據(jù)管理系統(tǒng)的構(gòu)建和執(zhí)行是提升公司數(shù)據(jù)管理與應用水平、保障可靠數(shù)據(jù)質(zhì)量的關(guān)鍵措施。為了提升數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性,國家電網(wǎng)公司推進建設(shè)了主數(shù)據(jù)管理系統(tǒng),實現(xiàn)了對大部分主數(shù)據(jù)的統(tǒng)一管理[2]。從公司層面把從多個業(yè)務(wù)系統(tǒng)中抽取的主數(shù)據(jù)并進行整合,集中進行數(shù)據(jù)清洗,并以服務(wù)的方式把統(tǒng)一、完整、準確的主數(shù)據(jù)分發(fā)給企業(yè)的操作型和分析型應用。使公司能夠有效地管理存儲在分布系統(tǒng)中的數(shù)據(jù),并對數(shù)據(jù)進行驗證。

1 主數(shù)據(jù)管理系統(tǒng)應用現(xiàn)狀

  國家電網(wǎng)主數(shù)據(jù)管理系統(tǒng)依托數(shù)據(jù)資源管理平臺,建立了主數(shù)據(jù)管理的標準規(guī)范和管理體系。自上線運行以來,公司通過主數(shù)據(jù)管理系統(tǒng)先后實現(xiàn)了對物資、財務(wù)、項目、人資、營銷等五大類主數(shù)據(jù)的集中管理和維護[3-4],為業(yè)務(wù)系統(tǒng)提供實時、完整、準確的主數(shù)據(jù)信息。

  主數(shù)據(jù)管理系統(tǒng)的建設(shè)目標是創(chuàng)建低成本、高擴展性、標準、優(yōu)質(zhì)的可共享主數(shù)據(jù)。主數(shù)據(jù)管理系統(tǒng)需在保證高數(shù)據(jù)質(zhì)量的前提下,實現(xiàn)數(shù)據(jù)在不同業(yè)務(wù)系統(tǒng)之間傳輸和同步的自動化。為保證數(shù)據(jù)的準確性,國家電網(wǎng)公司主數(shù)據(jù)管理系統(tǒng)創(chuàng)建了數(shù)據(jù)審批機制,數(shù)據(jù)的審核包含自動校驗和人工審批兩方面。主數(shù)據(jù)創(chuàng)建申請?zhí)峤缓螅到y(tǒng)將通過數(shù)據(jù)查重等簡單規(guī)則進行規(guī)范性、唯一性校驗。經(jīng)過系統(tǒng)自動校驗后的主數(shù)據(jù)申請需按工作流完成在線審批后,方可入庫。

  主數(shù)據(jù)創(chuàng)建效率和準確性是衡量系統(tǒng)的重要標準之一。為了保證數(shù)據(jù)的創(chuàng)建效率,對于數(shù)據(jù)規(guī)范性要求比較高的主數(shù)據(jù)均設(shè)置了至少兩級的審批環(huán)節(jié),主數(shù)據(jù)的維護準確性得到了大大提升,但是創(chuàng)建效率上并不十分令人滿意。供應商主數(shù)據(jù)是主數(shù)據(jù)管理系統(tǒng)中最重要的數(shù)據(jù)類型,供應商主數(shù)據(jù)從提報數(shù)據(jù)、經(jīng)過兩級審批通過,到最終統(tǒng)一分發(fā)最少需要1天的時間,如遇數(shù)據(jù)量大或工作繁忙等情況,整體流程甚至會延長至多天。對于入庫緊急程度較高的主數(shù)據(jù),目前的審核流程還無法滿足用戶的使用需求。

  本文對該問題進行重點分析和研究,提出一套基于OCR技術(shù)的優(yōu)化方案,利用技術(shù)創(chuàng)新對以上問題進行了功能優(yōu)化,并通過了方案論證、測試部署驗證,有效地提升工作效率,改善了主數(shù)據(jù)管理系統(tǒng)的功能。

2 利用OCR技術(shù)實現(xiàn)供應商主數(shù)據(jù)自動審核功能

  2.1 供應商主數(shù)據(jù)審批功能

  主數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)管理模塊是本系統(tǒng)的核心,該模塊包含主數(shù)據(jù)的查詢、申請、審批等主要功能,以及數(shù)據(jù)和配置的管理,數(shù)據(jù)分發(fā)和報表管理等功能。

  當用戶對供應商主數(shù)據(jù)提出申請后,將通過省(市)公司運維和總部主數(shù)據(jù)運維兩級審批,審批通過后將創(chuàng)建或更新主數(shù)據(jù)。經(jīng)統(tǒng)計,僅2014年通過主數(shù)據(jù)管理平臺申請創(chuàng)建和更新的供應商主數(shù)據(jù)就有82 000條,其中公司類數(shù)據(jù)占到90%以上,而該類數(shù)據(jù)需上傳的信息包括組織機構(gòu)代碼證、稅務(wù)登記證、營業(yè)執(zhí)照三類電子掃描圖片,兩級審批人員都需對這三項信息進行人工對比審核,效率低且需大量的人力支持??偛窟\維情況如表1所示。

001.jpg

  從以上表格可以看出,需要運維人員為3-6人,且長時間的重復工作必然導致效率和準確率的下降。此外,運維組還需承擔其他種類主數(shù)據(jù)的審批、電話咨詢、工單處理、應用分析以及專項工作等多項工作,工作量繁重,運維效率亟待提升。

  2.2 OCR技術(shù)介紹

  光學字符識別(Optical Character Recognition,OCR)技術(shù)是通過檢測印刷或手寫文字的暗、亮模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程[5]。

002.jpg

  目前,OCR技術(shù)已經(jīng)在圖書業(yè)、印刷業(yè)等相關(guān)產(chǎn)業(yè)廣泛使用,對數(shù)字和西文字母印刷字體的識別率達到99.99%以上[6]。我國從上世紀70年代末起開始研究漢字識別技術(shù)(Chinese Character Recognition),目前國內(nèi)已經(jīng)有多項成熟的漢字識別技術(shù)在廣泛使用,對印刷漢字的識別成功率都在99.96%左右[7],如北京信息工程學院研制的BI-OCR和清華大學研制的TH-OCR等。漢字識別OCR技術(shù)的原理框圖如圖1所示。

003.jpg

  由圖1可以看出,漢字識別的具體步驟為:先對文字進行前處理,將灰度值變換為黑白二值,之后對漢字文本進行圖像處理、分析、行切分、字切分、規(guī)范化(文字尺寸、位置、筆畫粗細等規(guī)范),在抽取特征后, 跟存儲在字典中已知的標準漢字特征集匹配判別,就可以識別出輸入的漢字。最后,利用上下文匹配關(guān)系或機器學習等方法進行后處理,進一步提高識別的準確率。

  2.3 供應商主數(shù)據(jù)自動審核功能實現(xiàn)步驟

  本研究的具體思路為,在不改變原有審批流程和準確率的基礎(chǔ)上,進一步提升審批工作的效率。按照這種思路,設(shè)計如下的自動審核步驟。

 ?。?)規(guī)范供應商材料格式

  由于使用的掃描儀型號不同,操作人員水平有差異,所以需要對上傳的圖像質(zhì)量在分辨率、清晰程度以及掃描方法等各方面提出要求,通過對輸入圖像格式的要求,可以極大地提升自動審核的準確率和成功率。

  分辨率:統(tǒng)一分辨率為300 dpi;

  清晰度:彩色掃描,文字清晰,邊框邊線清晰;

  掃描方法:摘除封面,將掃描儀設(shè)置成原稿紙掃描模式。

  在用戶上傳供應商數(shù)據(jù)資料時,系統(tǒng)進行預判,如不滿足格式要求,將要求用戶重新上傳。

 ?。?)OCR技術(shù)自動審批

  為了更好地適應當前系統(tǒng),并保證準確率,自動審批環(huán)節(jié)保留原有的?。ㄊ校┕竞涂偛績杉壢斯徟?。自動審批有可能出現(xiàn)3種情況,見表2。

  由于主數(shù)據(jù)審批存在正確對照文字,前兩種情況對于審批準確率不會產(chǎn)生影響。為了盡可能的杜絕第三種情況的發(fā)生,使用了BI-OCR和TH-OCR兩種OCR技術(shù)進行自動識別,進一步降低了審批的錯誤率。由于兩種技術(shù)對于印刷漢字的成功率都很高,所以兩種識別技術(shù)都驗證正確后即可認為審批通過,如果機器兩次識別結(jié)果不同,則將自動審批不通過的文件加標識后轉(zhuǎn)到人工審批。具體的審批流程如圖2所示。

004.jpg

 ?。?)OCR自動審批界面設(shè)計

  在系統(tǒng)界面中,除在供應商主數(shù)據(jù)申請環(huán)節(jié)對數(shù)據(jù)格式進行一定的約束外,在?。ㄊ校┖涂偛恐鲾?shù)據(jù)運維兩步審批環(huán)節(jié),均設(shè)置自動審批按鈕,通過調(diào)用OCR的自動識別開發(fā)包(SDK)對圖片中的文字進行識別審批,如圖3所示。

005.jpg

  2.4 供應商主數(shù)據(jù)自動審核功能實現(xiàn)測試

  通過對供應商主數(shù)據(jù)自動審核功能的多次設(shè)計實驗,使用單一的自動審核已經(jīng)可以達到較高的識別率。對隨機選取的110份原稿掃描文件進行了測試,其中工商登記證、稅務(wù)登記證各30份,組織機構(gòu)代碼證40份,身份證10份,字符識別率達到94%,字段識別率為90%。而通過使用主數(shù)據(jù)自動輔助審批流程,使用人工和自動雙審批機制,準確率達到100%。

3 效益分析

  通過以上的功能優(yōu)化,使得工作效率得到極大的提升,通過應用采用OCR技術(shù),使得大量的日常審批工作可以由機器自動完成,節(jié)省了人工成本。通過該項功能優(yōu)化,在提升效率的同時也提高的用戶滿意度。下面對功能優(yōu)化帶來的效率提升和準確率提升分別進行量化分析。

  3.1 效率提升

  由于熟練運維人員的工作效率一定,本研究使用工作量進行效率分析。

  在供應商主數(shù)據(jù)審批功能優(yōu)化中,利用兩種技術(shù)對一副圖片的識別審批速度都在1 s左右,對應于一個供應商的公司類數(shù)據(jù)有三份必須資料,利用兩項技術(shù)獨立串行審批需6 s左右,并行審批只需3 s左右。對于這三份必須資料,兩次自動審批都通過的比率大概占到60%左右,而轉(zhuǎn)人工審批的資料文件中,存在關(guān)鍵字段字體重疊、印刷位置錯誤等現(xiàn)象而無法自動審批的文件占50%左右。即機器總的審批數(shù)能占到80%左右。機器輔助審批工作量統(tǒng)計見表3,效率提升統(tǒng)計見表4。

007.jpg

006.jpg

  通過表4可以看出,審批效率提升了5倍左右,而且審批條數(shù)越多,效率越高,對于一般的審批工作量,一個運維人員已經(jīng)可以完全勝任。

  3.2 準確率提升

  眾所周知,人的注意力處于一個變化的狀態(tài),而且受身體狀況、心情、睡眠狀況等多種因素影響[8],而機器的注意力可以認為是不會下降,甚至隨著機器學習的進展,識別準確率會有進一步的提升。

  由于經(jīng)過了兩級審批,人工的識別準確率在99%左右。而機器輔助審批經(jīng)過兩種算法的判斷識別,識別準確率保持在99.99%以上。

4 結(jié)束語

  主數(shù)據(jù)管理作為數(shù)據(jù)治理中最為核心的一環(huán),是企業(yè)獲得一個完整、可信的數(shù)據(jù)視圖的必經(jīng)途徑。本文通過對國家電網(wǎng)公司主數(shù)據(jù)管理系統(tǒng)相關(guān)功能進行研究,采用先進的OCR技術(shù)實現(xiàn)了數(shù)據(jù)的自動輔助審批。在實際應用中,大幅度提升了運維效率和運維質(zhì)量,經(jīng)測算,運維效率提升了3倍左右,使得運維資源能夠更多的向咨詢和應用分析等工作傾斜,在提升運維質(zhì)量的同時,提升了用戶的服務(wù)滿意度。

  下一步的建設(shè)和運維工作將著眼于建立行之有效的主數(shù)據(jù)運維體系,挖掘主數(shù)據(jù)運維的潛力,有效提升主數(shù)據(jù)運維的質(zhì)量,從而充分體現(xiàn)數(shù)據(jù)這項無形資產(chǎn)在企業(yè)中的核心價值。

參考文獻

  [1]張當中.漢字識別技術(shù)綜述[J]. 語言文字應用,1997(2): 77-86.

  [2]馬玲. 基于主數(shù)據(jù)管理的電網(wǎng)調(diào)度數(shù)據(jù)整合[D].昆明:云南大學.2014.

  [3]岳曉峰,焦圣喜,韓立強,等.模式識別中的光字符識別技術(shù)及應用綜述[J].河北工業(yè)科技,2006, 23(5):312-316.

  [4]呂冬.山東電力ERP與SG-MDM實現(xiàn)項目主數(shù)據(jù)縱向貫通[J]. 電力信息化.2011,9(3):28-31.

  [5]張仰森,俞士汶.文本自動校對技術(shù)研究綜述[J].計算機應用研究,2006,06: 8-12.

  [6]李成城,白濤, 趙述芳等. 基于OCR的縱向文字校對的研究與實現(xiàn)[J].計算機應用研究,2006,(4):234-236.

  [7]賈紅龍.面向服務(wù)體系架構(gòu)(SOA)的主數(shù)據(jù)管理(MDM)和流程監(jiān)控(PM)研究[J].信息技術(shù)與信息化,2010(2):78-82.

  [8]顏魯林.利用SPSS對大學生學習注意力集中程度進行多元線性回歸分析[D].蘭州:蘭州大學.2012.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。