《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 基于敘詞分類的海洋科技信息的數(shù)據(jù)轉(zhuǎn)儲
基于敘詞分類的海洋科技信息的數(shù)據(jù)轉(zhuǎn)儲
2016年微型機與應(yīng)用第16期
史珂,徐建良
中國海洋大學 信息科學與工程學院,山東 青島 266100
摘要: 在研究敘詞表分類的基礎(chǔ)上,調(diào)研了國家海洋局第一海洋研究所海洋科技信息數(shù)據(jù)。根據(jù)這些電子資源的存儲方式與存儲結(jié)構(gòu),對其進行數(shù)據(jù)的轉(zhuǎn)儲,設(shè)計了標準的XML文件,以便數(shù)據(jù)資源的二次使用與共享。
Abstract:
Key words :

  史珂,徐建良
 ?。ㄖ袊Q蟠髮W 信息科學與工程學院,山東 青島 266100)

        摘要:在研究敘詞表分類的基礎(chǔ)上,調(diào)研了國家海洋局第一海洋研究所海洋科技信息數(shù)據(jù)。根據(jù)這些電子資源的存儲方式與存儲結(jié)構(gòu),對其進行數(shù)據(jù)的轉(zhuǎn)儲,設(shè)計了標準的XML文件,以便數(shù)據(jù)資源的二次使用與共享。
  關(guān)鍵詞:敘詞表;海洋信息;數(shù)據(jù)轉(zhuǎn)儲  

0引言
  在對現(xiàn)有的海洋科技信息數(shù)據(jù)的研究中發(fā)現(xiàn),其存儲方式大多數(shù)以是Word文件或Excel文件的形式分散在科學家和各個研究部門手中。由于各個科研機構(gòu)的管理方式和科研工作者的編寫習慣不一致,導(dǎo)致異構(gòu)數(shù)據(jù)源在不同文件中的組織結(jié)構(gòu)、語義層次不同,從而使整個海洋科技信息的數(shù)據(jù)出現(xiàn)雜亂、重復(fù)、語義不一致等現(xiàn)象,這就造成了海洋科技信息的數(shù)據(jù)資源沒有辦法滿足海洋科研工作者的科研成果的共享與二次使用,同時也不能滿足與國際科研機構(gòu)的數(shù)據(jù)交換[1]。這種情況對我國海洋科學考察領(lǐng)域的發(fā)展產(chǎn)生了嚴重的阻礙。
  把這些碎片化的異構(gòu)數(shù)據(jù)源進行整合從而達到規(guī)范化是目前各個機構(gòu)和科研工作者的首要任務(wù)。通過對海洋科技信息數(shù)據(jù)格式和內(nèi)容的研究,本文設(shè)計了一種規(guī)范、標準的XML文件,把海洋科技信息數(shù)據(jù)資源轉(zhuǎn)儲到該自定義的XML文件,使海洋相關(guān)數(shù)據(jù)得到最大化的共享和利用,同時也為我國即將開展的數(shù)字海洋計劃提供了一定的數(shù)據(jù)資源。
1海洋科技信息數(shù)據(jù)格式
  按照Soergel的理論把敘詞表分為兩類,分別為基于術(shù)語的敘詞表(termbased thesaurus )和基于概念的敘詞表(conceptbased thesaurus )[1]。其中,前者是一種集合,該集合結(jié)構(gòu)清晰,因為這種類型的敘詞表只包含一種實體類型,這種實體就是術(shù)語,而術(shù)語與術(shù)語之間存在的關(guān)系分有3種,分別為層級關(guān)系、相關(guān)關(guān)系、等同關(guān)系[2]。而另外一種敘詞表,即基于概念的敘詞表,則由兩種實體類型組成,其中一種是概念,另外一種是術(shù)語。概念是一個簡單的結(jié)構(gòu)單一的思想單元[3],概念的基本信息包括優(yōu)選術(shù)語、非優(yōu)選術(shù)語、范圍附注等,概念之間同樣也存在層級關(guān)系、相關(guān)關(guān)系。結(jié)合海洋科技信息數(shù)據(jù)源的存儲結(jié)構(gòu)和存儲類型,可以把這些數(shù)據(jù)資源簡單分為兩類:
 ?。?)把以Word文檔作為存儲結(jié)構(gòu)的敘詞看作基于概念的敘詞表,不僅有術(shù)語、關(guān)鍵詞,還有概念,概念用來對關(guān)鍵詞進行進一步解釋。
 ?。?)把以Excel文檔作為存儲結(jié)構(gòu)的敘詞看作基于術(shù)語的敘詞表,不僅有術(shù)語關(guān)鍵詞,還有詞間的層級關(guān)系。
  其關(guān)系結(jié)構(gòu)如圖1所示。

圖像 001.png

2Word和Excel模板規(guī)范
  海洋科技信息文檔的格式和組織架構(gòu)雖然相對比較固定,但仍然存在語義與結(jié)構(gòu)的不一致現(xiàn)象,直接從這樣的Word和Excel文檔中提取關(guān)鍵信息,容易導(dǎo)致數(shù)據(jù)的混亂,同時也對提取的算法要求頗高,這就需要先通過Word的語義模型和Excel的行列關(guān)系規(guī)范文檔的結(jié)構(gòu)。
  通過域的設(shè)定,可以把字體、位置、顏色等顯示樣式規(guī)范化[4]。域中的數(shù)據(jù)都是可變的,如果以后用戶自主創(chuàng)建Word文檔,只需更改域中的文字信息即可,不需要再對樣式、排版進行編輯,其中敘詞用加粗字體表示,對應(yīng)概念用普通字體表示,敘詞與概念之間用空格銜接,如圖2所示。對于這種建立模版方法,在插入每一個域時,都需要輸入相應(yīng)的提示文本,作為該域的語義信息。
  

圖像 002.png

  而對于Excel文檔,一般情況下總共4列,同一行上后一個列屬于前一個列的子類,最后一列對應(yīng)敘詞,除此之外的每一列都對應(yīng)一個分類,如果以樹狀結(jié)構(gòu)列出表中的層次關(guān)系的話,即每個葉子節(jié)點為敘詞,每個非葉子節(jié)點都為分類,且分類中也可包含其他分類,如圖3所示。
 

圖像 003.png

3Word和Excel信息抽取
  Microsoft Office 2010提供了通過將自定義XML Schema架構(gòu)插入工作薄,導(dǎo)出符合結(jié)構(gòu)需求的XML文件的功能。該功能是在Office文檔和XML結(jié)構(gòu)之間創(chuàng)建了一個映射,進行Office文檔中數(shù)據(jù)的分離。
  3.1自定義XML Schema
  XML Schema文件的主要定義可擴展標記語言的合法構(gòu)建結(jié)構(gòu),它可以定義出現(xiàn)在文檔中的元素、元素的層次結(jié)構(gòu)、子元素的次序、子元素的數(shù)目、元素是否為空、文檔中的屬性、元素和屬性的數(shù)據(jù)類型、元素和屬性的默認值以及固定值等[5]。本文自定義的XML Schema文件結(jié)構(gòu)如下。
  <?xml version="1.0"?>
  <xsd:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema">
  <xsd:element name="dump-file">
  <xsd:complexType>
  <xsd:sequence>
  <xsd:element name="username" type="xsd:string"/>
  <xsd:element name="security" type="xsd:string"/>
  <xsd:element name="category" type="xsd:string"/>
  <xsd:element name="page">
  <xsd:complexType>
  <xsd:sequence>
  <xsd:element name="category" type="xsd:string"/>
  <xsd:element name="title" type="xsd:string"/> <xsd:element name="text" type="xsd:string" />
  </xsd:sequence>
  </xsd:complexType>
  </xsd:element>
  </xsd:sequence>
  </xsd:complexType>
  </xsd:element>
  </xsd:schema>
  3.2Word到標準XML文檔
  使用了上文通過域定義的語義模版后的Word文檔如圖4所示。使用XML Schema中定義的元素對Word文檔的關(guān)鍵字進行手動映射,這樣就把與邏輯相關(guān)的一些標記插入到了Word文檔中,以便根據(jù)實際需要通過標識符來方便地對文檔進行處理。具體實現(xiàn)方式如下。
  

圖像 004.png

 ?。?)在菜單中選擇“開發(fā)工具架構(gòu)”,在彈出的窗口中選擇“添加架構(gòu)”,將XML Schema文件附加到Word文檔。
 ?。?)在添加架構(gòu)完成后,就可以利用該Schema文件中的元素批注Word文檔。Word文檔右側(cè)的“XML結(jié)構(gòu)”窗格可將附加架構(gòu)中的自定義元素映射到文檔關(guān)鍵字。
  完成Schema文檔中的元素與Word文檔關(guān)鍵字的映射后,需要對剛創(chuàng)建的文檔進行保存,其保存格式為XML文件,保存后的XML文檔結(jié)構(gòu)效果如下。
  <?xml version="1.0" encoding="gb2312" standalone="yes"?>
  <dump-file>
  <username>王一</username>
  <security>公開</security>
  <category>大洋調(diào)查</category>
  <page>
  <category/>
  <title>站位</title>
  <text>若在某一海域中需要進行相應(yīng)的調(diào)查目的的采樣,則用站位號來表示這一區(qū)域。 </text>
  </page>
  <page>
  <category/>
  <title>采樣點</title>
  <text>在某一站位進行采樣時,可能需要在不同區(qū)域進行多次取樣(儀器入水后在多個區(qū)域采樣),對于每個采樣的區(qū)域稱為一個采樣點。一個站位可能零到多個采樣點。</text>
  </page>
  <page>
  <category/>
  <title>入水經(jīng)緯度</title>
  <text>進行采樣作業(yè)時,儀器入水時的經(jīng)緯度為入水經(jīng)緯度。一個站位只有一個入水經(jīng)緯度。</text>
  </page>
  </dumpfile>
  3.3Excel到標準XML文檔
  把XML Schema文件添加到Excel文檔中的具體步驟如下。
 ?。?)在菜單中選擇“開發(fā)工具源”,在彈出的右側(cè)窗口中選擇“XML映射”,將XML Schema文件附加到Excel文檔。
 ?。?)使用“XML源”將Excel文檔單元格映射到XML架構(gòu)元素。
  Excel會自動創(chuàng)建一個XML映射對象,通過鼠標拖曳XML映射元素到相應(yīng)關(guān)鍵詞上,實現(xiàn)它們之間的映射,這樣就可以將單元格中的數(shù)據(jù)反映到XML架構(gòu)的元素上,其顯示效果如圖5所示。
  

圖像 005.png

  完成Schema文檔中的元素與Excel文檔關(guān)鍵字的映射后,Microsoft Excel導(dǎo)出的標準XML文件格式如下。基于這種通用結(jié)構(gòu),可以方便有效地完成海洋數(shù)據(jù)向各個應(yīng)用或者數(shù)據(jù)庫的轉(zhuǎn)儲工作。
  <?xml version="1.0" encoding="UTF-8" standalone="yes"?>
  <dump-file>
  <username>王二</username>
  <security>公開</security>
  <category>地球科學服務(wù)</category>
  <page>
  <category>數(shù)據(jù)分析和可視化</category>
  <title>校準/檢驗</title>
  <text/>
  </page>
  <page>
  <category>數(shù)據(jù)分析和可視化</category>
  <title>地理信息系統(tǒng)</title>
  <text>移動地理信息系統(tǒng)</text>
  </page>
  <page>
  <category>數(shù)據(jù)分析和可視化</category>
  <title>地理信息系統(tǒng)</title>
  <text>桌面地理信息系統(tǒng)</text>
  </page>
  <page>
  <category>數(shù)據(jù)管理/數(shù)據(jù)處理</category>
  <title>數(shù)據(jù)互操作</title>
  <text/>
  </page>
  <page>
  <category>數(shù)據(jù)管理/數(shù)據(jù)處理</category>
  <title>數(shù)據(jù)互操作</title>
  <text>數(shù)據(jù)格式化</text>
  </page>
  <page>
  <category>數(shù)據(jù)管理/數(shù)據(jù)處理</category>
  <title>數(shù)據(jù)挖掘</title>
  <text/>
  </page>
  </dump-file>
4結(jié)論
  本文研究的資料直接來源于國家海洋局第一海洋研究所,能客觀真實地反映該領(lǐng)域的知識結(jié)構(gòu)框架,概念更專指,能有效克服“嵌入迷失問題”(詞表過大導(dǎo)致用戶迷失了方向)和“藝術(shù)博物館現(xiàn)象”(用戶花了很多時間卻沒有找到任何有用信息)[6]。本文通過使用Microsoft Office 2010自帶的映射功能完成標準XML文件的生成,為數(shù)據(jù)的管理和二次利用提供了有效的途徑。
  參考文獻
  [1] 傅強. 中國大洋研究成果數(shù)據(jù)庫平臺系統(tǒng)建設(shè)[D]. 青島:國家海洋局第一海洋研究所, 2007.
 ?。?] BANERJEE S, PEDERSEN T. Extended gloss overlaps as a measure of semantic relatedness[C]. International Joint Conference on Artificial Intelligence, IJCAI, 2003: 805810.

 ?。?] BUDANITSKY A, HIRST G. Evaluating wordnetbased measures of lexical semantic relatedness[J]. Computational Linguistics, 2006, 32(1): 1347.
 ?。?] Chen Zeqiang, Chen Nengcheng. Use of service middleware based on ECHO with CSW for discovery and registry of MODIS data[J].地球空間信息科學學報(英文版), 2010, 13(3):191200.
  [5] LEE D, CHU W W. Comparative analysis of six XML schema languages[J]. ACM Sigmod Record, 2000, 29(3):7687.
 ?。?] AITCHISON J, CLARKE S D. The thesaurus: a historical viewpoint, with a look to the future[J]. Cataloging & classification quarterly, 2004, 37(34): 521.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。