基于網頁聚類的Web信息自動抽取
所屬分類:技術論文
上傳者:aet
文檔大?。?span>305 K
所需積分:0分積分不夠怎么辦?
文檔介紹:針對現(xiàn)今較流行的動態(tài)Web網頁數量巨大,數據價值高,并且網頁結構高度模板化的特點,設計了一個基于網頁聚類的Web信息自動抽取系統(tǒng).在DOM抽取技術基礎上利用網頁聚類尋找高相似簇,并引入列相似度和全局自相似度計算方法,提高了聚類結果的準確性.抽取模板中應用了可選節(jié)點對模板的修正和調整,以提高內容節(jié)點的正確標識,實驗結果表明,該方法能夠自動尋找并抽取網頁主要信息,達到了較高的準確率和查全率.
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。