信息网络安全 ›› 2014, Vol. 15 ›› Issue (10): 49-53.doi: 10.3969/j.issn.1671-1122.2014.10.009

• • 上一篇    

基于VIPS算法和模糊字典匹配的网页提取技术研究

吴茜, 刘嘉勇, 卿粼波   

  1. 四川大学电子信息学院,四川成都 610065
  • 收稿日期:2014-07-12 出版日期:2014-10-01 发布日期:2015-08-17
  • 作者简介:

    吴茜(1988-),女,河南,硕士研究生,主要研究方向:信息安全;刘嘉勇(1962-),男,四川,教授,博士,主要研究方向:信息处理与信息安全;卿粼波(1982-),男,四川,副教授,博士,主要研究方向:通信与信息处理。

  • 基金资助:
    教育部高等学校博士学科点专项科研基金[20110181120009]

Research on the Technology of Webpage Extraction Based on VIPS and Vague Dictionary

Qian WU, Jia-yong LIU, Lin-bo Qing   

  1. College of Electronics and Information Engineering, Sichuan University, Chengdu Sichuan 610065, China
  • Received:2014-07-12 Online:2014-10-01 Published:2015-08-17

摘要:

在目前数据爆发的互联网时代,论坛舆论走向对于社会的影响越来越大,对舆论进行监控引导已经不可避免,在数据如此巨大的环境中,有效地监控舆论信息成为一个难题。论坛网页中标题、内容等关键信息是舆论监控中的主要以及重点信息。为了提取论坛网页中的标题、内容、作者等与舆情相关的信息,文章提出了一种基于VIPS算法和智能模糊字典匹配相结合的网页内容提取方法。VIPS算法是利用Web页面的视觉提示背景颜色,字体的颜色和大小,边框、逻辑块和逻辑块之间的间距等,结合DOM树进行页面语义分块。智能模糊字典采用AC-BM匹配算法把VIPS分块的语义块与数据库里的标签相匹配,提取出匹配正确的字段。两者的结合可以提取出帖子的标题、内容、作者、发帖时间等信息。该方法具体步骤是首先利用VIPS算法将网页页面块进行提取,再用分隔条检测设置分隔条,然后重构语义块,检测后将分割后的网页保存为xml格式文件,再将xml文件中的语义块与字典进行匹配,提取出匹配成功的内容。最后,文章通过实验证明了该方法的有效性。

关键词: 信息提取, VIPS算法, 智能字典, AC-BM算法

Abstract:

In the age of data explosion, the consensustowardsare very important to the society. It is necessaryto monitor and guide the towards of the consensus, in the environment of the big data, it’s a different problem that how to monitor the consensus effectively. In order to extra the title、content、author、time information of the BBS webpage.The paper introduces the method based on VIPS algorithm and intelligent fuzzy dictionary.VIPS uses the vision information such as background, font color, font size, border, margin and DOM tree to get semantic block. The intelligent fuzzy dictionary matches the semantic block to the tag name in database using AC-BM algorithm, and get the matched fields. Then the tow combinativemethod can extract the key messages .That method first uses VIPS algorithm to divide webpage in blocks, reconstructs semantic block, saves to a xml file, then matches the semantic block in xml file with the dictionary, extracts the matching content. This paper proves the validity of this method through the experiment.

Key words: information extraction, VIPS algorithm, intelligent dictionary, AC-BM algorithm

中图分类号: