信息网络安全 ›› 2015, Vol. 15 ›› Issue (5): 56-61.doi: 10.3969/j.issn.1671-1122.2015.05.009
摘要:
社交网络数据获取是社交网络分析重要的前提条件。当前各大社交网络平台对于第三方爬虫的屏蔽措施日益复杂,传统的数据获取手段受到严峻的挑战。文章提出了一种基于浏览器测试组件的社交网络数据获取技术,通过模拟正常用户的行为以规避社交网络对于传统网络爬虫的限制,实现目标数据的高效获取。该系统分别获取了QQ群即时聊天信息和非即时资料信息。对于即时聊天信息获取,经过实验测试和结果对比,发现即时信息采集的采全率达99%以上,准确率达100%。对于非即时资料,分别获取了群公告、群成员列表、群共享文件和共享相册等数据,通过数据抽样对比,采全率和准确率均达到100%。实验证明基于浏览器测试组件的社交网络数据获取技术有其一定的数据获取优势。
中图分类号: