信息网络安全 ›› 2018, Vol. 18 ›› Issue (1): 58-66.doi: 10.3969/j.issn.1671-1122.2018.01.009
摘要:
随着互联网上开源代码越来越多,设计程序时寻找和复用已有的开源代码已经成为软件工程的一种趋势。为了快速和精准地搜索开源代码,文章设计了基于MapReduce计算模型的源代码并行爬取方法,并编写代码,实现了源代码并行爬取系统。文章首先分析当前各种开源代码库,选择合适的代码爬取场所和爬取对象,明确并行爬取的工作流程和目标;然后给出源代码并行爬取的Map方法和Reduce方法,基于此设计一套开源代码并行爬取算法;最后利用集群计算环境实现开源代码的并行爬取。实验表明,多机并行搜索源代码与传统方法相比,速度明显提高,且搜索的返回结果可信度更高。
中图分类号: