Need(需求): 我们小组的研究课题是编写一个更实用的爬虫软件,编写时会应用到学长的部分代码并在其基础上完善创新. 鉴于学长代码已经实现了基本功能,即从网站上面爬取相关的Word文档等与计算机有关的文件和资料,过滤掉不相关的信息.我组将从以下几个方面着手进行改进和完善: 1.加强去广告功能: 如今网络的网页情况,很多网页,包括贴吧.微博都充斥着广告,在其中难免有一些涉及到计算机,但是这些广告的作用却没有实际意义.在学长的代码里的确有相应的删除广告的功能,但是其效果并不明显,在很多情况下不能够很