Need 我们小组的研究课题是编写一个更快捷,更安全的爬虫软件,编写时会应用到学长的部分代码并在其基础上完善创新. 初步阅读了学长们的博客上面的几个版本的测试情况和源代码,发现学长们在实现基础功能的条件下,增加了一些附加功能,包括对广告的进一步的过滤,分类保存爬取到的文件,已经网页质量的初步判定功能. 经过和组员们的初步讨论,我们决定在以下方面进行改进和完善: 1.对网页质量进行更优化的判定: 学长们对于网页质量的判定并不够完善,可以新增一些判断条件.例如用户可能关心于网页产生和更新的时间,以及…