=====================爬虫原理===================== 通过Python访问新闻首页,获取首页所有新闻链接,并存放至URL集合中. 逐一取出集合中的URL,并访问链接获取源码,解析出新的URL链接添加到集合中. 为防止重复访问,设置一个历史访问,用于对新添加的URL进行过滤. 解析DOM树,获取文章相关信息,并将信息存储到Article对象中. 将Article对象中的数据通过pymysql保存到数据库中. 每完成一次数据的存储,计数器增加并打印文章标题,否