python爬虫的实现方式: 1.简单点的urllib2 + regex,足够了,可以实现最基本的网页下载功能.实现思路就是前面java版爬虫差不多,把网页拉回来,再正则regex解析信息--总结起来,两个函数:urllibw.urlopen()和re.compile().其实对于正则解析html网页,python同样有和jsoup类似的工具包--BeautifulSoup,用好了同样比正则省事多了.同时BeautifulSoup还针对非结构化html标签有清洗功能,比如网页中标签不完整,有些源…