(以下是在windows环境下的操作,python版本为3) 1.urllib库介绍 官方文档上的解释是: urllib is a package that collects several modules for working with URLs 简单的说就是用来处理url的,它包含以下几个模块: urllib.request urllib.request,打开并且读取url urllib.error,包含了一些urllib.request引起的异常 urllib.parse,解析url u
htmlParse 函数 htmlParse加抓HTML页面的函数. url1<-"http://www.caixin.com/"url<-htmlParse(url1,encoding="UTF-8") 但是有的网站会出现报错.例如淘宝,错误信息为: Warning message:XML content does not seem to be XML: 'https://www.taobao.com/' 原因为htmlParse可以抓取http的页面