1 初级爬虫 (1)Web前端的知识:HTML, CSS, JavaScript, DOM, DHTML, Ajax, jQuery,json等: (2)正则表达式,能提取正常一般网页中想要的信息,比如某些特殊的文字,链接信息,知道什么是懒惰,什么是贪婪型的正则: (3)会使用re, BeautifulSoup,XPath等获取一些DOM结构中的节点信息: (4)知道什么是深度优先,广度优先的抓取算法,及实践中的使用规则: (5)能分析简单网站的结构,会使用urllib,urllib2或requ…