本文将业务场景中最常用的几点实例,给大家列举出来,不常见的不再一一赘述. 使用urllib库可以模拟浏览器发送请求获得服务器返回的数据,下一步就是把有用的数据提取出来.数据分为两种形式:结构化和非结构化. 非结构化的数据一般指的是文本和HTML.文本的内容特别的杂乱,比如有电话号码,邮箱等信息,只能使用正则表达式进行提取:HTML可以使用CSS选择器,Xpath.正则表达式进行提取. 结构化的数据一般指的是JSON和XML.JSon可以使用JSonPath处理,也可以转化成python对象.X…