Python 爬虫十六式 - 第六式：JQuery的假兄弟-pyquery

【Python 爬虫十六式 - 第六式：JQuery的假兄弟-pyquery】的更多相关文章

Python 爬虫十六式 - 第六式：JQuery的假兄弟-pyquery

PyQuery:一个类似jquery的python库学习一时爽,一直学习一直爽 Hello,大家好,我是 Connor,一个从无到有的技术小白.上一次我们说到了 BeautifulSoup 美味的汤,BeautifulSoup 很适合刚刚接触爬虫的新手使用.虽然 BeautifulSoup 好用,但是也有它的局限性.今天我们来讲一讲 PyQuery,让我们以 JQuery的方式来快速提取我们想要的内容.废话不多说,让我们开始吧. 1. PyQuery 的简介 pyquery 允许您在…

Python 爬虫十六式 - 第七式：正则的艺术

RE:用匹配来演绎编程的艺术学习一时爽,一直学习一直爽 Hello,大家好,我是 Connor,一个从无到有的技术小白.上一次我们说到了 pyquery 今天我们将迎来我们数据匹配部分的最后一位重量级人物,也是编程语言中普及率最高的一个东西,它就是正则.正则长期以来占据着编程新手的禁忌之地,大家对它是又爱又恨.今天,我们将揭开他神秘的面纱,直面正则,并助你征服它,让它成为你的得力助手! 1. 正则的介绍由于正则并不是 Python 所独有的内容,本文大部分会以正则的角度来进行描述和讲…

Python 爬虫十六式 - 第五式：BeautifulSoup-美味的汤

BeautifulSoup 美味的汤学习一时爽,一直学习一直爽! Hello,大家好,我是Connor,一个从无到有的技术小白.上一次我们说到了 Xpath 的使用方法.Xpath 我觉得还是比较绕该怎么办呢???有没有更加简单易懂的方法呢?答案是肯定的,当然有更加简单易懂的方法了,那就是 BeautifulSoup 美味的汤.这个方法对于正则和 Xpath 来说更加的简单方便,更加易懂,能够节省我们大量的分析时间. 1.BeautifulSoup 的简介 BeautifulSoup…

Python爬虫十六式 - 第四式: 使用Xpath提取网页内容

Xpath:简单易用的网页内容提取工具学习一时爽,一直学习一直爽 ! Hello,大家好,我是Connor,一个从无到有的技术小白.上一次我们说到了 requests 的使用方法.到上节课为止,我们已经学完了所有的 Python 常用的访问库.那么当我们获取到了访问的内容之后,我们就应该从网页上提取我们想要的内容了.所以,今天我们来讲网页内容的常用提取工具之一:Xpath .相比于 BeautifulSoup 而言,Xpath 更加简单易上手. 1.Xpath简介 Xpath 是一门在…

Python爬虫十六式 - 第三式：Requests的用法

Requests: 让 HTTP 服务人类学习一时爽,一直学习一直爽 Hello,大家好,我是Connor,一个从无到有的技术小白.今天我们继续来说我们的 Python 爬虫,上一次我们说到了 urllib 与 urllib3 ,不知道大家看了以后有何感想,今天我们来继续聊聊 Python爬虫中的另一个常用库--requests,相信你今天看了这篇文章以后一定有想要揍我的冲动. 1.request 的简介上一篇文章介绍了Python的网络请求库 urllib 和 urllib3 的使…

Python 爬虫十六式 - 第二式：urllib 与 urllib3

Python请求标准库 urllib 与 urllib3 学习一时爽,一直学习一直爽! 大家好,我是 Connor,一个从无到有的技术小白.上一次我们说到了什么是HTTP协议,那么这一次我们就要动手,来真正的了解如何使用Python访问一个网站了.今天我们要说的是Python自带的标准库,Urllib与Urllib3. 1.urllib库 1.1urllib的简介 urllib`是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Pyt…

Python 爬虫十六式 - 第一式：HTTP协议

HTTP:伟大而又无闻的协议学习一时爽,一直学习一直爽! Hello,大家好啊,我是Connor,一个从无到有的技术小白.有的人一说什么是HTTP协议就犯愁,写东西的时候也没想过什么是HTTP协议,只是知道HTTP协议是用来网页传输的,但是再深究一点就不明白了,所以今天我们来讲一讲什么是HTTP协议. 1.HTTP 与 HTTPS 1.1 什么是HTTP协议超文本传输协议(HTTP,HyperText Transfer Protocol) 是互联网上应用最为广泛的一种网络协议.…

Python爬虫(十六)_JSON模块与JsonPath

本篇将介绍使用,更多内容请参考:Python学习指南数据提取之JSON与JsonPATH JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,它是的人们很容易的进行阅读和编写.同时也方便了机器进行解析和生成.适用于进行数据交互的场景,比如网站前台与后台之间的数据交互. JSON和XML的比较可谓不相上下. Python2.7中自带了JSON模块,直接import json就可以使用了. 官方博客:http://docs.python.org/librar…

Python爬虫之正則表達式

1.经常使用符号 . :匹配随意字符,换行符 \n 除外 * :匹配前一个字符0次或无限次 ? :匹配前一个字符0次或1次 .* :贪心算法.尽可能的匹配多的字符 .*? :非贪心算法 () :括号内的数据作为结果返回 2.经常用法 findall:匹配全部符合规律的内容.返回包括结果的列表 Search:匹配并提取第一个符合规律的内容,返回一个正則表達式对象 Sub:替换符合规律的内容,返回替换后的值 3.使用演示样例 3.1 . 的使用举例,匹配随意字符,换行符 \n 除外 imp…

Python爬虫(十五)_案例：使用bs4的爬虫

本章将从Python案例讲起:所使用bs4做一个简单的爬虫案例,更多内容请参考:Python学习指南案例:使用BeautifulSoup的爬虫我们已腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifulSoup4解析器,将招聘网页上的职位名称.职位类别.招聘人数.工作地点.时间.以及每个职位详情的点击链接存储出来. #-*- coding:utf-8 -*- from bs4 import Beautiful…