[根据北京理工大学嵩天老师“Python网络爬虫与信息提取”慕课课程编写  文章中部分图片来自老师PPT 慕课链接:https://www.icourse163.org/learn/BIT-1001870001?tid=1002236011#/learn/announce] 一.python爬虫的思路 爬虫是指根据一定规则(如页面HTML结构)可以在网络页面上获取大量数据的代码或程序.python语言提供了很多适合编写爬虫的库. python爬虫有很多种思路,这里使用3个python库搭建:Re…
一.常用库 1.requests 做请求的时候用到. requests.get("url") 2.selenium 自动化会用到. 3.lxml 4.beautifulsoup 5.pyquery 网页解析库 说是比beautiful 好用,语法和jquery非常像. 6.pymysql 存储库.操作mysql数据的. 7.pymongo 操作MongoDB 数据库. 8.redis 非关系型数据库. 9.jupyter 在线记事本. 二.什么是Urllib Python内置的Http…
以前搞偷偷摸摸的事,不对,是搞爬虫都是用urllib,不过真的是很麻烦,下面就使用requests + BeautifulSoup 爬爬简单的网页. 详细介绍都在代码中注释了,大家可以参阅. # -*- coding: utf-8 -*- """ Created on Thu Jul 5 20:48:25 2018 @author: brave-man blog: http://www.cnblogs.com/zrmw/ python3 + anaconda(Spyder)…
1:urllib  python自带 2:re      python自带 3:requests     pip install requests 4:selenium      需要依赖chromedriver (selenium目前有版本限制:https://blog.csdn.net/qq_36625806/article/details/81463872) 下载地址:https://download.csdn.net/my 安装方式:解压后 python setup.py install…
建议更换pip源到国内镜像,下载会快很多:https://www.cnblogs.com/believepd/p/10499844.html requests pip3 install requests selenium pip3 install selenium 安装好后,测试一下: from selenium import webdriver driver = webdriver.Chrome() 执行后报错了: 需要安装chromedriver才能完成chrome浏览器的驱动. 可以从这里…
BeautifulSoup在学习Python过程中可能需要用到一些爬虫库 例如:requests BeautifulSoup和lxml库 前面的两个库,用Pychram都可以通过 File-->Other Settings-->Settings for New Project (如下方法完成导入) 点击    + 搜索安装完成 例如这里安装 requests 这里注意: 左边的 Specify version (安装制定的版本) 再第一次安装的时候不需要勾选 防止安装错误 安装完毕后,页面会显…
Python的标准库介绍与常用的第三方库 Python的标准库: datetime:为日期和时间的处理提供了简单和复杂的方法. zlib:以下模块直接支持通用的数据打包和压缩格式:zlib,gzip,bz2,zipfile和 tarfile. random:提供了生成随机数的工具. math:为浮点运算提供了对底层C函数库的访问. sys:工具脚本经常调用的命令行参数.这些命令行参数以链表形式存储于 sys 模块的 argv 变量. glob:提供了一个函数,用于从目录通配符搜索中生成文件列表.…
前言 之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助.入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取.那么这一节来简单介绍一下 requests 库的基本用法. 注:Python 版本依然基于 2.7 官方文档 以下内容大多来自于官方文档,本文进行了一些修改和总结.要了解更多可以参考 官方文档 安装 利用 pip 安装   1 $ pip install requests 或者利用 easy_install  …
官方文档 以下内容大多来自于官方文档,本文进行了一些修改和总结.要了解更多可以参考 官方文档 安装 利用 pip 安装 $ pip install requests 或者利用 easy_install $ easy_install requests 通过以上两种方法均可以完成安装. 引入 首先我们引入一个小例子来感受一下 import requests r = requests.get('http://cuiqingcai.com') print type(r) print r.status_c…