端午节假期过了,之前一直在做出行准备,后面旅游完又休息了一下,最近才恢复状态。

端午假期最后一天收到一个快递,回去打开,发现是微信抽奖中的一本书,黄永祥的《实战Python网络爬虫》。

去各大网站搜了一下这个人,没有名气,去网购平台看了他别的书的书评,整体来说,书都是拼凑的。。。

但是既然书到手了,不妨翻开看看,刚好最近没有什么头绪,又偏头痛。花了几个半天整体翻了一下这本书,感觉是有点浅显的。

我之前用java写过爬虫,感觉比较难的还是反爬虫这块。这本书,我先看了第一个实战项目,51job的,运行了代码之后发现,哦,好吧,这个网站,貌似没有反爬虫机制?

其实具体的爬取内容的方法各个网站也是差不多的。主要还是反爬虫这块。但是书上内容不多,只有一个章节。

个人觉得,对于爬虫新手,看一看每章的小结,还是很能增长一些见识的。更深入的技术,大概这本书是不能提供的。

后续有时间,我大概会摘录一些小结放到这里来吧~虽然没什么人看这里。

网络爬虫

定义:自动抓取网络信息

分类

  • 通用网络爬虫/全网爬虫:主要为门户站点搜索引擎大型网站服务采集数据
  • 聚焦网络爬虫/主题网络爬虫:选择性地爬取主题相关的页面
  • 增量式网络爬虫:对已下载网页采取增量式更新/只爬取新产生或已经发生变化的网页
  • 深层网络爬虫:内容不能通过静态URL获取/隐藏在搜索表单后/只有用户提交一些关键词才能获得的页面

网站分析

  1. 找出数据来源:Doc、XHR、JS
  2. 找出数据所在请求,分析请求链接、请求方式、请求参数
  3. 确定参数来源:固定可选值、通过别的请求生成、经过JS处理、特殊值

抓包工具:Fiddler

爬虫库:

  • urllib
  • requests:语法简单,兼容python2和3
  • requests_html:提供了数据清洗、ajax数据动态渲染

爬虫缓存:requests_cache

requests_cache.install_cache(backend='memory')

存储机制

  • memory:每次程序运行都会将缓存以字典形式保存在内存中
  • sqlite:默认存储机制
  • redis:通过redis模块实现数据库的读写
  • mongo:通过pymongo模块实现数据库的读写

网页操控与数据爬取Selenium

手机App数据爬取Appium

验证码识别

  • 人工识别
  • ocr
  • 调用第三方平台API:在线人员、人工智能

数据清洗

  1. 字符串操作:截取、替换、查找、分割
  2. 正则表达式
  3. 第三方模块/库BeautifulSoup

分布式爬虫

并发库concurrent.futures:ThreadPoolExecutor和ProcessPoolExecutor

反爬虫技术

  1. 基于用户请求的Headers→固定属性+可变属性
  2. 基于用户操作网站的行为→代理IP
  3. 基于网站目录数据加载→模拟ajax请求
  4. 基于数据加密
  5. 基于验证码识别
  6. 基于请求参数
  7. 基于cookies→构建cookies池、代理IP、动态构建cookies、利用浏览器获取cookies

《实战Python网络爬虫》- 感想的更多相关文章

  1. 关于Python网络爬虫实战笔记③

    Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则 也就是, http://blog.sina ...

  2. 关于Python网络爬虫实战笔记①

    python网络爬虫项目实战笔记①如何下载韩寒的博客文章 python网络爬虫项目实战笔记①如何下载韩寒的博客文章 1. 打开韩寒博客列表页面 http://blog.sina.com.cn/s/ar ...

  3. 学习推荐《精通Python网络爬虫:核心技术、框架与项目实战》中文PDF+源代码

    随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来.对特定的数据进 ...

  4. Python网络爬虫实战(一)快速入门

    本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...

  5. python网络爬虫实战之快速入门

    本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...

  6. 《精通Python网络爬虫》|百度网盘免费下载|Python爬虫实战

    <精通Python网络爬虫>|百度网盘免费下载|Python爬虫实战 提取码:7wr5 内容简介 为什么写这本书 网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引 ...

  7. python网络爬虫实战PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书

    点击获取提取码:vg1y python网络爬虫实战帮助读者学习Python并开发出符合自己要求的网络爬虫.网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚 ...

  8. python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件)

    python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件) requests是一个Python第三方库,用于向URL地址发起请求 bs4 全名 BeautifulSoup4, ...

  9. 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

    前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

随机推荐

  1. ASP.NET学习笔记(五)ASP 对象

    1.ASP Response 对象用于从服务器向用户发送输出的结果. 2.ASP Request 对象用于从用户那里取得信息 Request.QueryString 命令用于搜集使用 method=& ...

  2. 2018杭电多校第三场1003(状态压缩DP)

    #include<bits/stdc++.h>using namespace std;const int mod =1e9+7;int dp[1<<10];int cnt[1& ...

  3. 基于unity3d游戏的android版本逆向初探

    https://bbs.pediy.com/thread-212532.htm [文章标题]: 基于unity3d游戏的android版本逆向初探 [文章作者]: dreaman [作者邮箱]: [e ...

  4. 《深入理解Java虚拟机》笔记02 -- 垃圾收集算法

    1. 标记 - 清除算法 先标记出所有需要回收的对象,在标记完成后统一回收所有被标记的对象.它是最基础的收集算法.其他收集算法都是根据其思路,改进其不足之处. 缺点:1) 标记和清除两个阶段的效率都不 ...

  5. poj1144 tarjan求割点

    poj1144 tarjan求割点 额,算法没什么好说的,只是这道题的读入非常恶心. 注意,当前点x是否是割点,与low[x]无关,只和low[son]和dfn[x]有关. 还有,默代码的时候记住分目 ...

  6. 对于BeanUtils类的方法populate的一些个人拙见

    今天在做一个登录案列,期间涉及到了BeanUtils类,这个类也是第一次涉及到,视频没有细讲.只能自己摸着石头过河.慢慢思考.下面来说一下自己个人对这个类的方法populate的理解 这个类应该不是单 ...

  7. mac 增加/usr/bin目录的操作无权限

    起因:想要往/usr/bin目录下拷贝文件,提示: operation not permitted 解决办法: 1. 重启,启动中长安command+r进入恢复模式 2.顶部菜单拉中打开终端 3. 输 ...

  8. Atcoder AGC016 E Poor Turkeys

    比赛的时候口胡这道题口胡了一年,看完题解被教做人 题意:有n只火鸡,m个猎人按序来杀火鸡,从自己预先选的两只中杀一只,问有多少火鸡对可以同时存活 考虑对于每一只火鸡i,按时间逆序维护一个最小的集合Si ...

  9. ubuntu上安装ansible

    1 在最新的ubuntu系统上安装ansible : sudo ape-get install ansible 2 切换到root用户 生成ssh免密登陆 ssh-keygen -t rsa ssh- ...

  10. 爬虫(正则)——爬neihan8

    工具:python3 步骤: 1)定义spider类,将具体功能封装成方法 2)观察html页面,写好正确的正则表达式来找到符合规则的文字 3)写一个方法测试一下,保证每写好一个都是对的 4)加入提示 ...