Python 爬虫方法总结

实现爬虫的套路

准备URL
- 准备start_url
  - url地址规律不明显，总数不确定
  - 通过代码提取下一页的url
    - 通过xpath提取
    - 寻找url地址，部分参数在当前的响应中（比如当前页码数和总页码数在当前的响应中）
- 准备url_list
  - 页码总数明确的时候
  - url地址规律明显
发送请求，获取响应
- 添加随机的User-Agent，反反爬虫
- 添加随机的代理IP，反反爬虫
- 在对方判断出我们是爬虫之后，应该添加更多的headers字段，包括cookie
- cookie的处理可以使用session解决
- 准备一堆能用的cookie，组成cookie池
  - 如果不登陆
    - 准备刚开始能够成功请求对方网站的cookie，即接受对方网站设置在response的cookie
    - 下一次请求的时候，使用之前的列表中的cookie来请求
  - 如果登录
    - 准备多个账号
    - 使用程序获取每个账号的cookie
    - 之后请求登录之后才能访问的网站随机的选择cookie
提取数据
- 确定数据的位置
  - 如果数据在列表当前的地址中
    - 提取的是列表页的数据
      - 直接请求列表页的url地址，不用进去详情页
    - 提取的是详情页的数据
      - 确定url
        
        发送请求
        
        提取数据
        
        返回
  - 如果数据不在当前的url地址中
    - 在其他的响应中，寻找数据的位置
      - 从network中从上往下找
        
        使用chrome中的【过滤条件，选择除了js，css，img之外的选项
        
        使用chrome的search all file，搜索数字和英文
- 数据的提取
  - xpath，从html中提取整块的数据，先分组，之后每一组再提取
  - re（正则），提取max_time，price，html中的json字符串
  - json
保存
- 保存在本地（text, json, csv）
- 保存在数据库

Python 爬虫方法总结的更多相关文章

[python爬虫] Selenium常见元素定位方法和操作的学习介绍
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法.鼠标操作.键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~同时CSDN总是屏蔽这篇文章,再加上最近 ...
python 爬虫数据存入csv格式方法
python 爬虫数据存入csv格式方法命令存储方式:scrapy crawl ju -o ju.csv 第一种方法:with open("F:/book_top250.csv" ...
Python爬虫防封杀方法集合
Python爬虫防封杀方法集合 mrlevo520 2016.09.01 14:20* 阅读 2263喜欢 38 Python 2.7 IDE Pycharm 5.0.3 前言 ...
Python爬虫编程常见问题解决方法
Python爬虫编程常见问题解决方法: 1.通用的解决方案: [按住Ctrl键不送松],同时用鼠标点击[方法名],查看文档 2.TypeError: POST data should be bytes ...
[python爬虫] Selenium常见元素定位方法和操作的学习介绍(转载)
转载地址:[python爬虫] Selenium常见元素定位方法和操作的学习介绍一. 定位元素方法官网地址:http://selenium-python.readthedocs.org/locat ...
Python 爬虫的代理 IP 设置方法汇总
本文转载自:Python 爬虫的代理 IP 设置方法汇总 https://www.makcyun.top/web_scraping_withpython15.html 需要学习的地方:如何在爬虫中使用 ...
Python爬虫突破封禁的6种常见方法
转 Python爬虫突破封禁的6种常见方法 2016年08月17日 22:36:59 阅读数:37936 在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长.今天大众好像更倾向于用 ...
Python爬虫—requests库get和post方法使用
目录 Python爬虫-requests库get和post方法使用 1. 安装requests库 2.requests.get()方法使用 3.requests.post()方法使用-构造formda ...
Python爬虫beautifulsoup4常用的解析方法总结（新手必看）
今天小编就为大家分享一篇关于Python爬虫beautifulsoup4常用的解析方法总结,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧摘要如何用beau ...
Python爬虫老是被封的解决方法【面试必问】
在爬取的过程中难免发生 ip 被封和 403 错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下 Python 爬虫动态 ip 代理防止被封的方法. PS:另外很多人在学习Pyth ...

随机推荐

基于python+django的电影搜索网站-搜索引擎系统设计与实现
该项目是基于python的web类库django开发的一套web网站,给师弟做的课程设计. 本人的研究方向是一项关于搜索的研究项目.在该项目中,笔者开发了一个简单版的搜索网站,实现了对数据库数据的检索 ...
[转帖]Unicode标准中定义的3个私有使用区域-一个基本区域+两个补充区域
Unicode私有使用区域目录 1.概述 2.Unicode标准中的描述 2.1.基本多语言平面的私有区域 2.2.补充私有区域 2.3.私有区域位置 3.实际测试 3.1.测试代码 3.2.测试结 ...
[转帖]sql server 索引阐述系列六碎片查看与解决方案
https://www.cnblogs.com/MrHSR/p/9365720.html 一 . dm_db_index_physical_stats 重要字段说明 1.1 内部碎片:是avg_pag ...
[转帖]KVM调整磁盘大小
https://www.jianshu.com/p/5ca598424eb9 一台win10的虚拟机磁盘空间不足了,需要调整磁盘的大小.上网搜索KVM调整磁盘大小,结果得出的博客都说只有raw格式的能 ...
Clickhouse 极简单机版本安装部署
Clickhouse 极简单机版本安装部署摘要 Clickhouse的安装与部署其实比较简单. 但是为了能够更加简单的部署与使用. 尤其是能够可以方便的添加到镜像内进行运行. 所以记录一下方便快捷的 ...
[转帖]elasticsearch 8.0 linux安装部署
1. 下载安装包 https://www.elastic.co/cn/downloads/elasticsearch 选择下载linux版本,elasticsearch-8.0.0-linux-x86 ...
/dev/null 先后顺序的问题
https://blog.csdn.net/x1131230123/article/details/114317752
date的命令使用.
date命令的使用 1.直接用date命令显示日期时间在命令行中输入date然后回车,显示结果"Wed Aug 7 08:58:07 CST 2019".这是系统根据设定的时区显 ...
@Transaction注解的失效场景
作者:京东物流孔祥东背景事情是这样,最近在实现一个需求的时候,有一个定时异步任务会捞取主表的数据并置为处理中(为了防止任务执行时间过长,下次任务执行把本次数据重复捞取),然后根据主表关联明细表数 ...
echarts饼图的配置封装组件的注意点
1==>tooltip 类似饰hover效果提示框组件.光标放上去会触发 2==>formatter // 饼图 {a}(系列名称),{b}(数据项名称),{c}(数值), {d}(百分比 ...

Python 爬虫方法总结

Python 爬虫方法总结的更多相关文章

随机推荐

热门专题