Python 3.6 抓取微博m站数据

2019.05.01 更新内容

containerid 可以通过 "107603" + user_id 组装得到，无需请求个人信息获取；
优化多线程抓取，修复之前因urllib.request全局定义，导致代理无法正常切回本地IP；
优化分布式抓取策略，由每台机器顺序获取用户ID 再拼装URL抓取策略，修改为每台机器顺序获取URL进行抓取。防止由于某个微博账号微博动态过多导致负责本ID的机器长时间运行，而其他机器就要等待，浪费时间和资源。
加入IP代理池维护脚本，可以定时维护代理池中的有效代理IP，及时剔除无效IP。
加入Redis定时消费脚本，解决因抓取结果过大导致redis性能下降。
增加Redis连接池ConnectionPool ，解决因Redis链接端口数过多导致Redis拒绝服务错误。
调整Redis数据存储结构，采用list+set结合，存储UID+URL
单机https代理消费约100元/天，单机5个进程+代理每天能达到1000万条数据

本脚本截止20190501

网址： https://m.weibo.cn/u/5463009082 新浪微博m站（智能手机网页端）
api ： https://m.weibo.cn/api/container/getIndex?type=uid&value=5463009082&containerid=1076035463009082
抓取：根据用户userId抓取历史发布的微博信息
方法： python请求api接口（非页面）
反扒：疯狂抓取10-20s，IP会被禁封1-3分钟或者抓取2分钟禁封10分钟
备注：无需登录+IP代理池
环境： Windosw或Linux、Python 3.6、Mysql、Redis

类型	效果	代理花费
单机版（多线程+多进程）	150万/天	0
单机版（多线程+多进程）+IP代理池	1000万/天	100元/天
分布式（多线程+多进程）+IP代理池	千万~亿级	100*机器数量/天

抓取流程

启动save_uid.py脚本将准备好的微博用户ID，存入Redis中，保存两份；
- r.lpush(WEIBO_UID_LIST_KEY, uid) 用于第一次遍历UID请求每个UID的总页数，然后生成每个UID的所有URL。
- r.sadd(WEIBO_UID_SET_KEY, uid) 用于第二次请求，随机获取一个未抓取完的UID，去Redis中取当前UID剩余的URL进行抓取，全部抓取完毕则移除此UID。
启动proxy_pool.py脚本，初始化IP代理池（如果不使用代理，此步骤可略过）
- target_money 用来获取你所购买的IP代理剩余金额的URL连接
- target_ip 请求代理IP获取有效的代理IP
- targetUrl 用来校验当前IP是否有效
- WEIBO_PROXY_SET_KEY 存储有效的代理IP
- WEIBO_PROXY_418_SET_KEY 存储已经出现418错误的IP，会循环利用，直到代理失效
- WEIBO_ERROR_PROXY_SET_KEY 存储已经使用过的IP（失效IP），用于后期校验
启动start_crawler.py脚本，开启抓取任务
- 首先会第一次请求遍历UID，生成所有的URL，然后所有的线程获取URL进行抓取
- 先会尝试使用本地IP进行抓取，本地IP出现418之后，尝试去IP代理池获取可使用的IP，继续抓取
- 使用代理IP抓取超过60s，停止代理抓取改为使用本地IP，循环进行
- 代理IP出现418，则先去尝试使用本地IP，如果本地418再继续更换代理
- 如果代理池没有可用IP，则休息30s，继续使用本地IP
添加Linux定时脚本，定时处理Redis队列中的抓取结果。

关于代理IP

抓取微博的https连接，只能使用https代理，可选择市面上其他类型的代理商；
免费的代理ip也有尝试，不过效果不是很好

部署问题

需要一台主服务器（或者本机Windows电脑）来初始化运行 save_uid.py 和 proxy_pool.py脚本
在Redis所在的服务器进行redis_consumer.py脚本的运行部署
start_crawler.py 可以集群部署到多台服务器，但要保证都能网络连通到Redis服务器
添加定时脚本crontab -e 内容如下
0 */1 * * * nohup python /data/hw/redis_consume.py > /dev/null 2>&1 &
service cron restart 重启cron定时服务
创建start.sh 开启多进程抓取
```bash
#!/bin/bash
# 开始爬虫程序;

for((i=1;i<=5;i++));
do
nohup python /data/hw/start_crawler.py 1>/dev/null 2>&1 &
echo "开启爬虫程序进程"+$i
done

sleep 5s
echo "已开启以下进程"
ps -ef|grep python

```

20190501目录

proxy_pool.py #维护IP代理池
redis_consume.py #redis定时消费
save_uid.py #初始化uid
start.sh #一键启动脚本
start_crawler.py #开启抓取程序，可以集群部署

旧版本README

README_20190307.md

项目地址

https://github.com/JiaoHongwei/Crawler_weibo

Python 3.6 抓取微博m站数据的更多相关文章

Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
【转】Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python实例之抓取淘宝商品数据（json型数据）并保存为TXT
本实例实现了抓取淘宝网中以‘python’为关键字的搜索结果,经详细查看数据存储于html文档中的js脚本中,数据类型为JSON 具体实现代码如下: import requests import re ...
Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫：抓取手机APP的数据
摘要大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1.抓取APP数据包表单: 表单中包括了用户名和密码,当然都是加密 ...
Python实例之抓取HTML中的数据并保存为TXT
本实例实现了抓取捧腹网中存储于html中的笑话数据(非JSON数据) 通过浏览器相关工具发现捧腹网笑话页面的数据存储在HTML页面而非json数据中,因此可以直接使用soup.select()方法来抓 ...
用python+selenium抓取微博24小时热门话题的前15个并保存到txt中
抓取微博24小时热门话题的前15个,抓取的内容请保存至txt文件中,需要抓取排行.话题和阅读数 #coding=utf-8 from selenium import webdriver import ...
[Python爬虫] 之八：Selenium +phantomjs抓取微博数据
基本思路:在登录状态下,打开首页,利用高级搜索框输入需要查询的条件,点击搜索链接进行搜索.如果数据有多页,每页数据是20条件,读取页数然后循环页数,对每页数据进行抓取数据. 在实践过程中发现一个问题 ...
[Python爬虫] 之四：Selenium 抓取微博数据
抓取代码: # coding=utf-8import osimport refrom selenium import webdriverimport selenium.webdriver.suppor ...

随机推荐

虚拟机CentOS创建/使用快照
快照 1.什么是快照说的直白一点,就是创建一个备份.当执行了不可逆的错误操作后,可以通过快照用来恢复系统 2.创建快照的三种模式挂载状态下创建快照开机状态下创建快照关机状态下创建快照 3.如何 ...
PAT(B) 1030 完美数列 - C语言 - 滑动窗口 & 双指针
题目链接:1030 完美数列 (25 point(s)) 给定一个正整数数列,和正整数 $p$,设这个数列中的最大值是 $M$,最小值是 $m$,如果 $M≤mp$,则称这个数列是完美 ...
【Oracle】获取SQL执行计划
一.plsql developer工具F5 在sqldeveloper中选中sql按F5即可查看执行计划
记一次奇怪的python多个变量拼接后的字符串丢失事件
在一次脚本运行中出现了多个变量拼接后的值出现丢失情况. a = "hello " b = "ketty" c = a + b + "!" 预 ...
c# sharepoint client object model 客户端如何创建中英文站点
c# sharepoint client object model 客户端如何创建中英文站点 ClientContext ClientValidate = tools.GetContext(Onlin ...
SpringbBoot之JPA批量更新
菜鸟学习,不对之处,还请纠正. 需要批量更新数据库的某些数据,项目使用的是JPA,刚对mybatis熟悉一点,又换成了JPA... 有点懵. 查询了一番之后,发现可以使用 In findByIdIn( ...
python（生成器）
生成器先从列表生成式说起可以通过简单的式子,生成有规律的列表如果把 [ ] 换为 ( ) 会发生什么呢? 看到 x 存的不再是列表,而是一个地址,而这个地址就是我们的生成器对象的地址这东西有什 ...
bootstrap fileinput实现限制图片上传数量及如何控制分批多次上传
废话没有,直奔主题问题点: fileinput提供了一个maxFileCount用于限制图片上传的数量,设置maxFileCount为1时,一次性选择超过一张会有如下提示: 当选择一张,不点上传,再 ...
Linux E667 同步失败
在使用Vim编辑/proc目录下的文件后,保存,显示"E667 同步失败" 原因因为proc这个目录是一个虚拟文件系统,它放置的数据都是在内存中,本身不占有磁盘空间,所以使用Vi ...
unity shader入门（三）逐像素光照，Blinn-Phong模型
与上篇逐顶点光照很像,只是改为在片元着色器中计算光照,下为逐像素光照shader Shader "study/Chapter6/PixelShader"{ Properties{ ...

Python 3.6 抓取微博m站数据

Python 3.6 抓取微博m站数据

2019.05.01 更新内容

本脚本截止20190501

抓取流程

关于代理IP

部署问题

20190501目录

旧版本README

项目地址

Python 3.6 抓取微博m站数据的更多相关文章

随机推荐

热门专题