写在前面

今天要抓取的网站为 https://500px.me/ ，这是一个摄影社区，在一个摄影社区里面本来应该爬取的是图片信息，可是我发现好像也没啥有意思的，忽然觉得爬取一下这个网站的摄影师更好玩一些，所以就有了这篇文章的由来。

基于上面的目的，我找了了一个不错的页面 https://500px.me/community/search/user

不过细细分析之后，发现这个页面并不能抓取到尽可能多的用户，因为下拉一段时间，就不能继续了，十分糟心，难道我止步于此了么，显然不可能的，一番的努力之后(大概废了1分钟吧)，我找到了突破口，任意打开一个用户的个人中心页，就是点击上述链接的任意用户头像，出现如下操作。

用户个人中心页面，竟然有关注列表唉~~，nice啊，这个好趴啊，F12分析一下。

哒哒哒，数据得到了。

URL是 https://500px.me/community/res/relation/4f7fe110d4e0b8a1fae0632b2358c8898/follow?startTime=&page=1&size=10&type=json

参数分别如下，实际测试发现size可以设置为100

https://500px.me/community/res/relation/{用户ID}/follow?startTime=&page={页码}&size={每页数据}&type=json

那么我们只需要这么做就可以了

获取关注总数
关注总数除以100，循环得到所有的关注者(这个地方为什么用关注，不用粉丝，是因为被关注的人更加有价值)

明确我们的目标之后，就可以开始写代码了。

撸代码

基本操作，获取网络请求，之后解析页面，取得关注总数。

用户的起始，我选择的id是5769e51a04209a9b9b6a8c1e656ff9566，你可以随机选择一个，只要他有关注名单，就可以。

导入模块，这篇博客，用到了redis和mongo，所以相关的基础知识，我建议你提前准备一下，否则看起来吃力。

import requests

import threading

from redis import StrictRedis

import pymongo

#########mongo部分#########################

DATABASE_IP = '127.0.0.1'

DATABASE_PORT = 27017

DATABASE_NAME = 'sun'

client = pymongo.MongoClient(DATABASE_IP,DATABASE_PORT)

db = client.sun

db.authenticate("dba", "dba")

collection = db.px500  # 准备插入数据

#########mongo部分#########################

#########redis部分#########################

redis = StrictRedis(host="localhost",port=6379,db=1,decode_responses=True)

#########redis部分#########################

#########全局参数部分#########################

START_URL = "https://500px.me/community/v2/user/indexInfo?queriedUserId={}" # 入口链接

COMMENT = "https://500px.me/community/res/relation/{}/follow?startTime=&page={}&size=100&type=json"

HEADERS = {

    "Accept":"application/json",

    "User-Agent":"你自己去找找可用的就行",

    "X-Requested-With":"XMLHttpRequest"

}

need_crawlids = []  # 待爬取的userid

lock = threading.Lock() # 线程锁

#########全局参数部分#########################

def get_followee():

    try:

        res = requests.get(START_URL.format("5769e51a04209a9b9b6a8c1e656ff9566"),

        headers=HEADERS,timeout=3)

        data = res.json()

        if data:

            totle = int(data["data"]["userFolloweeCount"])  # 返回关注数

            userid = data["data"]["id"]	# 返回用户ID

            return {

                "userid":userid,

                "totle":totle

            }  # 返回总数据

    except Exception as e:

        print("数据获取错误")

        print(e)

if __name__ == '__main__':

    start = get_followee()  # 获取入口

    need_crawlids.append(start)

上面代码中有一个非常重要的逻辑，就是为什么要先匹配种子地址的【关注数】和【用户ID】，这两个值是为了拼接下面的URL

https://500px.me/community/res/relation/{}/follow?startTime=&page={}&size=100&type=json

经过分析，你已经知道，这个地方第一个参数是用户id,第二个参数是页码page，page需要通过关注总数除以100得到。不会算的，好好在纸上写写吧~

我们可以通过一个方法，获取到了种子用户的关注列表，以此继续爬取下去，完善生产者代码。关键代码都进行了注释标注。

思路如下：

死循环不断获取need_crawlids 变量中的用户，然后获取该用户的关注者列表。
爬取到的信息，写入redis方便验证重复，快速存储。

class Product(threading.Thread):

    def __init__(self):

        threading.Thread.__init__(self)

        self._headers = HEADERS

    def get_follows(self,userid,totle):

        try:

            res = requests.get(COMMENT.format(userid,totle),headers=HEADERS,timeout=3)

            data = res.json()

            if data:

                for item in data:

                    yield {

                        "userid":item["id"],

                        "totle":item["userFolloweeCount"]

                    }

        except Exception as e:

            print("错误信息")

            print(e)

            self.get_follows(userid,totle)  # 出错之后，重新调用

    def run(self):

        while 1:

            global need_crawlids  # 调用全局等待爬取的内容

            if lock.acquire():

                if len(need_crawlids)==0:  # 如果为0，无法进入循环

                    continue

                data = need_crawlids[0]  # 取得第一个

                del need_crawlids[0]  # 使用完删除

                lock.release()

            if data["totle"] == 0:

                continue

            for page in range(1,data["totle"]//100+2):

                for i in self.get_follows(data["userid"],page):

                    if lock.acquire():

                        need_crawlids.append(i)  # 新获取到的，追加到等待爬取的列表里面

                        lock.release()

                    self.save_redis(i)  # 存储到redis里面

    def save_redis(self,data):

        redis.setnx(data["userid"],data["totle"])

        #print(data,"插入成功")

由于500px无反爬虫，所以运行起来速度也是飞快了，一会就爬取了大量的数据，目测大概40000多人，由于咱是写教程的，我停止了爬取。

这些数据不能就在redis里面趴着，我们要用它获取用户的所有信息，那么先找到用户信息接口，其实在上面已经使用了一次

https://500px.me/community/v2/user/indexInfo?queriedUserId={} 后面的queriedUserId对应的是用户id，只需要从刚才的数据里面获取redis的key就可以了，开始编写消费者代码吧，我开启了5个线程抓取。

class Consumer(threading.Thread):

    def __init__(self):

        threading.Thread.__init__(self)

    def run(self):

        while 1:

            key = redis.randomkey() # 随机获取一个key

            if key:

                # 删除获取到的key

                redis.delete(key)

                self.get_info(key)

    def get_info(self,key):

        try:

            res = requests.get(START_URL.format(key),headers=HEADERS,timeout=3)

            data = res.json()

            if data['status'] == "200":

                collection.insert(data["data"])  # 插入到mongodb中

        except Exception as e:

            print(e)

            return

if __name__ == '__main__':

    start = get_followee()  # 获取入口

    need_crawlids.append(start)

    p = Product()

    p.start()

    for i in range(1,5):

        c = Consumer()

        c.start()

代码没有特别需要注意的，可以说非常简单了，关于redis使用也不多。

redis.randomkey() # 随机获取一个key

redis.delete(key)  # 删除key

(⊙o⊙)…经过几分钟的等待之后，大量的用户信息就来到了我的本地。

完整代码评论留言发送。

写在后面

emmmmmm...... 天天在CSDN写博客，明天就爬CSDN博客吧~~~

Python爬虫入门教程 16-100 500px摄影师社区抓取摄影师数据的更多相关文章

Python爬虫入门教程 20-100 慕课网免费课程抓取
写在前面美好的一天又开始了,今天咱继续爬取IT在线教育类网站,慕课网,这个平台的数据量并不是很多,所以爬取起来还是比较简单的准备爬取打开我们要爬取的页面,寻找分页点和查看是否是异步加载的数据. ...
Python爬虫入门教程 10-100 图虫网多线程爬取
图虫网-写在前面经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的, ...
Python爬虫入门教程 12-100 半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
Python爬虫入门教程： All IT eBooks多线程爬取
All IT eBooks多线程爬取-写在前面对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...
Python爬虫入门教程：半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
Python爬虫入门教程 14-100 All IT eBooks多线程爬取
All IT eBooks多线程爬取-写在前面对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...
Python爬虫入门教程 11-100 行行网电子书多线程爬取
行行网电子书多线程爬取-写在前面最近想找几本电子书看看,就翻啊翻,然后呢,找到了一个叫做周读的网站 ,网站特别好,简单清爽,书籍很多,而且打开都是百度网盘可以直接下载,更新速度也还可以,于是乎, ...
Python爬虫入门教程 26-100 知乎文章图片爬取器之二
1. 知乎文章图片爬取器之二博客背景昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中 ...
Python爬虫入门教程 25-100 知乎文章图片爬取器之一
1. 知乎文章图片写在前面今天开始尝试爬取一下知乎,看一下这个网站都有什么好玩的内容可以爬取到,可能断断续续会写几篇文章,今天首先爬取最简单的,单一文章的所有回答,爬取这个没有什么难度. 找到我们要 ...

随机推荐

JAVA注释--2019-04-28
一.JAVA自带注解 1.@Override:覆盖父类方法 2.@Deprecated:不建议使用(就是方法上画一条横线划掉那种) 3.@SuppressWarnings:去掉警告:使用方法:@Sup ...
微信小程序支付遇到的坑
1,微信公众号支付和微信小程序支付有差异微信公众号:可以直接跳转走h5的微信支付微信小程序:在测试环境.沙箱环境使用微信公众号的跳转支付没有问题,在线上存在支付异常最后商讨的解决方法 openi ...
手写数字识别 ----在已经训练好的数据上根据28*28的图片获取识别概率（基于Tensorflow,Python）
通过: 手写数字识别 ----卷积神经网络模型官方案例详解(基于Tensorflow,Python) 手写数字识别 ----Softmax回归模型官方案例详解(基于Tensorflow,Pytho ...
【java】-- 线程安全
1.线程安全问题介绍与案例分析当多个线程同时共享,同一个全局变量或静态变量,做写的操作时,可能会发生数据冲突问题,也就是线程安全问题.但是做读操作是不会发生数据冲突问题. 案例:需求现在有100张火 ...
HTML 5将给开发者带来什么？
在新的时代里,相信网页技术会伴随HTML 5的来临进入大洗牌的局面,HTML 5旨在解决Web中的交互,媒体,本地操作等问题,一些浏览器已经尝试支持HTML 5的一些功能,而开发者们有望最终从那些We ...
S2.1 修复图像小程序（简单版）
用OpenCV自带的inpaint()演示 CV_EXPORTS_W void inpaint( InputArray src, InputArray inpaintMask, OutputArray ...
margin与padding的bug
1.在页面布局时,值对于块元素来说,相邻的两个兄弟块元素间的margin-top与上一个兄弟的margin-bottom重合时, 解决办法:对其中一个块元素中设置 display:inline- ...
window10 Docker仓库访问
window10 Docker仓库访问 docer官网 docker仓库 windown10 安装docker可以参考 window10安装docker 配置了加速器以后还访问不了,点击托盘处dock ...
详解封装微信小程序组件及小程序坑(附带解决方案)
一.序上一篇介绍了如何从零开发微信小程序,博客园审核变智障了,每次代码都不算篇幅,好好滴一篇原创,不到3分钟从首页移出来了.这篇介绍一下组件封装和我的踩坑历程. 二.封装微信小程序可复用组件首先模 ...
anaconda安装opencv(python)
1.win10 win10没有安装python,只安装了anaconda,然后使用pip安装opencv-python,版本很新,opencv_python4.0.0的. 网速有点莫名其妙,时快时慢 ...

Python爬虫入门教程 16-100 500px摄影师社区抓取摄影师数据

写在前面

撸代码

写在后面

Python爬虫入门教程 16-100 500px摄影师社区抓取摄影师数据的更多相关文章

随机推荐

热门专题