用scrapy框架爬取映客直播用户头像

1. 创建项目 scrapy startproject yingke cd yingke

2. 创建爬虫 scrapy genspider live

3. 分析http://www.inke.cn/hotlive_list.html网页的response，找到响应里面数据的规律，并找到的位置，通过response.xpath()获取到

4. 通过在pipline里面进行数据的清洗，过滤，保存

5. 实现翻页，进行下一页的请求处理

6. 运行爬虫 scrapy crawl live

说明：这个程序直接在parse方法里面进行图片保存，保存在本地，正常使用yield关键字进行在pipline中保存。

# -*- coding: utf-8 -*-

import scrapy

import re

class LiveSpider(scrapy.Spider):

    name = 'live'

    allowed_domains = ['inke.cn']

    start_urls = ['http://www.inke.cn/hotlive_list.html?page=1']

    def parse(self, response):

        div_list = response.xpath("//div[@class='list_box']")

        for div in div_list:

            item = {}

            img_src = div.xpath("./div[@class='list_pic']/a/img/@src").extract_first()

            item["user_name"] = div.xpath(

                "./div[@class='list_user_info']/span[@class='list_user_name']/text()").extract_first()

            print(item["user_name"])

            yield scrapy.Request(  # 发送详情页的请求

                img_src,

                callback=self.parse_img,

                meta={"item": item}

            )

        # 下一页

        now_page = re.findall("page=(.*)", response.request.url)[0]

        now_page= int(now_page)

        next_url = "http://www.inke.cn/hotlive_list.html?page={}".format(str(now_page+ 1))

        yield scrapy.Request(

            next_url,

            callback=self.parse

        )

    def parse_img(self, response):

        user_name = response.meta["item"]["user_name"]

        with open("images/{}.png".format(user_name), "wb") as f:

            f.write(response.body)

运行效果：

用scrapy框架爬取映客直播用户头像的更多相关文章

使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...
使用scrapy框架爬取自己的博文
scrapy框架是个比较简单易用基于python的爬虫框架,http://scrapy-chs.readthedocs.org/zh_CN/latest/ 这个是不错的中文文档几个比较重要的部分: ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...
使用scrapy框架爬取自己的博文（3）
既然如此,何不再抓一抓网页的文字内容呢? 谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图: 这样已经比较明显了,博客的正文内容主要在div 的class = cnblogs_ ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
基于python的scrapy框架爬取豆瓣电影及其可视化
1.Scrapy框架介绍主要介绍,spiders,engine,scheduler,downloader,Item pipeline scrapy常见命令如下: 对应在scrapy文件中有,自己增加 ...
scrapy框架爬取豆瓣读书（1）
1.scrapy框架 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ...

随机推荐

EasyAR 开发实例---AR礼物（简单demo）
一个节日礼物效果 --显示模型在本次的案例中,我使用的是unity5.6.3版本,EasyAR 为2.0.(用1.0的版本,在渲染那块有问题) [导入SDK]到EasyAR官网(http://www ...
Jupyter Notebook 介绍安装和使用技巧
Jupyter Notebook介绍.安装及使用教程原文链接:https://www.jianshu.com/p/91365f343585 目录一.什么是Jupyter Notebook? 1. 简 ...
java第十三周测试记录
今天课上遇到了问题,在我的上一篇随笔,这个阻碍了我很长时间,而且上一次也是这个问题,真的吃一堑不长一智,这次我应该就记住了,嗯. 设计思路: 俩个库: 1.一个库存商品,商品的基本属性和商品的数量(数 ...
Mac使用Clion配置OpenGL
Mac使用Clion配置OpenGL 之前博主是用Xcode配置的openGL,但后来因为要与非Mac队友合作,于是大家决定统一使用Clion,博主于是再次配置开发环境,这里记录一下预先准备 Mac ...
“百度杯”CTF比赛九月场---123
右键查看源代码然后构造user.php,显示空白,源码也是空白,既然上边说用户名,密码了,参考大佬的博客,放文件user.php.bak这是备份文件,一打开上边全是用户名,有戏,爆破添加字典,也就 ...
linux命令之kill篇
作业四:查询firewall进程,然后杀死 [root@localhost 桌面]# ps -aux |grep firewall root 772 0.0 2.0 327912 2 ...
关于实现udev/mdev自动挂载与卸载
在网上有很多关于讲mdev的自动挂载基本上都是一个版本,经过测试自动挂载确实可行,但是关于自动卸载mdev似乎不能很好的支持,经过修改已经可以做到与udev的效果相似.不能在挂载的目录中进行热插拔,否 ...
【LCA&倍增】货物运输 @upcexam5909
时间限制: 1 Sec 内存限制: 128 MB 题目描述在一片苍茫的大海上,有n座岛屿,岛屿与岛屿之间由桥梁连接,所有的岛屿刚好被桥梁连接成一个树形结构,即共n-1架桥梁,且从任何一座岛屿出发都能 ...
python算法练习
6. 约瑟夫环问题:已知n个人(以编号1,2,3...n分别表示)围坐在一张圆桌周围.从编号为k的人开始报数,数到k的那个人被杀掉:他的下一个人又从1开始报数,数到k的那个人又被杀掉:依此规律重复下去 ...
Windows下NetBeans中文乱码解决办法
找到你的Netbeans安装目录下的etc文件夹,用记事本打开netbeans.conf,找到netbeans_default_options(不是最后那个带句号的…), 在其属性的最后(冒号以内)加 ...

用scrapy框架爬取映客直播用户头像

用scrapy框架爬取映客直播用户头像的更多相关文章

随机推荐

热门专题