scrapy中css选择器初识

由于最近做图片爬取项目，涉及到网页中图片信息的选择，所以边做边学了点皮毛，有自己的心得

百度图库是ajax加载的，所以解析json数据即可

 hjsons = json.loads(response.body)

        img_datas = hjsons['data']

        if hjsons:

            for data in img_datas:

                try:

                    item = Bd_Item()

                    #print(data['fromPageTitleEnc'])

                    #print(data['thumbURL'])

                    item['img_url'] = data['thumbURL']

                    item['img_title'] = data['fromPageTitleEnc']

                    item['width'] = data['width']

                    item['height'] = data['height']

                    yield item

                except:

                    pass

千图网抠图是分页加载

http://588ku.com/sucai/0-default-0-0-yueliang-0-1/

qt_imgs = response.css('.org-img-wrap .picture-list')

        for qt_img in qt_imgs:

            try:

                item = Qt_Item()

                img_url = qt_img.css('.img-show .lazy::attr(data-original)').extract_first()

                title = qt_img.css('.img-show .lazy::attr(title)').extract_first()

                size = qt_img.css('.hover-pic-detail .pic-info .info-title::text').extract_first()

                #width = re.findall(r'(.*?)\*',size).extract_first()

                #height = re.findall(r'\*(.*?)', size).extract_first()

                #print(width)

                #print(height)

                #time.sleep(10)

                item['qtimg_url'] = img_url

                item['qtimg_title'] = title

                item['size'] = size

                #item['width'] = width

                #item['height'] = height

                yield item

            except:

                pass

觅元素和千图网差不多，但是选取图片链接有技巧，千图网图片可以看到有两个图片链接，其中data-original这个链接不同处理即可，但是如果选src会发现，选取出来的链接都是一样的，而且当你打开链接时发现黑色一片，我感觉这是种保护吧，但只有这一种链接该怎么办呢，于是我用正则去选择，结果发现，抓取结果中有两条链接，而第一条是无用的，第二条才是有用的，它的名字是data-src,这就好办了，只需要把src改成data-src即可成功选取。

 mys_imgs = response.css('.content-wrap .w1200 .f-content .i-flow-item')

        for mys_img in mys_imgs:

            try:

                item = Mys_Item()

                img_url = mys_img.css('.img-out-wrap .img-wrap img::attr(data-src)').extract_first()

                title = mys_img.css('.img-out-wrap .img-wrap img::attr(alt)').extract_first()

                size = mys_img.css('.i-title-wrap a::text').extract_first()

                size_detail = re.findall(r'\((.*?)\)',size)

                #text = mys_img.css('.img-wrap .lazy').extract_first()

                # time.sleep(10)

                #img_url = re.findall(r'src="(.*?)!/fw/260/quality/90/unsharp/true/compress/true"', text)

                #width = re.findall(r'(.*?)x', size_detail).extract_first()

                #height = re.findall(r'x(.*?)', size_detail).extract_first()

                item['mysimg_url'] = img_url

                item['mysimg_title'] = title

                item['size'] = size_detail

                #item['width'] = width

                #item['height'] = height

                yield item

            except:

                pass

这东西有点意思，需要琢磨，以后用到再慢慢学吧

scrapy中css选择器初识的更多相关文章

使用scrapy中xpath选择器的一个坑点
情景如下: 一个网页下有一个ul,这个ur下有125个li标签,每个li标签下有我们想要的 url 字段(每个 url 是唯一的)和 price 字段,我们现在要访问每个li下的url并在生成的请求中 ...
爬虫学习笔记（2）--创建scrapy项目&&css选择器
一.手动创建scrapy项目---------------- 安装scrapy: pip install -i https://pypi.douban.com/simple/ scrapy 1 ...
爬虫（十一）：scrapy中的选择器
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTM ...
selenium中CSS选择器定位
selenium元素定位,CSS选择器定位效率会高很多. CSS选择器用于选择你想要的元素的样式的模式.表格摘自“菜鸟教程”,具体用法可去查阅选择器示例示例说明 CSS .class .intr ...
Scrapy的中Css 选择器
//通过名为 video_part_lists 的Class 中下面的 li 标签 liList = response.css('.video_part_lists li') for li in l ...
Scrapy基础------css选择器基础
基本语法: * 选择所有节点 #container 选择id为container的节点 .container 选择所有class包含container的节点 li a 选取所有li 下所有a节点 ul ...
第 13 章 CSS 选择器[上]
学习要点: 1.选择器总汇 2.基本选择器 3.复合选择器 4.伪元素选择器主讲教师:李炎恢本章主要探讨 HTML5 中 CSS 选择器,通过选择器定位到想要设置样式的元素.目前 CSS 选择器的 ...
第七十节，css选择器
css选择器学习要点: 1.选择器总汇 2.基本选择器 3.复合选择器 4.伪元素选择器本章主要探讨 HTML5中 CSS选择器,通过选择器定位到想要设置样式的元素.目前CSS选择器的版本已经升 ...
初始scrapy,简单项目创建和CSS选择器,xpath选择器(1)
一安装 #Linux: pip3 install scrapy #Windows: a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu ...

随机推荐

牛客网-2018年全国多校算法寒假训练营练习比赛（第四场）-A
解题思路:二分图的最大匹配,但这题是所有点都遍历一遍,所以答案/2: 代码: #include<iostream> #include<algorithm> #include&l ...
BZOJ3876[Ahoi2014&Jsoi2014]支线剧情——有上下界的最小费用最大流
题目描述 [故事背景] 宅男JYY非常喜欢玩RPG游戏,比如仙剑,轩辕剑等等.不过JYY喜欢的并不是战斗场景,而是类似电视剧一般的充满恩怨情仇的剧情.这些游戏往往都有很多的支线剧情,现在JYY想花费 ...
Tournament ZOJ - 4063 （青岛区域赛 F 打表）
打表题.. 规律是找出来了奈何优化不了 .... #include <iostream> #include <cstdio> #include <sstream> ...
bzoj 1483: [HNOI2009]梦幻布丁 (链表启发式合并）
Description N个布丁摆成一行,进行M次操作.每次将某个颜色的布丁全部变成另一种颜色的,然后再询问当前一共有多少段颜色. 例如颜色分别为1,2,2,1的四个布丁一共有3段颜色. Input ...
mysql 导入sql 2006 - mysql server has gone away 导入
解决办法:找到你的mysql目录下的my.ini配置文件,加入以下代码 max_allowed_packet=500M wait_timeout=288000 interactive_timeout ...
【Gym 100812C】Story of Princess (走完图所有边)
BUPT2017 wintertraining(15) #7A 题意给你一个图,n个点m条边,求走遍所有边,至少经过几次点,及输出依次经过的点.n and m (2 ≤ n ≤ 10^5, 1 ≤ ...
zabbix 监控 WEB 应用性能
1.介绍使用 zabbix_sender 发送采集的 WEB 状态值,使用 pycurl 来采集 WEB 状态zabbix_sender发送数据,需保证主机名与zabbix server记录的主机名一 ...
Linux 遍历目录下面所有文件，将目录名、文件名转为小写
当你从 Windows 服务器换到 Linux 服务器的时候,以前的上传目录的目录名.文件名会遇到大小写的问题.在 Windows 环境下面没有文件区分大小写的概念,而 Linux 却有严格的文件名大 ...
SDOI2017 Round1 简要题解
我们 TM 怎么又要上文化课..我哔哔哔哔哔哔「SDOI2017」数字表格题意有 \(T\) 组数据,求 \[ \prod_{i = 1}^{n} \prod_{j = 1}^{m} fib[ ...
Codeforces | CF1033D 【Divisors】
题目大意:给定\(n(1\leq n\leq500)\)个数\(a_1,a_2\cdots,a_n(1\leq a_i\leq2\cdot10^{18})\),每个数有\(3\sim5\)个因数,求\ ...

scrapy中css选择器初识

scrapy中css选择器初识的更多相关文章

随机推荐

热门专题