python 爬取京东手机图

初学urllib，高手勿喷...

import re

import urllib.request

#函数：每一页抓取的30张图片

def craw(url,page):

    imagelist = []#这里每次都要重新定义新的空列表，第一次没有定义结果爬取的都是一样的图片

    html1 = urllib.request.urlopen(url)

    data = str(html1.read())

    patter1 = '<li class="gl-item".+?</li>'

    result1 = re.compile(patter1).findall(data)

    patter2 = '//img.+?.jpg'#用.+?代表的是中间可是是任意多个字符

    for i in range(30):

        result_temp = result1[i]

        imagelist.append(re.compile(patter2).findall(result_temp))#用compile和findall得出的是列表，再将得到的列表加入整个的一个列表

    for i in range(1,30):#一开始调试用的是笨办法一个个的点，后来发现可以在断点处设置i==4

        try:#在imagelist中有存在图片抓取失败的情况，最懒的解决办法就是用try——except，无论出现什么情况都pass掉

            imageurl = "http:"+str(imagelist[i][0])

            imagename = "D:/picture/"+str(page)+str(i)+".jpg"

            result = urllib.request.urlopen(imageurl)#得到图片的地址后，**还是用打开连接用read()得到data的方法获取图片

            if (result.getcode() != 200):#如果链接不正常，则跳过这个链接

                pass

            else:

                data = result.read()  # 否则开始下载到本地

                with open(imagename, "wb") as code:

                    code.write(data)

                    code.close()

        except:

            pass

url = 'https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E6%89%8B%E6%9C%BA&cid2=653&cid3=655&page='

for i in range(2,10):#先从2页爬取到9页

    url_new = url + str(2*i-1)#分析每页的地址将page后的无用的地方删去，再加上（2n-1），n为页数

    craw(url_new,i)

python 爬取京东手机图的更多相关文章

Java实现爬取京东手机数据
Java实现爬取京东手机数据最近看了某马的Java爬虫视频,看完后自己上手操作了下,基本达到了爬数据的要求,HTML页面源码也刚好复习了下,之前发布两篇关于简单爬虫的文章,也刚好用得上.项目没什么太 ...
使用Python 爬取京东，淘宝。商品详情页的数据。（避开了反爬虫机制）
以下是爬取京东商品详情的Python3代码,以excel存放链接的方式批量爬取.excel如下代码如下 from selenium import webdriver from lxml import ...
Python 爬虫-爬取京东手机页面的图片
具体代码如下: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib ...
python爬取京东评论
一.分析 1.找到京东商品评论所在位置(记得点击商品评论,否则找不到productPageComments.action) 2.解析文件打开后发现是json数据,但不是那么规范,所以需要去点前面的 ...
python爬取京东价格
昨天准备爬取一个京东商品的价格,正则写好了一直是空的后来我去页面里面看了下,价格标签里果然是空的百度了下,大家都说是js来控制显示价格的于是去抓包试试,找到了一条mgets的请求中间很多参数不 ...
毕设二:python 爬取京东的商品评论
# -*- coding: utf-8 -*- # @author: Tele # @Time : 2019/04/14 下午 3:48 # 多线程版 import time import reque ...
教你用python爬取网站美女图（附代码及教程）
我前几篇文章都是说一些python爬虫库的用法,还没有说怎样利用好这些知识玩一些好玩的东西.那我今天带大家玩好玩又刺激的,嘻嘻!对了,requests库和正则表达式很重要的,一定要学会!一定要学会!! ...
python3[爬虫实战] 使用selenium，xpath爬取京东手机
使用selenium ,可能感觉用的并不是很深刻吧,可能是用scrapy用多了的缘故吧.不过selenium确实强大,很多反爬虫的都可以用selenium来解决掉吧. 思路: 入口: 关键字搜索入口 ...
C#爬取京东手机数据+PowerBI数据可视化展示
此系列博文链接 C#爬虫基本知识 Html Agility Pack解析html TODO: EF6中基本认识. EF6操作mysql MySQL乱码问题 C#爬虫在开头贴一下github仓库地址, ...

随机推荐

访问Hsql .data数据库文件
一.Hsql简介: hsql数据库是一款纯Java编写的免费数据库,许可是BSD-style的协议. 仅一个hsqldb.jar文件就包括了数据库引擎,数据库驱动,还有其他用户界面操作等内容.下载地址 ...
案例：java进制互转
十进制转成十六进制: Integer.toHexString(int i) 十进制转成八进制 Integer.toOctalString(int i) 十进制转成二进制 Integer.toBina ...
20145310《网络对抗》注入shellcode及Return-to-libc
Shellcode注入基础知识 Shellcode实际是一段代码,但却作为数据发送给受攻击服务器,将代码存储到对方的堆栈中,并将堆栈的返回地址利用缓冲区溢出,覆盖成为指向 shellcode的地址. ...
三星核S5PV210AH-A0 SAMSUNG
三星S5PV210AH-A0 S5PV210又名“蜂鸟”(Hummingbird),是三星推出的一款适用于智能手机和平板电脑等多媒体设备的应用处理器,S5PV210和S5PC110功能一样,110小封 ...
UVa 11082 Matrix Decompressing - 网络流
开始眨眼一看怎么也不像是网络流的一道题,再怎么看也觉得像是搜索.不过虽然这道题数据范围很小,但也不至于搜索也是可以随随便便就可以过的.(不过这道题应该是special judge,因为一题可以多解而且 ...
Linux进程间通信--使用信号量【转】
本文转载自:http://blog.csdn.net/ljianhui/article/details/10243617 这篇文章将讲述别一种进程间通信的机制——信号量.注意请不要把它与之前所说的信号 ...
arm linux下编译库System.Net.Primitives.dll和System.Xml.XmlSerializer.dll
1.环境: /home/jello # uname -aLinux 3.10.0 #2 SMP Mon Mar 6 17:52:09 CST 2017 armv7l GNU/Linux 2.获取mo ...
BZOJ2819: Nim 树链剖分
Description 著名游戏设计师vfleaking,最近迷上了Nim.普通的Nim游戏为:两个人进行游戏,N堆石子,每回合可以取其中某一堆的任意多个,可以取完,但不可以不取.谁不能取谁输.这个游 ...
v-if和v-show区别
v-if和v-show区别 v-if判断是否要加载,可以减轻服务器压力,按需加载. v-show 利用了css的display,可以提高客户端的流畅度. 看需求使用那个,如果页面上会经常用到,用v-s ...
【译】第1节--- EF Code First 介绍
原文:http://www.entityframeworktutorial.net/code-first/entity-framework-code-first.aspx 本教程涵盖了code fir ...

python 爬取京东手机图

python 爬取京东手机图的更多相关文章

随机推荐

热门专题