引言

王者荣耀大家都玩过吧，没玩过的也应该听说过，作为时下最火的手机MOBA游戏，咳咳，好像跑题了。我们今天的重点是爬取王者荣耀所有英雄的所有皮肤，而且仅仅使用20行Python代码即可完成。

文中源代码在文章末尾，可自行复制粘贴。

准备工作

爬取皮肤本身并不难，难点在于分析，我们首先得得到皮肤图片的url地址，话不多说，我们马上来到王者荣耀的官网：

我们点击英雄资料，然后随意地选择一位英雄，接着F12打开调试台，找到英雄原皮肤的图片地址：

接着，我们切换一下英雄的皮肤，会发现图片地址没有明显的变化，只是最后的数字序号改变了，我们将两个皮肤图片的地址放在一起比较一下：

http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/523/523-bigskin-1.jpg

http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/523/523-bigskin-2.jpg

我们可以猜测，对于同一个英雄的皮肤图片地址，仅仅是最后的数字序号不同，为了证实我们的猜想，我们可以继续找出一个英雄的全皮肤图片，找一个皮肤多一点的，例如我这里找的是孙尚香，将它的所有皮肤图片地址放在一起比较：

http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-1.jpg

http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-2.jpg

http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-3.jpg

http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-4.jpg

http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-5.jpg

http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-6.jpg

http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-7.jpg

由此我们得出结论，同一个英雄的皮肤图片路径从1开始依次递增，我们再来看看不同英雄之间是如何区分的。会发现，不管皮肤图片如何改变，浏览器上方的地址始终是不变的，所以我们将两个不同英雄的url地址放到一起比较一下：

https://pvp.qq.com/web201605/herodetail/523.shtml

https://pvp.qq.com/web201605/herodetail/111.shtml

乍一看，似乎没有什么规律，但我们要从这里发现一点，就是最后的数字其实控制的是哪个英雄，我们暂且认为它是英雄的编号，可不幸的是，英雄编号之间好像没有什么规律，不用着急，我们再到官网上找找线索。

在英雄资料界面，我们打开F12调试台，通过抓取网络请求，我发现了几个文件：

点击网络，然后点击XHR，就可以看到这几个文件，看到文件的名字大家应该就清楚了，这些文件存储的就是英雄列表信息，我们点击查看一下：

在这里插入图片描述

没错，这里存储的就是英雄信息，包括英雄的名字，英雄编号等等其它信息，我们可以试试这些信息的准确性，例如小乔的ename，也就是英雄编号为106，所以按照之前的想法，英雄小乔的详情地址应为：https://pvp.qq.com/web201605/herodetail/106.shtml

经过尝试后发现确实如此。

到这里，准备工作就完成了，其实进行到这里，整个工程就完成了一半了，接下来就是代码的实现了。

代码实现

首先我们创建一个Python文件，然后导入os和requests模块。

按照前面的步骤，我们首先需要获取到英雄列表信息，也就是herolist.json文件，文件地址为：https://pvp.qq.com/web201605/js/herolist.json，这在调试台中可以找到。

那么我们首先就要通过这个地址获取到英雄列表信息的json数据，然后解析json数据，将有用的信息提取出来：

url = 'https://pvp.qq.com/web201605/js/herolist.json'

herolist = requests.get(url)  # 获取英雄列表json文件

herolist_json = herolist.json()  # 转化为json格式

hero_name = list(map(lambda x: x['cname'], herolist.json()))  # 提取英雄的名字

hero_number = list(map(lambda x: x['ename'], herolist.json()))  # 提取英雄的编号

这样我们就获取到了英雄名字和编号，可以输出测试一下：

拿到了英雄编号之后，事情就变得很简单了，只需拼接一下url地址即可：

http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + hero_number + '/' + hero_number + '-bigskin-1.jpg，这样可以获取到所有英雄的皮肤图片了，但是这里会有一个问题，英雄的皮肤是有多有少的，有的英雄只有两个皮肤，有的却有六七个，所以图片编号的最大值我们并不清楚，这里我采用了一个比较笨的办法，就是让一个变量从1到10依次递增去拼接图片地址，如果遇到没有的图片我们就不处理，因为没有一个英雄的皮肤超过了10个，所以我们就能获取到所有的图片了。下面看代码实现：

# 下载图片

def downloadPic():

    i = 0

    for j in hero_number:

        # 创建文件夹

        os.mkdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i])

        # 进入创建好的文件夹

        os.chdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i])

        i += 1

        for k in range(10):

            # 拼接url

            onehero_link = 'http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(

                j) + '-bigskin-' + str(k) + '.jpg'

            im = requests.get(onehero_link)  # 请求url

            if im.status_code == 200:

                open(str(k) + '.jpg', 'wb').write(im.content)  # 写入文件

实现非常地简单，代码注释也已经写得很清楚了，有了这个函数之后，我们只需调用一下，就可以下载图片了，整个程序的完整代码如下：

import os

import requests

# python0基础小白加群：456926667，获取更多的python练手项目、练习，以及学习交流。

url = 'https://pvp.qq.com/web201605/js/herolist.json'

herolist = requests.get(url)  # 获取英雄列表json文件

herolist_json = herolist.json()  # 转化为json格式

hero_name = list(map(lambda x: x['cname'], herolist.json()))  # 提取英雄的名字

hero_number = list(map(lambda x: x['ename'], herolist.json()))  # 提取英雄的编号

# 下载图片

def downloadPic():

    i = 0

    for j in hero_number:

        # 创建文件夹

        os.mkdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i])

        # 进入创建好的文件夹

        os.chdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i])

        i += 1

        for k in range(10):

            # 拼接url

            onehero_link = 'http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(

                j) + '-bigskin-' + str(k) + '.jpg'

            im = requests.get(onehero_link)  # 请求url

            if im.status_code == 200:

                open(str(k) + '.jpg', 'wb').write(im.content)  # 写入文件

downloadPic()

除去注释，接近20行的代码我们就完成了王者荣耀全英雄皮肤的爬取，是不是非常简单呢？我们可以测试一下这个程序，首先要在桌面上创建一个文件夹，名为wzry，因为这里的代码我已经写死了，如果要修改的话大家也可以进行修改，文件夹创建完成后点击运行即可，等待片刻，图片就全部下载完成了。

对于程序中json字符串的解析，我们还可以使用jsonpath模块来进行，使用该模块能够更加快捷地获取到我们想要的信息，解析方式如下：

hero_name = jsonpath.jsonpath(html_json, "$..cname")

hero_number = jsonpath.jsonpath(html_json, "$..ename")

该方法接收一个json字符串和解析规则，$…cname则表示从根目录下找寻任意位置的以cname为键的值，并放入字典中。

结尾

爬虫是非常有趣的，因为它非常直观，视觉冲击感强，写出来也很有成就感，爬虫虽然强大，但千万不能随意爬取隐私信息。

最后，如果对文中程序有更好的建议，欢迎评论区留言。

Python练手项目：20行爬取全王者全英雄皮肤的更多相关文章

Python 爬虫练手项目—酒店信息爬取
from bs4 import BeautifulSoup import requests import time import re url = 'http://search.qyer.com/ho ...
80个Python练手项目列表
80个Python练手项目列表我若将死,给孩子留遗言,只留一句话:Repetition is the mother of all learning重复是学习之母.他们将来长大,学知识,技巧.爱情 ...
python爬虫---实现项目(一) Requests爬取HTML信息
上面的博客把基本的HTML解析库已经说完了,这次我们来给予几个实战的项目. 这次主要用Requests库+正则表达式来解析HTML. 项目一:爬取猫眼电影TOP100信息代码地址:https://g ...
70个Python练手项目列表（都有完整教程）
前言: 不管学习那门语言都希望能做出实际的东西来,这个实际的东西当然就是项目啦,不用多说大家都知道学编程语言一定要做项目才行. 这里整理了70个Python实战项目列表,都有完整且详细的教程,你可以从 ...
【转载】【python】python练手项目
入门篇 1.Python - Python 图片转字符画 50 行 Python 代码完成图片转字符画小工具. <img src="https://pic3.zhimg.com ...
Python爬虫开源项目代码，爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等
来源:全球人工智能作者:SFLYQ 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.Wec ...
别再说找不到Python练手项目了，这80个拿去过冬
开头真的很重要!!!一个吻,一部小说,一篇文章......好的开头就像一个漂亮女孩的问候,问完了,你还期待着她接下来会对你说些什么甜蜜的话呢. 真可惜!我不是漂亮女孩,我的这个开头也不好.但开头不好, ...
python练手项目
文本操作逆转字符串--输入一个字符串,将其逆转并输出. 拉丁猪文字游戏--这是一个英语语言游戏.基本规则是将一个英语单词的第一个辅音音素的字母移动到词尾并且加上后缀-ay(譬如"banan ...

随机推荐

CF1051D Bicolorings 递推
考试T2,随便推一推就好了~ code: #include <bits/stdc++.h> #define N 1015 #define mod 998244353 #define ll ...
使用开源软件 jumpserver 搭造自己的堡垒机
使用开源软件 jumpserver 搭造自己的堡垒机开软地址:https://github.com/jumpserver/jumpserver 目前版本:1.5.2 测试的时候有少许BUG,但功能却 ...
TS声明文件
now我们来看一看TS怎么声明文件, 在JS里面我们经常会使用各种第三方类库,引入方式也不太相同,常见的就是在HTML中通过script标签引入,然后就可以使用全局变量$或者jQuery了我们通常这 ...
Markdown 小记
在学习Markdown之前,对稍有轻微强迫症的我来说,写博客和做笔记是一件很痛苦的事.废话不多说直接来看,偷偷吐槽:不知道咋在博客园配置Markdown,以后如果学会了回来补充. 标题 #hello一 ...
Android 查看和修改网络mtu
CPU:RK3288 系统:Android 5.1 MTU:通信术语最大传输单元(Maximum Transmission Unit,MTU)是指一种通信协议的某一层上面所能通过的最大数据包大小(以 ...
win10系统vs2008环境wince项目无法创建问题
文章备份,原文来自百度某个作者的博客. 昨晚,当我升级win10之后,发现系统使用还是挺顺畅的,没有当初升级win8的时候那么多错误. 但是今晚回来之后,发现之前win8.1下已经安装好的vs2008 ...
C/C++程序所占用内存区域
C/C++编译的程序所占用内存区域一般分为以下5个部分: 栈区(stack):由编译器自动分配和释放,用来存放函数的参数.局部变量等.其操作方式类似于数据结构中的栈. 堆区(heap):一般由程序员分 ...
java 利用poi 实现excel合并单元格后出现边框有的消失的解决方法
使用工具类RegionUtil CellRangeAddress cra = new CellRangeAddress(nowRowCount, nowRowCount + followSize-1, ...
在 kubernetes 集群中部署一套 web 网站（网页内容不限)
环境准备一台部署节点,一台master节点,还有两台节点node1,node2 完好的k8s集群环境思路一: 在node1和node2节点上通过宿主机与容器之间目录映射和端口映射上线静态网站(或动 ...
Win10使用mysqldump导出csv文件及期间遇到的问题
作为测试,我们这里使用了名为testdb的数据库中的名为test_table的表,首先我们使用如下SQL来查看其中有何数据: select * from testdb.test_table 数据如下: ...

Python练手项目：20行爬取全王者全英雄皮肤

引言

准备工作

代码实现

Python练手项目：20行爬取全王者全英雄皮肤的更多相关文章

随机推荐

热门专题