python爬虫——《英雄联盟》英雄及皮肤图片

还记得那些年一起网吧开黑通宵的日子吗？《英雄联盟》绝对是大学时期的风靡游戏，即使毕业多年的大学同学相聚，难免不怀念一番当时一起玩《英雄联盟》的日子。

今天就给大家分享一下英雄及皮肤图片的爬虫。

一开始都是先去《英雄联盟》官网找到英雄及皮肤图片的网址：

URL = r'https://lol.qq.com/data/info-heros.shtml'

从上面网址可以看到所有英雄都在，按下F12查看源代码，发现英雄及皮肤图片并没有直接给出，而是隐藏在JS文件中。这时候需要点开Network，找到js窗口，刷新网页，就看到一个champion.js的选项，点击可以看到一个字典——里面就包含了所有英雄的名字（英文）以及对应的编号（如下图）。

但是只有英雄的名字（英文）以及对应的编号并不能找到图片地址，于是回到网页，随便点开一个英雄，跳转页面后发现英雄及皮肤的图片都在，但要下载还需要找到原地址，这是鼠标右击选择“在新标签页中打开”，新的网页才是图片的原地址（如下图）。

图中红色框就是我们需要的图片地址，经过分析知道：每一个英雄及皮肤的地址只有编号不一样（http://ossweb-img.qq.com/images/lol/web201310/skin/big266000.jpg），而该编号有6位，前3位表示英雄，后三位表示皮肤。刚才找到的js文件中恰好有英雄的编号，而皮肤的编码可以自己定义，反正每个英雄皮肤不超过20个，然后组合起来就可以了。

图片地址搞掂都就可以开始写程序了：

第一步：获取js字典

def path_js(url_js):

    res_js = requests.get(url_js, verify = False).content

    html_js = res_js.decode("gbk")

    pat_js = r'"keys":(.*?),"data"'

    enc = re.compile(pat_js)

    list_js = enc.findall(html_js)

    dict_js = eval(list_js[0])

    return dict_js

第二步：从 js字典中提取到key值生成url列表

def path_url(dict_js):

    pic_list = []

    for key in dict_js:

        for i in range(20):

            xuhao = str(i)

            if len(xuhao) == 1:

                num_houxu = "00" + xuhao

            elif len(xuhao) == 2:

                num_houxu = "0" + xuhao

            numStr = key+num_houxu

            url = r'http://ossweb-img.qq.com/images/lol/web201310/skin/big'+numStr+'.jpg'

            pic_list.append(url)

    print(pic_list)

    return pic_list

第三步：从 js字典中提取到value值生成name列表

def name_pic(dict_js, path):

    list_filePath = []

    for name in dict_js.values():

        for i in range(20):

            file_path = path + name + str(i) + '.jpg'

            list_filePath.append(file_path)

    return list_filePath

第四步：下载并保存数据

def writing(url_list, list_filePath):

    try:

        for i in range(len(url_list)):

            res = requests.get(url_list[i], verify = False).content

            with open(list_filePath[i], "wb") as f:

                f.write(res)

    except Exception as e:

        print("下载图片出错,%s" %(e))

        return False

执行主程序：

if __name__ == '__main__':

    url_js = r'http://lol.qq.com/biz/hero/champion.js'

    path = r'./data/'   #图片存在的文件夹

    dict_js = path_js(url_js)

    url_list = path_url(dict_js)

    list_filePath = name_pic(dict_js, path)

    writing(url_list, list_filePath)

运行后会在控制台打印出每一张图片的网址：

在文件夹中可以看到图片已经下载好：

以上就是我的分享，如果有什么不足之处请指出，多交流，谢谢！

如果喜欢，请关注我的博客：https://www.cnblogs.com/qiuwuzhidi/

想获取更多数据或定制爬虫的请点击python爬虫专业定制

python爬虫——《英雄联盟》英雄及皮肤图片的更多相关文章

python爬虫王者荣耀高清皮肤大图背景故事通用爬虫
wzry-spider python通用爬虫-通用爬虫爬取静态网页,面向小白基本上纯python语法切片索引,少用到第三方爬虫网络库这是一只小巧方便,强大的爬虫,由python编写主要实现了: ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
Python爬虫之足球小将动漫（图片）下载
尽管俄罗斯世界杯的热度已经褪去,但这届世界杯还是给全世界人民留下了无数难忘的回忆,不知你的回忆里有没有日本队的身影?本次世界杯中,日本队的表现让人眼前一亮,很难想象,就是这样一只队伍,二十几年还是 ...
python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要, ...
Python爬虫(三)爬淘宝MM图片
直接上代码: # python2 # -*- coding: utf-8 -*- import urllib2 import re import string import os import shu ...
利用Python爬取OPGG上英雄联盟英雄胜率及选取率信息
一.分析网站内容本次爬取网站为opgg,网址为:” http://www.op.gg/champion/statistics” 由网站界面可以看出,右侧有英雄的详细信息,以Garen为例,胜率为53 ...
【Python爬虫案例学习】下载某图片网站的所有图集
前言其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. 其实就几行代码,但希望没有开发基础的人也能一下子看明白,所以大神请绕行. 基本环境配置 python 版本:2.7 ...
Python爬虫简单实现之Q乐园图片下载
根据需求写代码实现.然而跟我并没有什么关系,我只是打开电脑望着屏幕想着去干点什么,于是有了这个所谓的“需求”. 终于,我发现了Q乐园——到底是我老了还是我小了,这是什么神奇的网站,没听过啊,就是下面酱 ...
Python 爬虫爬取煎蛋网图片
今天, 试着爬取了煎蛋网的图片. 用到的包: urllib.request os 分别使用几个函数,来控制下载的图片的页数,获取图片的网页,获取网页页数以及保存图片到本地.过程简单清晰明了直接上源代 ...
Python爬虫实战：批量下载网站图片
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: GitPython PS:如有需要Python学习资料的小伙伴可以 ...

随机推荐

Mardown语法
1.什么是Markdown Mardown是一种文本标记语言,使用它,能让我们更加专注于内容的输出,而不是排版样式. 我们平常使用的.txt文档书写的文字是没有样式的,使用Markdown语法就可以给 ...
vim命令c编程
1.移动光标的常用命令 h--向左移动光标 l--向右移动光标 j--向下移动光标 k--向上移动光标 ^--将光标移动至该行的开头 $--将光标移动至该行的结尾 O--将光标移动至该行行首 G--将 ...
Git修改用户名、邮箱和密码
$ git config --global --replace-all user.name "要修改的用户名" $ git config --global --replace-al ...
windows 以管理员身份运行代码
1 // 以管理员身份运行本进程 2 // 1 获取本进程的文件路径. 3 TCHAR path[MAX_PATH] = { 0 }; // 需要初始化 4 DWORD dwPathSize = MA ...
sqli-labs系列——第五关
less5 更改id后无果,不能用union联合查询此处用报错注入报错注入的概念:(1). 通过floor报错 and (select 1 from (select count(*),concat ...
Hibernate&MyBatis
ORM程序技术概念:ORM是对象(Object).关系(Relational).映射(Mapping)的缩写. 作用:用于替代JDBC 用法:数据库类名与表名对应:字段名和属性名对应: 优势: 更方 ...
当初自学C++时的笔记记录
编辑:刘风琛最初编写日期:2020年4月11日下午最新更新日期:2020年9月20日上午标注: 从笔记开始截止到程序第四章"程序流程结构",使用Joplin编写,其余部分为T ...
Filebeat配置文件解析-转载
转载地址:https://dongbo0737.github.io/2017/06/13/filebeat-config/ Filebeat配置文件解析 filebeat 一个ELK架构中,专门用来收 ...
openGL官方Glut库配置教程
在配置前要先安装好Visual Stdio环境官方下载网站注:一台Windows操作系统中可以存在多版本的Visual Stdio,多个版本之间互不干扰但不共享插件库,且高版本向下兼容,因此笔者更 ...
使用 shell 做 tcp 协议模拟
问题背景公司有一套消息推送系统(简称GCM),由于人事变动接手了其中的客户端部分.看了一下文档,仅通讯协议部分有几页简单的说明,代码呢又多又乱,一时理不出一个头绪.由于消息是从后台推送到端的,所以使 ...

python爬虫——《英雄联盟》英雄及皮肤图片

python爬虫——《英雄联盟》英雄及皮肤图片的更多相关文章

随机推荐

热门专题