很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！
QQ群：101677771

爬虫

网页链接：https://www.huya.com/g/4079
这里的主要步骤其实还是和我们之前分析的一样，如下图所示：

这里再简单带大家看一下就行，重点是我们的第二部分。

既然网页结构我们已经分析完了，那么我还是选择用之前的xpath来爬取我们所需要的资源。

# 获取所有的主播信息

def getDatas(html):

    datalist=[]

    parse=parsel.Selector(html)

    lis=parse.xpath('//li[@class="game-live-item"]').getall()

    # print(lis)

    for li in lis:

        data = []

        parse1=parsel.Selector(li)

        img_src=parse1.xpath('//img[@class="pic"]/@data-original').get("data")

        data.append(img_src)

        title=parse1.xpath('//i[@class="nick"]/@title').get("data")

        data.append(title)

        redu=parse1.xpath('//i[@class="js-num"]/text()').get("data")

        data.append(redu)

        datalist.append(data)

    return datalist

这样我们就能获取到我们所需要的所有资源，之后将图片保存下来即可。这其中有两种文件的下载方式，一种是通过 with open打开文件的方式，另外一种就是通过 urllib.request.urlretrieve(data,path) 的方法，网上说第二种方式的下载速度会相对快一点，并且第二种有点 set 集合的意思，可以自动进行去重的操作，下载的文件夹中没有该文件就下载，否则就跳过。

#保存主播头像

def download(datalist):

    for data in datalist:

        #第一种下载方式

        with open("D:/software/python/python爬虫/虎牙颜值主播排名/", 'wb') as f:

            f.write(data[0])

        #第二种下载方式

        urllib.request.urlretrieve(data[0],"D:/software/python/python爬虫/虎牙颜值主播排名"+"/"+data[1]+".jpg")

        print(data[1]+"下载完成")

百度人脸识别接口

百度AI开放平台链接：https://ai.baidu.com/

输入相应的应用名称以及简介即可。
这样我们的应用就算创建完毕了。选中的部分也是我们接下来会用到的。

之后我们先去看一下sdk文件

看使用说明即可，不用着急下载，之后我们直接在pycharm中安装模块就行。

之后我们来看一下简单的操作流程首先先创建客户端：

之后我们就是调用接口解析图片，因为我们需要返回颜值分数这一个参数，所以还需要带参数进行请求，否则无法将分数信息返回给我们。如下图：

这样我们颜值检测的接口流程基本就已经理清楚了，代码如下：

def face_rg(file_path):

    """ 你的 APPID AK SK """

    APP_ID = '你的 App ID'

    API_KEY = '你的 Api Key'

    SECRET_KEY = '你的 Secret Key'

    client = AipFace(APP_ID, API_KEY, SECRET_KEY)

    with open(file_path,'rb')as file:

        data=base64.b64encode(file.read())

    image=data.decode()

    imageType = "BASE64"

    """ 如果有可选参数 """

    options = {}

    options["face_field"] = "beauty"

    """ 带参数调用人脸检测 """

    result=client.detect(image, imageType, options)

    # print(result)

    return  result['result']['face_list'][0]['beauty']

之后我们就只需要编写一个遍历文件夹下面的图片进行检测，之后将整个信息按照颜值分数进行降序排列：

path=r"D:\software\python\python爬虫\虎牙颜值主播排名"

image_list=os.listdir(path)

name_score={}

for image in image_list:

    try:

        print(image.split(".")[0]+"颜值评分为:%d"%face_rg(path+"/"+image))

        name_score[image.split(".")[0]]=face_rg(path+"/"+image)

    except:

        pass

second_score=sorted(name_score.items(),key=lambda x:x[1],reverse=True)

print("-------------------------------------检测结束-------------------------------------")

print("-------------------------------------以下是排名-------------------------------------")

for a,b in enumerate(second_score):

    print("{}的颜值评分为:{},排名第{}".format(second_score[a][0],second_score[a][1],a+1))

这里博主测完自己的颜值是 52分，连及格线都没到，大家也可以在评论区说说自己的分数。

效果演示

都看到这里了

python爬虫--看看虎牙女主播中谁颜值最高的更多相关文章

记录一下自己爬虎牙LOL主播的爬虫思路
1.明确爬虫目的爬虫目的需要我们明确的,没有目的的爬虫都是耍流氓!像我这次爬虫目的能不能从网页上爬下来. 2.怎么来爬? a. 先要找到具有唯一性的标签 <li class="gam ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
python实战之原生爬虫(爬取熊猫主播排行榜)
""" this is a module,多行注释 """ import re from urllib import request # B ...
Python爬虫（图片）编写过程中遇到的问题
最近我突然对网络爬虫开窍了,真正做起来的时候发现并不算太难,都怪我以前有点懒,不过近两年编写了一些程序,手感积累了一些肯定也是因素,总之,还是惭愧了.好了,说正题,我把这两天做爬虫的过程中遇到的问题总 ...
Python爬虫入门之如何在豆瓣中获取自己喜欢的TOP N电影信息
什么是爬虫按照一定规则自动的获取互联网上的信息(如何快速有效的利用互联网上的大量信息) 爬虫的应用搜索引擎(Google.百度.Bing等搜索引擎,辅助人们检索信息) 股票软件(爬取股票数据,帮助 ...
python爬虫简单实现,并在java中调用python脚本,将数据保存在json文件中
# coding:utf-8 import urllib2 from bs4 import BeautifulSoup import json import sys reload(sys) sys.s ...
【python爬虫】scrapy入门7:Scrapy中runspider和crawl的区别
runspider:不依赖创建项目命令:scrapy runspider myspider.py 等同于 pyhton myspider.py crawl:使用spider进行爬取,依赖项目创建 ...
[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 ...

随机推荐

4.23 子串 AC自动机概率期望高斯消元
考虑40分. 设出状态 f[i]表示匹配到了i位还有多少期望长度能停止.可以发现这个状态有环需要高斯消元. 提供一种比较简单的方法:由于期望的线性可加性可以设状态f[i]表示由匹配到i到匹配到i+ ...
bzoj 2225 [Spoj 2371]Another Longest Increasing
这道题连续上升的三元组且已经按照第一维排好序了. 直接上CDQ分治即可当然也是可以2-Dtree解决这个问题但是感觉nlog^2 比nsqrt(n)要快一些.. 算是复习一发CDQ分治吧也 ...
MyBatis版本升级导致OffsetDateTime入参解析异常问题复盘
背景最近有一个数据统计服务需要升级SpringBoot的版本,由1.5.x.RELEASE直接升级到2.3.0.RELEASE,考虑到没有用到SpringBoot的内建SPI,升级过程算是顺利.但是 ...
和菜鸟一起学linux之DBUS基础学习记录(转)
转自:https://www.cnblogs.com/wuyida/p/6299998.html D-Bus三层架构 D-Bus是一个为应用程序间通信的消息总线系统, 用于进程之间的通信.它是个3层架 ...
JS click延迟解决方案
click延迟解决方案移动端click事件会有300ms的延迟,原因是移动端屏幕双击会缩放页面 1.禁止缩放功能浏览器禁用默认双击缩放行为去掉300ms的点击延迟 user-scalabl ...
Vue组件注册
全局注册方法 Vue.component('my-component-name', { // ... 选项 ... }) Vue.component('component-a', { /* ... * ...
UIAutomator环境Android8.0 环境异常解决
个人PC环境 ANDROID_HOME:F:\1Study\Andriod\51zxw_2018-0102\Sdk ANT_HOME:D:\ant\apache-ant-1.10.5\ CLASSPA ...
线程通讯wait&notify
目录相关概念生产者&消费者模型相关概念锁:解决线程间冲突的问题 wait&notify:解决线程间协作的问题 wait和sleep的区别 wait期间对象锁是释放的,而slee ...
机器学习经典算法（进阶篇）——8.KNN
KNN是通过测量不同特征值之间的距离进行分类.它的的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别.K通常是不大于20的整数. ...
C#LeetCode刷题-随机数
随机数篇 # 题名刷题通过率难度 470 用 Rand7() 实现 Rand10() 34.4% 中等 478 在圆内随机生成点 22.8% 中等 497 非重叠矩形中的随机点 22 ...

python爬虫--看看虎牙女主播中谁颜值最高

目录

爬虫

百度人脸识别接口

效果演示

python爬虫--看看虎牙女主播中谁颜值最高的更多相关文章

随机推荐

热门专题