虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球、足球、游戏电竞、运动装备、影视、汽车、数码、情感等一切人和事的见解,热闹、真实、有温度。

受害者地址

https://nba.hupu.com/stats/players

本文知识点：

系统分析网页性质
结构化的数据解析
csv数据保存

环境介绍：

python 3.6
pycharm
requests
csv

爬虫案例的一般步骤

1.确定url地址(网页分析) 完成一半
2.发送网络请求 requests(js\html\css)
3.数据解析(筛选数据)
4.保存数据(本地文件\数据库)

部分代码

导入工具

import requests  # 第三方工具

import parsel  # 数据解析工具  (css\正则表达式\xpath)

import csv

确定url地址(网页分析) 完成一半 (静态网页\动态网页)

url = 'https://nba.hupu.com/stats/players/pts/{}'.format(page)

发送网络请求 requests(js\html\css)

response = requests.get(url=url)

html_data = response.text

数据解析(筛选数据)

selector = parsel.Selector(html_data)

    trs = selector.xpath('//tbody/tr[not(@class="color_font1 bg_a")]')

    for tr in trs:

        rank = tr.xpath('./td[1]/text()').get()  # 排名

        player = tr.xpath('./td[2]/a/text()').get()  # 球员

        team = tr.xpath('./td[3]/a/text()').get()  # 球队

        score = tr.xpath('./td[4]/text()').get()  # 得分

        hit_shot = tr.xpath('./td[5]/text()').get()  # 命中-出手

        hit_rate = tr.xpath('./td[6]/text()').get()  # 命中率

        hit_three = tr.xpath('./td[7]/text()').get()  # 命中-三分

        three_rate = tr.xpath('./td[8]/text()').get()  # 三分命中率

        hit_penalty = tr.xpath('./td[9]/text()').get()  # 命中-罚球

        penalty_rate = tr.xpath('./td[10]/text()').get()  # 罚球命中率

        session = tr.xpath('./td[11]/text()').get()  # 场次

        playing_time = tr.xpath('./td[12]/text()').get()  # 上场时间

        print(rank, player, team, score, hit_shot, hit_rate, hit_three,

              three_rate, hit_penalty, penalty_rate, session, playing_time)

        data_dict = {

            '排名': rank, '球员': player, '球队': team, '得分': score,

            '命中-出手': hit_shot, '命中率': hit_rate, '命中-三分': hit_three, '三分命中率': three_rate,

            '命中-罚球': hit_penalty, '罚球命中率': penalty_rate, '场次': session, '上场时间': playing_time}

        csv_write.writerow(data_dict)

        #  想要完整源码的同学可以关注我的公众号：松鼠爱吃饼干

        #  回复“虎扑NBA”即可免费获取

运行代码，效果如下

Python爬取NBA虎扑球员数据的更多相关文章

Python 爬取途虎养车全系车型轮胎保养数据
Python 爬取途虎养车全系车型轮胎保养数据 2021.7.27 更新增加标题.发布时间参数 demo文末自行下载,需要完整数据私聊我 2021.2.19 更新增加大保养数据 2020. ...
python 爬取天猫美的评论数据
笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行.对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了.本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似 ...
Python爬取6271家死亡公司数据，一眼看尽十年创业公司消亡史！
小五利用python将其中的死亡公司数据爬取下来,借此来观察最近十年创业公司消亡史. 获取数据 F12,Network查看异步请求XHR,翻页. 成功找到返回json格式数据的url, 很多人 ...
Python 爬取大众点评 50 页数据，最好吃的成都火锅竟是它！
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 胡萝卜酱 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
Python爬取上交所一年大盘数据
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 半个码农2018 PS:如有需要Python学习资料的小伙伴可以加点 ...
Python爬取6271家死亡公司数据，看十年创业公司消亡史
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 朱小五凹凸玩数据 PS:如有需要Python学习资料的小伙伴可以加 ...
Python爬取某网站文档数据完整教程（附源码）
基本开发环境 (https://jq.qq.com/?_wv=1027&k=NofUEYzs) Python 3.6 Pycharm 相关模块的使用 (https://jq.qq.com/?_ ...
使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
python爬取安居客二手房网站数据（转）
之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在 ...

随机推荐

next()与nextLine()的区别
abc def ghij kl mno pqr st uvw xyz 你用next(),第一次取的是abc,第二次取的是def,第三次取的是ghij 你用nextLine(),第一次取的是abc de ...
List 集合的操作
如果当前id存在集合里去除当前id 如果不在集合里去除集合最后一个结果Long videoId = 0l; // 当前 IDList<VideoZoneReturnBean> ...
Java引用类型之弱引用与幻像引用
这一篇将介绍弱引用和幻像引用. 1.WeakReference WeakReference也就是弱引用,弱引用和软引用类似,它是用来描述"非必须"的对象的,它的强度比软引用要更弱一 ...
实践案例丨教你一键构建部署发布前端和Node.js服务
如何使用华为云服务一键构建部署发布前端和Node.js服务构建部署,一直是一个很繁琐的过程作为开发,最害怕遇到版本发布,特别是前.后端一起上线发布,项目又特别多的时候. 例如你有10个项目,前后端 ...
IntelliJ IDEA安装Activiti插件并使用
一.安装Activiti插件 1.搜索插件点击菜单[File]-->[Settings...]打开[Settings]窗口. 点击左侧[Plugins]按钮,在右侧输出＂actiBPM＂,点击 ...
使用openpyxl创建excel，设置不显示网格线
最近在学openpyxl,想设置excel不显示网格线,试了好多种方法都不行,最后发现可以通过修改views文件来实现. 文件路径:虚拟目录\Lib\site-packages\openpyxl\wo ...
Hive学习目录
大数据之Hive学习目录第 1 章 Hive入门 1.1 什么是Hive 1.2 Hive的优缺点 1.2.1 优点 1.2.2 缺点 1.3 *Hive架构原理 1.4 Hive和数据库比较第 ...
Windows servers 2008 环境下，CA证书服务器搭建。
CA证书这个东西好像是很久之前的东西了,现在已经不大用了,不过还是作为一种服务,搭建一下. 环境:Windows servers 2008 (虚拟机环境) 1.配置IP地址. 2.添加角色. 选择Ac ...
js大数字转换，将大额数字转换为万、千万、亿等
代码 /** * 大数字转换,将大额数字转换为万.千万.亿等 * @param value 数字值 */ export function bigNumberTransform (value) { co ...
SEO大神都是些什么人
http://www.wocaoseo.com/thread-97-1-1.html 貌似好久没有更新seo培训联盟的文章了,最近一直在专心学习其他的东西,前一段写了几篇关于用户需求和体验的文章,但是 ...

Python爬取NBA虎扑球员数据

部分代码

Python爬取NBA虎扑球员数据的更多相关文章

随机推荐

热门专题