虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球、足球、游戏电竞、运动装备、影视、汽车、数码、情感等一切人和事的见解,热闹、真实、有温度。

受害者地址

  1. https://nba.hupu.com/stats/players

本文知识点:

  • 系统分析网页性质
  • 结构化的数据解析
  • csv数据保存

环境介绍:

  • python 3.6
  • pycharm
  • requests
  • csv

爬虫案例的一般步骤

  • 1.确定url地址(网页分析) 完成一半
  • 2.发送网络请求 requests(js\html\css)
  • 3.数据解析(筛选数据)
  • 4.保存数据(本地文件\数据库)

部分代码

导入工具

  1. import requests # 第三方工具
  2. import parsel # 数据解析工具 (css\正则表达式\xpath)
  3. import csv

确定url地址(网页分析) 完成一半 (静态网页\动态网页)

  1. url = 'https://nba.hupu.com/stats/players/pts/{}'.format(page)

发送网络请求 requests(js\html\css)

  1. response = requests.get(url=url)
  2. html_data = response.text

数据解析(筛选数据)

  1. selector = parsel.Selector(html_data)
  2. trs = selector.xpath('//tbody/tr[not(@class="color_font1 bg_a")]')
  3. for tr in trs:
  4. rank = tr.xpath('./td[1]/text()').get() # 排名
  5. player = tr.xpath('./td[2]/a/text()').get() # 球员
  6. team = tr.xpath('./td[3]/a/text()').get() # 球队
  7. score = tr.xpath('./td[4]/text()').get() # 得分
  8. hit_shot = tr.xpath('./td[5]/text()').get() # 命中-出手
  9. hit_rate = tr.xpath('./td[6]/text()').get() # 命中率
  10. hit_three = tr.xpath('./td[7]/text()').get() # 命中-三分
  11. three_rate = tr.xpath('./td[8]/text()').get() # 三分命中率
  12. hit_penalty = tr.xpath('./td[9]/text()').get() # 命中-罚球
  13. penalty_rate = tr.xpath('./td[10]/text()').get() # 罚球命中率
  14. session = tr.xpath('./td[11]/text()').get() # 场次
  15. playing_time = tr.xpath('./td[12]/text()').get() # 上场时间
  16. print(rank, player, team, score, hit_shot, hit_rate, hit_three,
  17. three_rate, hit_penalty, penalty_rate, session, playing_time)
  18.  
  19. data_dict = {
  20. '排名': rank, '球员': player, '球队': team, '得分': score,
  21. '命中-出手': hit_shot, '命中率': hit_rate, '命中-三分': hit_three, '三分命中率': three_rate,
  22. '命中-罚球': hit_penalty, '罚球命中率': penalty_rate, '场次': session, '上场时间': playing_time}
  23.  
  24. csv_write.writerow(data_dict)
  25.  
  26. # 想要完整源码的同学可以关注我的公众号:松鼠爱吃饼干
  27. # 回复“虎扑NBA”即可免费获取

运行代码,效果如下

Python爬取NBA虎扑球员数据的更多相关文章

  1. Python 爬取途虎养车 全系车型 轮胎 保养 数据

    Python 爬取途虎养车 全系车型 轮胎 保养 数据 2021.7.27 更新 增加标题.发布时间参数 demo文末自行下载,需要完整数据私聊我 2021.2.19 更新 增加大保养数据 2020. ...

  2. python 爬取天猫美的评论数据

    笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行.对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了.本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似 ...

  3. Python爬取6271家死亡公司数据,一眼看尽十年创业公司消亡史!

    ​ 小五利用python将其中的死亡公司数据爬取下来,借此来观察最近十年创业公司消亡史. 获取数据 F12,Network查看异步请求XHR,翻页. ​ 成功找到返回json格式数据的url, 很多人 ...

  4. Python 爬取大众点评 50 页数据,最好吃的成都火锅竟是它!

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 胡萝卜酱 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...

  5. Python爬取上交所一年大盘数据

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 半个码农2018 PS:如有需要Python学习资料的小伙伴可以加点 ...

  6. Python爬取6271家死亡公司数据,看十年创业公司消亡史

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 朱小五 凹凸玩数据 PS:如有需要Python学习资料的小伙伴可以加 ...

  7. Python爬取某网站文档数据完整教程(附源码)

    基本开发环境 (https://jq.qq.com/?_wv=1027&k=NofUEYzs) Python 3.6 Pycharm 相关模块的使用 (https://jq.qq.com/?_ ...

  8. 使用python爬取东方财富网机构调研数据

    最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研 网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...

  9. python爬取安居客二手房网站数据(转)

    之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹 哈哈,现在开始正式进行爬虫书写 首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在 ...

随机推荐

  1. java 多态一

    一 多态的概述 现实事物经常会体现出多种形态,如学生,学生是人的一种,则一个具体的同学张三既是学 生也是人,即出现两种形态. Java作为面向对象的语言,同样可以描述一个事物的多种形态.如Studen ...

  2. tar.gz文件的压缩与解压

    1 解压".xz" xz -d your_file_name.tar.xz 注:运行上述命令后your_file_name.tar.xz会被删除 2 解包".tar&qu ...

  3. dcoker 小应用(二)

    sudo yum install epel-release   vi /etc/yum.repos.d/epel.repo     use base url instead of mirror url ...

  4. Linux下安装mysql时报错:FATAL ERROR: please install the following Perl modules before executing ./scripts/mysql_install_db:Data::Dumper

    如题,安装mysql过程中,执行scripts/mysql_install_db --user=mysql命令时报错: FATAL ERROR: please install the followin ...

  5. Redis取出中文乱码问题

    直接打开Redis客户端,如果存储了中文的内容,取出时会发生乱码: 解决办法很简单,打开客户端时加上 --raw,这样就可以了: 顺便说一下,-a后面跟的是密码,打码了,各位见谅!

  6. 问题定位 | Peronca Xtrabackup 8.0近日踩坑总结 - xtrabackup 2.4和8.0区别

    目录 前言 适配过程中遇到的坑 xtrabackup 2.4和8.0区别 问题定位 坑一:MySQL 8.0 + Semi-Sync 重建问题 坑二:MySQL 8.0 + Group-Replica ...

  7. 兄弟们,我打算抠100个网站JS加密代码召唤,一个也跑不掉,这次轮到小虎牙

    摘要:友情提示:在博客园更新比较慢,有兴趣的关注知识图谱与大数据公众号吧.本次研究虎牙登录密码加密JS代码,难度不大,依然建议各位读者参考文章独自完成,实在抠不出来再参考这里的完整代码:从今天开始种树 ...

  8. VS2015+opencv3.1.0 imshow()函数出现中文乱码----问题一

    Visual Studio提供高级保存选项功能,它能指定特定代码文件的编码规范和行尾所使用的换行符.在Visual Studio 2015中,该命令没有默认显示在“文件”菜单中.用户需要手工设置,才能 ...

  9. ORA-01804报错

    报错Error while trying to retrieve text for error ORA-01804 环境变量有配https://blog.csdn.net/zklth/article/ ...

  10. QT_QGIS_基本使用

    QT_QGIS_基本使用 1.新建画布 2.添加矢量图层 ​ 1.打开矢量图层 ​ 2.新建矢量图层 ​ 1.添加几何要素--点 ​ 2.添加几何要素--线 3.添加栅格图层 ​ 1.打开栅格图层 小 ...