Python 3爬虫、数据清洗与可视化实战PDF高清完整版免费下载|百度云盘
百度云盘:Python 3爬虫、数据清洗与可视化实战PDF高清完整版免费下载
提取码:


内容简介
《Python 3爬虫、数据清洗与可视化实战》是一本通过实战教初学者学习采集数据、清洗和组织数据进行分析及可视化的Python 读物。《Python 3爬虫、数据清洗与可视化实战》案例均经过实战检验,笔者在实践过程中深感采集数据、清洗和组织数据的重要性,作为一名数据行业的“码农”,数据就是沃土,没有数据,我们将无田可耕。
《Python 3爬虫、数据清洗与可视化实战》共分11 章,6 个核心主题:其一是Python 基础入门,包括环境配置、基本操作、数据类型、语句和函数;其二是Python 爬虫的构建,包括网页结构解析、爬虫流程设计、代码优化、效率优化、容错处理、反防爬虫、表单交互和模拟页面点击;其三是Python 数据库应用,包括MongoDB、MySQL 在Python中的连接与应用;其四是数据清洗和组织,包括NumPy 数组知识、pandas 数据的读写、分组变形、缺失值异常值处理、时序数据处理和正则表达式的使用;其五是综合应用案例,帮助读者贯穿爬虫、数据清洗与组织的过程;最后是数据可视化,包括Matplotlib 和Pyecharts 两个库的使用,涉及饼图、柱形图、线图、
词云图、地图等图形,帮助读者进入可视化的殿堂。
《Python 3爬虫、数据清洗与可视化实战》以实战为主,适合Python 初学者及高等院校的相关专业学生,也适合Python 培训机构作为实验教材使用。
作者简介
零一
沐垚科技创始人,电商自媒体,资深数据分析师,8年电商从业经验,擅长Excel、Power BI、R、Python等工具,主要研究数据化运营、商业智能和人工智能在电商领域的应用,专注数据+电商的新零售服务。 出版《电商数据分析淘宝实战》《美丽的电商运营日记》《Excel BI 之道:从零开始学Power工具应用》《淘宝、天猫电商数据分析与挖掘实战》
目录
1.1 安装Python 环境 1
1.1.1 Python 3.6.2 安装与配置 1
1.1.2 使用IDE 工具——PyCharm 4
1.1.3 使用IDE 工具——Anaconda 4
1.2 Python 操作入门 6
1.2.1 编写第一个Python 代码 6
1.2.2 Python 基本操作 9
1.2.3 变量 10
1.3 Python 数据类型 10
1.3.1 数字 10
1.3.2 字符串 11
1.3.3 列表 13
1.3.4 元组 14
1.3.5 集合 15
1.3.6 字典 15
1.4 Python 语句与函数 16
1.4.1 条件语句 16
1.4.2 循环语句 16
1.4.3 函数 17
第2 章 写一个简单的爬虫 18
2.1 关于爬虫的合法性 18
2.2 了解网页 20
2.2.1 认识网页结构 21
2.2.2 写一个简单的HTML 21
2.3 使用requests 库请求网站 23
2.3.1 安装requests 库 23
2.3.2 爬虫的基本原理 25
2.3.3 使用GET 方式抓取数据 26
2.3.4 使用POST 方式抓取数据 27
2.4 使用Beautiful Soup 解析网页 30
2.5 清洗和组织数据 34
2.6 爬虫攻防战 35
第3 章 用API 爬取天气预报数据 38
3.1 注册免费API 和阅读技术文档 38
3.2 获取API 数据 40
3.3 存储数据到MongoDB 45
3.3.1 下载并安装MongoDB 45
3.3.2 在PyCharm 中安装Mongo Plugin 46
3.3.3 将数据存入MongoDB 49
3.4 MongoDB 数据库查询 52
第4 章 大型爬虫案例:抓取某电商网站的商品数据 55
4.1 观察页面特征和解析数据 55
4.2 工作流程分析 64
4.3 构建类目树 65
4.4 获取产品列表 68
4.5 代码优化 70
4.6 爬虫效率优化 74
4.7 容错处理 77
第5 章 Scrapy 爬虫 78
5.1 Scrapy 简介 78
5.2 Scrapy 安装 79
5.3 案例:用Scrapy 抓取股票行情 80
第6 章 Selenium爬虫 88
6.1 Selenium 简介 88
6.2 案例:用Selenium 抓取电商网站数据 90
第7 章 数据库连接和查询 100
7.1 使用PyMySQL 100
7.1.1 连接数据库 100
7.1.2 案例:某电商网站女装行业TOP100 销量数据 102
7.2 使用SQLAlchemy 104
7.2.1 SQLAlchemy 基本介绍 104
7.2.2 SQLAlchemy 基本语法 105
7.3 MongoDB 107
7.3.1 MongoDB 基本语法 107
7.3.2 案例:在某电商网站搜索“连衣裙”的商品数据 107
第8 章 NumPy 109
8.1 NumPy 简介 109
8.2 一维数组 110
8.2.1 数组与列表的异同 110
8.2.2 数组的创建 111
8.3 多维数组 111
8.3.1 多维数组的高效性能 112
8.3.2 多维数组的索引与切片 113
8.3.3 多维数组的属性 113
8.4 数组的运算 115
第9 章 pandas 数据清洗 117
9.1 数据读写、选择、整理和描述 117
9.1.1 从CSV 中读取数据 119
9.1.2 向CSV 写入数据 120
9.1.3 数据选择 120
9.1.4 数据整理 122
9.1.5 数据描述 123
9.2 数据分组、分割、合并和变形 124
9.2.1 数据分组 124
9.2.2 数据分割 127
9.2.3 数据合并 128
9.2.4 数据变形 134
9.2.5 案例:旅游数据的分析与变形 136
9.3 缺失值、异常值和重复值处理 140
9.3.1 缺失值处理 140
9.3.2 检测和过滤异常值 144
9.3.3 移除重复数据 147
9.3.4 案例:旅游数据的值检查与处理 149
9.4 时序数据处理 152
9.4.1 日期/时间数据转换 152
9.4.2 时序数据基础操作 153
9.4.3 案例:天气数据分析与处理 155
9.5 数据类型转换 158
9.6 正则表达式 160
9.6.1 元字符与限定符 161
9.6.2 案例:用正则表达式提取网页文本信息 162
第10 章 综合应用实例 164
10.1 按性价比给用户推荐旅游产品 164
10.1.1 数据采集 165
10.1.2 数据清洗、建模 169
10.2 通过热力图分析为用户提供出行建议 172
10.2.1 某旅游网站热门景点爬虫代码(qunaer_sights.py) 175
10.2.2 提取CSV 文件中经纬度和销量信息 178
10.2.3 创建景点门票销量热力地图HTML 文件 179
第11 章 数据可视化 182
11.1 matplotlib 183
11.1.1 画出各省份平均价格、各省份平均成交量柱状图 183
11.1.2 画出各省份平均成交量折线图、柱状图、箱形图和饼图 184
11.1.3 画出价格与成交量的散点图 185
11.2 pyecharts 186
11.2.1 Echarts 简介 186
11.2.2 pyecharts 简介 187
11.2.3 初识pyecharts,玫瑰相送 187
11.2.4 pyecharts 基本语法 188
11.2.5 基于商业分析的pyecharts 图表绘制 190
11.2.6 使用pyecharts 绘制其他图表 199
11.2.7 pyecharts 和Jupyter 203
Python 3爬虫、数据清洗与可视化实战PDF高清完整版免费下载|百度云盘的更多相关文章
- Python3网络爬虫开发实战PDF高清完整版免费下载|百度云盘
百度云盘:Python3网络爬虫开发实战高清完整版免费下载 提取码:d03u 内容简介 本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.req ...
- python网络爬虫实战PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:vg1y python网络爬虫实战帮助读者学习Python并开发出符合自己要求的网络爬虫.网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚 ...
- Python学习手册(第4版)PDF高清完整版免费下载|百度云盘
Python学习手册(第4版)PDF高清完整版免费下载|百度云盘 提取码:z6il 内容简介 Google和YouTube由于Python的高可适应性.易于维护以及适合于快速开发而采用它.如果你想要编 ...
- Python程序设计(第3版)PDF高清完整版免费下载|百度网盘
百度网盘:Python程序设计(第3版)PDF高清完整版免费下载 提取码:48u4 内容简介 本书是面向大学计算机科学专业第一门程的教材.本书以Python语言为工具,采用相当传统的方法,强调解决问题 ...
- Python网络数据采集PDF高清完整版免费下载|百度云盘
百度云盘:Python网络数据采集PDF高清完整版免费下载 提取码:1vc5 内容简介 本书采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导.第 ...
- Python编程之美:最佳实践指南PDF高清完整版免费下载|百度云盘|Python新手到进阶
百度云盘:Python编程之美:最佳实践指南PDF高清完整版免费下载 提取码:1py6 内容简介 <Python编程之美:最佳实践指南>是Python用户的一本百科式学习指南,由Pytho ...
- Python快速入门PDF高清完整版免费下载|百度云盘
百度云盘:Python快速入门PDF高清完整版免费下载 提取码:w5y8 内容简介 这是一本Python快速入门书,基于Python 3.6编写.本书分为4部分,第一部分讲解Python的基础知识,对 ...
- Python性能分析与优化PDF高清完整版免费下载|百度云盘
百度云盘|Python性能分析与优化PDF高清完整版免费下载 提取码:ubjt 内容简介 全面掌握Python代码性能分析和优化方法,消除性能瓶颈,迅速改善程序性能! 对于Python程序员来说,仅仅 ...
- Python基础教程(第3版)PDF高清完整版免费下载|百度云盘
百度云盘:Python基础教程(第3版)PDF高清完整版免费下载 提取码:gkiy 内容简介 本书包括Python程序设计的方方面面:首先从Python的安装开始,随后介绍了Python的基础知识和基 ...
随机推荐
- springboot @Cacheable 基本使用
加入依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>sp ...
- slow SQL
一.介绍 慢查询日志可用于查找需要很长时间才能执行的查询,因此是优化的候选者.但是,检查长慢的查询日志可能是一项耗时的任务. 二.配置 # 查看: slow_query_log 慢SQL开关 slow ...
- MongoDB快速入门教程(3.1)
3.MongoDB进阶 3.1.权限验证 以下内容适用于Mac系统用户,window系统用户请看后面文档 3.1.1.创建超级管理员用户 默认情况下连接mongodb是不需要用户名和密码的,这样不安全 ...
- 在Github上建立自己的个人主页
目录 注册Github账号 登录Github账号 建立新仓库 选择个人主页的主题 注册Github账号 首先打开Github的主页(https://github.com/),点击右上角的sign up ...
- 造轮子-AgileConfig基于.NetCore的一个轻量级配置中心
微服务确实是行业的一个趋势,我自己也在把一些项目往微服务架构迁移.玩微服务架构配置中心是一个绕不过去的东西,有很多大牌的可以选,比如spring-cloud-config,apoll,disconf等 ...
- Spring Boot入门系列(十七)整合Mybatis,创建自定义mapper 实现多表关联查询!
之前讲了Springboot整合Mybatis,介绍了如何自动生成pojo实体类.mapper类和对应的mapper.xml 文件,并实现最基本的增删改查功能.mybatis 插件自动生成的mappe ...
- PHPstorm快捷键的学习
1.Ctrl + 空格 当输入代码时,PHPstorm 会自动出现联想选项. 但是,如果在输入时联想时错过了选择,我们要想让他再一次出现联想,通常采用的方法是在先前的输入后面再输入字符,这时联想又会出 ...
- 虚拟机 - NAT模式下设置静态 IP 地址
背景 如果不给虚拟机设置静态 IP 地址的话,每次重启机器都会自动分配一个新的 IP 如果有多台虚拟机的话,也会动态获取 IP 动态IP的话,每次 设置静态 IP 的步骤 查看本机 IP 和网关 cm ...
- node.js/npm升级正确操作(windows和linux均有)
原文地址:https://www.wjcms.net/archives/nodejsnpm升级正确操作windows和linux均有 今天我们总结一下node.js以及npm升级的正确操作方法. 小编 ...
- 带大家认识CSS层叠上下文/层叠等级的区别和意义
什么是“层叠上下文” 层叠上下文(stacking context),是HTML中一个三维的概念.在CSS2.1规范中,每个盒模型的位置是三维的,分别是平面画布上的X轴,Y轴以及表示层叠的Z轴.一般情 ...