Python3数据分析与挖掘建模实战

Python数据分析简介

Python入门

运行:cmd下"python hello.py"

基本命令:

第三方库

安装

Windows中

pip install numpy

或者下载源代码安装

python setup.py install

Pandas默认安装不能读写Excel文件,需要安装xlrd和xlwt库才能支持excel的读写

pip install xlrd

pip install xlwt

StatModel可pip可exe安装,注意,此库依赖于Pandas和patsy

Scikit-Learn是机器学习相关的库,但是不包含人工神经网络

model.fit()     #训练模型,监督模型fit(X,y),非监督模型fit(X)

# 监督模型接口

model.predict(X_new)        #预测新样本

model.predict_proba(X_new)  #预测概率

model.score()               #得分越高,fit越好

# 非监督模型接口

model.transform()           #从数据中学到新的“基空间”

model.fit_transform()       #从数据中学到新的基,并按照这组基进行转换

Keras是基于Theano的强化的深度学习库,可用于搭建普通神经网络,各种深度学习模型,如自编码器,循环神经网络,递归神经网络,卷积神经网络。Theano也是一个Python库,能高效实现符号分解,速度快,稳定性好,实现了GPU加速,在密集型数据处理上是CPU的10倍,缺点是门槛太高。Keras的速度在Windows会大打折扣。

Windows下:安装MinGWindows--安装Theano---安装Keras--安装配置CUDA

Gensim用来处理语言方面的任务,如文本相似度计算、LDA、Word2Vec等,建议在Windows下运行。

Linux中

sudo apt-get install python-numpy

sudo apt-get install python-scipy

sudo apt-get install python-matplotlib

使用

Matplotlib默认字体是英文,如果要使用中文标签,

plt.rcParams['font.sans-serif'] = ['SimHei']

保存作图图像时,负号显示不正常:

plt.rcParams['axes.unicode_minus'] = False

数据探索

脏数据:缺失值、异常值、不一致的值、重复数据

异常值分析

  1. 简单统计量分析:超出合理范围的值
  2. 3sigma原则:若正态分布,异常值定义为偏差超出平均值的三倍标准差;否则,可用远离平均值的多少倍来描述。
  3. 箱型图分析:异常值定义为小于Q_L-1.5IQR或者大于Q_U +1.5IQR。Q_L是下四分位数,全部数据有四分之一比他小。Q_U是上四分位数。IQR称为四分位数间距,IQR=Q_U-Q_L

分布分析

定量数据的分布分析:求极差(max-min),决定组距和组数,决定分点,列出频率分布表,绘制频率分布直方图。

定性数据的分布分析:饼图或条形图

对比分析

统计量分析

集中趋势度量:均值、中位数、众数

离中趋势度量:极差、标准差、变异系数、四份位数间距

变异系数为:s表示标准差,x表示均值

周期性分析

贡献度分析

又称帕累托分析,原理是帕累托法则,即20/80定律,同样的投入放在不同的地方会产生不同的收益。

相关性分析

途径:绘制散点图、散点图矩阵、计算相关系数

Pearson相关系数:要求连续变量的取值服从正态分布。

$$
\begin{cases}

{|r|\leq 0.3}&\text{不存在线性相关}\

0.3 < |r| \leq 0.5&\text{低度线性相关}\

0.5 < |r| \leq 0.8&\text{显著线性相关}\

0.8 < |r| \leq 1&\text{高度线性相关}\

\end{cases}
$$

相关系数r的取值范围[-1, 1]

Spearman相关系数:不服从正态分布的变量、分类或等级变量之间的关联性可用该系数,也称等级相关系数。

对两个变量分别按照从小到大的顺序排序,得到的顺序就是秩。R_i表示x_i的秩次,Q_i表示y_i的秩次。

判定系数:相关系数的平方,用来解释回归方程对y的解释程度。

数据探索函数

电子商务网站用户行为分析及服务推荐

数据抽取:建立数据库--导入数据--搭建Python数据库操作环境

数据分析

  1. 网页类型分析
  2. 点击次数分析
  3. 网页排名

数据预处理

  1. 数据清洗:删除数据(中间页面网址、发布成功网址、登录助手页面)
  2. 数据变化:识别翻页网址并去重,错误分类网址手动分类,并进一步分类
  3. 属性规约:只选择用户和用户选择的网页数据

模型构建

基于物品的协同滤波算法:计算物品之间的相似度,建立相似度矩阵;根据物品的相似度和用户的历史行为给用户生成推荐列表。

相似度计算方法:夹角余弦、Jaccard系数、相关系数

财政收入影响因素分析及预测模型

数据分析

  1. 描述性统计分析
  2. 相关分析

模型构建

对于财政收入、增值税、营业税、企业所得税、政府性基金、个人所得税

  1. Adaptive-Lasso变量选择模型:去除无关变量
  2. 分别建立灰色预测模型与神经网络模型

基于基站定位数据的商圈分析

数据预处理

  1. 属性规约:删除冗余属性,合并时间属性
  2. 数据变换:计算工作日人均停留时间、凌晨、周末、日均等指标,并标准化。

模型构建

  1. 构建商圈聚类模型:采用层次聚类算法
  2. 模型分析:对聚类结果进行特征观察

电商产品评论数据情感分析

文本采集:八爪鱼采集器(爬虫工具)

文本预处理:

  1. 文本去重:自动评价、完全重复评价、复制的评论
  2. 机械压缩去词:
  3. 删除短句

文本评论分词:采用Python中文分词包“Jieba”分词,精度达97%以上。

模型构建

  1. 情感倾向性模型:生成词向量;评论集子集的人工标注与映射;训练栈式自编码网

Python3数据分析与挖掘建模实战✍✍✍的更多相关文章

  1. Python3数据分析与挖掘建模实战 ☝☝☝

    Python3数据分析与挖掘建模实战 Python数据分析简介 Python入门 运行:cmd下"python hello.py" 基本命令: 第三方库 安装 Windows中 p ...

  2. Python3数据分析与挖掘建模实战 学习 教程

    Python3数据分析与挖掘建模实战 学习 教程 Python数据分析简介Python入门 运行:cmd下"python hello.py" 基本命令: 第三方库安装Windows ...

  3. Python3数据分析与挖掘建模实战

    Python3数据分析与挖掘建模实战  整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大家看的时 ...

  4. 《MATLAB数据分析与挖掘实战》赠书活动

    <MATLAB数据分析与挖掘实战>是泰迪科技在数据挖掘领域探索10余年经验总结与华南师大.韩山师院.广东工大.广技师   等高校资深讲师联合倾力打造的巅峰之作.全书以实践和实用为宗旨,深度 ...

  5. 【读书笔记与思考】《python数据分析与挖掘实战》-张良均

    [读书笔记与思考]<python数据分析与挖掘实战>-张良均 最近看一些机器学习相关书籍,主要是为了拓宽视野.在阅读这本书前最吸引我的地方是实战篇,我通读全书后给我印象最深的还是实战篇.基 ...

  6. 学习参考《Python数据分析与挖掘实战(张良均等)》中文PDF+源代码

    学习Python的主要语法后,想利用python进行数据分析,感觉<Python数据分析与挖掘实战>可以用来学习参考,理论联系实际,能够操作数据进行验证,基础理论的内容对于新手而言还是挺有 ...

  7. python数据分析与挖掘实战

    <python数据分析与挖掘实战>PDF&源代码&张良均 下载:链接:https://pan.baidu.com/s/1TYb3WZOU0R5VbSbH6JfQXw提取码: ...

  8. python数据分析与挖掘实战第二版pdf-------详细代码与实现

    [书名]:PYTHON数据分析与挖掘实战 第2版[作者]:张良均,谭立云,刘名军,江建明著[出版社]:北京:机械工业出版社[时间]:2020[页数]:340[isbn]:9787111640028 学 ...

  9. 零基础数据分析与挖掘R语言实战课程(R语言)

    随着大数据在各行业的落地生根和蓬勃发展,能从数据中挖金子的数据分析人员越来越宝贝,于是很多的程序员都想转行到数据分析, 挖掘技术哪家强?当然是R语言了,R语言的火热程度,从TIOBE上编程语言排名情况 ...

随机推荐

  1. Android Studio androidx 包冲突解决方法

    如果包冲突了会包如下这样的错: Android dependency 'androidx.core:core' has different version for the compile (1.0.0 ...

  2. http://elasticsearch-py.readthedocs.io/en/master/api.html

    API Documentation All the API calls map the raw REST api as closely as possible, including the disti ...

  3. 配置ssh连接会话复用免密码登录

    我们经常使用ssh连接远程主机,为了方便,避免每次登录输入密码,通常使用密钥登录.如果没有设置密钥, 则需要使用密码登录了,若每次都输入密码则十分繁琐.我们可以设置ssh连接会话复用,则登录成功后,会 ...

  4. 2.3 Gulp

    在前端工程化中最重要的就是流程管理,借用 gulp 可以很方便的基于流的方式定义流程任务,并将任务串联起来,本节中将详细介绍 gulp ,包括: gulp 介绍 gulp 是什么 gulp 能够解决哪 ...

  5. JDK8新特性之重复注解

    什么是重复注解 下面是JDK8中的重复注解(java.lang.annotation.Repeatable)定义的源码. @Documented @Retention(RetentionPolicy. ...

  6. 关于scroll实现侧边导航栏

    需求为一个简单的scroll效果,侧边选项卡跟随屏幕向下拖动变颜色的.点击侧边选项卡,跳转到相应模块. 索性上网找了一下类似的效果.附带源码地址  https://blog.csdn.net/drea ...

  7. 微信小程序支付之代码详解

    微信小程序自带的一套规则,类似vue语法,但是好多功能都集成在api中,给了很多初学者轮子,所以首先要熟悉这些api,忘记可照官网继续开发 这里主要说下微信小程序的支付,原理类似上篇介绍的公众网页支付 ...

  8. SQL登录报错

    在安装完SQL后,发现报出了error40和53的错误,作为小白的我也是一脸懵逼,明明一切都是按照默认加下一步安装的,为什么到了连接数据库的时候就出现了问题呢? 后来经过调查,发现需要将sql配置管理 ...

  9. Peasy.NET学习之并发问题处理

    Peasy.net之并发处理 BusinessServiceBase是ServiceBase的自定义实现,提供了额外的独特功能 首先,创建一个业务服务,该业务服务必须继承BusinessService ...

  10. git基础1

    git:     团队协作开发     版本管理      创建项目的文档     初始化   编写项目   把文件add到git仓库,其实是放到了git的代码暂存区   工作区有一个隐藏目录 .gi ...