概述 1912年4月15日,泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难.沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员.虽然幸存下来有一些运气因素,但有一些人比其他人更有可能生存,比如妇女,儿童和上层阶级.在本文中将对哪些人可能生存作出分析,特别是运用Python和机器学习的相关模型工具来预测哪些乘客幸免于难,最后提交结果.从kaggle泰坦尼克生存预测项目下载相关数据. 实施步骤 1.提出问题 什么样的人在泰坦尼克号中更容易存活? 2.理解数据…
Python数据挖掘之决策树DTC数据分析及鸢尾数据集分析 今天主要讲述的内容是关于决策树的知识,主要包括以下内容:1.分类及决策树算法介绍2.鸢尾花卉数据集介绍3.决策树实现鸢尾数据集分析.希望这篇文章对你有所帮助,尤其是刚刚接触数据挖掘以及大数据的同学,同时准备尝试以案例为主的方式进行讲解.如果文章中存在不足或错误的地方,还请海涵~ 一. 分类及决策树介绍 1.分类         分类其实是从特定的数据中挖掘模式,作出判断的过程.比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都…
https://zhuanlan.zhihu.com/p/103264851 ​本文为星球嘉宾"海艳"的PowerBI数据分析工作实践系列分享之一,她深入浅出的介绍了PowerBI在数据分析中的应用,从各项指标的计算,到可视化展现,利用PowerBI发现问题分析问题,欢迎学习借鉴. PowerBI数据分析01:水平分析法 作者:海艳 首先,以财务报表分析为例,介绍通用的分析方法论,整体架构如下图所示: (点击查看大图) 接下来我会围绕这五种不同的方法论,进一步的阐述他们在 PowerB…
数据为kaggle社区发布的数据分析从业者问卷调查分析报告,其中涵盖了关于该行业不同维度的问题及调查结果.本文的目的为提取有用的数据,进行描述性展示.帮助新从业的人员更全方位地了解这个行业. 参考学习视频:http://www.tianshansoft.com/ 数据集:https://pan.baidu.com/s/1o7BFzFO 变量说明 数据中包含228个变量,提取其中的一些较有价值的变量进行描述性分析 数据处理 survey <-read.csv(stringsAsFactors =…
今天Tony老师给大家带来的案例是Kaggle上的Twitter的情感分析竞赛.在这个案例中,将使用预训练的模型BERT来完成对整个竞赛的数据分析. 导入需要的库 import numpy as np import pandas as pd from math import ceil, floor import tensorflow as tf import tensorflow.keras.layers as L from tensorflow.keras.initializers impor…
在市场研究中,有一种分析是研究消费者态度或偏好,收集的数据是某些对象的评分数据,这些评分数据可以看做是对象间相似性或差异性的表现,也就是一种距离,距离近的差异性小,距离远的差异性大.而我们的分析目的也是想查看这些对象间的差异性或相似性情况,此时由于数据的组成形式不一样,因此不能使用对应分析,而需要使用一种专门分析此问题的方法——多维尺度分析(MDS模型).多维尺度分析和对应分析类似,也是通过可视化的图形阐述结果,并且也是一种描述性.探索性数据分析方法. 基于以上,我们可以得知,多维尺度分析经常使…
学习了机器学习这么久,第一次真正用机器学习中的方法解决一个实际问题,一步步探索,虽然最后结果不是很准确,仅仅达到了0.78647,但是真是收获很多,为了防止以后我的记忆虫上脑,我决定还是记录下来好了. 1,看到样本是,查看样本的分布和统计情况 #查看数据的统计信息print(data_train.info())#查看数据关于数值的统计信息print(data_train.describe()) 通常遇到缺值的情况,我们会有几种常见的处理方式 如果缺值的样本占总数比例极高,我们可能就直接舍弃了,作…
三种开发模式 使用TensorFlow 2.0完成机器学习一般有三种方式: 使用底层逻辑 这种方式使用Python函数自定义学习模型,把数学公式转化为可执行的程序逻辑.接着在训练循环中,通过tf.GradientTape()迭代,使用tape.gradient()梯度下降,使用optimizer.apply_gradients()更新模型权重,逐次逼近,完成模型训练. 使用Keras高层接口 TensorFlow 1.x的开发中,Keras就作为第三方库存在.2.0中,更是已经成为标准配置.我们…
原文链接:https://zhuanlan.zhihu.com/p/92768131?utm_source=tuicool&utm_medium=referral 知乎,可以说是国内目前最大的问答类社区.与微博.贴吧等产品不同,知乎上面的内容更多是用户针对特定的问题分享知识.经验和见解.咱们编程教室就有不少读者是从知乎上了解到我们的. 那么,知乎上都有哪些“大V”用户?普通用户喜欢关注哪方面内容?我们利用 Python 对知乎上的部分信息进行了个采集,做了一份简单的统计. 这个统计也是我们用 P…
数据分析工具使用场景 函数 分类 文本清洗函数 FIND - 查找 find 函数查询指定位置的某字符的的位置 快捷键 : 选中后双击右下角的 + 可以快速生成当前一列结果 FIND("查询字符", 查询位置) LEFT - 左截取 left 截取指定位置左侧的指定位数字符 LEFT(截取位置, 截取数量) 不想要 k 可以减一前移去掉 现在是公式的计算结果, 选择复制后粘贴为数值, 然后删除掉Q列中间值 RIGHT - 右截取 用法同 LEFT 从右边截取 多出来的 "-&…