python数据分析学习目录 Anaconda的安装和更新 矩阵NumPy pandas数据表 matplotlib-2D绘图库学习目录                      …
概率分布简介 简单地介绍下常用概率分布的理论知识. 基础概念 1.概率 概率直观上是指一个事件发生可能性大小的数量指标 概率的统计定义:在不变的条件下,重复进行$n$次试验,事件$A$发生的频率稳定在某一个常数$p$附近摆动,且一般来说,$n$越大,摆动幅度越小,则称常数$p$为事件$A $的概率,记作$P(A)=p$. 2.古典概型 当试验结果为有限$n$个样本点,且每个样本点的发生具有相等的可能性,如果事件A由$n_{A}$个样本点组成,则事件$A$的概率 $P(A)=\frac{n_{A}…
1.1数组对象基础 .caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px solid #000; } .table { border-collapse: collapse !important; } .table td, .table th { background-color: #fff !important; } .table-bordered th, .tab…
http://www.zhihu.com/question/22119753 http://www.zhihu.com/question/20757000 ****************************************** http://www.zhihu.com/question/29265587/answer/123961440 https://zhuanlan.zhihu.com/p/22842649 https://zhuanlan.zhihu.com/p/224196…
Spart是什么 Spart是一个用来实现快速而而通用的集群计算平台. 在速度方面,Spart扩展了广泛使用的Mapreduce计算模型,而且高效的支持更多的计算模式,包括交互式查询和流处理.Spart的一个主要特点是能够在内存中进行计算,因而更快.即使必须在硬盘上进行复杂计算,Spart依然比Mapreduce快. Spart适用于各种各样原先需要多种不同分布式平台的场景,包括批处理,迭代算法,交互式查询,流处理.通过在一个统一的框架下支持这些不同的计算,Spart使我们可以简单而低耗的把各种…
正则表达式 为高级的文本模式匹配.抽取.与/或文本形式的搜索和替换功能提供了基础.简单地说,正则表达式(简称为 regex)是一些由字符和特殊符号组成的字符串,它们描述了模式的重复或者表述多个字符,于是正则表达式能按照某种模式匹配一系列有相似特征的字符串.换句话说,它们能够匹配多个字符串--一种只能匹配一个字符串的正则表达式模式是很乏味并且毫无作用的,不是吗?Python 通过标准库中的 re 模块来支持正则表达式 正则表达式的特殊字符列表 '.' 匹配所有字符串,除\n以外 '-' 表示范围[…
Numpy的简单操作 import numpy #导入numpy包 file = numpy.genfromtxt("文件路径",delimiter=" ",dtype=str) # 从文件中读取数据 print(type(file)) #打印数据类型,你会发现是numpy.ndarray类型(这个也是numpy中最重要的数据类型) print(file) #当你遇见不会的东西时 #可以使用帮助文档 print(help(file))…
import pandas as pd path = r'F:\数据分析专用\数据分析与机器学习\food_info.csv' with open(path, 'r') as f: data = pd.read_csv(f) print(type(data)) print(data.dtypes) print(help(pd.read_csv)) 文件操作 print(data.head(3)) print(data.tail(3)) print(data.columns) 查看数据 data.…
通常对数据的矩阵进行操作,就用numpy操作,打开txt文件 使用help()去查询文档,可以看到官方的注释 import numpy path = r'F:\数据分析专用\数据分析与机器学习\world_alcohol.txt' world_alchol = numpy.genfromtxt(path, delimiter=",", dtype=str) print(type(world_alchol)) print(world_alchol) print(help(numpy.ge…
Kafka 的作者 Neha Narkhede 在 Confluent 上发表了一篇博文,介绍了Kafka 新引入的KSQL 引擎——一个基于流的SQL.推出KSQL 是为了降低流式处理的门槛,为处理Kafka 数据提供简单而完整的可交互式SQL 接口.KSQL 目前可以支持多种流式操作,包括聚合(aggregate).连接(join).时间窗口(window).会话(session),等等. 与传统 SQL 的主要区别 KSQL 与关系型数据库中的 SQL 还是有很大不同的.传统的 SQL 都…