>>> rdd = sc.parallelize([("), ("b", 1), ("a", 1), ("a", 1)]) >>> rdd.distinct().countByKey().items() [('a', 2), ('b', 1)] OR: from operator import add rdd.distinct().map(lambda x: (x[0], 1)).reduceByKe…
统计一共有几个数字 s="sdfa45ads46723" #lambda >>> filter(lambda x:x.isdigit(),list(s)) ['4', '5', '4', '6', '7', '2', '3'] >>> len(filter(lambda x:x.isdigit(),list(s))) 7 >>> reduce(lambda x,y:x+y,map(lambda x:x.isdigit(),list(…
spark经典之单词统计 准备数据 既然要统计单词我们就需要一个包含一定数量的文本,我们这里选择了英文原著<GoneWithTheWind>(<飘>)的文本来做一个数据统计,看看文章中各个单词出现频次如何.为了便于大家下载文本.可以到GitHub上下载文本以及对应的代码.我将文本放在项目的目录下. 首先我们要读取该文件,就要用到SparkContext中的textFile的方法,我们尝试先读取第一行. scala实现 import org.apache.spark.{SparkCo…
[Spark][Python]spark 从 avro 文件获取 Dataframe 的例子 从如下地址获取文件: https://github.com/databricks/spark-avro/raw/master/src/test/resources/episodes.avro 导入到 hdfs 系统: hdfs dfs -put episodes.avro 读入: mydata001=sqlContext.read.format("com.databricks.spark.avro&qu…
[Spark][Python]Spark 访问 mysql , 生成 dataframe 的例子: mydf001=sqlContext.read.format("jdbc").option("url","jdbc:mysql://localhost/loudacre")\ .option("dbtable","accounts").option("user","trainin…
一.概述 解析JSON过程中,什么情况都可能遇到.遇到特殊的情况,不会怎么办?肯定不是设计的问题,一定是你的姿势不对. 有这样一种JSON需要解析: { "b3444533f6544": { "path": "path", "at": 1490100417, "data": { "datastream": [ { "id": "BX_V_XW",…
用python实现简单EXCEL数据统计的实例 下面小编就为大家带来一篇用python实现简单EXCEL数据统计的实例.小编觉得挺不错的,现在就分享给大家,也给大家做个参考.一起跟随小编过来看看吧 任务: 用python时间简单的统计任务-统计男性和女性分别有多少人. 用到的物料:xlrd 它的作用-读取excel表数据 代码:     import xlrd workbook = xlrd.open_workbook('demo.xlsx') #打开excel数据表 SheetList = w…
python数据结构之二叉树的统计与转换实例 这篇文章主要介绍了python数据结构之二叉树的统计与转换实例,例如统计二叉树的叶子.分支节点,以及二叉树的左右两树互换等,需要的朋友可以参考下 一.获取二叉树的深度 就是二叉树最后的层次,如下图: 实现代码: 代码如下: def getheight(self):         ''' 获取二叉树深度 '''         return self.__get_tree_height(self.root)     def __get_tree_he…
1.如何认识可视化? 图形总是比数据更加醒目.直观.解决统计回归问题,无论在分析问题的过程中,还是在结果的呈现和发表时,都需要可视化工具的帮助和支持. 需要指出的是,虽然不同绘图工具包的功能.效果会有差异,但在常用功能上相差并不是很大.与选择哪种绘图工具包相比,更重要的是针对不同的问题,需要思考选择什么方式.何种图形去展示分析过程和结果.换句话说,可视化只是手段和形式,手段要为目的服务,形式要为内容服务,这个关系一定不能颠倒了. 因此,可视化是伴随着分析问题.解决问题的过程而进行思考.设计和实现…
1.关于 StatsModels statsmodels(http://www.statsmodels.org)是一个Python库,用于拟合多种统计模型,执行统计测试以及数据探索和可视化. 2.文档 最新版本的文档位于: https://www.statsmodels.org/stable/ 欢迎关注 Youcans 原创系列,每周更新数模笔记 Python数模笔记-PuLP库 Python数模笔记-StatsModels统计回归 Python数模笔记-Sklearn Python数模笔记-N…