<Learning Spark>这本书算是Spark入门的必读书了,中文版是<Spark快速大数据分析>,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足,中文译版评分8.4,评论一片好评,有点意思.我倒觉得这本书可以作为官方文档的一个补充,刷完后基本上对Spark的一些基本概念.码简单的程序是没有问题的了.这本书有一个好处是它是用三门语言写的,Python/Java/Scala,所以适用性很广,我的观点是,先精通一门语言,再去学其他语言.由于我工作中比较常用…
<Learning Spark>这本书算是Spark入门的必读书了,中文版是<Spark快速大数据分析>,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足,中文译版评分8.4,评论一片好评,有点意思.我倒觉得这本书可以作为官方文档的一个补充,刷完后基本上对Spark的一些基本概念.码简单的程序是没有问题的了.这本书有一个好处是它是用三门语言写的,Python/Java/Scala,所以适用性很广,我的观点是,先精通一门语言,再去学其他语言.由于我工作中比较常用…
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark SQL相关的知识,如果对Spark不熟的同学可以先看看之前总结的两篇文章: [原]Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令 [原]Learning Spark (Python版) 学习笔记(二)----键值对.数据读取与保存.共享特性 #####…
本来这篇是准备5.15更的,但是上周一直在忙签证和工作的事,没时间就推迟了,现在终于有时间来写写Learning Spark最后一部分内容了. 第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容.我们知道Spark在离线处理数据上的性能很好,那么它在实时数据上的表现怎么样呢?在实际生产中,我们经常需要即使处理收到的数据,比如实时机器学习模型的应用,自动异常的检测,实时追踪页面访问统计的应用等.Spark Streaming可以很好的解决上述类似的问题. 了解Spar…
本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =.以后还是要按时完成任务.废话不多说,第四章-第六章主要讲了三个内容:键值对.数据读取与保存与Spark的两个共享特性(累加器和广播变量). 键值对(PaiRDD) 1.创建 #在Python中使用第一个单词作为键创建一个pairRDD,使用map()函数 pairs = lines.map(lambda x:(x.split(" ")[0],x)) 2.转化(Transformation) 转化操作很多,有reduceByK…
概念 图Graph是比树更为一般的结构, 也是由节点和边构成 实际上树是一种具有特殊性质的图 图可以用来表示现实世界中很多有意思的事物,包括道路系统.城市之间的航班.互联网的连接,甚至是计算机专业的一系列必修课 定义 一个图G可以定义为G=(V, E) 其中V是顶点的集合, E是边的集合, E中的每条边e=(v, w), v和w都是V中的顶点: 如果是赋权图,则可以在e中添加权重分量子图: V和E的子集 术语表 顶点Vertex(也称"节点Node") 是图的基本组成部分,顶点具有名称…
学习来源 北京大学-数据结构与算法Python版 目标 了解计算机科学.程序设计和问题解决的基本概念 计算机科学是对问题本身.问题的解决.以及问题求解过程中得出的解决方案的研究.面对一 个特定问题,计算机科学家的目标是得出一个算法(algorithm) ,写出一组解决该问题可能出现的任何情况的步步为营的指令.算法通过有限过程解决问题.算法是解决方案. 计算机科学可以被看作是对算法的研究. 可计算 抽象 理解什么是"抽象"以及抽象在问题解决过程中的作用 定义 抽象使我们能以一种区分所谓的…
什么是算法分析 算法是问题解决的通用的分步的指令的聚合 算法分析主要就是从计算资源的消耗的角度来评判和比较算法. 计算资源指标 存储空间或内存 执行时间 影响算法运行时间的其他因素 分为最好.最差和平均情况,平均状况体现主流性能 累计求和案例 import time def sumOFN2(n): start=time.time() theSum=0 for i in range(1,n+1): theSum+=i end=time.time() return theSum,end-start…
散列 Hasing 前言 如果数据项之间是按照大小排好序的话,就可以利用二分查找来降低算法复杂度. 现在我们进一步来构造一个新的数据结构, 能使得查找算法的复杂度降到O(1), 这种概念称为"散列Hashing" 能够使得查找的次数降低到常数级别, 我们对数据项所处的位置就必须有更多的先验知识. 如果我们事先能知道要找的数据项应该出现在数据集中的什么位置, 就可以直接到那个位置看看数据项是否存在即可 由数据项的值来确定其存放位置 基本概念 散列表(hash table, 又称哈希表)…
定义 递归是一种解决问题的方法,它把一个问题分解为越来越小的子问题,直到问题的规模小到可以被很简单直接解决. 通常为了达到分解问题的效果,递归过程中要引入一个调用自身的函数. 举例 数列求和 def listsum(numlist): if len(numlist) == 1: return numlist[0] else: return numlist[0]+listsum(numlist[1:]) if __name__ == "__main__": print(listsum([…
无序表链表 定义 一种数据项按照相对位置存放的数据集 抽象数据类型无序列表 UnorderedList 方法 list() 创建一个新的空列表.它不需要参数,而返回一个空列表. add(item) 将新项添加到列表,没有返回值.假设元素不在列表中. remove(item) 从列表中删除元素.需要一个参数,并会修改列表.此处假设元素在列表中. search(item) 搜索列表中的元素.需要一个参数,并返回一个布尔值. isEmpty() 判断列表是否为空.不需要参数,并返回一个布尔值. siz…
概念 一种基本的"非线性"数据结构--树 根 枝 叶 广泛应用于计算机科学的多个领域 操作系统 图形学 数据库 计算机网络 特征 第一个属性是层次性,即树是按层级构建的,越笼统就越靠近顶部,越具体则越靠近底部. 第二个属性是,一个节点的所有子节点都与另一个节点的所有子节点无关.比如,猫属的子节点有家猫(英文名为Domestica)和狮. 第三个属性是,叶子节点都是独一无二的. 例子 文件系统 HTML文档(嵌套标记) 域名体系 术语 节点 节点是树的基础部分. 它可以有自己的名字,我们…
引言 算法分析 基本数据结构 概览 栈 stack 队列 Queue 双端队列 Deque 列表 List,链表实现 递归(Recursion) 定义及应用:分形树.谢尔宾斯基三角.汉诺塔.迷宫 优化问题与策略 查找与排序 查找:顺序查找与二分查找 排序:冒泡.选择.插入.希尔.归并.快速 散列.散列函数.区块链 树 相关术语.定义.实现方法 二叉树的应用:解析树 树的遍历 Tree Traversals 利用二叉堆实现优先级队列 二叉查找树 Binary Search Tree 平衡二叉搜索树…
分治策略:解决问题的典型策略,分而治之 将问题分为若干更小规模的部分 通过解决每一个小规模部分问题,并将结果汇总得到原问题的解 递归算法与分治策略 递归三定律 体现了分支策略 应用相当广泛 排序 查找 遍历 求值等 优化问题 计算机科学中许多算法都是为了找到某些问题的最优解 两点之间最短路径 能最好匹配一系列点的直线 满足一定条件的最小集合 经典案例:找零兑换 贪心策略 兑换最少个数的硬币 贪心策略及失效 63=252+101+1*3 63=21*3 递归解法 步骤 确定基本结束条件 需要兑换的…
最短路径问题 概念 可以通过"traceroute"命令来跟踪信息传送的路径: traceroute www.lib.pku.edu.cn 可以将互联网路由器体系表示为一个带权边的图 路由器作为顶点,路由器之间网络连接作为边权重可以包括网络连接的速度.网络负载程度.分时段优先级等影响因素 作为一个抽象,我们把所有影响因素合成为单一的权重 解决信息在路由器网络中选择传播速度最快路径的问题, 就转变为在带权图上最短路径的问题. 这个问题与广度优先搜索BFS算法解决的词梯问题相似, 只是在边…
互联网 我们关注一下互联网相关的非常巨大图: 由主机通过网线(或无线)连接而形成的图: 以及由网页通过超链接连接而形成的图. 网页形成的图 以网页(URI作为id)为顶点,网页内包含的超链接作为边,可以转换为一个有向图. 得出这样的结论:网络具有一种基础结构,使得在某种程度上相似的网页相互聚集. 强连通分支Strongly Connected Components 概念 通过一种叫作强连通分支的图算法,可以找出图中高度连通的顶点簇(发现高度聚集节点群). 强连通分支,定义为图G的一个子集C C中…
概念 很多问题都可转化为图, 利用图算法解决 例如早餐吃薄煎饼的过程 制作松饼的难点在于知道先做哪一步.从图7-18可知,可以首先加热平底锅或者混合原材料.我们借助拓扑排序这种图算法来确定制作松饼的步骤. 从工作流程图得到工作次序排列的算法,称为"拓扑排序" 拓扑排序处理一个DAG(向无环图), 输出顶点的线性序列使得两个顶点v,w,如果G中有(v,w)边,在线性序列中v就出现在w之前. 拓扑排序广泛应用在依赖事件的排期上,还可以用在项目管理. 数据库查询优化和矩阵乘法的次序优化上 算…
骑士周游问题 概念 在一个国际象棋棋盘上, 一个棋子"马"(骑士) , 按照"马走日"的规则, 从一个格子出发, 要走遍所有棋盘格恰好一次.把一个这样的走棋序列称为一次"周游" 在8×8的国际象棋棋盘上, 合格的"周游"数量有1.305×1035这么多, 走棋过程中失败的周游就更多了 采用图搜索算法, 是解决骑士周游问题最容易理解和编程的方案之一 解决方案还是分为两步: 首先将合法走棋次序表示为一个图 采用图搜索算法搜寻一个长…
词梯Word Ladder问题 要求是相邻两个单词之间差异只能是1个字母,如FOOL变SAGE: FOOL >> POOL >> POLL >> POLE >> PALE>> SALE >> SAGE 目标是找到最短的单词变换序列 用图表示单词之间的关系: 用一种名为广度优先搜索 BFS的图算法找到从起始单词到结束单词的最短路径. 构建词梯图 算法 首先是将所有单词作为顶点加入图中,再设法建立顶点之间的边 对每个顶点(单词) , 与其…
定义 能够在key插入时一直保持平衡的二叉查找树: AVL树 利用AVL树实现ADT Map, 基本上与BST的实现相同,不同之处仅在于二叉树的生成与维护过程 平衡因子 AVL树的实现中, 需要对每个节点跟踪"平衡因子balance factor"参数 \(balance Factor=height (left SubTree)-height(right SubTree)\) 平衡因子大于0,称为"左重left-heavy", 小于零称为"右重right-…
二叉搜索树,它是映射的另一种实现 映射抽象数据类型前面两种实现,它们分别是列表二分搜索和散列表. 操作 Map()新建一个空的映射. put(key, val)往映射中加入一个新的键-值对.如果键已经存在,就用新值替换旧值. get(key)返回key对应的值.如果key不存在,则返回None. del通过del map[key]这样的语句从映射中删除键-值对. len()返回映射中存储的键-值对的数目. in通过key in map这样的语句,在键存在时返回True,否则返回False. 二叉…
概念 队列有一个重要的变体,叫作优先级队列. 和队列一样,优先级队列从头部移除元素,不过元素的逻辑顺序是由优先级决定的. 优先级最高的元素在最前,优先级最低的元素在最后. 实现优先级队列的经典方法是使用叫作二叉堆(Binary Heap)的数据结构. 二叉堆的入队操作和出队操作均可达到O(log n). 其逻辑结构上像二叉树, 却是用非嵌套的列表来实现的 二叉堆有两个常见的变体: 最小堆(最小的元素一直在队首) 最大堆(最大的元素一直在队首) 二叉堆的操作 BinaryHeap()新建一个空的二…
遍历方式 前序遍历 在前序遍历中,先访问根节点,然后递归地前序遍历左子树,最后递归地前序遍历右子树. 中序遍历 在中序遍历中,先递归地中序遍历左子树,然后访问根节点,最后递归地中序遍历右子树. 后序遍历 在后序遍历中,我们先递归地后序遍历访问左子树和右子树,最后访问根节点 实现代码 三种遍历的外部函数方式 def preorder(tree): """前序遍历""" if tree: print(tree.getRootVal()) preord…
解析树(语法树) 将树用于表示语言中句子, 可以分析句子的各种语法成分, 对句子的各种成分进行处理 语法分析树 程序设计语言的编译 词法.语法检查 从语法树生成目标代码 自然语言处理 机器翻译 语义理解 表达式解析 \(((7+3)*(5-2))\) 叶节点保存操作数,内部节点保存操作符 树中每个子树都表示一个子表达式 构建解析树 定义规则 如果当前标记是(,就为当前节点添加一个左子节点,并下沉至该子节点: 如果当前标记在列表['+', '-', '/', '*']中,就将当前节点的值设为当前标…
Command-line completion https://docs.docker.com/machine/completion/ Installing Command Completion——实现docker命令的自动补全 Docker for Mac comes with scripts to enable completion for the docker, docker-machine, and docker-compose commands. The completion scri…
目录 Spark学习笔记3--RDD(下) 向Spark传递函数 通过匿名内部类 通过具名类传递 通过带参数的 Java 函数类传递 通过 lambda 表达式传递(仅限于 Java 8 及以上) 常见的转化操作和行动操作 基本RDD 行动操作 不同 RDD 的类型转换 持久化 Spark学习笔记3--RDD(下) 笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 向Spark传递函数 大部分 Spark 的转化操作和一部分行动操作,都需要传递函数后进行计算.如…
目录 Spark学习笔记2--RDD(上) RDD是什么? 例子 创建 RDD 并行化方式 读取外部数据集方式 RDD 操作 转化操作 行动操作 惰性求值 Spark学习笔记2--RDD(上) 笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> RDD是什么? 弹性分布式数据集(Resilient Distributed Dataset,简称 RDD) Spark 的核心概念 一个不可变的分布式对象集合 每个 RDD 都被分为多个分区运行在集群的不同节点上 RDD…
类和对象: 我们经常会对打印一个对象来得到对象的某些信息. class pair:     def __init__(self,x,y):         self.x=x         self.y=y if __name__=='__main__':     p=pair(3,4)     print p E:\python2.7.11\python.exe E:/py_prj/python_cookbook/chapter8.py <__main__.pair instance at 0…
0003.5-20180422-自动化第四章-python基础学习笔记--脚本 1-shopping """ v = [ {"name": "电脑","price":"1999"}, {"name": "鼠标", "price": "10"}, {"name": "游艇", &q…
机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据 关键字:PCA.主成分分析.降维作者:米仓山下时间:2018-11-15机器学习实战(Machine Learning in Action,@author: Peter Harrington)源码下载地址:https://www.manning.com/books/machine-learning-in-actiongit@github.com:pbharrin/machinelearn…