Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令

【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令

<Learning Spark>这本书算是Spark入门的必读书了,中文版是<Spark快速大数据分析>,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足,中文译版评分8.4,评论一片好评,有点意思.我倒觉得这本书可以作为官方文档的一个补充,刷完后基本上对Spark的一些基本概念.码简单的程序是没有问题的了.这本书有一个好处是它是用三门语言写的,Python/Java/Scala,所以适用性很广,我的观点是,先精通一门语言,再去学其他语言.由于我工作中比较常用…

Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令

【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark SQL相关的知识,如果对Spark不熟的同学可以先看看之前总结的两篇文章: [原]Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令 [原]Learning Spark (Python版) 学习笔记(二)----键值对.数据读取与保存.共享特性 #####…

【原】Learning Spark (Python版) 学习笔记(四)----Spark Sreaming与MLlib机器学习

本来这篇是准备5.15更的,但是上周一直在忙签证和工作的事,没时间就推迟了,现在终于有时间来写写Learning Spark最后一部分内容了. 第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容.我们知道Spark在离线处理数据上的性能很好,那么它在实时数据上的表现怎么样呢?在实际生产中,我们经常需要即使处理收到的数据,比如实时机器学习模型的应用,自动异常的检测,实时追踪页面访问统计的应用等.Spark Streaming可以很好的解决上述类似的问题. 了解Spar…

【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性

本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =.以后还是要按时完成任务.废话不多说,第四章-第六章主要讲了三个内容:键值对.数据读取与保存与Spark的两个共享特性(累加器和广播变量). 键值对(PaiRDD) 1.创建 #在Python中使用第一个单词作为键创建一个pairRDD,使用map()函数 pairs = lines.map(lambda x:(x.split(" ")[0],x)) 2.转化(Transformation) 转化操作很多,有reduceByK…

【数据结构与算法Python版学习笔记】图——基本概念及相关术语

概念图Graph是比树更为一般的结构, 也是由节点和边构成实际上树是一种具有特殊性质的图图可以用来表示现实世界中很多有意思的事物,包括道路系统.城市之间的航班.互联网的连接,甚至是计算机专业的一系列必修课定义一个图G可以定义为G=(V, E) 其中V是顶点的集合, E是边的集合, E中的每条边e=(v, w), v和w都是V中的顶点: 如果是赋权图,则可以在e中添加权重分量子图: V和E的子集术语表顶点Vertex(也称"节点Node") 是图的基本组成部分,顶点具有名称…

【数据结构与算法Python版学习笔记】引言

学习来源北京大学-数据结构与算法Python版目标了解计算机科学.程序设计和问题解决的基本概念计算机科学是对问题本身.问题的解决.以及问题求解过程中得出的解决方案的研究.面对一个特定问题,计算机科学家的目标是得出一个算法(algorithm) ,写出一组解决该问题可能出现的任何情况的步步为营的指令.算法通过有限过程解决问题.算法是解决方案. 计算机科学可以被看作是对算法的研究. 可计算抽象理解什么是"抽象"以及抽象在问题解决过程中的作用定义抽象使我们能以一种区分所谓的…

【数据结构与算法Python版学习笔记】算法分析

什么是算法分析算法是问题解决的通用的分步的指令的聚合算法分析主要就是从计算资源的消耗的角度来评判和比较算法. 计算资源指标存储空间或内存执行时间影响算法运行时间的其他因素分为最好.最差和平均情况,平均状况体现主流性能累计求和案例 import time def sumOFN2(n): start=time.time() theSum=0 for i in range(1,n+1): theSum+=i end=time.time() return theSum,end-start…

【数据结构与算法Python版学习笔记】查找与排序——散列、散列函数、区块链

散列 Hasing 前言如果数据项之间是按照大小排好序的话,就可以利用二分查找来降低算法复杂度. 现在我们进一步来构造一个新的数据结构, 能使得查找算法的复杂度降到O(1), 这种概念称为"散列Hashing" 能够使得查找的次数降低到常数级别, 我们对数据项所处的位置就必须有更多的先验知识. 如果我们事先能知道要找的数据项应该出现在数据集中的什么位置, 就可以直接到那个位置看看数据项是否存在即可由数据项的值来确定其存放位置基本概念散列表(hash table, 又称哈希表)…

【数据结构与算法Python版学习笔记】递归(Recursion)——定义及应用：分形树、谢尔宾斯基三角、汉诺塔、迷宫

定义递归是一种解决问题的方法,它把一个问题分解为越来越小的子问题,直到问题的规模小到可以被很简单直接解决. 通常为了达到分解问题的效果,递归过程中要引入一个调用自身的函数. 举例数列求和 def listsum(numlist): if len(numlist) == 1: return numlist[0] else: return numlist[0]+listsum(numlist[1:]) if __name__ == "__main__": print(listsum([…

【数据结构与算法Python版学习笔记】基本数据结构——列表 List，链表实现

无序表链表定义一种数据项按照相对位置存放的数据集抽象数据类型无序列表 UnorderedList 方法 list() 创建一个新的空列表.它不需要参数,而返回一个空列表. add(item) 将新项添加到列表,没有返回值.假设元素不在列表中. remove(item) 从列表中删除元素.需要一个参数,并会修改列表.此处假设元素在列表中. search(item) 搜索列表中的元素.需要一个参数,并返回一个布尔值. isEmpty() 判断列表是否为空.不需要参数,并返回一个布尔值. siz…

【数据结构与算法Python版学习笔记】树——相关术语、定义、实现方法

概念一种基本的"非线性"数据结构--树根枝叶广泛应用于计算机科学的多个领域操作系统图形学数据库计算机网络特征第一个属性是层次性,即树是按层级构建的,越笼统就越靠近顶部,越具体则越靠近底部. 第二个属性是,一个节点的所有子节点都与另一个节点的所有子节点无关.比如,猫属的子节点有家猫(英文名为Domestica)和狮. 第三个属性是,叶子节点都是独一无二的. 例子文件系统 HTML文档(嵌套标记) 域名体系术语节点节点是树的基础部分. 它可以有自己的名字,我们…

【数据结构与算法Python版学习笔记】目录索引

引言算法分析基本数据结构概览栈 stack 队列 Queue 双端队列 Deque 列表 List,链表实现递归(Recursion) 定义及应用:分形树.谢尔宾斯基三角.汉诺塔.迷宫优化问题与策略查找与排序查找:顺序查找与二分查找排序:冒泡.选择.插入.希尔.归并.快速散列.散列函数.区块链树相关术语.定义.实现方法二叉树的应用:解析树树的遍历 Tree Traversals 利用二叉堆实现优先级队列二叉查找树 Binary Search Tree 平衡二叉搜索树…

【数据结构与算法Python版学习笔记】递归(Recursion)——优化问题与策略

分治策略:解决问题的典型策略,分而治之将问题分为若干更小规模的部分通过解决每一个小规模部分问题,并将结果汇总得到原问题的解递归算法与分治策略递归三定律体现了分支策略应用相当广泛排序查找遍历求值等优化问题计算机科学中许多算法都是为了找到某些问题的最优解两点之间最短路径能最好匹配一系列点的直线满足一定条件的最小集合经典案例:找零兑换贪心策略兑换最少个数的硬币贪心策略及失效 63=252+101+1*3 63=21*3 递归解法步骤确定基本结束条件需要兑换的…

【数据结构与算法Python版学习笔记】图——最短路径问题、最小生成树

最短路径问题概念可以通过"traceroute"命令来跟踪信息传送的路径: traceroute www.lib.pku.edu.cn 可以将互联网路由器体系表示为一个带权边的图路由器作为顶点,路由器之间网络连接作为边权重可以包括网络连接的速度.网络负载程度.分时段优先级等影响因素作为一个抽象,我们把所有影响因素合成为单一的权重解决信息在路由器网络中选择传播速度最快路径的问题, 就转变为在带权图上最短路径的问题. 这个问题与广度优先搜索BFS算法解决的词梯问题相似, 只是在边…

【数据结构与算法Python版学习笔记】图——强连通分支

互联网我们关注一下互联网相关的非常巨大图: 由主机通过网线(或无线)连接而形成的图: 以及由网页通过超链接连接而形成的图. 网页形成的图以网页(URI作为id)为顶点,网页内包含的超链接作为边,可以转换为一个有向图. 得出这样的结论:网络具有一种基础结构,使得在某种程度上相似的网页相互聚集. 强连通分支Strongly Connected Components 概念通过一种叫作强连通分支的图算法,可以找出图中高度连通的顶点簇(发现高度聚集节点群). 强连通分支,定义为图G的一个子集C C中…

【数据结构与算法Python版学习笔记】图——拓扑排序 Topological Sort

概念很多问题都可转化为图, 利用图算法解决例如早餐吃薄煎饼的过程制作松饼的难点在于知道先做哪一步.从图7-18可知,可以首先加热平底锅或者混合原材料.我们借助拓扑排序这种图算法来确定制作松饼的步骤. 从工作流程图得到工作次序排列的算法,称为"拓扑排序" 拓扑排序处理一个DAG(向无环图), 输出顶点的线性序列使得两个顶点v,w,如果G中有(v,w)边,在线性序列中v就出现在w之前. 拓扑排序广泛应用在依赖事件的排期上,还可以用在项目管理. 数据库查询优化和矩阵乘法的次序优化上算…

【数据结构与算法Python版学习笔记】图——骑士周游问题深度优先搜索

骑士周游问题概念在一个国际象棋棋盘上, 一个棋子"马"(骑士) , 按照"马走日"的规则, 从一个格子出发, 要走遍所有棋盘格恰好一次.把一个这样的走棋序列称为一次"周游" 在8×8的国际象棋棋盘上, 合格的"周游"数量有1.305×1035这么多, 走棋过程中失败的周游就更多了采用图搜索算法, 是解决骑士周游问题最容易理解和编程的方案之一解决方案还是分为两步: 首先将合法走棋次序表示为一个图采用图搜索算法搜寻一个长…

【数据结构与算法Python版学习笔记】图——词梯问题广度优先搜索 BFS

词梯Word Ladder问题要求是相邻两个单词之间差异只能是1个字母,如FOOL变SAGE: FOOL >> POOL >> POLL >> POLE >> PALE>> SALE >> SAGE 目标是找到最短的单词变换序列用图表示单词之间的关系: 用一种名为广度优先搜索 BFS的图算法找到从起始单词到结束单词的最短路径. 构建词梯图算法首先是将所有单词作为顶点加入图中,再设法建立顶点之间的边对每个顶点(单词) , 与其…

【数据结构与算法Python版学习笔记】树——平衡二叉搜索树（AVL树）

定义能够在key插入时一直保持平衡的二叉查找树: AVL树利用AVL树实现ADT Map, 基本上与BST的实现相同,不同之处仅在于二叉树的生成与维护过程平衡因子 AVL树的实现中, 需要对每个节点跟踪"平衡因子balance factor"参数 \(balance Factor=height (left SubTree)-height(right SubTree)\) 平衡因子大于0,称为"左重left-heavy", 小于零称为"右重right-…

【数据结构与算法Python版学习笔记】树——二叉查找树 Binary Search Tree

二叉搜索树,它是映射的另一种实现映射抽象数据类型前面两种实现,它们分别是列表二分搜索和散列表. 操作 Map()新建一个空的映射. put(key, val)往映射中加入一个新的键-值对.如果键已经存在,就用新值替换旧值. get(key)返回key对应的值.如果key不存在,则返回None. del通过del map[key]这样的语句从映射中删除键-值对. len()返回映射中存储的键-值对的数目. in通过key in map这样的语句,在键存在时返回True,否则返回False. 二叉…

【数据结构与算法Python版学习笔记】树——利用二叉堆实现优先级队列

概念队列有一个重要的变体,叫作优先级队列. 和队列一样,优先级队列从头部移除元素,不过元素的逻辑顺序是由优先级决定的. 优先级最高的元素在最前,优先级最低的元素在最后. 实现优先级队列的经典方法是使用叫作二叉堆(Binary Heap)的数据结构. 二叉堆的入队操作和出队操作均可达到O(log n). 其逻辑结构上像二叉树, 却是用非嵌套的列表来实现的二叉堆有两个常见的变体: 最小堆(最小的元素一直在队首) 最大堆(最大的元素一直在队首) 二叉堆的操作 BinaryHeap()新建一个空的二…

【数据结构与算法Python版学习笔记】树——树的遍历 Tree Traversals

遍历方式前序遍历在前序遍历中,先访问根节点,然后递归地前序遍历左子树,最后递归地前序遍历右子树. 中序遍历在中序遍历中,先递归地中序遍历左子树,然后访问根节点,最后递归地中序遍历右子树. 后序遍历在后序遍历中,我们先递归地后序遍历访问左子树和右子树,最后访问根节点实现代码三种遍历的外部函数方式 def preorder(tree): """前序遍历""" if tree: print(tree.getRootVal()) preord…

【数据结构与算法Python版学习笔记】树——二叉树的应用:解析树

解析树(语法树) 将树用于表示语言中句子, 可以分析句子的各种语法成分, 对句子的各种成分进行处理语法分析树程序设计语言的编译词法.语法检查从语法树生成目标代码自然语言处理机器翻译语义理解表达式解析 \(((7+3)*(5-2))\) 叶节点保存操作数,内部节点保存操作符树中每个子树都表示一个子表达式构建解析树定义规则如果当前标记是(,就为当前节点添加一个左子节点,并下沉至该子节点: 如果当前标记在列表['+', '-', '/', '*']中,就将当前节点的值设为当前标…

Docker技术入门与实战第二版-学习笔记-10-Docker Machine 项目-3-Command-line completion命令补全

Command-line completion https://docs.docker.com/machine/completion/ Installing Command Completion——实现docker命令的自动补全 Docker for Mac comes with scripts to enable completion for the docker, docker-machine, and docker-compose commands. The completion scri…