spark基础知识二】的更多相关文章

主要围绕spark的底层核心抽象RDD进行理解.主要包括以下几个方面 RDD弹性分布式数据集的概念 RDD弹性分布式数据集的五大属性 RDD弹性分布式数据集的算子操作分类 RDD弹性分布式数据集的算子操作练习 1. RDD是什么 RDD(Resilient Distributed Dataset)叫做==弹性分布式数据集==,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合. Dataset: 就是一个集合,存储很多数据. Distributed:它内部的元素…
原文:http://www.36dsj.com/archives/61155 一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map redu…
java  基础知识二 基本类型与运算符 1.标识符 定义:为类.方法.变量起的名称 由大小写字母.数字.下划线(_)和美元符号($)组成,同时不能以数字开头 2.关键字 java语言保留特殊含义或者特殊功能的关键词,不能用着标识符 3.注释 java代码中不会编译,帮助介绍代码的文字片段 三种注释方式,分别是单行注释(//).多行注释(/* */)和文档注释(/** */) 4.基本数据类型 基本类型有以下四种: int长度数据类型有:byte(8bits).short(16bits).int…
菜鸟脱壳之脱壳的基础知识(二)——DUMP的原理当外壳的执行完毕后,会跳到原来的程序的入口点,即Entry Point,也可以称作OEP!当一般加密强度不是很大的壳,会在壳的末尾有一个大的跨段,跳向OEP,类似一个壳与程序入口点的“分界线!当我们到达了程序的OEP,我们就需要进行DUMP程序了,那么什么时候去DUMP一个程序呢?这里我引用了fly的一句话!“手动脱壳理想的最佳dump时机是指壳已经把程序代码包括资源等数据全部解密.输入表等数据还原但还未填充系统函数地址.DLL则还未重定位,此时d…
在下刚毕业工作,之前实习有用到Dapper?这几天新项目想用上Dapper,在下比较菜鸟,这块只是个人对Dapper的一种总结. 2,如何使用Dapper?     首先Dapper是支持多种数据库的,当时在学习的时候参考蓝老师的资料https://www.cnblogs.com/lanxiaoke/p/6503022.html.      Dapper支持多数据库的工厂类,设计模式的工厂模式,Skr·  Skr~. public interface IRepository<T> where…
python基础知识(二) 字符串格式化 ​ 格式: % 类型 ---- > ' %类型 ' %(数据) %s 字符串 ​ print(' %s is boy'%('tom')) ----> tom is boy %d 整型 ​ print(' tom has %d money'%(20))---> tom has 20 money f 字符串 3.6版本以上使用 # f'{变量,表达式等等}' # 字符串嵌套 " 这是嵌套'字符串' " name=input('请输…
第三章 面向对象   时间:2017年4月24日17:51:37~2017年4月25日13:52:34 章节:03章_01节 03章_02节 视频长度:30:11 + 21:44 内容:面向对象设计思想  心得: 与以往的各种语言的根本不同的是,它的设计出发点就是为了更能直接的描述问题域中客观存在的事务   一个面向过程的设计思想和面向对象的设计思想的不同的例子 例如:我要去新疆 面向过程:我开车,挂挡,踩油门,到河北....... 面向对象: 我命令去新疆,车怎么去不关我事( 信息封装在车的类…
基础知识有时候感觉时间长似乎有点生疏,正好这几天有时间有机会,就决定重新做一轮二次学习,挑重避轻 回过头来重新整理基础知识,能收获到之前不少遗漏的,所以这一次就称作查漏补缺吧!废话不多说,开始! 第一章  JAVA简介   时间:2017年4月24日10:23:32 章节:01章_02节 内容:jdk的配置与安装 完成情况:已经完成,cmd中javac提示出相关命令   时间:2017年4月24日10:30:39 章节:01章_04节 内容:输出HelloWorld 完成情况: 已经完成 jav…
译者按: 总结了大量JavaScript基本知识点,很有用! 原文: The Definitive JavaScript Handbook for your next developer interview 为了保证可读性,本文采用意译而非直译.另外,本文版权归原作者所有,翻译仅用于学习. 根据StackOverflow调查, 自2014年一来,JavaScript是最流行的编程语言.当然,这也在情理之中,毕竟1/3的开发工作都需要一些JavaScript知识.因此,如果你希望在成为一个开发者,…
1.基础排序算法 sc.textFile()).reduceByKey(_+_,).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pair._1)).collect //key value交换 sc.setLogLevel("WARN") 2.二次排序算法 所谓二次排序就是指排序的时候考虑两个维度(有可能10次排序) Java版本 package com.dt.java.spark; imp…