Spark分析笔记

前言第一章 Spark简介本章将对Spark做一个介绍,以及它的一些基本概念 Spark是什么? Spark生态系统BDAS Spark架构 Spark分布式与单机多核架构的异同 Spark的企业级应用第二章 Spark集群的部署 Spark程序模型弹性分布式数据集 Spark算子分类及功能第三章 Spark计算模型第四章 Spark工作机制详解第五章…

Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高性能效率实用灵活性.也可以与hadoop切实相互结合. spark核心部分分为RDD.Spark SQL.Spark Streaming.MLlib.GraphX.Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎.其相应的生态环境包括zepplin等可视化方面…

3.View绘制分析笔记之onLayout

上一篇文章我们了解了View的onMeasure,那么今天我们继续来学习Android View绘制三部曲的第二步,onLayout,布局. ViewRootImpl#performLayout private void performLayout(WindowManager.LayoutParams lp, int desiredWindowWidth, int desiredWindowHeight) { mLayoutRequested = false; mScrollMayChange…

4.View绘制分析笔记之onDraw

上一篇文章我们了解了View的onLayout,那么今天我们来学习Android View绘制三部曲的最后一步,onDraw,绘制. ViewRootImpl#performDraw private void performDraw() { ··· final boolean fullRedrawNeeded = mFullRedrawNeeded; mFullRedrawNeeded = false; mIsDrawing = true; Trace.traceBegin(Trace.TRAC…

2.View绘制分析笔记之onMeasure

今天主要学习记录一下Android View绘制三部曲的第一步,onMeasure,测量. 起源在Activity中,所有的View都是DecorView的子View,然后DecorView又是被ViewRootImpl所控制,当Activity显示的时候,ViewRootImpl的performTranversals方法开始运行,这个方法很长,不过核心的三个流程就是依次调用performMeasure.performLayout.performDraw三个方法,从而完成DecorView的绘…

1.Android 视图及View绘制分析笔记之setContentView

自从1983年第一台图形用户界面的个人电脑问世以来,几乎所有的PC操作系统都支持可视化操作,Android也不例外.对于所有Android Developer来说,我们接触最多的控件就是View.通常,我们使用自定义View,需要了解最多的除了事件分发,就是View的绘制过程.然而关于View的绘制,涉及到的知识点纷繁复杂,这么多的代码知识,要梳理起来,肯定是先要找个头.那么平常我们用的最多的方法是哪个方法呢?当然是setContentView()! setContentView 首先我们直接在…

Spark学习笔记之SparkRDD

Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② 通过转换来自于其他RDD,如map,filter等 2.创建操作(creation operation):RDD的创建由SparkContext来负责. 3.转换操作(transformation operation):将一个RDD通过一定操作转换为另一个RDD. 4.控制操作(control o…

使用Spark分析拉勾网招聘信息(一):准备工作

本系列专属github地址:https://github.com/ios122/spark_lagou 前言我觉得如果动笔,就应该努力地把要说的东西表达清楚.今后一段时间,尝试下系列博客文章.简单说,如果心里想表达想分享的,就适当规划组织下,使其相对自成体系,以便于感兴趣但可能刚好某个领域还不是很熟的人,也能很好地入手.系列文章,我会努力避免过于主观化的描述,同时吸取以往的经验,尽量给每个系列的文章都设置一个单独的 github 项目,供查阅参考. Spark 系列文章规划 Spark系列,因…

zeromq源码分析笔记之线程间收发命令（2）

在zeromq源码分析笔记之架构说到了zmq的整体架构,可以看到线程间通信包括两类,一类是用于收发命令,告知对象该调用什么方法去做什么事情,命令的结构由command_t结构体确定:另一类是socket_base_t实例与session的消息通信,消息的结构由msg_t确定.命令的发送与存储是通过mailbox_t实现的,消息的发送和存储是通过pipe_t实现的,这两个结构都会详细说到,今天先说一下线程间的收发命令. zeromq的线程可分为两类,一类是io线程,像reaper_t.io_thr…

Spark学习笔记2（spark所需环境配置

Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后在解压好的maven客户端的文件夹内打开conf文件夹,修改里面的settings.xml文件然后只需要修改这一行就可以了 ,把这一行替换成你自己本地的maven仓库的路径最好是自己有一个完整点的maven仓库,然后把这个修改过的xml文件放到maven仓库下到这里,你本地的maven客户端环…

Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）

Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的spark搭建后是否真正可以使用了 1.今天就和大家写一个计算π的spark代码下面我把已经写好了的代码放在下面,大家可以借以参考一下 package day02 import org.apache.spark.{SparkConf, SparkContext} import scala.math.r…

glusterfs 4.0.1 api 分析笔记1

一般来说,我们写个客户端程序大概的样子是这样的: /* glfs_example.c */ // gcc -o glfs_example glfs_example.c -L /usr/lib64/ -lgfapi -I /usr/include/glusterfs/ #include <stdio.h> #include <stdlib.h> #include <errno.h> #include "api/glfs.h" #include &quo…

[大数据从入门到放弃系列教程]第一个spark分析程序

[大数据从入门到放弃系列教程]第一个spark分析程序原文链接:http://www.cnblogs.com/blog5277/p/8580007.html 原文作者:博客园--曲高终和寡 *********************分割线********************** 由于新入职了一家公司,准备把我放进大数据的组里面我此前对大数据,仅仅停留在听说过这个名词上,那么这次很快就要进入项目,一边我自己在学习,一边也把教程分享出来,避免后来之人踩我所踩过的坑 *************…

Spark学习笔记-GraphX-1

Spark学习笔记-GraphX-1 标签: SparkGraphGraphX图计算 2014-09-29 13:04 2339人阅读评论(0) 收藏举报分类: Spark(8) 版权声明:本文为博主原创文章,未经博主允许不得转载. Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求.Spark GraphX由于底层是基于Spark来处理的,所以天然就是一个分布式…

SEH分析笔记（X64篇）

SEH分析笔记(X64篇) v1.0.0 boxcounter 历史: v1.0.0, 2011-11-4:最初版本. [不介意转载,但请注明出处 www.boxcounter.com 附件里有本文的原始稿,一样的内容,更好的高亮和排版. 本文的部分代码可能会因为论坛的自动换行变得很乱,需要的朋友手动复制到自己的代码编辑器就可以正常显示了] 在之前的<SEH分析笔记(X86篇)>中,我借助 wrk1.2 介绍了 x86 下 windows 系统内核中的 SEH 实现.这次我们来看看 x64…

【转载】Instagram架构分析笔记

原文地址:http://chengxu.org/p/401.html Instagram 架构分析笔记全部技术博客 Instagram团队上个月才迎来第 7 名员工,是的,7个人的团队.作为 iPhone 上最火爆的图片类工具,instagram 用户数量已经超过 1400 万,图片数量超过 1.5 亿张.不得不说,这真他妈是个业界奇迹. 几天前,只有三个人的 Instagram 工程师团队发布了一篇文章:What Powers Instagram: Hundreds of Instance…

CentOS下使用Iptraf进行网络流量的分析笔记

CentOS下使用Iptraf进行网络流量的分析笔记一.概述 Iptraf是一款linux环境下,监控网络流量的一款绝佳的免费小软件. 本博客其他随笔参考: Centos安装流量监控工具iftop笔记网站日志实时分析工具GoAccess使用工作中常用Linux命令--服务器运维 CentOS安装按进程实时统计流量情况工具NetHogs笔记二.安装 # yum install iptraf -y 三.运行 # iptraf 运行后有一个如下的菜单提示,然后进入相关的选项查看: IP流量监视…

《linux 内核全然剖析》 fork.c 代码分析笔记

fork.c 代码分析笔记 verifiy_area long last_pid=0; //全局变量,用来记录眼下最大的pid数值 void verify_area(void * addr,int size) // addr 是虚拟地址 ,size是须要写入的字节大小 { unsigned long start; start = (unsigned long) addr; //把地址强制类型转换之后,赋值给start size += start & 0xfff; //取addr在当前虚拟地址中4…

Spark学习笔记3——RDD（下）

目录 Spark学习笔记3--RDD(下) 向Spark传递函数通过匿名内部类通过具名类传递通过带参数的 Java 函数类传递通过 lambda 表达式传递(仅限于 Java 8 及以上) 常见的转化操作和行动操作基本RDD 行动操作不同 RDD 的类型转换持久化 Spark学习笔记3--RDD(下) 笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 向Spark传递函数大部分 Spark 的转化操作和一部分行动操作,都需要传递函数后进行计算.如…

Spark学习笔记0——简单了解和技术架构

目录 Spark学习笔记0--简单了解和技术架构什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streaming MLlib GraphX 集群管理器受众起源和发展 Spark学习笔记0--简单了解和技术架构笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 什么是Spark Spark 是一个用来实现快速而通用的集群计算的平台. 扩展了广泛使用的MapReduce 计算模型能够在内存中进行计算一个统一的框架…

Spark学习笔记2——RDD（上）

目录 Spark学习笔记2--RDD(上) RDD是什么? 例子创建 RDD 并行化方式读取外部数据集方式 RDD 操作转化操作行动操作惰性求值 Spark学习笔记2--RDD(上) 笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> RDD是什么? 弹性分布式数据集(Resilient Distributed Dataset,简称 RDD) Spark 的核心概念一个不可变的分布式对象集合每个 RDD 都被分为多个分区运行在集群的不同节点上 RDD…

Spark学习笔记1——第一个Spark程序：单词数统计

Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-core_2.10 的依赖程序找了一篇注释比较清楚的博客代码1,一次运行通过 import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.ap…

ReentrantReadWriteLock源码分析笔记

ReentrantReadWriteLock包含两把锁,一是读锁ReadLock, 此乃共享锁, 一是写锁WriteLock, 此乃排它锁. 这两把锁都是基于AQS来实现的. 下面通过源码来看看ReentrantReadWriteLock是如何做到读读共享,读写互斥的. 1. 测试代码 import java.util.concurrent.CyclicBarrier; import java.util.concurrent.locks.ReentrantReadWriteLock; publ…

《linux 内核全然剖析》sched.c sched.h 代码分析笔记

版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/u011368821/article/details/25129835 sched.c sched.h 代码分析笔记首先上header file sched.h #ifndef _SCHED_H #define _SCHED_H #define HZ 100 #define NR_TASKS 64 #define TASK_SIZE 0x04000000 #define LIBRARY_SIZE…

ArrayList源码分析笔记

ArrayList源码分析笔记先贴出ArrayList一些属性 public class ArrayList<E> extends AbstractList<E> implements List<E>, RandomAccess, Cloneable, java.io.Serializable { /** * 系列化ID. */ private static final long serialVersionUID = 8683452581122892189L; /**…

spark复习笔记(5):API分析

0.spark是基于hadoop的mr模型,扩展了MR,高效实用MR模型,内存型集群计算,提高了app处理速度. 1.特点:(1)在内存中存储中间结果 (2)支持多种语言:java scala python (3)内置了80多种算子 2.sparkCore模块(通用执行引擎) (1)通用的执行引擎,提供内存计算和对外部数据集的引用. 3.spark sql (1)Spark SQL是Spark Core之上的组件,引入了新的数据抽象称为SchemaRDD,它为结构化和半结构化数据提供支持. 4.…

spark复习笔记(4):spark脚本分析

1.[start-all.sh] #!/usr/bin/env bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information regarding copyright ownership. #…

Spark Streaming笔记

Spark Streaming学习笔记 liunx系统的习惯创建hadoop用户在hadoop根目录(/home/hadoop)上创建如下目录app 存放所有软件的安装目录 app/tmp 存放临时文件 data 存放测试数据lib 存放开发用的jar包software 存放软件安装包的目录source 存放框架源码 hadoop生态系统 CDH5.7.x地址:http://archive.cloudera.com/cdh5/cdh/5/ 需求:统计主站每个课程访问的客户端,地域信息分布地域:i…

Spark学习笔记（一）——基础概述

本篇笔记主要说一下Spark到底是个什么东西,了解一下它的基本组成部分,了解一下基本的概念,为之后的学习做铺垫.过于细节的东西并不深究.在实际的操作过程中,才能够更加深刻的理解其内涵. 1.什么是Spark? Spark是由美国加州伯克利大学的AMP实验室开发的,一款基于内存计算的大数据并行计算框架,可用于构建大型的.低延迟的数据分析应用程序. 说白了就是搞数据计算分析的框架,过于细节的东西在学习过程中再去体会,一口吃不成胖子,反而会噎死人. 2.Spark的内置模块来看一下Spark内置哪些…

使用Spark分析拉勾网招聘信息(四): 几个常用的脚本与图片分析结果

概述前一篇文章,已经介绍了BMR的基础用法,再结合Spark和Scala的文档,我想应该是可以开始你的数据分析之路的.这一篇文章,着重进行一些简单的思路上的引导和分析.如果你分析招聘数据时,卡在了某个环节,可以试着阅读本文. 在继续下面的各种分析前,请确保已经读完了本系列文章的第三篇,并正确配置了BMR,同时导入了需要的真实招聘数据. 如果用传统编程语言工具? 假设我们从数据的采集,存储到数据的读取与使用,都是使用传统的语言工具,比如nodejs. 我们如果想知道到底有不同的薪水段有多少招聘职…