在Spark上通过BulkLoad快速将海量数据导入到Hbase

我们在<通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]>文中介绍了一种快速将海量数据导入Hbase的一种方法,而本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法.这里将介绍两种方式:第一种使用Put普通的方法来倒数:第二种使用Bulk Load API.关于为啥需要使用Bulk Load本文就不介绍,更多的请参见<通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]>. 如果想及时了解Spark.Hadoop或者H…

通过BulkLoad快速将海量数据导入到Hbase

在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据.我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等. 但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,所以很不适合一次性导入大量数据. 本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbase中. 总的来说,使用 Bulk Load 方式由于利用了 HBase 的数据信息是按照特定格式存储在 HDFS 里的这一特性,直接在 HDFS 中生成持久…

通过BulkLoad快速将海量数据导入到Hbase（TDH，kerberos认证）

一.概念使用BlukLoad方式利用Hbase的数据信息是按照特点格式存储在HDFS里的特性,直接在HDFS中生成持久化的Hfile数据格式文件,然后完成巨量数据快速入库的操作,配合MapReduce完成这样的操作. 二.优点 1.不占用Region资源 2.不会产生巨量的写入I/O. 3.只需要较少的CPU和网络资源三.实现原理通过一个MapReduce Job来实现的,通过job直接生成一个Hbase的内部HFile格式文件 ,用来形成一个特殊的Hbase数据表,然后直接将数据文件加…

spark上的一些常用命令（一）

1. 加速跑 spark-sql --name uername --num-executors --driver-memory 8G --executor-memory 8G 2. 上传数据建表 )) 上传数据 load data local inpath '/home/spark/xxx.txt' into xxx_yyy ##inpath后面跟路径名,into后面跟表名 3. 导出数据 hive -e "select * from temp.user_temp;" > /h…

Spark，一种快速数据分析替代方案

原文出处:http://www.ibm.com/developerworks/library/os-spark/ Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载. Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架.与 Hadoop 不同,Spark 和 Sca…

Spark（火花）快速、通用的大数据处理引擎框架

一.什么是Spark(火花)? 是一种快速.通用处理大数据分析的框架引擎. 二.Spark的四大特性 1.快速:Spark内存上采用DAG(有向无环图)执行引擎非循环数据流和内存计算支持. 内存上比MapReduce快速100倍,磁盘上快10倍左右 MapReduce存储读取在磁盘上,大数据批量处理系统 2.简洁性编程起来很简单,Spark由Scala编写,方法式操作 Scala-Python-java 3.通用性一站式相当于JAR包,结合SQL.流.库.图形.Apache Spark 4.…

Spark 安装部署与快速上手

Spark 介绍核心概念 Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别. 最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次都写入 HDFS,更适用于需要迭代的 MapReduce 算法场景中,可以获得更好的性能提升. 例如一次排序测试中,对 100TB 数据进行排序,Spark 比 Hadoop 快三倍,并且只需要十分之一的机器. Spark 集群目前最大的可以达到 8000 节点,处理的数据达到 PB 级别…

协同过滤 CF & ALS 及在Spark上的实现

使用Spark进行ALS编程的例子可以看:http://www.cnblogs.com/charlesblc/p/6165201.html ALS:alternating least squares 关于协同过滤ALS原理的可以看这篇文章:http://www.docin.com/p-938897760.html 最后的惩罚因子那部分没看懂.前面的还挺好的. 上面3.1节关于矩阵分解模型的自然意义和解释,讲的非常好! 注:矩阵的每一行代表一个方程,m行代表m个线性联立方程. n列代表n个变量.如…

如何在Win8.1和Win2012上运用PowerShell快速生成、安装、导出自签名证书 (Self-Signed Certificate)

自签名证书用途很广,测试,开发,本地或者云端网站(比如Microsoft Azure Web Site)都会使用到.本文会介绍一种在Win8.1和Win2012 R2上使用PowerShell快速生成自签名证书,自动导出私钥并在LocalMachine\My和LocalMachine\Root下自动安装的方法.非常易用.[这里是完整的脚本下载链接 CodePlex 或者 GitHub] 目前来说,我们已有的创建Self-Signed证书方法包括用MakeCert和CertMgr的,用SelfSS…

在spark上构造随机森林模型过程的一点理解

这篇文章仅仅是为了帮助自己理解在分布式环境下是如何进行随机森林模型构建的,文章中记录的内容可能不太准确,仅仅是大致上的一个理解. 1.特征切分点统计不管是连续取值型特征还是离散取值型特征,分裂树结点时都需要寻找最优特征的最优切分点.离散型特征还好一点,对连续型特征,其取值情况多,若是遍历所有数据样本,寻找特征的所有取值情况,然后找出全部的候选分割点,计算每个候选分割点下分割的效果,这个过程的空间和时间的耗费非常大.spark中采取的策略是,在数据样本集中进行随机采样,获取一定数量的样本,依据这…

干货 | 快速实现数据导入及简单DCS的实现

干货 | 快速实现数据导入及简单DCS的实现原创: 赵琦京东云开发者社区 4月18日对于多数用户而言,在利用云计算的大数据服务时首先要面临的一个问题就是如何将已有存量数据快捷的导入到大数据仓库中.本文将演示如何基于京东云数据计算服务平台,简单.快速地将数据导入数据计算服务. 我们通常说的大数据平台主要包括三部分:数据相关的产品和技术.数据资产.数据管理.京东云数据计算服务(Data Computing Service,简称:DCS)是一个全托管.低使用成本的云上数据仓库服务.通过数据工厂…

使用Spark的newAPIHadoopRDD接口访问有kerberos认证的hbase

使用newAPIHadoopRDD接口访问hbase数据,网上有很多可以参考的例子,但是由于环境使用了kerberos安全加固,spark使用有kerberos认证的hbase,网上的参考资料不多,访问hbase时,有些需要注意的地方,这里简单记录下最后的实现方案以及实现过程中遇到的坑,博客有kerberos认证hbase在spark环境下的使用提供了很大的帮助!!! 环境及版本信息 CDH6.2.1大数据集群(包含yarn.spark.hdfs等组件) 项目pom文件首先说明的是不需要安装s…

BulkLoad加载本地文件到HBase表

BulkLoad加载文件到HBase表 1.功能将本地数据导入到HBase中 2.原理 BulkLoad会将tsv/csv格式的文件编程hfile文件,然后再进行数据的导入,这样可以避免大量数据导入时造成的集群写入压力过大. 1.tsv格式的文件:字段之间以制表符\t分割 2.csv格式的文件:字段之间以逗号,分割 3.作用减小HBase集群插入数据的压力提高了Job运行的速度,降低了Job执行时间 4.案例 Step1.配置临时环境变量 $ export HBASE_HOME=/opt/…

jsp+servlet上传excel并将数据导入到数据库表的实现方法

<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <…

Spark入门，概述，部署，以及学习（Spark是一种快速、通用、可扩展的大数据分析引擎）

1:Spark的官方网址:http://spark.apache.org/ Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Streaming.GraphX.MLlib等子项目,Spark是基于内存计算的大数据并行计算框架.Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群.2 Spark是MapReduce的替代方案,而且兼容HDFS.Hive,可融入H…

在Spark上用Scala实验梯度下降算法

首先参考的是这篇文章:http://blog.csdn.net/sadfasdgaaaasdfa/article/details/45970185 但是其中的函数太老了.所以要改.另外出发点是我自己的这篇文章 http://www.cnblogs.com/charlesblc/p/6206198.html 里面关于梯度下降的那幅图片. 改来改去,在随机化向量上耗费了很多时间,最后还是做好了.代码如下: package com.spark.my import org.apache.log4j.{L…

提交jar作业到spark上运行

1.引入spark包:spark-assembly-1.4.0-hadoop2.6.0,在spark的lib目录下 File-->project structure 2.用IDEA建立一个scala项目,新建一个WordCount的object 3.WordCount代码如下: import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._…

Android上按钮解决快速点击问题

//代码2 public abstract class NoDoubleClickListener implements OnClickListener { public static final int MIN_CLICK_DELAY_TIME = 1000; private long lastClickTime = 0; @Override public vo…

Spark：Spark 编程模型及快速入门

http://blog.csdn.net/pipisorry/article/details/52366356 Spark编程模型 SparkContext类和SparkConf类代码中初始化我们可通过如下方式调用 SparkContext 的简单构造函数,以默认的参数值来创建相应的对象.val sc = new SparkContext("local[4]", "Test Spark App") 这段代码会创建一个4线程的 SparkContext 对象 .…

Spark 基础之SQL 快速上手

知识点 SQL 基本概念 SQL Context 的生成和使用 1.6 版本新API:Datasets 常用 Spark SQL 数学和统计函数 SQL 语句 Spark DataFrame 文件保存实验步骤 Spark SQL 是Spark 中用于处理结构化数据的模块.它与基本的Spark RDD API 不同的地方在于其接口提供了更多关于结构化数据的信息,能够更好地应用于计算过程.这些额外的信息也能够帮助系统进行优化,从而提高计算的性能. 这个体系中,Dat…

在Spark上运行TopK程序

1. scala程序如下 package com.cn.gao import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ /** * @author hadoop * 对文本进行词频统计,并返回出现频率最高的K个词 * */ object topK { def main(args: Array[String]) { if(args.le…

在Spark上运行WordCount程序

1.编写程序代码如下: Wordcount.scala package Wordcount import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ /** * @author hadoop * 统计字符出现个数 * */ object Wordcount { def main(args: Array[String]) { if(arg…

将hive搭建到spark上

1. 首先搭建好spark和hive,参见相关文档 2. 在spark/conf下创建hive-site.xml <configuration> <property> <name>hive.metastore.uris</name> <value>thrift://master:9083</value> <description>connection romate metastores</description>…

spark上 spark-shell和java -jar访问hdfs路径问题

部署spark集群使用spark包 spark-1.0.2-bin-hadoop2.tgz 在spark-shell和java -jar访问hadoop hdfs上的文件写法是有区别的在spark-shell直接使用/user/ning/1.txt 之类的路径,不用加hdfs://host:port 的前缀在java -jar 命令中访问呢,需要hdfs://host:port/user/ning/1.txt这样模式的路径才能访问…

Spark学习笔记——Spark上数据的获取、处理和准备

数据获得的方式多种多样,常用的公开数据集包括: 1.UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类.回归.聚类和推荐系统任务.数据集列表位于:http://archive.ics.uci.edu/ml/ 2.Amazon AWS公开数据集:包含的通常是大型数据集,可通过Amazon S3访问.这些数据集包括人类基因组项目.Common Crawl网页语料库.维基百科数据和Google Books Ngrams.相关信息可参见:http://aws.amazon.com/p…

用VisualAssist在Visual Studio上设置快捷键快速编程

一在Visual Studio上安装VisualAssist工具: 链接:https://pan.baidu.com/s/1uaeRFTvY4p7LNoDvQFEU5A 提取码:j1ws 安装后,找到VA_X.dll并替换就可以了.我的电脑安装的Visual Studio2017,VA_X.dll目录在C:\Users\Administrator\AppData\Local\Microsoft\VisualStudio\15.0_6e62d528\Extensions\jp2zqssf.jk…

线上cpu100%问题快速定位

问题描述:服务器上部署了多个tomcat,即垂直切分的Web站点,记忆多个Java微服务,突然收到运维的cpu异常告警. 步骤一:找到最耗cpu的进程工具:top 方法: 执行top -c,显示进程运行信息列表键入P(大写),进程按cpu使用率排序图示: 如上图,找到最耗CPU的进程PID20136 步骤二: 找到最耗CPU的线程工具:top 方法: top -Hp 20136,显示一个进程的线程信息列表键入P,线程按CPU使用率排序由此找到最耗CPU的线程PID 步骤三:将线程PI…

云上建站快速入门：博客、论坛、CMS、电子商务网站统统搞定

现在制作一个网站已经越来越容易了,只要知道清晰的流程之后都是可以很快的建好一个企业或者个人网站的!免费的建站程序很多,下面听哥给你亮出来,建站一般来说分主要有这四步:申请域名.申请虚拟主机.制作网页,网站宣传推广! 一:域名注册选个好的域名是一个成功网站的开始,尤其是一个好记的有利于客户更好的记住,更有利于做推广.选域名要选容易管理和注册的,cn现在需要营业执照才可以注册,所以建议大家选择com或者net比较多! 二:虚拟主机申请现在主机种类很多商家也是层出百穷.如何选择稳定的和实用的空间是…

centos7上借助于xargs快速查询并卸载rpm软件

在centos上卸载某些软件的时候,如果查询的软件包比较多,可以考虑使用xargs,边查询边卸载如:下面在查询mysql包时候,将查询结果通过管道传送给xargs,然后使用rpm -e --nodeps进行卸载当然如果你不想使用这种方式,那就直接用yum吧!…

在Mac上使用vs-code快速上手c语言学习(入门文，老鸟退散)

天下事,合久必分.分久必合,你肯定想不到当你逃离到Mac平台这么多年之后,有一天你会再用微软的产品来写代码 :) 其实微软的产品虽然用户体验总是做不到最好,但整体上的确拉低了行业的进入门槛,对于编程也是这样的. Seven的c语言课程,老师选择的是vc6,但总不能为了使用vc6,又回到那个我们曾经无爱的世界. 其实Xcode已经足够好了,足以支撑从入门到专家各个阶段的需求.不过对于入门者来说,还是比较重.好在现在各类代码编辑器非常发达,从Java程序员最爱的intellij idea,到底层程序…

【在Spark上通过BulkLoad快速将海量数据导入到Hbase】的更多相关文章