spark-shell与scala生成parquet文件

spark-shell用户

spark-shell只能spark用户来进行初始化，如果用hdfs或者root将会卡在spark-shell的初始化那个地方。可以用这两个用户来验证spark安装时成功地；但是如果想要通过shell来执行code、command，那么还是要用spark用户。

但是如果spark是standalone的安装模式，那么可以不考虑以上的权限问题（权限很多限制来自于YARN），即使root用户，也可以进入到命令行模式

spark读取文件的分布性质

我才用的val employee = sqlContext.read.json("file:///opt/hdpconfig.txt")经常会爆出来文件不存在，让我甚是困惑，后来想明白了，因为sparkContext告知YARN去做加载这件事情，YARN不一定分派到了那台机器的，所以如果没有在当前的机器上面，就会告知文件不存在，如果2/3概率分配到了65/68两台机器，那么就可以，如果分配到了70机器，文件就不存在。

所以大数据技术读取文件信息，file:///这种形式慎用，最好导入到hdfs中，通过hdfs://这种形式来进行处理。

spark写文件

 scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc)

 sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@4cc69f5c

 scala> val employee = sqlContext.read.json("/data/employee.json")

 employee: org.apache.spark.sql.DataFrame = [address: string, id: string, name: string, sexural: string]

 scala> employee.write.parquet("/data/parquet/employee.parquet")

PS：路径没有特别指示，就是指hdfs路径。

spark-shell与scala生成parquet文件的更多相关文章

scala读取parquet文件
import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQL ...
shell的split生成的文件按规律命名及添加扩展名
可以参考用shell切分文件--split shell下的split命令主要用于分割一些大文件用的,比如经常要用到将一个几十万行的TXT分割为多少行一个的文件,非常有用,唯一坑爹的是,切割后的文件不 ...
在Scala IDEA for Eclipse或IDEA里程序编译实现与在Spark Shell下的对比（其实就是那么一回事）
不多说,直接上干货! 比如,我这里拿主成分分析(PCA). 1.主成分分析(PCA)的概念介绍主成分分析(PCA) 是一种对数据进行旋转变换的统计学方法,其本质是在线性空间中进行一个基变换,使得变换 ...
Flink生成Parquet格式文件实战
1.概述在流数据应用场景中,往往会通过Flink消费Kafka中的数据,然后将这些数据进行结构化到HDFS上,再通过Hive加载这些文件供后续业务分析.今天笔者为大家分析如何使用Flink消费Kaf ...
【应用】：shell crontab定时生成oracle表的数据到txt文件，并上传到ftp
一.本人环境描述 1.oracle服务端装在win7 32位上,oracle版本为10.2.0.1.0 2.Linux为centos6.5 32位,安装在Oracle VM Vir ...
spark中saveAsTextFile如何最终生成一个文件
原文地址: http://www.cnblogs.com/029zz010buct/p/4685173.html 一般而言,saveAsTextFile会按照执行task的多少生成多少个文件,比如pa ...
Spark中如何生成Avro文件
研究spark的目的之一就是要取代MR,目前我司MR的一个典型应用场景即为生成Avro文件,然后加载到HIVE表里,所以如何在Spark中生成Avro文件,就是必然之路了. 我本人由于对java不熟, ...
shell 编程生成日期文件;Server虚拟机上进行Web服务器配置
shell 编程生成日期文件 1．请编写一个脚本,命名为sh01.sh,其功能是: 键盘输入文件名(要求使用名字全拼作为文件名). 自动创建3个文件. 1个为系统当天日期(CCYYMMDD). 1个 ...
100个Shell脚本——【脚本8】每日生成一个文件
[脚本8]每日生成一个文件要求:请按照这样的日期格式(xxxx-xx-xx)每日生成一个文件,例如今天生成的文件为)2017-07-05.log, 并且把磁盘的使用情况写到到这个文件中,(不用考虑c ...

随机推荐

【bzoj3298】[USACO 2011Open]cow checkers（博弈论）
题目传送门:https://www.lydsy.com/JudgeOnline/problem.php?id=3298 博弈论经典结论题,我也没什么好说的.matrix67大佬比我想得深入的多:捡石子 ...
HUE中Oozie执行Sqoop
Oozie执行Sqoop,传入参数(注意,在使用--query时,参数中一定不要带有空格,否则出错)1. 新建一个workflow 2. 拖入一个sqoop 3. sqoop抽取命令如下(建议先在命令 ...
利用OPENSSH自身记录密码
大家都知道,OPENSSH是基于Linux下,一款开源,安全性不错的Linux SSH会话连接工具. 在渗透当中,当我们get root了.我们如何来记录Linux管理员登陆过的SSH? 想法如下: ...
Pandas索引和选择数据
在本章中,我们将讨论如何切割和丢弃日期,并获取Pandas中大对象的子集. Python和NumPy索引运算符"[]"和属性运算符".". 可以在广泛的用例中快 ...
配置mybatis-config.xml出现过很诡异的现象
1 首先得保证包的导入正确 2 然后如果把mybatis-config.xml放在src的某个文件夹下,最后能够build path 3 之后一直报 Archive for required libr ...
公共域名服务DNS 114.114.114.114和8.8.8.8
一.两者的联系 114.114.114.114和8.8.8.8,这两个IP地址都属于公共域名解析服务DNS其中的一部分,而且由于不是用于商业用途的,这两个DNS都很纯净,不用担心因ISP运营商导致的D ...
【spark】RDD创建
首先我们要建立 sparkconf 配置文件,然后通过配置文件来建立sparkcontext. import org.apache.spark._ object MyRdd { def main(ar ...
Makefile的补充学习2
Makefile中使用通配符(1)* 若干个任意字符(2)? 1个任意字符(3)[] 将[]中的字符依次去和外面的结合匹配还有个%,也是通配符,表示任意多个字符,和*很相似,但是%一般只用于规则描述 ...
LeetCode OJ ：Move Zeroes (移动0)
Given an array nums, write a function to move all 0's to the end of it while maintaining the relativ ...
OC-Foundation框架
========================== Foundation框架下的常用类 ========================== 一.[NSNumber]================ ...

spark-shell与scala生成parquet文件

spark-shell与scala生成parquet文件的更多相关文章

随机推荐

热门专题