scala 101】的更多相关文章

* scala 安装: 下载可以执行的文件. 注意版本.  spark 0.8.0 对应的scala 为2.9.3 * scala 编译: 和java 很像: 1,  直接编译脚本: scalac HelloWorld.scala scala -classpath . HelloWorld 2, sbt 打包编译.  类比maven 1), 安装sbt. 官网下载, 里面主要是sbt-langh.jar sbt 脚本: SBT_OPTS="-Xms512M -Xmx1536M -Xss1M -X…
需求:百万.千万.4千万级日志对设备进行除重环境:设备内存64G,scala单机版运行shell文件日志:20G 48000000.log4.0G 10000000.log396M 1000000.log 代码如下 帮助 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 import scala.io.Source import scala.collection.mutable.ArrayBuffer var te…
windows下载安装完最新版本的Scala(2.12.4)后,终端如下错误 C:\Users\Administrator>scala -versionException in thread "main" java.lang.VerifyError: Uninitialized object exists on backward branch 96Exception Details: Location: scala/tools/nsc/CompilerCommand.sstrin…
1- 运行scala命令,提示报错 问题现象: 在Windows7系统中安装scala后(直接安装MSI包,或者解压zip包添加环境变量的方式),执行scala命令报错,但可以执行scala -version Microsoft Windows [Version 6.1.7601] Copyright (c) 2009 Microsoft Corporation. All rights reserved. C:\Users\guowli>scala Welcome to Scala 2.12.4…
1.StackOverflowError 问题:简单代码记录 : for (day <- days){ rdd = rdd.union(sc.textFile(/path/to/day) .... ) } 大概场景就是我想把数量比较多的文件合并成一个大rdd,从而导致了栈溢出: 解决:很明显是方法递归调用太多,我之后改成了几个小任务进行了合并:这里union也可能会造成最终rdd分区数过多 2.java.io.FileNotFoundException: /tmp/spark-90507c1d-…
好久没有弄博客了... hive0.14 spark0.12 [hadoop@irs bin]$ ./spark-sql Spark assembly has been built with Hive, including Datanucleus jars on classpathException in thread "main" java.lang.RuntimeException: java.lang.NumberFormatException: For input string…
一.安装jdk jdk版本最好是1.7以上,设置好环境变量,安装过程,略. 二.安装Maven 我选择的Maven版本是3.3.3,安装过程,略. 编辑Maven安装目录conf/settings.xml文件, <!-- 修改Maven 库存放目录--> <localRepository>D:\maven-repository\repository</localRepository> 三.安装Idea 安装过程,略. 四.创建Spark项目 1.新建一个Spark项目,…
场景:在笔记本安装了一台虚拟机, 在本地的虚拟机上部署了一个kafka服务: 写了一个测试程序,在笔记本上运行测试程序,访问虚拟机上的kafka,报如下异常: 2015-01-15 09:33:26 [kafka.producer.async.DefaultEventHandler]-[INFO] Back off for 100 ms before retrying send. Remaining retries = 1 2015-01-15 09:33:26 [kafka.client.Cl…
1:Spark的官方网址:http://spark.apache.org/ Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Streaming.GraphX.MLlib等子项目,Spark是基于内存计算的大数据并行计算框架.Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群.2 Spark是MapReduce的替代方案,而且兼容HDFS.Hive,可融入H…
跑sparkPis示例程序 [root@node01 bin]# ./spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.0.0.jar 100 报如下错误的原因可能是分配的任务数过多导致内存不足. 解决办法:减少任务数 19/04/17 04:19:17 WARN NettyRpcEndpointRef…