一.描述 在书中第二章,有一个例子,构建完之后,运行: ${SPARK_HOME}/bin/spark-submit --class com.oreilly.learningsparkexamples.mini.java.WordCount ./target/learning-spark-mini-example-0.0.1.jar ./README.md ./wordcouts 如果用的spark版本与书中用到的不一样的话,就会出现各种问题,譬如书中用的是1.2.0而我用的是最新的2.3.0.…
简介 为了学习和尽快掌握 Java 9 的模块化(Module System)新特性,最近安装了 JDK 9,新建了一个 Spring Boot 进行尝试, 过程中遇到了一下报错问题,写下此文谨作为个人笔记,同时也供遇到相同问题的同学参考. 1. Gradle "Could not determine java version from '9.0.1'." 问题 之前本地安装的是 Gradle 4.1 版本,在创建基于Gradle的Spring Boot项目时,在Gradle执行Bui…
[序言] Spark 基于内存的基本类型 (primitive)为一些应用程序带来了 100 倍的性能提升.Spark 允许用户程序将数据加载到 集群内存中用于反复查询,非常适用于大数据和机器学习. 目前,Spark 已经超越 Spark 核心,发展到了 Spark streaming.SQL.MLlib. GraphX.SparkR 等模块. Spark 对曾经引爆大数据产业革命的 Hadoop MapReduce 的改进主要体现在这几个方面: 1.Spark 速度更快: 2.Spark 丰富…
Spark 中的RDD 就是一个不可变的分布式对象集合.每个RDD 都被分为多个分区,这些分区运行在集群中的不同节点上.RDD 可以包含Python.Java.Scala中任意类型的对象,甚至可以包含用户自定义的对象. 用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序里分发驱动器程序中的对象集合(比如list 和set). RDD支持两种类型的操作:转化操作和行动操作.转化操作会由一个RDD 生成一个新的RDD.行动操作会对RDD计算出一个结果,并把结果返回到驱动器程序中,或把…
第2章 Spark分布式执行涉及的组件 每个Spark应用都由一个驱动程序来发起集群上的各种并行操作,驱动程序通过一个SparkContext对象访问Spark:驱动程序管理多个执行器节点,可以用SparkContext来创建RDD. 第3章 RDD(Resilient Distributed Dataset:弹性分布式数据集) RDD特点 Spark中,对数据的所有操作不外乎:创建RDD.转化已有RDD.调用RDD操作进行求值. Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行…
第一 概论 1.spark的特点 适用多种不同分布式平台的场景,包括批处理,迭代算法,交互式查询,流处理: spark提供了python,scale,java等接口 2.spark的组件 spark的底层组件包括:独立调度器,Hadoop YARN,Apache Mesos spark的内核包括:任务调度,内存管理,错误恢复,RDD spark的顶层包括:spark sql,spark streaming,mlib,graphx 第二 环境搭建 1.说明: spark是用scale语言编写的:运…
由于Spark是在Hadoop家族之上发展出来的,因此底层为了兼容hadoop,支持了多种的数据格式.如S3.HDFS.Cassandra.HBase,有了这些数据的组织形式,数据的来源和存储都可以多样化~…
这章讲述了Spark编程中的高级部分,比如累加器和广播等,以及分区和管道...…
从上层来看,每个Spark 应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作.驱动器程序包含应用的main 函数,并且定义了集群上的分布式数据集,还对这些分布式数据集应用了相关操作. 驱动器程序通过一个SparkContext 对象来访问Spark.这个对象代表对计算集群的一个连接. 一旦有了SparkContext,你就可以用它来创建RDD.…
[问题现象] 1.把 APACHE 的 ZIP 包解压到目录,比如 d:\apache24\ 2.把 PHP 的 ZIP 包解压到目录,比如:d:\php56\ apache 与 php 与 MySQL 的参数配置,网上可以搜罗一大筐,可自行google.bing.百度. 这里主要说一个问题,如果在php中使用 curl_init() 函数,网页上一直提示:Fatal error: Call to undefined function curl_init(), 那么直接把 d:\php56 添加…
初始化SparkContext 1// 在java中初始化spark import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; SparkConf conf=new SparkConf().setMaster("local").setAppName("my app"); //集群url:本例是运行在本地单机local:应用名,可以在集群管理器用户界面中找…
一.问题描述: 最近在使用stanfordcorenlp时,遇到了我在运行时代码不报错但同时也没有结果的问题,等了很久也没有出结果.其实是很简单的一个步骤,但却花了好几天的时间都没有成功!网上更多的是成功的例子,没找到失败的,所以记录下这个问题.希望遇到这个问题的同学能够少走些弯路! 二.问题原因: 其实真正出现问题的原因是我的笔记本的内存不够.在运行stanfordcorenlp的工具时,他需要最少4g的内存,但是我的笔记本一共只有4g内存,所以才导致无法运行java虚拟机.但该工具如果不设置…
运行Java Web项目报错 今天,我启动服务,发现项目报错,并且是在打开登录界面时报错. 具体错误如下: org.apache.catalina.core.Standard WrapperValue invoke 严重:Servlet service() for servlet [jsp] in content path[Dojo] throw exception [java.io.IOException:reading encoded JPEG stream] with root cause…
eclipse运行项目,tomcat报错:Exception in thread :http-bio-8080-exec-4 转自 https://www.cnblogs.com/yby-blogs/p/6283105.html 今天用eclipse开发项目后,新建一个tomcat的server,然后添加项目后启动,利用火狐浏览器进行访问一直报内存溢出: Exception in thread ""http-bio-8080"-exec-1" java.lang.O…
在火狐浏览器33版本,python2.7运行selenium webdriver api报错:SessionNotCreatedException: Message: Unable to find a matching set of capabilities 网上搜了一下,说可以升级浏览器版本到52以上,我升级到了55版本,没有报错了 解决办法:Update Firefox to version >= 52.0.3,更新Firefox版本52.0.3以上 可能也与geckodriver的版本有关…
python2 + selenium + eclipse 中,配置好runserver 127.0.0.1:9000,运行的时候,报错,如图: 原因:       google发现是WSGI application的问题,好象是因为django升级,配置有所变化.   原来: import django.core.handlers.wsgi application = django.core.handlers.wsgi.WSGIHandler() 改成: from django.core.wsg…
flask init-db 结果是 `Error: No such command “init-db”. 那是因为init-db 已经被 flask db init 给代替了 运行 flask db init 报错 原因是你的项目中没找到 app.py 文件,不能确认你这个项目是flask项目 我这里是因为我把 app.py 重命名为 manage.py 了 解决方案 SQLALCHEMY_DATABASE_URI 和 SQLALCHEMY_TRACK_MODIFICATIONS 配置错误 问题…
测试例子时出现报错如下,在最下面会写出安装流程. -------------------------------------报错----1------------------------------------- protoc --cpp_out=. --java_out=. --python_out=. addressbook.protomake: protoc: Command not foundmake: *** [protoc_middleman] Error 127 ---------…
运行npm run eject报错解决方法 主要问题是脚手架添加.gitgnore文件,但是却没有本地仓库,使用以下命令操作以下就可以了 git init git add . git commit -m 'saveing befor ejecting' 最后 npm run eject y 就解决了!…
之前老板给了我一个任务,让我赶紧学习一下大数据分析,下个季度就要用. 赶紧看了一下日历,这离下个季度还有不到半个月的时间,而且我还没有数据分析基础,该怎么能在这么短的时间内学会大数据分析呢-- 经过多方了解,我发现了自助式BI工具这个宝藏! 相比于传统大数据分析工具,用自助式BI工具做大数据分析更加全面,易于上手.而且BI工具还可以可以进行多层次多深度的大数据分析,实现对大数据的横向联动和纵深挖掘.今天就来把我之前学习到的,如何用BI工具进行大数据分析分享给大家! 一.BI和大数据分析 要想了解…
这个方面适用于报错为:java 找不到或无法加载主类,一般是找不到类的路径,问题出在CLASSPATH环境变量上,当然这是大多数.大概率的出错点 不排除根据个人情况不况,所以想起来伟大领袖毛主席的话:具体问题具体分析 1.整个配置环境过程,不再赘述,请按照如下博客进行配置(我认为很全的一篇) http://www.cnblogs.com/liuhongfeng/p/4177568.html 2.检查环境变量是否配置成功 运行cmd 分别输入java,javac, java -version (j…
需求 将HDFS上的数据解析出来,然后通过hfile方式批量写入Hbase(需要多列写入) 写入数据的关键api: rdd.saveAsNewAPIHadoopFile( stagingFolder, classOf[ImmutableBytesWritable], classOf[KeyValue], classOf[HFileOutputFormat2], job.getConfiguration) 特殊地方: 1): 最初写hfile警告⚠️: Does it contain files…
1.运行爬虫scrapy crawl name,报错ScrpyModuleNotFoundError: No module named 'win32api' 2.解决方法: 在https://github.com/mhammond/pywin32/releases找到合适的软件,进行下载安装. 3.完成安装: 4.安装成功后,再次运行scrapy crawl name.运行成功…
运行vue项目出现这样的报错. This relative module was not found: * ../../assets/img/spot.png !./src/components/online 可能是online.vue中引入spot.png出现问题,路径错误或者文件不存在,类似问题也是如此…
1.从毕业到现在工作了几个月了,每天都是在写一些js代码,感觉作为一个web程序员,java还是十分重要的,于是自己买了一本java书来边学边练习,然后发现自己连使用记事本来编写的HelloWorld.java运行时就出问题了,感觉不可思议,竟然连HelloWorld都运行不了,首先我是使用javac命令把HelloWorld.java文件编译成HelloWorld.class文件,然后使用java命令来运行HelloWorld.class文件,我敲的命令是java HelloWorld.cla…
今天启动k8s dashboard的时候报错:"no endpoints available for service \"kubernetes-dashboard\"" 以下是问题排查步骤: (1)首先查看pod状态: kubectl get pods --namespace kube-system 发现dashboard没有运行报错,继续查询: kubectl describe pod kubernetes-dashboard-669f9bbd46-rhmst -…
问题描述 报错原因是 php-cli 版本是 7.1.x,运行 composer create-project ... 命令时安装的依赖包会自动适配到当前 php 版本 7.1.x.如果 php-fpm 的版本是 php 7.0.x,浏览器访问会如下错误: Symfony\Component\Translation\Translator.php(1/1) FatalThrowableErrorParse error: syntax error, unexpected '?', expecting…
引言 今天遇到了一个奇怪的现象,简单举个栗子: 文件结构如下:…