Spark 1.3.0 单机安装】的更多相关文章

一.试验环境: CentOS6.6 最小化安装:主机名spark-test,IP:10.10.10.26 OpenStack虚拟云主机. 注:安装流程:进入linux->安装JDK->安装scala->安装spark. 二.安装JDK 下载JDK: 版本jdk-6u45-linux-x64.bin,下载见Oracle官网 建立data文件夹,用来存放数据 # mkdir /data [root@spark-test data]# ls jdk-6u45-linux-x64.bin sca…
环境:ubuntu 14.04, jdk 1.6, scala 2.11.4, spark 1.1.0, hadoop 2.5.1 一 spark 单机模式 部分操作参考:http://www.cnblogs.com/chenfool/p/3858930.html,我之前写的spark 1.0.1部署 1 安装scala,具体操作参考我之前的博文 2 解压spark1.1.0包,这里我下载的是编译好的包,spark-1.1.0-bin-hadoop2.4.tgz -bin-hadoop2..tg…
说明:前提安装好hadoop集群,可参考 http://blog.csdn.net/zhang123456456/article/details/77621487 一. scala 安装 1.下载 scala 安装包 :https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz 2.上传 scala 安装包 [root@hadp-master local]# pwd/usr/local[root@hadp-master…
hadoop发行的版本:apache hadoop;HDP;CDH -----这里只使用apache hadoop---可以在网站hadoop.apache.org网站上找到 hadoop安装方式:自动部署:RPM包:JAR包----这里使用jar包的安装方式 hadoop安装部署流程: 1 准备硬件linux操作系统 ---分为生产环境--多linux机器和测试环境-一linux或者虚拟机------只讲测试环境 ---在windows系统安装vmwares,并且虚拟出来3个系统 ---每个系…
由于现在hadoop2.0还处于beta版本,在apache官方网站上发布的beta版本中只有编译好的32bit可用,如果你直接下载安装在64bit的linux系统的机器上,运行会报一个INFO util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable的错误,但在实际测试中是可以正常安装并可以运行自带的w…
由于现在hadoop2.0还处于beta版本,在apache官方网站上发布的beta版本中只有编译好的32bit可用,如果你直接下载安装在64bit的linux系统的机器上,运行会报一个INFO util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable的错误,但在实际测试中是可以正常安装并可以运行自带的w…
如果要全面的使用spark,你可能要安装如JDK,scala,hadoop等好些东西.可有时候我们只是为了简单地安装和测试来感受一下spark的使用,并不需要那么全面.对于这样的需要,我们其实只要安装好JDK,然后下载配置spark,两步即可. 本文选择: 1.centos 2.JDK1.8 3.spark2.3 一.JDK安装 spark需要运行在Java环境中,所以我们需要安装JDK. JDK安装配置参考:https://www.cnblogs.com/lay2017/p/7442217.h…
来源: 慕课网 Spark SQL慕课网日志分析_大数据实战 目标: spark系列软件的伪分布式的安装.配置.编译 spark的使用 系统: mac 10.13.3 /ubuntu 16.06,两个系统都测试过 软件: hadoop,hive,spark,scala,maven hadoop伪分布式.spark伪分布式 详细: software 存放安装的软件包 app 所有软件的安装目录 data 课程中所有使用的测试数据目录 source 软件源码目录,spark 1)下载hadoop a…
说白了 Spark on YARN模式的安装,它是非常的简单,只需要下载编译好Spark安装包,在一台带有Hadoop YARN客户端的的机器上运行即可.  Spark on YARN简介与运行wordcount(master.slave1和slave2)(博主推荐) Spark on YARN分为两种: YARN cluster(YARN standalone,0.9版本以前)和 YARN client.    如果需要返回数据到client就用YARN client模式. 如果数据存储到hd…
1.准备: centos 6.5 jdk 1.7 Java SE安装包下载地址:http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html maven3.3.9 Maven3.3.9安装包下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache//maven/maven-3/3.3.9/binaries/ spark 2…
1.说明 Kafka单机安装,基于版本1.0.1, 使用kafka_2.12-1.0.1.tgz安装包, 其中2.12是编译工具Scala的版本. 而且不需要另外安装Zookeeper服务, 使用Kafka自带的Zookeeper即可. 2.安装规划 Kafka:单机 Zookeeper:单机,Kafka自带 Jdk:安装好并且配置环境变量 3.安装用户 kafka/ai123456 useradd -g hadoop -s /bin/bash -md /home/kafka kafka 4.上…
SSH无密安装与配置 具体配置步骤: ◎ 在root根目录下创建.ssh目录 (必须root用户登录) cd /root & mkdir .ssh chmod 700 .ssh & cd .ssh ◎ 创建密码为空的 RSA 密钥对: ssh-keygen -t rsa -P "" ◎ 在提示的对称密钥名称中输入 id_rsa将公钥添加至 authorized_keys 中: cat id_rsa.pub >> authorized_keys chmod 6…
Hadoop的安装和配置可以参考我之前的文章:在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境. 本篇介绍如何在Hadoop2.6.0基础上搭建spark1.4.0单机环境. 1. 软件准备 scala-2.11.7.tgz spark-1.4.0-bin-hadoop2.6.tgz 都可以从官网下载. 2. scala安装和配置 scala-2.11.7.tgz解压缩即可.我解压缩到目录/home/vm/tools/scala,之后配置~/.bash_profile环境变量. #sca…
spark的集群环境安装搭建 1.spark local模式运行环境搭建 常用于本地开发测试,本地还分为local单线程和local-cluster多线程; 该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,直接运行在本地,便于调试,通常用来验证开发出来的应用程序逻辑上有没有问题. 其中N代表可以使用N个线程,每个线程拥有一个core.如果不指定N,则默认是1个线程(该线程有1个core). 如果是local[*],则代表 Run Spark locally wit…
Spark快速入门 - Spark 1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 快速入门(Quick Start) 本文简单介绍了Spark的使用方式.首先介绍Spark的交互界面的API使用,然后介绍如何使用Java.Scala以及Python编写Spark应用.详细的介绍请阅读Spark Programming Guide. 在按照本文进行操作之前,请确保已安装Spark.本文中的所有操作没有使用HDFS,所以您可以安装任何版本的Hadoop.…
本文为原创文章,转载请注明出处,谢谢 zookeeper 单机安装配置 1.安装前准备 linux系统(此文环境为Centos6.5) Zookeeper安装包,官网https://zookeeper.apache.org/,演示版本zookeeper-3.4.7.tar.gz 2.解压:tar -zxvf zookeeper-3.4.7.tar.gz 3.修改配置文件 cd zookeeper-3.4.7/conf cp zoo_sample.cfg zoo.cfg 复制模板配置文件为zoo.…
Kafka是一个分布式的.可分区的.可复制的消息系统.它提供了普通消息系统的功能,但具有自己独特的设计.这个独特的设计是什么样的呢 介绍 Kafka是一个分布式的.可分区的.可复制的消息系统.它提供了普通消息系统的功能,但具有自己独特的设计.这个独特的设计是什么样的呢? 首先让我们看几个基本的消息系统术语: •Kafka将消息以topic为单位进行归纳.•将向Kafka topic发布消息的程序成为producers.•将预订topics并消费消息的程序成为consumer.•Kafka以集群的…
1. Neo4j简介 Neo4j是一个用Java实现的.高性能的.NoSQL图形数据库.Neo4j 使用图(graph)相关的概念来描述数据模型,通过图中的节点和节点的关系来建模.Neo4j完全兼容ACID的事务性.Neo4j以“节点空间”来表 达领域数据,相对于传统的关系型数据库的表.行和列来说,节点空间可以更好地存储由节点关系和属性构成的网络,如社交网络,朋友圈等. 2 neo4j版本介绍 neo4j版本种类比较多,有开源的社区版本,也有企业版本.其中社区版本包括了很多neo4j的基本特性,…
Spark 概述 Apache Spark 是一个快速的, 多用途的集群计算系统. 它提供了 Java, Scala, Python 和 R 的高级 API,以及一个支持通用的执行图计算的优化过的引擎. 它还支持一组丰富的高级工具, 包括使用 SQL 处理结构化数据处理的 Spark SQL, 用于机器学习的 MLlib, 用于图形处理的 GraphX, 以及 Spark Streaming. 下载 从该项目官网的 下载页面 获取 Spark. 该文档用于 Spark 2.2.0 版本. Spa…
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession 创建 DataFrames 无类型的Dataset操作 (aka DataFrame 操作) Running SQL Queries Programmatically 全局临时视图 创建Datasets RDD的互操作性 使用反射推断Schema 以编程的方式指定Schema Aggregatio…
SparkR (R on Spark) 概述 SparkDataFrame 启动: SparkSession 从 RStudio 来启动 创建 SparkDataFrames 从本地的 data frames 来创建 SparkDataFrames 从 Data Sources(数据源)创建 SparkDataFrame 从 Hive tables 来创建 SparkDataFrame SparkDataFrame 操作 Selecting rows(行), columns(列) Groupin…
主要包括以下三部分,本文为第三部分: 一. Scala环境准备 查看二. Hadoop集群(伪分布模式)安装 查看三. Spark集群(standalone模式)安装 Spark集群(standalone模式)安装 若使用spark对本地文件进行测试学习,可以不用安装上面的hadoop环境,若要结合hdfs使用spark,则可以参考上面的步骤搭建hadoop. 1. 下载安装包并解压(如:~/tools/spark-2.3.1-bin-hadoop2.7): 2. 启动服务 a.启动master…
单机安装hadoop ------------------------------------------------------------------ 操作系统:centos7 64 位 hadoop :2.6.5 jdk 我们之前安装了 官方的jdk 1.8 不是centos自带的jdk ------查看环境变量配置文件是否包含jdk环境变量 cat /etc/profile ---查看全局环境变量配置文件 su hadoopcat ~/.bash_profile ---查看局部环境变量配…
一.Solr安装环境 1.官方参考文档 Solr教程参考指南:http://lucene.apache.org/solr/guide/7_4/solr-tutorial.html 2.Solr运行环境 系统要求:Java 8+      这里我们把solr服务部署到Tomacat服务器中,Tomcat安装过程参考:https://www.cnblogs.com/frankdeng/p/9597699.html 在solr5以前solr的启动都有tomcat作为容器,但是从solr5以后solr内…
一.Solr安装环境 1.官方参考文档 Solr教程参考指南:http://lucene.apache.org/solr/guide/7_4/solr-tutorial.html 2.Solr运行环境 系统要求:Java 8+      这里我们把solr服务部署到Tomacat服务器中,Tomcat安装过程参考:https://www.cnblogs.com/frankdeng/p/9597699.html 在solr5以前solr的启动都有tomcat作为容器,但是从solr5以后solr内…
关于什么是Kubernetes请看另一篇内容:http://www.cnblogs.com/boshen-hzb/p/6482734.html 一.环境搭建 master安装的组件有: docker etcd       可以理解为是k8s的数据库,存储所有节点.pods.网络信息 kube-proxy    提供service服务的基础组件 kubelet    管理k8s节点的组件,因为这台master同时也是nodes,所以也要安装 kube-apiserver   k8s提供API的接口…
Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN Geekhoo 关注 2017.09.20 13:55* 字数 2062 阅读 13评论 0喜欢 1 快速入门 使用 Spark Shell 进行交互式分析 基础 Dataset 上的更多操作 缓存 独立的应用 快速跳转 本教程提供了如何使用 Spark 的快速入门介绍.首先通过运行 Spark 交互式的 shell(在 Python 或 Scala 中)来介绍 API, 然后展示如何使用 Java , Scal…
Kafka是一个分布式的.可分区的.可复制的消息系统.它提供了普通消息系统的功能,但具有自己独特的设计.这个独特的设计是什么样的呢? 首先让我们看几个基本的消息系统术语: •Kafka将消息以topic为单位进行归纳.•将向Kafka topic发布消息的程序成为producers.•将预订topics并消费消息的程序成为consumer.•Kafka以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个broker. producers通过网络将消息发送到Kafka集群,集群向消费者提供…
由于测试的需要,有时需要搭建一个单机版的etcd 环境,为了方便以后搭建查看,现在对单机部署进行记录. 一.部署单机etcd 下载 指定版本的etcd下载地址 ftp://ftp.pbone.net/mirror/archive.fedoraproject.org/fedora/linux/updates/22/x86_64/e/etcd-2.2.5-1.fc22.x86_64.rpm 先判断是否已经安装了etcd,已经安装的话就需要先删除掉,注意权限问题 [vagrant@localhost…
前面已经讲 一张图秒懂微服务的网络架构,通过此文章可以了解FastDFS组件中单机安装流程. 单机版架构图 以下为单机FastDFS安装步骤 一.环境准备 CentOS 7.X libfastcommon 使用的版本: libfastcommon-1.0.41.tar.gz FastDFS 使用的版本: fastdfs-6.01.tar.gz fastdfs-nginx-module 使用的版本:fastdfs-nginx-module-1.21.tar.gz nginx 使用的版本: ngin…