Spark RDD操作之Map系算子

　　在linux系统上安装solrCloud
　　
　　1.依赖：
　　
　　JRE solr7.3 需要 java1.8
　　
　　独立的zookeeper服务，zookeeper安装请参考：
　　
　　http://zookeeper.apache.org/doc/current/zookeeperStarted.html
　　
　　2.上传solr安装包
　　
　　3.从安装包中解出安装脚本
　　
　　tar xzf solr-7.3.0.tgz solr-7.3.0/bin/install_solr_service.sh --strip-components=2
　　
　　安装脚本可用于：CentOS, Debian, Red Hat, SUSE and Ubuntu Linux distributions
　　
　　4.安装脚本参数说明：
　　
　　./install_solr_service.sh -help
　　
　　-i 指定软件安装目录。默认 /opt
　　
　　-d 指定数据目录（solr主目录）：内核存储目录。默认 /var/solr
　　
　　-u 指定要创建的拥有solr的用户名，出于安全考虑，不应以root来运行。默认 solr
　　
　　-s 指定系统服务名。默认 solr
　　
　　-p 指定端口。默认 8983
　　
　　5.目录规划
　　
　　6.以root身份运行安装脚本进行安装
　　
　　./install_solr_service.sh solr-7.3.0.tgz
　　
　　等同：
　　
　　./install_solr_service.sh solr-7.3.0.tgz -i /opt -d /var/solr -u solr -s solr -p 8983
　　
　　配置solr服务实例
　　
　　1.认识solr服务的配置文件
　　
　　问：如何启动一个solr服务实例？
　　
　　1,系统服务脚本： /etc/init.d/solr 请查看该脚本内容，看系统启动时是如何启动solr服务实例的。可看到使用了如下三个变量：
　　
　　2.环境参数配置文件（官方叫法：include file）。它将覆盖 bin/solr启停控制脚本中的配置参数。我们通过该文件来配置修改solr服务实例的运行配置。
　　
　　请查看 /etc/default/solr.in.sh ，看我们可以在该文件中进行哪些配置。
　　
　　在 /etc/default/solr.in.sh 中可看到它配置了如下参数：
　　
　　map将RDD的元素一个个传入call方法，经过call方法的计算之后，逐个返回，生成新的RDD，计算之后，记录数不会缩减。示例代码，将每个数字加10之后再打印出来，代码如下
　　
　　import java.util.Arrays;
　　
　　import org.apache.spark.SparkConf;
　　
　　import org.apache.spark.api.java.JavaRDD;
　　
　　import org.apache.spark.api.java.JavaSparkContext;
　　
　　import org.apache.spark.api.java.function.Function;
　　
　　import org.apache.spark.api.java.function.VoidFunction;
　　
　　public class Map {
　　
　　public static void main(String[] args) {
　　
　　SparkConf conf = new SparkConf(www.yongshiyule178.com/).setAppName( www.dfgjpt.com"spark map").setMaster("local[*]");
　　
　　JavaSparkContext javaSparkContext www.michenggw.com new JavaSparkContext(conf);
　　
　　JavaRDD<Integer> listRDD = javaSparkContext.parallelize(Arrays.asList(1, 2, 3, 4));
　　
　　JavaRDD<Integer> numRDD www.yongshi123.cn =www.tiaotiaoylzc.com listRDD.map(new Function<Integer, Integer>() {
　　
　　@Override
　　
　　public Integer call(Integer num) throws Exception {
　　
　　return num + 10;
　　
　　numRDD.foreach(new VoidFunction<Integer>(www.cmeidi.cn) {
　　
　　@Override
　　
　　public void call(Integer num) throws Exception {
　　
　　System.out.println(num);
　　
　　执行结果：
　　
　　2、flatMap
　　
　　flatMap和map的处理方式一样，都是把原RDD的元素逐个传入进行计算，但是与之不同的是，flatMap返回值是一个Iterator，也就是会一生多，超生
　　
　　import java.util.Arrays;
　　
　　import java.util.Iterator;
　　
　　import org.apache.spark.SparkConf;
　　
　　import org.apache.spark.api.java.JavaRDD;
　　
　　import org.apache.spark.api.java.JavaSparkContext;
　　
　　import org.apache.spark.api.java.function.FlatMapFunction;
　　
　　import org.apache.spark.api.java.function.VoidFunction;
　　
　　public class FlatMap {
　　
　　public static void main(String[] args) {
　　
　　SparkConf conf = new SparkConf().setAppName(www.mhylpt.com"spark map"www.ycjszpgs.com).setMaster("local[*]");
　　
　　JavaSparkContext javaSparkContext = new JavaSparkContext(conf);
　　
　　JavaRDD<String> listRDD = javaSparkContext
　　
　　.parallelize(Arrays.asList("hello wold", "hello java", "hello spark"));
　　
　　JavaRDD<String> rdd = listRDD.flatMap(new FlatMapFunction<String, String>() {
　　
　　private static final long serialVersionUID = 1L;
　　
　　@Override
　　
　　public Iterator<String>www.myzx1.com call(String input) throws Exception {
　　
　　return Arrays.asList(input.split()).iterator();
　　
　　rdd.foreach(new VoidFunction<String>() {
　　
　　private static final long serialVersionUID = 1L;
　　
　　@Override
　　
　　public void call(String num) throws Exception {
　　
　　System.out.println(num);

Spark RDD操作之Map系算子的更多相关文章

Spark RDD操作(1)
https://www.zybuluo.com/jewes/note/35032 RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RD ...
Spark RDD 操作
1. Spark RDD 创建操作 1.1 数据集合 parallelize 可以创建一个能够并行操作的RDD.其函数定义如下: ) scala> sc.defaultParallelism ...
spark RDD操作的底层实现原理
RDD操作闭包外部变量原则 RDD相关操作都需要传入自定义闭包函数(closure),如果这个函数需要访问外部变量,那么需要遵循一定的规则,否则会抛出运行时异常.闭包函数传入到节点时,需要经过下面的步 ...
Spark RDD API详解(一) Map和Reduce
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RDD可以简单看成是一个数组.和普通数组的区别是,RDD中的数据是分区存储的,这样不同 ...
Spark RDD API具体解释(一) Map和Reduce
本文由cmd markdown编辑.原始链接:https://www.zybuluo.com/jewes/note/35032 RDD是什么? RDD是Spark中的抽象数据结构类型,不论什么数据在S ...
Spark RDD API详解之：Map和Reduce
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看, RDD可以简单看成是一个数组.和普通数组的区别是,RDD中的数据是分区存储的,这样不 ...
Spark RDD Operations（1）
以上是对应的RDD的各中操作,相对于MaoReduce只有map.reduce两种操作,Spark针对RDD的操作则比较多 ************************************** ...
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN
Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
Apache Spark RDD（Resilient Distributed Datasets）论文
Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...

随机推荐

使用第三方库（Senparc）完成小程序支付 - z
https://www.cnblogs.com/zmaiwxl/p/8931585.html
zookeepeer4字命令实践
环境 leader:192.168.116.143 fllower:192.168.116.142 fllower:192.168.116.144 命令:conf——查看其他主机的配置文件 [root ...
非关系型数据库（nosql）介绍
非关系型数据库也叫Nosql数据库,全称是not noly sql. 2009年初,Johan Oskarsson举办了一场关于开源分布式数据库的讨论,Eric Evans在这次讨论中提出了NoSQL ...
VS2010、VS2012、VS2013、VS2015、VS2017各版本产品激活秘钥
Visual Studio 2017(VS2017) 企业版 Enterprise 注册码:NJVYC-BMHX2-G77MM-4XJMR-6Q8QF Visual Studio 2017(VS201 ...
解决 webpack-dev-server 不能自动刷新的问题
原文发表于我的技术博客此文主要帮助大家解决 webpack-dev-server 启动后修改源文件浏览器不能自动刷新的问题. 原文发表于我的技术博客 1. webpack 不能热加载的问题主要的问 ...
NodeMCU学习(二) : 如何使用NodeMCU进行开发
NodeMCU的GPIO口 Arduino的引脚号与NodeMCU的GPIO口直接对应,NodeMCU的GPIO函数pinMode, digitalWrite, DigitalRead也是和Ardu ...
Daily Scrumming* 2015.12.19（Day 11）
一.团队scrum meeting照片二.成员工作总结姓名任务ID 迁入记录江昊任务1090 https://github.com/buaaclubs-team/temp-front/com ...
[2019BUAA软件工程]第1次阅读作业
[2019BUAA软件工程]第1次阅读作业 Tips Link 作业连接 [2019BUAA软件工程]第1次阅读作业读<构建之法>的疑惑个人开发流程(Personal Software ...
[福大软工] Z班——Alpha现场答辩情况汇总
Alpha现场答辩小组互评(文字版) 各组对于麻瓜制造者的评价与建议队伍名评价与建议 *** 界面较友好,安全性不足,功能基本完整.希望能留下卖家的联系方式而不是在APP上直接联系,APP上 ...
传参在mybatis的sql映射文件中正确获取
1.单个参数: 非自定义对象传参:getStuById(Integer id): 取值:#{id} 单个基本类型参数,随便取值都行:#{ok} 对象: 传参:saveStudent(Student ...

Spark RDD操作之Map系算子

Spark RDD操作之Map系算子的更多相关文章

随机推荐

热门专题