java spark list 转为 RDD 转为 dataset 写入表中

package com.example.demo;

import java.util.ArrayList;

import java.util.Arrays;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SQLContext;

import org.apache.spark.sql.SparkSession;

public class DemoApplication {

	public static void main(String[] args) {

//		/*-----------------------线上调用方式--------------------------*/

		// 读入店铺id数据

		SparkSession spark = SparkSession.builder().appName("demo_spark").enableHiveSupport().getOrCreate();

		Dataset<Row> vender_set = spark.sql("select pop_vender_id from app.app_sjzt_payout_apply_with_order where dt = '2019-08-05' and pop_vender_id is not null");

		System.out.println( "数据读取 OK" );

		JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());

//		JavaSparkContext sc = new JavaSparkContext();

		SQLContext sqlContext = new SQLContext(sc);

		// 将数据去重，转换成 List<Row> 格式

		vender_set =  vender_set.distinct();

		vender_set = vender_set.na().fill(0L);

		JavaRDD<Row> vender= vender_set.toJavaRDD();

		List<Row> vender_list = vender.collect();

		// 遍历商家id，调用jsf接口,创建list 保存返回数据

		List<String> list_temp = new ArrayList<String>();

		for(Row row:vender_list) {

			String id = row.getString(0);

			String result = service.venderDownAmountList(id);

			System.out.println( "接口调用返回值 OK" );

			// 解析json串 ,按照JSONObject 和 JSONArray 一层一层解析 并过返回滤数据

			JSONObject jsonOBJ = JSON.parseObject(result);

			JSONArray data = jsonOBJ.getJSONArray("data");

			if (data != null) {

				JSONObject data_all = data.getJSONObject(0);

				double amount = data_all.getDouble("jfDownAmount");

				// 将商家id 和 倒挂金额存下来

				list_temp.add("{\"vender_id\":"+id+",\"amount\":"+amount+"}");

			}

			else {

				continue;

			}

			System.out.println( "解析 OK" );

		}

		// list 转为 RDD

		JavaRDD<String> venderRDD = sc.parallelize(list_temp);

		// 注册成表

		Dataset<Row> vender_table = sqlContext.read().json(venderRDD);

		vender_table.registerTempTable("vender");

		System.out.println( "注册表 OK" );

		// 写入数据库

		spark.sql("insert overwrite table dev.dev_jypt_vender_dropaway_amount select vender.vender_id,vender.amount from vender");

		System.out.println( "写入数据表 OK" );

		sc.stop();

		System.out.println( "Hello World!" );

	}

}

java spark list 转为 RDD 转为 dataset 写入表中的更多相关文章

【Java/JDBC】借助ResultSetMetaData，从数据库表中抽取字段信息存成Excel文件
本例工程下载:https://files.cnblogs.com/files/xiandedanteng/FindNotnullColumns20191102-3.rar 工作中曾有个为42张表建立测 ...
spark的数据结构 RDD——DataFrame——DataSet区别
转载自:http://blog.csdn.net/wo334499/article/details/51689549 RDD 优点: 编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接 ...
Java基础之写文件——在通道写入过程中的缓冲区状态（BufferStateTrace）
控制台程序,在Junk目录中将字符串“Garbage in, garbage out\n”写入到名为charData.txt的文件中. import static java.nio.file.Stan ...
Java基础之写文件——将素数写入文件中（PrimesToFile）
控制台程序,计算素数.创建文件路径.写文件. import static java.lang.Math.ceil; import static java.lang.Math.sqrt; import ...
java前端传入的json字符串保存到表中的方法
表 service_goods_base 字段如下: 传入的json 字符串: servicePictureArray : [{"picServiceUrl": "h ...
mysql将语句写入表中
使用create table语句即可 CREATE TABLE membertmp (select a.* from member as a where a.phone <> '' and ...
《项目经验》--通过js获取前台数据向一般处理程序传递Json数据，并解析Json数据，将前台传来的Json数据写入数据库表中
先看一下我要实现的功能界面: 这个界面的功能在图中已有展现,课程分配(教师教授哪门课程)在之前的页面中已做好.这个页面主要实现的是授课,即给老师教授的课程分配学生.此页面实现功能的步骤已在页面 ...
通过js获取前台数据向一般处理程序传递Json数据，并解析Json数据，将前台传来的Json数据写入数据库表中
摘自:http://blog.csdn.net/mazhaojuan/article/details/8592015 通过js获取前台数据向一般处理程序传递Json数据,并解析Json数据,将前台传来 ...
将python的字典格式数据写入excei表中
上面的为最终结果 import requests import re import xlwt import json # 导入必须的包: xlwt,json,requests,re. headers ...

随机推荐

TLS1.3对CIP的影响（对密码套件的解释）
1.术语定义的即使(算法)Definition of terms (optional) Cipher Suite :通信数据保护规范,对TLS指定对端身份验证,关键技术机制,后续数据加密和数据验证机 ...
运维开发笔记整理-使用Django编写helloworld
运维开发笔记整理-使用Django编写helloworld 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.创建Django项目 1>.创建Django项目 djang ...
Jenkins配置文件
https://github.com/zeyangli/Jenkins-docs 在Linux上的Jenkins 以rpm方式部署的配置文件在/etc/sysconfig/jenkins,可以定义Je ...
Redis4.0之持久化存储
一,redis概述与实验环境说明 1.1 什么是redis redis是一种内存型的NoSQL数据库,优点是快,常用来做缓存用 redis存储数据的方法是以key-value的形式 value类型 ...
[转]神奇的 SQL 之层级 → 为什么 GROUP BY 之后不能直接引用原表中的列
原文:https://www.cnblogs.com/youzhibing/p/11516154.html 这篇文章,对group by的讲解不错 -------------------------- ...
Django中出现：TemplateDoesNotExist at
setting文件中加入:
GO语言基本数据类型
一.整型 Go语言的数值类型分为以下几种:整数.浮点数.复数,其中每一种都包含了不同大小的数值类型,例如有符号整数包含 int8.int16.int32.int64 等,每种数值类型都决定了对应的大小 ...
MongoDB空间分配
Mongodb占据的磁盘空间比MySQL大得多,可以理解文档数据如Json这种格式,存在许多冗余数据,但空间占用大得不正常,甚至是传统数据库的三四倍,不太契合工程实践,应该有改善的余地. 查阅了一些资 ...
Linux操作系统常用命令合集——第四篇-文件系统权限操作(5个命令)
1.umask [命令作用] 文件或目录创建时的遮罩码 [命令语法] umask [选项] [参数] [常用选项] -p --输出的权限掩码可直接作为指令来执行 -s --以符号方式 ...
06_去除不需要的字段以及ELK时间轴问题
去除字段只能去除_source中的,不是_source内的无法去除. 去除不必要的字段,不仅可以节省ES的存储内容,同时因为节省了ES的内容,可以加速搜索的速度 Logstash配置去除不需要的字段 ...

java spark list 转为 RDD 转为 dataset 写入表中

java spark list 转为 RDD 转为 dataset 写入表中的更多相关文章

随机推荐

热门专题