1. object JdbcDatasourceTest {
  2. def main(args: Array[String]): Unit = {
  3. val spark = SparkSession
  4. .builder()
  5. .appName("JdbcDatasourceTest")
  6. .master("local")
  7. .getOrCreate()
  8.  
  9. //url:
  10. // jdbc:mysql://master:3306/test
  11. // jdbc:oracle://master:3306/test
  12. // jdbc:db2://master:3306/test
  13. // jdbc:derby://master:3306/test
  14. // jdbc:sqlserver://master:3306/test
  15. // jdbc:postgresql://master:3306/test
  16. val mysqlUrl = "jdbc:mysql://master:3306/test"
  17.  
  18. //1: 读取csv文件数据
  19. val optsMap = Map("header" -> "true", "inferSchema" -> "true")
  20. val df = spark.read.options(optsMap).csv(s"${BASE_PATH}/jdbc_demo_data.csv")
  21. df.show()
  22.  
  23. val properties = new Properties()
  24. properties.put("user", "root")
  25. properties.put("password", "root")
  26. //向Mysql数据库写数据
  27. df.write.mode(SaveMode.Overwrite).jdbc(mysqlUrl, "person", properties)
  28. //从mysql数据库读取数据
  29. val jdbcDFWithNoneOption = spark.read.jdbc(mysqlUrl, "person", properties)
  30. jdbcDFWithNoneOption.show()
  31.  
  32. //写数据的过程:
  33. //1 : 建表
  34. //第一次写的时候,需要创建一张表,建表语句类似如下:
  35. //CREATE TABLE t (name string) ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1
  36. //ENGINE=InnoDB使用innodb引擎 DEFAULT CHARSET=utf8 数据库默认编码为utf-8 AUTO_INCREMENT=1 自增键的起始序号为1
  37. //.InnoDB,是MySQL的数据库引擎之一,为MySQL AB发布binary的标准之一
  38. //属性配置ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1可以通过参数createTableOptions传给spark
  39. var writeOpts =
  40. Map[String, String]("createTableOptions" -> "ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1")
  41. df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)
  42.  
  43. //2: 设置表的schema
  44. // 一般表的schema是和DataFrame是一致的,字段的类型是从spark sql的DataType翻译到各个数据库对应的数据类型
  45. // 如果字段在数据库中的类型不是你想要的,
  46. // 你可以通过参数createTableColumnTypes来设置createTableColumnTypes=age long,name string
  47. writeOpts = Map[String, String]("createTableColumnTypes" -> "id long,age long")
  48. df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)
  49.  
  50. //3: 事务隔离级别的设置,通过参数isolationLevel设置
  51. // NONE 不支持事物
  52. // READ_UNCOMMITTED 会出现脏读、不可重复读以及幻读
  53. // READ_COMMITTED 不会出现脏读,但是还是会出现不可重复读以及幻读
  54. // REPEATABLE_READ 不会出现脏读以及不可重复读,但是还会出现幻读
  55. // SERIALIZABLE 脏读、不可重复读以及幻读都不会出现了
  56. writeOpts = Map[String, String]("isolationLevel" -> "READ_UNCOMMITTED")
  57. df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)
  58.  
  59. //4:写数据
  60. //写数据的过程中可以采用批量写数据,每一批写的数据量的大小可以通过参数batchsize设置,默认是:1000
  61. writeOpts = Map[String, String]("batchsize" -> "100")
  62. df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)
  63.  
  64. //5:第二次写数据的时候,这个时候表已经存在了,所以需要区分SaveMode
  65. //当SaveMode=Overwrite 的时候,需要先清理表,然后再写数据。清理表的方法又分两种:
  66. // 第一种是truncate即清空表,如果是这种的话,则先清空表,然后再写数据
  67. // 第二种是drop掉表,如果是这种的话,则先drop表,然后建表,最后写数据
  68. //以上两种方式的选择,可以通过参数truncate(默认是false)控制。因为truncate清空数据可能会失败,所以可以使用drop table的方式
  69. //而且不是所有的数据库都支持truncate table,其中PostgresDialect就不支持
  70. //当SaveMode=Append 的时候,则直接写数据就行
  71. //当SaveMode=ErrorIfExists 的时候,则直接抛异常
  72. //当SaveMode=Ignore 的时候,则直接不做任何事情
  73. writeOpts = Map[String, String]("truncate" -> "false")
  74. df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)
  75.  
  76. //按照某个分区字段进行分区读数据
  77. //partitionColumn 分区的字段,这个字段必须是integral类型的
  78. //lowerBound 用于决定分区步数的partitionColumn的最小值
  79. //upperBound 用于决定分区步数的partitionColumn的最大值
  80. //numPartitions 分区数,和lowerBound以及upperBound一起来为每一个分区生成sql的where字句
  81.  
  82. //如果upperBound - lowerBound >= numPartitions,那么我们就取numPartitions个分区,
  83. // 否则我们取upperBound - lowerBound个分区数
  84. // 8 - 3 = 5 > 3 所以我们取3个分区
  85. // where id < 3 + 1 这个1是通过 8/3 - 3/3 = 1得来的
  86. // where id >= 3 + 1 and id < 3 + 1 + 1
  87. // where id >= 3 + 1 + 1
  88. //配置的方式
  89. val readOpts = Map[String, String]("numPartitions" -> "3", "partitionColumn" -> "id",
  90. "lowerBound" -> "3", "upperBound" -> "8", "fetchsize" -> "100")
  91. val jdbcDF = spark.read.options(readOpts).jdbc(mysqlUrl, "person", properties)
  92. jdbcDF.rdd.partitions.size
  93. jdbcDF.rdd.glom().collect()
  94. jdbcDF.show()
  95.  
  96. //api的方式
  97. spark.read.jdbc(mysqlUrl, "person", "id", 3, 8, 3, properties).show()
  98.  
  99. //参数predicates: Array[String],用于决定每一个分区对应的where子句,分区数就是数组predicates的大小
  100. val conditionDF = spark.read.jdbc(mysqlUrl,
  101. "person", Array("id > 2 and id < 5", "id >= 5 and id < 8"), properties)
  102. conditionDF.rdd.partitions.size
  103. conditionDF.rdd.glom().collect() ////查看分区及数据
  104. conditionDF.show() ////查看所有数据
  105.  
  106. //每次读取的时候,可以采用batch的方式读取数据,batch的数量可以由参数fetchsize来设置。默认为:0,表示jdbc的driver来估计这个batch的大小
  107.  
  108. //不管是读还是写,都有分区数的概念,
  109. // 读的时候是通过用户设置numPartitions参数设置的,
  110. // 而写的分区数是DataFrame的分区数
  111. //需要注意一点的是不管是读还是写,每一个分区都会打开一个jdbc的连接,所以分区不宜太多,要不然的话会搞垮数据库
  112. //写的时候,可以通过DataFrame的coalease接口来减少分区数
  113.  
  114. spark.stop()
  115. }
  116. }

  

SparkSQL-通过JDBC读写mysql数据库的更多相关文章

  1. SparkSQL读写外部数据源-通过jdbc读写mysql数据库

    object JdbcDatasourceTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builde ...

  2. Java通过JDBC 进行MySQL数据库操作

    转自: http://blog.csdn.net/tobetheender/article/details/52772157 Java通过JDBC 进行MySQL数据库操作 原创 2016年10月10 ...

  3. JDBC读写MySQL的大字段数据

    JDBC读写MySQL的大字段数据   不管你是新手还是老手,大字段数据的操作常常令你感到很头痛.因为大字段有些特殊,不同数据库处理的方式不一样,大字段的操作常常是以流的方式 来处理的.而非一般的字段 ...

  4. [原创]java使用JDBC向MySQL数据库批次插入10W条数据测试效率

    使用JDBC连接MySQL数据库进行数据插入的时候,特别是大批量数据连续插入(100000),如何提高效率呢?在JDBC编程接口中Statement 有两个方法特别值得注意:通过使用addBatch( ...

  5. JDBC连接MySQL数据库代码模板

    下面这个例子是最简单的JDBC连接MySQL数据库的例子. 一般步骤: 1.注册驱动: 2.建立连接: 3.创建语句: 4.处理结果: 5.释放资源. 注意: 1.软件开发环境:MyEclipse 8 ...

  6. java jdbc 连接mysql数据库 实现增删改查

    好久没有写博文了,写个简单的东西热热身,分享给大家. jdbc相信大家都不陌生,只要是个搞java的,最初接触j2ee的时候都是要学习这么个东西的,谁叫程序得和数据库打交道呢!而jdbc就是和数据库打 ...

  7. JDBC操作MySQL数据库案例

    JDBC操作MySQL数据库案例 import java.sql.Connection; import java.sql.DriverManager; import java.sql.Prepared ...

  8. Crystal Reports 2008(水晶报表) JDBC连接mysql数据库

    在本blog中,主要介绍的是Crystal Reports 2008使用JDBC连接mysql数据库. 在连接之间,首先要确认你电脑上面都安装了mysql数据库. 其次,就是jdbc连接数据时候所使用 ...

  9. Java使用Jdbc操作MySql数据库(一)

    这个示例是Java操作MySql的基本方法. 在这个示例之前,要安装好MySql,并且配置好账户密码,创建一个logininfo数据库,在数据库中创建userinfo数据表.并且在表中添加示例数据. ...

随机推荐

  1. Win10最详细的优化设置 完美解决磁盘100%占用

    1.用360优化win10后开不了机的问题原因是禁用了三个服务:在360应用软件服务里dmwappushsvc.diagnsticsTrackingservice.coreMessaging这三个要开 ...

  2. Linux下Ngnix的安装与配置

    由于我的博客项目在8084端口,需要Nginx来转发一下端口,记录一下安装过程和踩过的小坑. 一.下载 wget http://nginx.org/download/nginx-1.12.2.tar. ...

  3. docker的容器和镜像的清理

    Docker用户会在使用docker一段时间后发现宿主机的磁盘很容易就快被占满,并且手动docker rmi [imgName]似乎并不能释放磁盘,貌似想删掉的镜像依然在宿主机中,下面针对这一问题提出 ...

  4. ZooKeeper学习笔记(二)——内部原理

    zookeeper学习笔记(二)--内部原理 1. zookeeper的节点的类型 总的来说可以分为持久型和短暂型,主要区别如下: 持久:客户端与服务器端断开连接的以后,创建的节点不会被删除: 持久化 ...

  5. nmon2influxdb+grafana:服务监控可视化部署

    在工作中,无论是定位线上问题,还是性能优化,都需要对前端.后台服务进行监控.而及时的获取监控数据,能更好的帮助技术人员排查定位问题. 前面的博客介绍过服务端监控工具:Nmon使用方法及利用easyNm ...

  6. 常用正则表达式和一些demo

    一.校验数字的表达式 数字:^[0-9]*$ n位的数字:^\d{n}$ 至少n位的数字:^\d{n,}$ m-n位的数字:^\d{m,n}$ 零和非零开头的数字:^(0|[1-9][0-9]*)$ ...

  7. python中通过selenium简单操作及xpath元素定位&轴定位

    浏览器的简单操作 # 导入webdriver模块 # 创建driver对象,指定Chrome浏览器 driver = webdriver.Chrome() # 窗口最大化 driver.maximiz ...

  8. MySQL和SQL Server一些基本用法区别

    具体查看:https://www.cnblogs.com/zhaow/articles/9633554.html 转自:https://www.cnblogs.com/zhaow/articles/9 ...

  9. json.dumps()包装中文字符串

    开发环境 系统: ubuntu18.04 系统编码: $LANG = en_US.UTF-8 python解释器版本: Python 3.6.7 乱码现场 使用 json.dumps() 将 dict ...

  10. Java自学-数组 排序

    Java 数组选择法,冒泡法排序 步骤 1 : 选择法排序 选择法排序的思路: 把第一位和其他所有的进行比较,只要比第一位小的,就换到第一个位置来 比较完后,第一位就是最小的 然后再从第二位和剩余的其 ...