目录 一.环境准备 1.pom文件 2.bean 3.工具类 JDBCUtils Properties工具类 3.创建BaseApp 需求一:动态添加黑名单 需求二:广告点击量实时统计 需求三:最近一小时广告点击量 需求说明 一.环境准备 1.pom文件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</a…
概述 Word2vec是一款由谷歌发布开源的自然语言处理算法,其目的是把words转换成vectors,从而可以用数学的方法来分析words之间的关系.Spark其该算法进行了封装,并在mllib中实现. 整体流程是spark离线训练模型,可以是1小时1训练也可以1天1训练,根据具体业务来判断,sparkstreaming在线分析. 由于历史问题,spark还在用1.5.0,接口上和2.1还是有点区别,大概看了下文档,流程上差不多 spark离线训练 如下代码,通过word2vec训练出一个模型…
关于sparkstreaming的无法正常产生数据---->到崩溃---->到数据读写极为缓慢(或块丢失?)问题 前两阶段请看我的博客:https://www.cnblogs.com/wang-jia-hong/p/10189513.html 那么我来分享下我对streaming数据读写突然变的极为缓慢的问题的解决方法 我们的线上的streming程序一个月会有3-4次的崩溃,在经历这次的崩溃后,我感觉问题有可能出在spark的driver内存泄露了.目前我调整了driver的内存大小,从2G…
文章目录 Streaming和Kafka整合 概述 使用0.8版本下Receiver DStream接收数据进行消费 步骤 一.启动Kafka集群 二.创建maven工程,导入jar包 三.创建一个kafka的topic 四.启动kafka的Producer 五.开发代码 使用0.8版本下Direct DStream接收数据进行消费 开发代码 使用0.10版本下Direct DStream接收数据进行消费 注意事项 步骤 一.添加jar包 二.开发代码 Streaming和Kafka整合 概述…
文章目录 注意事项 SparkStreaming从flume中poll数据 步骤 一.开发flume配置文件 二.启动flume 三.开发sparkStreaming代码 1.创建maven工程,导入jar包 2.开发代码 四.向监控目录中导入文本文件 flume将数据push给SparkStreaming 步骤 一.开发flume配置文件 二.启动flume 三.开发代码 四.向监控目录中导入文本文件 注意事项 一.首先要保证安装了flume,flume相关安装文章可以看[Hadoop离线基础…
文章目录 基本数据源 文件数据源 注意事项 步骤 一.创建maven工程并导包 二.在HDFS创建目录,并上传要做测试的数据 三.开发SparkStreaming代码 四.运行代码后,往HDFS文件夹上传文件 五.控制台输出结果 自定义数据源 步骤 一.使用nc工具给指定端口发送数据 二.开发代码 RDD队列 步骤 一.开发代码 基本数据源 文件数据源 注意事项 1.SparkStreaming不支持监控嵌套目录 2.文件进入dataDirectory(受监控的文件夹)需要通过移动或者重命名实现…
文章目录 检查点机制 驱动器程序容错 工作节点容错 接收器容错 处理保证 检查点机制 Metadata checkpointing -- 将定义流计算的信息存入容错的系统如HDFS. Data checkpointing -- 将产生的RDDs存入可靠的存储空间.代码实现如下图 val sparkContext = new SparkContext(new SparkConf()) val ssc = new StreamingText(sparkContext,duration) ssc.ch…
SparkStreaming Spark Streaming类似于Apache Storm,用于流式数据的处理.Spark Streaming有高吞吐量和容错能力强等特点.Spark Streaming支持的数据源有很多,例如:Kafka.Flume.Twitter.ZeroMQ和简单的TCP套接字等等.数据输入后可以用Spark的高度抽象操作如:map.reduce.join.window等进行运算.而结果也能保存在很多地方,如HDFS,数据库等. 特性 1.易用性 可以像编写离线批处理一样去…
随着近十年互联网的迅猛发展,越来越多的人融入了互联网——利用搜索引擎查询词条或问题:社交圈子从现实搬到了Facebook.Twitter.微信等社交平台上:女孩子们现在少了逛街,多了在各大电商平台上的购买:喜欢棋牌的人能够在对战平台上找到世界各地的玩家对弈.在国内随着网民数量的持续增加,造成互联网公司的数据在体量.产生速度.多样性等方面呈现出巨大的变化. 互联网产生的数据相较于传统软件产生的数据,有着数据挖掘的巨大潜力.通过对数据的挖掘,可以统计出PV.UV,计算出不同设备与注册率.促销与下单率…
Apache Spark是一种快速通用的集群计算系统. 它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎. 它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和Spark Streaming. Spark优点: 减少磁盘I/O:随着实时大数据应用越来越多,Hadoop作为离线的高吞吐.低响应框架已不能满足这类需求.HadoopMapReduce的map端将中间输出和结果存储在…