spark 清除df.cache

2024-09-07

spark性能优化----缓存清除

spark是一款优秀的框架,计算性能相当优异,已经发展成大数据主流计算引擎,在spark开发过程中有很多优化的点.其中去除重复计算是非常重要的.一般操作调用cache/persist,来缓存中间结果,避免重复计算.其中cache是persist的一个特列(cache相当于persist()).persist拥以下几个级别的缓存: NONE 默认配置(不缓存) DISK_ONLY 数据缓存到磁盘,特点读写特别慢,内存占用比较少 DISK_ONLY_2 数据缓存到磁盘两份,特点读写比较慢(比DISK

Linux 设置定时清除buff/cache的脚本

Linux 设置定时清除buff/cache的脚本查看内存缓存状态 [root@heyong ~]# free -m total used free shared buff/cache available Mem: 96406 19256 11311 66 65837 76421 Swap: 4095 1016 3079 清理缓存的脚本 [root@heyong ~]# vim /home/script/clear_buff_cache.sh #!/bin/bash #开始清理缓存 echo

【原创】大叔问题定位分享（27）spark中rdd.cache

spark 2.1.1 spark应用中有一些task非常慢,持续10个小时,有一个task日志如下: 2019-01-24 21:38:56,024 [dispatcher-event-loop-22] INFO org.apache.spark.executor.CoarseGrainedExecutorBackend - Got assigned task 40312019-01-24 21:38:56,024 [Executor task launch worker for task 4

spark rdd df dataset

RDD.DataFrame.DataSet的区别和联系共性: 1)都是spark中得弹性分布式数据集,轻量级 2)都是惰性机制,延迟计算 3)根据内存情况,自动缓存,加快计算速度 4)都有partition分区概念 5)众多相同得算子:map flatmap 等等区别: 1)RDD不支持SQL 2)DF每一行都是Row类型,不能直接访问字段,必须解析才行 3)DS每一行是什么类型是不一定的,在自定义了case class之后可以很自由的获得每一行的信息 4)DataFrame与Datase

spark查看DF的partition数目及每个partition中的数据量【集群模式】

println("--------------------"+data.rdd.getNumPartitions) // 获取DF中partition的数目 val partitions = data.rdd.glom().collect() // 获取所有data下所有的partition,返回一个partition的集合 for(part <- partitions){ println(part.getClass.getName + "::::::::"

Linux 内存缓存占用过大，Centos7设置定时清除buff/cache的脚本

Linux系统buff/cache 中缓存数据占用内存过高,定时清理buff/cache ,释放系统内存 root权限创建脚本文件: touch cleanCache.sh && vim cleanCache.sh #!/bin/bash echo "开始清理缓存" sync;sync;sync #写入硬盘,防止数据丢失 sleep 10 #延迟10秒 echo 1 > /proc/sys/vm/drop_caches echo "清理结束"

spark中的cache和persist的区别

在使用中一直知其然不知其所以然的地使用RDD.cache(),系统的学习之后发现还有一个与cache功能类似看起来冗余的persist 点进去一探究竟之后发现cache()是persist()的特例,persist可以指定一个StorageLevel.StorageLevel的列表可以在StorageLevel 伴生单例对象中找到: cache的源码: /** Persist this RDD with the default storage level (`MEMORY_ONLY`). */

centos清除dns cache.

# /etc/init.d/nscd restart # service nscd restart # service nscd reload # nscd -i hosts https://www.2daygeek.com/flush-clear-dns-cache-on-ubuntu-centos-debian-fedora-mint-rhel-opensuse/# f

spark sql cache

1.几种缓存数据的方法例如有一张hive表叫做activity 1.CACHE TABLE //缓存全表 sqlContext.sql("CACHE TABLE activity") //缓存过滤结果 sqlContext.sql("CACHE TABLE activity_cached as select * from activity where ...") CACHE TABLE是即时生效(eager)的,如果你想等到一个action操作再缓存数据可以使用C

C盘空间不够，清除VS下的 Font Cache

C盘空间老是不够用.清除Font Cache 1.在 C:\Users\Jimmy\AppData\Local\Microsoft\Visual Studio 下的 Font Cache 目录可以干掉.

将代码从 spark 1.x 移植到 spark 2.x

1. SparkSession sparkSession可以视为sqlContext和hiveContext以及StreamingContext的结合体,这些Context的API都可以通过sparkSession使用. 创建SparkSession val spark = SparkSession.builder .master("local[2]") .appName("spark session example") .getOrCreat

spark源码分析以及优化

第一章.spark源码分析之RDD四种依赖关系一.RDD四种依赖关系 RDD四种依赖关系,分别是 ShuffleDependency.PrunDependency.RangeDependency和OneToOneDependency四种依赖关系.如下图所示:org.apache.spark.Dependency有两个一级子类,分别是 ShuffleDependency 和 NarrowDependency.其中,NarrowDependency 是一个抽象类,它有三个实现类,分别是OneToO

spark join broadcast优化

在大量数据中对一些字段进行关联. 举例 ipTable:需要进行关联的几千条ip数据(70k) hist:历史数据(百亿级别) 直接join将会对所有数据进行shuffle,需要大量的io操作,相同的key会在同一个partition中进行处理,任务的并发度也收到了限制. 使用broadcast将会把小表分发到每台执行节点上,因此,关联操作都在本地完成,基本就取消了shuffle的过程,运行效率大幅度提高. 样本数据(2000w)性能测试对比小表没有进行broadcast 进行了broadca

Spark SQL结构化数据处理

Spark SQL是Spark框架的重要组成部分, 主要用于结构化数据处理和对Spark数据执行类SQL的查询. DataFrame是一个分布式的,按照命名列的形式组织的数据集合. 一张SQL数据表可以映射为一个DataFrame对象,DataFrame是Spark SQL中的主要数据结构. SqlContext实例是DataFrame和Spark SQL的操作入口, pyspark交互环境中已初始化了一个sqlContext实例, 在提交任务脚本时需要使用一个SparkContext来初始化:

spark程序设计

Spark程序设计—创建RDD:从Scala集合构造成RDD parallelize(a, 3) makeRDD(a, 3) 他俩使用方式一样,只不过名字不一样 Spark程序设计—创建RDD:本地文件/HDFS textFile(path, 100) sequenceFile wholeTextFiles 举例: 1. 文本文件(TextInputFormat) sc.textFile(“file.txt”) //将本地文本文件加载成RDD sc.textFile(“directory/*.t

spark属性

应用属性属性名缺省值意义 spark.app.name (none) The name of your application. This will appear in the UI and in log data. spark.master (none) The cluster manager to connect to. See the list ofallowed master URL’s. spark.executor.memory 512m Amount of memory to

基于Spark ML的Titanic Challenge (Top 6%)

下面代码按照之前参加Kaggle的python代码改写,只完成了模型的训练过程,还需要对test集的数据进行转换和对test集进行预测. scala 2.11.12 spark 2.2.2 package ML.Titanic import org.apache.spark.SparkContext import org.apache.spark.sql._ import org.apache.spark.sql.functions._ import org.apache.spark.ml.fe

Spark入门之DataFrame/DataSet

目录 Part I. Gentle Overview of Big Data and Spark Overview 1.基本架构 2.基本概念 3.例子(可跳过) Spark工具箱 1.Datasets: Type-Safe Structured APIs 2.Structured Streaming 3.Machine Learning and Advanced Analytics 4.Lower-Level APIs Part II. Structured APIs-DataFrames,

Spark MLlib基本算法【相关性分析、卡方检验、总结器】

一.相关性分析 1.简介计算两个系列数据之间的相关性是统计中的常见操作.在spark.ml中提供了很多算法用来计算两两的相关性.目前支持的相关性算法是Pearson和Spearman.Correlation使用指定的方法计算输入数据集的相关矩阵.输出是一个DataFrame,其中包含向量列的相关矩阵. 2.代码实现 package ml import org.apache.log4j.{Level, Logger} import org.apache.spark.ml.linalg.{Matr

Linux 内存Cache和Buffer理解

在 Linux 系统中,我们经常用 free 命令来查看系统内存的使用状态.在一个 RHEL6 的系统上,free 命令的显示内容大概是这样一个状态: [root@tencent64 ~]# free total used free shared buffers cached Mem: 132256952 72571772 59685180 0 1762632 53034704 -/+ buffers/cache: 17774436 114482516 Swap: 2101192 508 2

spark SQL之Catalog API使用

Catalog API简介 Spark中的DataSet和Dataframe API支持结构化分析.结构化分析的一个重要的方面是管理元数据.这些元数据可能是一些临时元数据(比如临时表).SQLContext上注册的UDF以及持久化的元数据(比如Hivemeta store或者HCatalog). Spark的早期版本是没有标准的API来访问这些元数据的.用户通常使用查询语句(比如show tables)来查询这些元数据.这些查询通常需要操作原始的字符串,而且不同元数据类型的操作也是不一样的. 这

spark 清除df.cache

热门专题