微软近日发表了一篇介绍Windows系统内核的博文,期间为了展示Windows的强大扩展性,放出了一张非常震撼的Windows任务管理器截图:乍一看似乎没啥特别的,几十甚至上百个逻辑核心的系统并不罕见,但是注意右侧有个滚动条! 事实上根据下方的检测信息,这套被称为“Windows数据中心级机器”(Windows DataCenter class machine)的系统一共拥有多达896个物理核心.1792个逻辑核心,而且全部100%跑满! 这,几乎就是个小型的超级计算机了. 据介绍,系统内配置了…
Spark数据本地化-->如何达到性能调优的目的 1.Spark数据的本地化:移动计算,而不是移动数据 2.Spark中的数据本地化级别: TaskSetManager 的 Locality Levels 分为以下五个级别: PROCESS_LOCAL  NODE_LOCAL NO_PREF    RACK_LOCAL ANY      PROCESS_LOCAL   进程本地化:task要计算的数据在同一个Executor中         NODE_LOCAL    节点本地化:速度比 PR…
零样本文本分类应用:基于UTC的医疗意图多分类,打通数据标注-模型训练-模型调优-预测部署全流程. 1.通用文本分类技术UTC介绍 本项目提供基于通用文本分类 UTC(Universal Text Classification) 模型微调的文本分类端到端应用方案,打通数据标注-模型训练-模型调优-预测部署全流程,可快速实现文本分类产品落地. 文本分类是一种重要的自然语言处理任务,它可以帮助我们将大量的文本数据进行有效的分类和归纳.实际上,在日常生活中,我们也经常会用到文本分类技术.例如,我们可以…
一.Spark性能调优 1.常规性能调优 (1)最优资源配置:Executor数量.Executor内存大小.CPU核心数量&Driver内存 (2)RDD优化:RDD复用.RDD持久化(序列化.副本机制).尽早地过滤 (3)并行度调节:各个stage的task的数量,应该设置为Spark作业总CPUcore数量的2~3倍 (4)广播大变量:每个Executor保存一个副本.初始只有一个副本,需要则从BlockManager上拉取,此Executor的所有task共用此广播变量,这让变量产生的副…
摘要:众所周知,数据量大了之后,性能是大家关注的一点,所以我们在业务开发的时候,特别关注性能,做为一个架构师,必须对性能要了解,要懂.才能设计出高性能的业务系统. 一.GaussDB分布式架构 所谓集群是将多台物理服务器组建成一个逻辑平台,对外展现一个集群平台的形式. 所谓分布式架构是将数据分而治之.以逻辑进行划分,将数据存放在不同的物理节点. CN:协调节点 负责接收来自应用的访问请求,并向客户端返回执行结果.Coordinator负责分解任务,并调度任务分片在DataNode上并行执行. C…
1.limit限制调整 一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果. 有一个配置属性可以开启,避免这种情况---对数据源进行抽样 hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数 缺点:有可能部分数据永远不会被处理到   2.JOIN优化 1).  将大…
[转载自我在segmentfault的专栏:https://segmentfault.com/a/1190000004584071] 最近在实现一个功能,需求如下: 前提:当前页面无弹窗 页面任意位置执行粘贴 读取剪切板中的截屏数据 上传截图 首先还是从网上找相关的例子. 找到了SF上的专栏文章<js获取剪切板内容,js控制图片粘贴>. 于是基于这个,做出了第一版的截图上传功能. 由于项目使用的是angularjs,事先已经封装好一套上传图片的办法,只需要调用 $scope.image = b…
系统级开启文件句柄  max-file系统级别的能够打开的文件句柄的数量,Centos7默认是794168. Max-file 与 ulimit -n 的区别 max-file 表示系统级别的能够打开的文件句柄的数量.是对整个系统的限制,并不是针对用户或进程的. ulimit -n 控制进程级别能够打开的文件句柄的数量.提供对shell及其启动的进程的可用文件句柄的控制.这是进程级别的. 注:对于服务器来说,file-max和ulimit都需要设置,否则会出现文件描述符耗尽的问题. 查看系统级别…
简介 我们知道,Linux用cache/buffer缓存数据,且有个回刷任务在适当时候把脏数据回刷到存储介质中.什么是适当的时候?换句话说,什么时候触发回刷?是脏数据达到多少阈值还是定时触发,或者两者都有? 不同场景对触发回刷的时机的需求也不一样,对IO回刷触发时机的选择,是IO性能优化的一个重要方法. Linux内核在/proc/sys/vm中有透出数个配置文件,可以对触发回刷的时机进行调整.内核的回刷进程是怎么运作的呢?这数个配置文件有什么作用呢? 配置概述 在/proc/sys/vm中有以…
本文记录的是,在数据处理过程中,遇到了一个sql执行很慢,对一些大型的hive表还会出现OOM,一步一步通过参数的设置和sql优化,将其调优的过程. 先上sql ) t where t.num =1) t2 on t1.id = t2.id where t2.id = NULL; 可以看到这个sql由1个join,一个去重语句,组成,这两种操作都是很耗费资源的. 1.对链接操作,小表放在链接左边. 这是一个老生常谈的事情了,在这里不做细致介绍.基本来说,小表会减少mapreduce过程中的shu…