Hadoop优化 第一篇 : HDFS/MapReduce】的更多相关文章

比较惭愧,博客很久(半年)没更新了.最近也自己搭了个博客,wordpress玩的还不是很熟,感兴趣的朋友可以多多交流哈!地址是:http://www.leocook.org/ 另外,我建了个QQ群:305994766,希望对大数据.算法研发.系统架构感兴趣的朋友能够加入进来,大家一起学习,共同进步(进群请说明自己的公司-职业-昵称). 1.应用程序角度进行优化 1.1.减少不必要的reduce任务若对于同一份数据需要多次处理,可以尝试先排序.分区,然后自定义InputSplit将某一个分区作为一…
前言:  都说现在是草根为尊的时代,近年来hadoop及spark技术在国内越来越流行.而且渐渐现成为企业的新宠.在DT时代全面来临之前,能提早接触大数据的技术必然能先人一步.本文作为Hadoop系列的第一篇,将HDFS和MapRed两个技术核心用2个实例简单实现一些,希望能供hadoop入门的朋友些许参考. --HDFS import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apa…
Mysql数据库优化 1. 优化概述 存储层:存储引擎.字段类型选择.范式设计 设计层:索引.缓存.分区(分表) 架构层:多个mysql服务器设置,读写分离(主从模式) sql语句层:多个sql语句都可以达到目的的情况下,要选择性能高.速度快的sql语句 2. 存储引擎 什么是存储引擎: 我们使用的数据是通过一定的技术存储在数据当中的,数据库的数据是以文件形式组织的硬盘当中的.技术不只一种,并且每种技术有自己独特的性能和功能体现. 存储数据的技术和其功能的合并就称为“存储引擎”. 在mysql中…
一 系统层面  查看CPU和IO状态,确定瓶颈.增 更换设备 二   数据库层面 1 参数优化. 参考文章<mysql性能优化----调整参数>增大数据库内存缓存等设置. 参考 http://imysql.cn/node/609 2 表结构优化. 减少大表,大表分为小表.从而使热点数据更好找到.mysql性能优化----调整参数 索引的设置 三 SQL操作优化 减少update等操作 减少其它耗时的操作 四 示例 1 公司的mysql服务器,8核,分配给数据库30G内存. 现在写入1000多,…
测试环境  mssql 08  +win7    数据 30W条 二〇一六年十月二十九日 09:04:43 结论:1>主键> *>可空列    推测未论证: 根据情况优先选择 顺便提一下 如果有分类列建立了索引 count将会很快…
微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验.求职心得和成长感悟,以及作为程序员的思考和见解.(关注公众号后回复”资料“即可领取 3T 免费技术学习资源) ​       纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解. 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.…
转自:http://blog.csdn.net/iamdll/article/details/20998035 分类: 分布式 2014-03-11 10:31 156人阅读 评论(0) 收藏 举报 目录(?)[+] Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解 通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS.MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心.…
接着上一篇文章,继续我们 hadoop 的入门案例. 1. 修改 core-site.xml 文件 [bamboo@hadoop-senior hadoop-2.5.0]$ vim etc/hadoop/core-site.xml 添加如下的配置: <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop-senior.bamboo.com:8020<…
前言 本文大致介绍下Hadoop的一些背景知识,为后面深入学习打下铺垫. 什么是Hadoop Hadoop是一个开源分布式计算平台,它以HDFS文件系统和MapReduce计算框架为核心. 前者能够让用户使用一些廉价的硬件搭建出分布式系统,后者则能够让用户在不需要过多了解底层架构细节的情况下,开发并行分布式应用程序. -- 具体含义以后会详细分析. Hadoop的作用 具体的来说,Hadoop的作用主要在于处理海量数据,这也是为什么大数据技术中常常提到这个概念的原因. 更具体的来说,雅虎通过它做…
Mysql优化(出自官方文档) - 第一篇 目录 Mysql优化(出自官方文档) - 第一篇 1 WHERE Clause Optimization 2 Range Optimization Skip Scan Range Access Method 3 Index Merge Optimization Index Merge Intersection Access Algorithm Index Merge Union Access Algorithm Index Merge Sort-Uni…