网络资源(1) - Hadoop视频
2014_08_23:
hadoop03c_分布式文件系统HDFS
http://v.youku.com/v_show/id_XNDgwNjg1OTY0.html?f=18604686
2014_08_27
hadoop03a_分布式文件系统HDFS,大数据存储实战
http://v.youku.com/v_show/id_XNDgwNjgwMDU2.html?f=18604686
./bin/hadoop
jobtracker(端口): 50030
namenode(端口): 50070
2014_08_29
hadoop07b_HBase体系架构与安装
http://v.youku.com/v_show/id_XNDgwNzE2MzU2.html?f=18604686
shell命令(hql): help, list, status, help, create, put, get, enable, disable...
API: for java develop.
hadoop07c_HBase体系架构与安装
http://v.youku.com/v_show/id_XNDgwNzE3Nzky.html?f=18604686
什么情况下使用hbase?
表设计跟查询有关,数据分析主题确定,查询语句确定才能设计表。应用场景不固定先不用hbase.
当数据分析的主题,场景已经固化,并且用关系型数据库已经不能胜任,PC提升到小型机,仍然不能解决瓶颈,可以考虑将关系型数据库转成hbase。高速插入,同时有简单key,value查询,不能在非时间戳上order by. 大量发生,又不能分布式处理。
场景一:浏览历史,需要实时结果,不能使用缓存。
如何分不出去?为了利用集群,可以采取类似reverse key,增加随机性。另外一种方法是算hash值,附加到rowid后边,也可以增加随机性。
场景二:商品推荐,浏览本书的人还浏览了这些东西
hadoop07d_HBase体系架构与安装
http://v.youku.com/v_show/id_XNDgwNzI1MDIw.html?f=18604686
辅助索引?不仅在时间戳的列上。
建立辅助表(索引表)。比如主表为学生表,行健为学号,列族为学生,下边的列分别是身份证号,姓名...
建立索引表,行健为省份证号,列族和列为学号。这样可以得到学号和省份证号的组合查询。
手动创建和维护索引。通过牺牲自动化,达到高性能处理大数据量的目的。
复合行健? 数据仓库中分片和钻取,不是独立的两个列,而是依次的。userid-messageid组装为行健。也可以通过范围查询。(12345-****-****, 123456),因为-的ascii码小于6.
2014_08_31
hadoop01a_Hadoop的源起与体系介绍
http://v.youku.com/v_show/id_XNDgwNjU0Mjc2.html?f=18604686
hadoop01b_Hadoop的源起与体系介绍
http://v.youku.com/v_show/id_XNDgwNjU1NDEy.html?f=18604686
索引倒排和分词,帮助实现原本需要全表扫描的where name like '%demoname%'的查询。
Google Page Rank的计算模型:
G = aS + (l-a)/n * U, S是链接矩阵,U是一个全1矩阵。
hadoop01c_Hadoop的源起与体系介绍
http://v.youku.com/v_show/id_XNDgwNjU4MDky.html?f=18604686
Namenode(and secondary namenode):
JobTracker:运行在主节点,用来处理用户提交的作业,切割为小任务,就近运行,小任务被分配到数据所在的节点运行,同时监控task。
Datanode:
Tasktrack:一个tasktacker可以启动多个JVM,并行运行mapreduce任务。
网络资源(1) - Hadoop视频的更多相关文章
- 炼数成金hadoop视频干货06-10
视频地址:http://pan.baidu.com/s/1dDEgKwD 第六课统讲了hadoop几个子项目和HBase,第七课还是讲的HBase 第八课讲了PIG 第九课讲了Hive和Zookeep ...
- 炼数成金hadoop视频干货05
视频地址:http://pan.baidu.com/s/1dDEgKwD 这一节是讲师助教带着动手操作写简单的开发环境的部署和两个实例 开发环境的部署:http://www.cnblogs.com/a ...
- 炼数成金hadoop视频干货03
视频地址:http://pan.baidu.com/s/1dDEgKwD 着重介绍了HDFS 运行了示例程序wordcount,自己也试了一遍(用的伪分布式) 1.建立数据(和讲师的操作有些不一样,不 ...
- 炼数成金hadoop视频干货02
视频地址:http://pan.baidu.com/s/1dDEgKwD 这个视频理论性太强,不过倒是给了自己唯一的选项就是自己实践,不用像以前那样视频中敲一个字符,我也敲一个字符 讲到的内容: 介绍 ...
- 炼数成金hadoop视频干货01
视频地址:http://pan.baidu.com/s/1dDEgKwD 最开始还是讲hadoop的起源,但是和其他垃圾视频不同,不是照本宣科,听了还是受益.作者给人一种感觉就是他是确实把他的经验和体 ...
- 炼数成金hadoop视频干货04
视频地址:http://pan.baidu.com/s/1dDEgKwD 这一节讲的全是理论 任务执行优化 : 1.推测式执行: 2.重用JVM: 3.忽略模式. 除了手动修改Log4J.proper ...
- 智传播客hadoop视频学习笔记(共2天)
第一天:1.答疑解惑• 就业前景• 学习hadoop要有什么基础• hadoop会像塞班一样,热一阵子吗• hadoop学习起来容易还是困难• 课堂上的学习方法(所有实验必须按照要求做,重原 ...
- 网络资源(3) - iBatis视频
2018_08_24 http://v.youku.com/v_show/id_XMjk2ODY2OTE2.html iBatis视频教程01
- 网络资源(2) - Maven视频
2014_08_23 http://v.youku.com/v_show/id_XNDE2NzM0Nzk2.html Maven最佳实践,公司真实环境实践-私服最佳实践 2014_08_24 http ...
随机推荐
- Node.js 博客实例(五)编辑与删除功能
原教程 https://github.com/nswbmw/N-blog/wiki/_pages的第五章,因为版本号等的原因,在原教程基础上稍加修改就可以实现. 如今给博客加入编辑文章与删除文章的功能 ...
- ubuntu 14.04设备OVS虚拟OpenFlow交换机配置汇总
一.设备OVS sudo apt-get install openvswitch-controller openvswitch-switch openvswitch-datapath-source ( ...
- 牟大哥:《App自我促销》连载2
直立人迁移走
[谋哥每天一干货,第六十九篇] 前篇说到声音在远古时代.是一个奇妙的东西,它可以非常快地把信息传播到其它地方,突破了短距离. 然而能人的后代直立人学会了直立行走,他们開始走出非洲,到达遥远的中东.中国 ...
- 【Android开发经验】使用反射,得到的类的字段、方法、并实现了简单的调用
本文后推出Android的ICO框架做准备,所以,假设你想要一个最近的一项研究Android的ICO学生框架.你可以稍微看一下. 首先,简介一下Java里面的反射. JAVA反射机制是在执行状态中,对 ...
- Android架构分析之LOG模块
作者:刘昊昱 博客:http://blog.csdn.net/liuhaoyutz Android版本:2.3.7_r1 Linux内核版本:android-goldfish-2.6.29 Andro ...
- jQuery插件主要有两种扩展方式
jQuery插件主要有两种扩展方式: 扩展全局函数方式. 扩展对象方法方式. 扩展全局函数方式 扩展全局函数方式定义的插件,即类级别插件,可以通过jQuery.extend()来进行定义.定义格式为: ...
- Codeforces Round #270(利用prim算法)
D. Design Tutorial: Inverse the Problem time limit per test 2 seconds memory limit per test 256 mega ...
- Android开发经验—不要指望类finalize干活的方法做你想要什么
之所以专门写了一篇文章finalize方法博客,这是通过在坑的方法引起的.一个读写jni当数据类.我在课堂上finalize该方法被调用来关闭文件和释放内存的方法.频繁调用这个类的时候在JNI里面报异 ...
- 宝更容易使用比读IC卡信息的工具
编程语言:VC++ 更新时间:2014.10.23 操作系统:windowAll 工具:PCSC读卡器 在上一个博文<<解惑:NFC手机怎样轻松读取银行卡信息?>>中,介绍了支 ...
- android应用框架构建------AppManager
体验一些Android应用程序开发的个人总结 当我们开发应用程序.经常有非常多非常多activity,在这一刻,我们需要一个activity堆栈,以帮助管理activity的finish和start. ...