[hadoop读书笔记] Hadoop下各技术应用场景

1.数据采集对于数据采集主要分为三类,即结构化数据库采集,日志和文件采集,网页采集. 对于结构化数据库,采用Sqoop是合适的,可以实现结构化数据库中数据并行批量入库到hdfs存储.对于网页采集,前端可以采用Nutch,全文检索采用lucense,而实际数据存储最好是入库到Hbase数据库.对于日志文件的采集,现在最常用的仍然是flume或chukwa,但是我们要看到如果对于日志文件数据需要进行各种计算处理再入库的时候,往往flume并不容易处理,这也是为何可以采用Pig来做进一步复杂的dat…

Hadoop读书笔记（二）HDFS的shell操作

Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 1.shell操作 1.1全部的HDFS shell操作命名能够通过hadoop fs获取: [root@hadoop ~]# hadoop fs Usage: java FsShell [-ls <path>] [-lsr <path>] [-du <…

Hadoop读书笔记（四）HDFS体系结构

Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 Hadoop读书笔记(二)HDFS的shell操作:http://blog.csdn.net/caicongyang/article/details/41253927 Hadoop读书笔记(三)Java API操作HDFS:http://blog.csdn.net/caicongyang/article/details/41290955…

深入探索Android热修复技术原理读书笔记 —— 资源热修复技术

该系列文章: 深入探索Android热修复技术原理读书笔记 -- 热修复技术介绍深入探索Android热修复技术原理读书笔记 -- 代码热修复技术 1 普遍的实现方式 Android资源的热修复,就是在app不重新安装的情况下,利用下发的补丁包直接更新本app中的资源. 目前市面上的很多资源热修复方案基本上都是参考了 Instant Run的实现. 简要说来,Instant Run中的资源热修复分为两步: 构造一个新的 AssetManager,并通过反射调用 addAssetPath,把这…

傅盛读书笔记：下一个Moonshot是什么？

猎豹移动CEO 傅盛九月底,我有幸在硅谷拜访了苹果前CEO斯卡利.老人如今已经75岁高龄,但看起来仍充满活力.他花了一上午的时间跟我们沟通,非常谦和.平等.坦诚,给我留下了很深的印象.末了,给我们介绍了这本新书<Moonshot!>.目前还没有中文版,我只能用自己蹩脚的英文粗略翻译为<狂潮>:( 书中分析了他对未来商业的理解和预测,很多观点跟猎豹所坚持的理念不谋而合,如用户体验至上等等. 这里我先把其中一小部分的读书笔记分享给大家: 1.下一次浪潮的经济力量将由传统生产制造转变为…

深入探索Android热修复技术原理读书笔记 —— 代码热修复技术

在前一篇文章深入探索Android热修复技术原理读书笔记 -- 热修复技术介绍中,对热修复技术进行了介绍,下面将详细介绍其中的代码修复技术. 1 底层热替换原理在各种 Android 热修复方案中,Andfix 的即时生效令人印象深刻,它稍显另类, 并不需要重新启动,而是在加载补丁后直接对方法进行替换就可以完成修复,然而它的使用限制也遭遇到更多的质疑. 1.1 Andfix 回顾我们先来看一下,为何唯独 Andfix 能够做到即时生效呢? 原因是这样的,在 app 运行到一半的时候,所有需…

Hadoop学习笔记——Hadoop经常使用命令

Hadoop下有一些经常使用的命令,通过这些命令能够非常方便操作Hadoop上的文件. 1.查看指定文件夹下的内容语法: hadoop fs -ls 文件文件夹 2.打开某个已存在的文件语法: hadoop fs -cat 文件地址 [ | more] []表示的是可选命令 3.将本地文件存到Hadoop 语法: hadoop fs -put 本地文件地址 Hadoop文件夹 4.将Hadoop上的文件下载到本地文件夹内语法: hadoop fs -get Hadoop文件夹本地文件文件…

Hadoop下各技术应用场景

数据采集和DataFlow 对于数据采集主要分为三类,即结构化数据库采集,日志和文件采集,网页采集.对于结构化数据库,采用Sqoop是合适的,可以实现结构化数据库中数据并行批量入库到hdfs存储.对于网页采集,前端可以采用Nutch,全文检索采用lucense,而实际数据存储最好是入库到Hbase数据库.对于日志文件的采集,现在最常用的仍然是flume或chukwa,但是我们要看到如果对于日志文件数据需要进行各种计算处理再入库的时候,往往flume并不容易处理,这也是为何可以采用Pig来做进一步…

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 将mysq数据导入hive

安装hive 1.下载hive-2.1.1(搭配hadoop版本为2.7.3) 2.解压到文件夹下 /wdcloud/app/hive-2.1.1 3.配置环境变量 4.在mysql上创建元数据库hive_metastore编码选latin,并授权 grant all on hive_metastore.* to 'root'@'%' IDENTIFIED BY 'weidong' with grant option; flush privileges; 5.新建hive-site.xml,内容…

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 数据在mysq和hdfs之间的相互转换

P573 从mysql导入数据到hdfs 第一步:在mysql中创建待导入的数据 1.创建数据库并允许所有用户访问该数据库 mysql -h 192.168.200.250 -u root -p CREATE DATABASE sqoop; GRANT ALL PRIVILEGES ON *.* TO 'root'@'%'; 或 GRANT SELECT, INSERT, DELETE,UPDATE ON *.* TO 'root'@'%'; FLUSH PRIVILEGES; 查看权限:sel…

[hadoop读书笔记] 第五章 MapReduce工作机制

P205 MapReduce的两种运行机制第一种:经典的MR运行机制 - MR 1 可以通过一个简单的方法调用来运行MR作业:Job对象上的submit().也可以调用waitForCompletion(),用于提交以前没有提交的作业,并等待其完成. Hadoop执行MR的方法依赖于两个配置设置 mapred.job.tracker - 决定执行MR程序的方式如果设置为local默认值,表示使用本地的作业运行器,在单个JVM上运行整个作业,用于小数据集测试如果设置为主机端口对,那么被解释为…

[hadoop读书笔记] 第三章 HDFS

P49 当数据集的大小超过一台计算机存储能力时,就有必要对数据集分区(partition)并将分区存储到若干台独立的计算机上. 管理网络中跨多台计算机存储的系统就叫分布式文件系统 Distributed FileSystem 而基于Hadoop构建的DFS就称之为HDFS. P49-50 HDFS的设计思路:以流数据访问模式来存储超大文件,运行在商用硬件集群上. P51 HDFS 数据块:默认为64MB,是HDFS进行数据读写的最小单位,作为独立的存储单元存在. 一个打文件可以切分为多个块存储…

《MSSQL2008技术内幕:T-SQL语言基础》读书笔记（下）

索引: 一.SQL Server的体系结构二.查询三.表表达式四.集合运算五.透视.逆透视及分组六.数据修改七.事务和并发八.可编程对象五.透视.逆透视及分组 5.1 透视所谓透视(Pivoting)就是把数据从行的状态旋转为列的状态的处理.其处理步骤为: 相信很多人在笔试或面试的时候被问到如何通过SQL实现行转列或列转行的问题,可能很多人当时懵逼了,没关系,下面我们通过例子来理解. (1)准备数据 --1.0准备数据 USE tempdb; IF OBJECT_ID('dbo…

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 将mysq数据导入HBASE

导入命令 sqoop import --connect jdbc:mysql://192.168.200.250:3306/sqoop --table widgets --hbase-create-table --hbase-table WIDGETS_IN_HBASE --column-family product --hbase-row-key id --username 'root' -P 说明:--connect jdbc:mysql://192.168.200.250:3306/sqo…

[hadoop读书笔记] 第十章管理Hadoop集群

P375 Hadoop管理工具 dfsadmin - 查询HDFS状态信息,管理HDFS. bin/hadoop dfsadmin -help 查询HDFS基本信息 fsck - 检查HDFS中文件的健康状况,查找在所有datanode中都确实的块以及过多或过少副本的块 [root@hadoop-allinone-200-123 bin]# ./hadoop fsck / Connecting to namenode via http://hadoop-allinone-200-123.wdcl…

[hadoop读书笔记] 第九章构建Hadoop集群

P322 运行datanode和tasktracker的典型机器配置(2010年) 处理器:两个四核2-2.5GHz CPU 内存:16-46GN ECC RAM 磁盘存储器:4*1TB SATA 磁盘网络:千兆以太网 Hadoop一般使用多核CPu和多磁盘提升硬件功能 P323 小集群VS大集群对于几十个节点的小集群,在master上同时运行namenode和jobtracker通常没问题但是随着集群节点增加,namenode的内存压力将逐步扩大,此时namenode和jobtracke…

[hadoop读书笔记] 第四章 Hadoop I/O操作

P92 压缩 P102 序列化序列化:将结构化对象转为字节流便于在网上传输或写到磁盘进行永久性存储的过程用于进程之间的通信或者数据的永久存储反序列化:将字节流转为结构化对象的逆过程 Hadoop中的序列化:在Hadoop中,系统中多个节点上进程间的通信是通过远程过程传输RPC来实现的. RPC协议将消息序列化成二进制流后发送到远程节点,远程节点接着将二进制流反序列化成原始信息. Avro:一个独立于编程语言,并基于 IDL的序列化框架,非常适合用于Hadoop的大规模数据处理…

[hadoop读书笔记] 第一章初识 Hadoop

P3-P4: 目前遇见的问题很简单:硬盘容量不断提升,1TB的已成为主流,然而数据传输速度从1990年的4.4MB/s仅上升到当前约100MB/s 读取一个1TB的硬盘数据需要耗时至少2.5个小时.写入数据则会消耗更多时间.解决方法是从多个硬盘上读取,试想,若当前有100个盘,每个盘存储1%数据,则并行读取仅需2minutes则可读取完所有的数据. 与此同时,并行读写数据带来了几个问题: 1.某个硬件故障 - 采用数据备份机制 2.分析任务需要所有节点共同完成,结果正确性 - MapReduc…

Hadoop读书笔记（一）Hadoop介绍

1.Hadoop是什么? 适合大数据的分布式与计算平台. HDFS:Hadoop Distributed File System 分布式文件系统 MapReduce:并行计算框架 2.HDFS的架构主从结构主节点,仅仅有一个:namenode 从节点,有非常多个:datanodes namenode负责: 接收用户操作请求维护文件系统的文件夹结构管理文件与block之间关系,block与datanode之间关系 datanode负责: 存储文件文件…

[读书笔记]Hadoop权威指南第3版

下面归纳概述了用于设置MapReduce作业输出的压缩格式的配置属性.如果MapReduce驱动使用了Tool接口,则可以通过命令行将这些属性传递给程序,这比通过程序代码来修改压缩属性更加简便. MapReduce的压缩属性属性名称类型默认值描述 mapred.out.compress boolean false 压缩输出 mapred.out.compression.codec 类名称 org.apache.hadoop.io.compress.DefaultCodec map输出所用…

[hadoop读书笔记]译者序

一.并行数据库系统新一代高性能的数据库系统,是在MPP和集群并行计算环境的基础上建立的数据库系统. MPP:大规模并行处理计算机:Massive Parallel Processor.指的是一种处理机技术.由大量通用微处理器构成的多处理机系统,适合多指令流多数据流处理.这样的系统是由许多松耦合处理单元组成的,要注意的是这里指的是处理单元而不是处理器.每个单元内的CPU都有自己私有的资源,如总线.内存.硬盘等.在每个单元内都有操作系统和管理数据库的实例复本.这种结构最大的特点在于不共享资源. 并…

[hadoop读书笔记]前言

hadoop2.0+主要变化: 全新的MapReduce 2,它建立在一个新的分布式资源管理系统之上,该系统称之为YARN. YARN:分布式资源管理系统…

Hadoop学习笔记Hadoop伪分布式环境建设

建立一个伪分布式Hadoop周围环境 1.主办(Windows)顾客(安装在虚拟机Linux)网络连接. a) Host-only 主机和独立客户端联网: 好处:网络隔离: 坏处:虚拟机和其他server之间不能通讯: b) Bridge 桥接宿主机与客户机在同一个局域网中. 优点:窦在同一个局域网,能够互相訪问: 坏处:不全然. 2.Hadoop的为分布式安装步骤 a) 设置静态IP 在centos下左面上右上角图标右键改动: 重新启动网卡service network restart; 验…

二十六、Hadoop学习笔记————Hadoop Yarn的简介复习

1. 介绍 YARN(Yet Another Resource Negotiator)是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度. 之前有提到过,Yarn主要是为了减轻Hadoop1中JobTracker的负担,对其进行了解耦.现在通常都会使用Hadoop Yarn,因为其稳定性更加优秀,YARN是对Mapreduce V1重构得到的,有时候也称为MapReduce V2. 2. YARN体系架构首先,整个Hadoop Yarn和Hadoop1一样,也是建立在hdfs分布式…

【读书笔记】iOS-微定位技术

在大型商场,医院或是大楼里,你是否曾经有过找不到想去的地方的经历呢?这种情况下采用传统的定位方法就有些力不从心了.首先这些地方不能采用GPS定们,而Wifi和蜂窝式移动电话基站定位误差比较大.这种情况下的定位就叫”微定位“技术 . 微定位技术中一个比较重要的概念-地理围栏.地理围栏是LBS的一种新应用,就是用一个虚拟的栅栏围出一个虚拟地理边界.当手机进入,离开某个特定地理区域,或在该区域内活动时,手机可以接收自动通知和警告.有了地理围栏技术,位置社交网站主可以帮助用户进入某一地区时自动登记.…

『TensorFlow』读书笔记_Inception_V3_下

极为庞大的网络结构,不过下一节的ResNet也不小线性的组成,结构大体如下: 常规卷积部分->Inception模块组1->Inception模块组2->Inception模块组3->池化->1*1卷积(实现个线性变换)->分类器 |_>辅助分类器代码如下, # Author : Hellcat # Time : 2017/12/12 # refer : https://github.com/tensorflow/models/ # blob/master/r…

【读书笔记-数据挖掘概念与技术】数据仓库与联机分析处理(OLAP)

之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫“数据仓库”的地方. 数据仓库的基本概念: 数据仓库的定义——面向主题的.集成的.时变的.非易失的操作数据库系统VS数据仓库——为什么需要使用数据仓库分析数据(OLAP VS OLTP) 数据仓库体系结构——三层体系结构:底层(数据仓库服务器)——中间层(OLAP服务器)——顶层(前段工具) 三种数据仓库模型企业模型数据集市(只针对某一部门) 虚拟仓库元数据库——关于数据的数据理解OLAP,数据仓库,数据…

<数据挖掘导论>读书笔记4--其他分类技术

1.基于规则的分类器 2.最近邻分类器 3.贝叶斯分类器 4.人工神经网络 5.支持向量机 6.组合方法 7.不平衡类问题 8.多类问题…

RocketMQ读书笔记6——可靠性优先的使用场景

[顺序消息] 顺序消费是指消息的产生顺序和消费顺序相同. 比如订单的生成.付款.发货,这三个消息必须按顺序处理才可以. [顺序消息的分类] 全局顺序消息和部分顺序消息. 上面订单的例子,其实是部分顺序消息,只要保证同一个订单ID的三个消息能顺序消费即可. [全局顺序消息] [部分顺序消费] 在实际的场景中,更多的是像订单类消息那样,只需要部分有序即可. [ MessageQueueSelector ] Producer发送端使用MessageQueueSelector类来控制把消息发往哪个Mes…

深入探索Android热修复技术原理读书笔记 —— so库热修复技术

热修复系列文章: 深入探索Android热修复技术原理读书笔记 -- 热修复技术介绍深入探索Android热修复技术原理读书笔记 -- 代码热修复技术深入探索Android热修复技术原理读书笔记 -- 资源热修复技术 1. SO库加载原理 Java Api 提供以下两个接口加载一个 so 库 System. loadLibrary (String libName):传进去的参数:so 库名称, 表示的 so 库文件,位于apk压缩文件中的 libs 目录,最后复制到 apk 安装目录下. S…

【[hadoop读书笔记] Hadoop下各技术应用场景】的更多相关文章