1. hadoop fs -ls  可以查看HDFS文件

后面不加目录参数的话,默认当前用户的目录。/user/当前用户

$ hadoop fs -ls
16/05/19 10:40:10 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 3 items
drwxr-xr-x - yy yy 0 2016-04-24 08:00 .Trash
drwx------ - yy yy 0 2016-05-06 06:00 .staging
drwxr-xr-x - yy yy 0 2016-05-06 06:00 oozie-oozi

也可以加目录,显示指定目录的HDFS文件。

$ hadoop fs -ls /user/yy
16/05/19 10:44:07 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 3 items
drwxr-xr-x - yy yy 0 2016-04-24 08:00 /user/yy/.Trash
drwx------ - yy yy 0 2016-05-06 06:00 /user/yy/.staging
drwxr-xr-x - yy yy 0 2016-05-06 06:00 /user/yy/oozie-oozi

2. hadoop fs -mkdir 可以创建文件夹

$ hadoop fs -mkdir upload 

hadoop fs –rmr  可以删除文件夹/文件

3. hadoop fs -put 可以上传本机的HDFS文件

hadoop fs -put  pc/*  upload

hadoop fs -get 可以把HDFS的文件下载到本机

hadoop fs -put   upload/collect_20160518.txt   /home/yy

4. hadoop fs -cat 可以读取HDFS文件

$ hadoop fs  -cat  upload/collect_20160515.txt|head -10

5. HDFS 和hive表

external 外部分区表:

1)HDFS文件,要按分区存储,比如下面,分区为dt,对应的是2016-05-19下面的文件。

/user/yy/upload/wireless/2016-05-19

2)创建external表指向该存储(分区的上一层)

drop table if exists external_weblog_wireless;
create external table external_weblog_wireless
(
thedate string,
time_stamp string,
url_title string
)
partitioned by (dt string)
row format delimited fields terminated by ','
stored as textfile location '/user/yy/upload/wireless/';

3)添加新分区,指向分区目录

alter table external_weblog_wireless add partition (dt='2016-05-19') location '/user/yy/upload/wireless/2016-05-19';

4) 这种外部表分区存储,很适合增量数据。

external外部非分区表:

直接指向存储的最终location,建表即生成了数据表。

drop table if exists external_weblog_wireless;
create external table external_weblog_wireless
(
thedate string,
time_stamp string,
url_title string
)
partitioned by (dt string)
row format delimited fields terminated by ','
stored as textfile location '/user/yy/upload/wireless/2016-05-19';

6. hive 表导出(待补充)

注意:

  1. hadoop fs 和hdfs dfs 作用一样。都可以在本机上查看HDFS文件。
  2. HDFS下的文件可以压缩存储,这样能够减少表查询时对Hadoop集群的IO。

压缩可以按正常的linux压缩,比如 tar -zvcf,.tar.gz

也可以按hadoop的格式压缩。

压缩后,跟普通文件一样上传即可。

3. 常用的几个查询tips

查看分区: show partitions 表名;

查看创表语句:show create table 表名;

7. 提交MAPREDUCE JOB

原则上说,Hadoop所有的MapReduce Job都是一个jar包。

运行一个/home/admin/hadoop/job.jar的MapReduce Job

  1. 进入HADOOP_HOME目录。
  2. 执行sh bin/hadoop jar /home/admin/hadoop/job.jar [jobMainClass] [jobArgs]

8. 杀死某个正在运行的JOB

假设Job_Id为:job_201005310937_0053

  1. 进入HADOOP_HOME目录。
  2. 执行sh bin/hadoop job -kill job_201005310937_0053

HDFS文件和HIVE表的一些操作的更多相关文章

  1. hive表分区相关操作

    Hive 表分区 Hive表的分区就是一个目录,分区字段不和表的字段重复 创建分区表: create table tb_partition(id string, name string) PARTIT ...

  2. hadoop执行hdfs文件到hbase表插入操作(xjl456852原创)

    本例中需要将hdfs上的文本文件,解析后插入到hbase的表中. 本例用到的hadoop版本2.7.2 hbase版本1.2.2 hbase的表如下: create 'ns2:user', 'info ...

  3. Hive基础之Hive表常用操作

    本案例使用的数据均来源于Oracle自带的emp和dept表 创建表 语法: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name ...

  4. spark相关介绍-提取hive表(一)

    本文环境说明 centos服务器 jupyter的scala核spylon-kernel spark-2.4.0 scala-2.11.12 hadoop-2.6.0 本文主要内容 spark读取hi ...

  5. 【读书笔记】C#高级编程 第二十四章 文件和注册表操作

    (一)文件和注册表 对于文件系统操作,相关的类几乎都在System.IO名称空间中,而注册表操作由System.Win32名称空间中的类来处理. (二)管理文件系统 System.MarshalByR ...

  6. spark使用Hive表操作

    spark Hive表操作 之前很长一段时间是通过hiveServer操作Hive表的,一旦hiveServer宕掉就无法进行操作. 比如说一个修改表分区的操作 一.使用HiveServer的方式 v ...

  7. Hive(6)-DML数据操作

    一. 数据导入 1. 语法 load data [local] inpath 'path' [overwrite] into table table_name [partition (partcol1 ...

  8. 2.7-2.8 导入、导出数据(进/出)hive表的方式

    一.导入数据进hive表 1.语法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (p ...

  9. [Hive]使用HDFS文件夹数据创建Hive表分区

    描写叙述: Hive表pms.cross_sale_path建立以日期作为分区,将hdfs文件夹/user/pms/workspace/ouyangyewei/testUsertrack/job1Ou ...

随机推荐

  1. Linq语法详细(转)

    原文地址:http://www.cnblogs.com/knowledgesea/p/3897665.html 开门见山 读这篇文章之前,我先说下,每一种搜索结果集,我都以三种方式变现出来,为啦更好的 ...

  2. 深入理解Linux修改hostname(转载)

    http://www.cnblogs.com/kerrycode/p/3595724.html http://www.centoscn.com/CentOS/config/2014/1031/4039 ...

  3. js物理弹性窗口

    js物理弹性窗口 点击下载代码

  4. C#TCP通讯框架

    开源的C#TCP通讯框架 原来收费的TCP通讯框架开源了,这是一款国外的开源TCP通信框架,使用了一段时间,感觉不错,介绍给大家 框架名称是networkcomms 作者开发了5年多,目前已经停止开发 ...

  5. Linux shell特性

    一:别名 .alias 查看本用户下的alias配置 --自定义别名:alias 别名='shell命令' (注意是单引号) --cat $HOME/.bashrc 在这个用户下配置着alias名的配 ...

  6. MFC 调试方法

    AfxDebugBreak     MFC 提供特殊的 AfxDebugBreak 函数,以供在源代码中对断点进行硬编码:     AfxDebugBreak( ); 在 Intel 平台上,AfxD ...

  7. java动态代理浅析

    最近在公司看到了mybatis与spring整合中MapperScannerConfigurer的使用,该类通过反向代理自动生成基于接口的动态代理类. 于是想起了java的动态代理,然后就有了这篇文章 ...

  8. MySql 中文乱码排查解决方案

    MySQL会出现中文乱码的原因不外乎下列几点: server本身设定问题,例如还停留在latin1 table的语系设定问题(包含character与collation) 客户端程式(例如php)的连 ...

  9. Vuforia AR SDK入门

    Vuforia是一个能让应用拥有视觉的软件平台.开发者借助它可以很轻松地为任何应用添加先进计算机视觉功能,允许你识别图片和物体,或者在真实世界中重建环境内容. 如果你现在正在制作一些可交互的市场活动项 ...

  10. 更便捷的Android多渠道打包方式

    本文先回顾了以往流行的多渠道打包方式,随后引入的mcxiaoke的packer-ng-plugin项目,介绍该项目在实际应用(配合友盟统计)中如何解决更方便的Android多渠道打包问题 多渠道打包方 ...