--sp_readerrorlog 读取错误的信息记录 exec sys.sp_readerrorlog 0, 1, 'listening'查看端口号

首先hadoop环境要配置完毕,并检验可以正常启动并使用.

在hadoop的namenode上安装sqoop,并设置相关的环境变量.

如HADOOP_HOME也是需要先配置好的.

否则提示找不到hadoop,Error: /usr/lib/hadoop does not exist!

我的实验环境是apache hadoop 1.0.4 ,java 1.7, sqoop 1.4.

在本机上安装了三台centos的linux系统作为小集群测试,一个namenode,两个Datanodes.

下面这一步骤可以不操作,如果你的sqoop是1.4以后的,就已经支持了mssqlserver.不必再提供sqlserver的jdbc驱动了.

否则的话你是需要下载安装sqlserver的jdbc驱动.

http://www.microsoft.com/en-us/download/details.aspx?displaylang=en&id=21599

解压后复制相应的jar包到sqoop/lib下即可.

[hadoop@namenode sqoop-sqlserver-1.0]$ install.sh

Starting 'Microsoft SQL Server - Hadoop' Connector installation ...

SQOOP_HOME set to: /home/hadoop/sqoop-1.4.3

SQOOP_CONF_DIR set to: /home/hadoop/sqoop-1.4.3/conf

Installing 'SQL Server - Hadoop' Connector library ...

Installed library

Installing 'SQL Server - Hadoop' Connector configuration ...

Installed configuration

'SQL Server - Hadoop' Connector Installation completed successfully.

[hadoop@namenode sqoop-sqlserver-1.0]$

注意在执行命令之前,确保你linux中的防火墙是关闭的,请检查.

我的sqlserver2008R2装在win7操作系统上,IP地址是192.168.1.100:1433

我遇到的第一个问题就是连接超时,我检查了linux的防火墙服务是没有运行的,我检查win7上的防火墙是开启的,我就暂时关闭了win7上的防火墙服务.

我把默认实例开启windows和sql混合验证模式,并创建了一个登录用户:mssql pwd:yaoxiaohua,给赋适当的权限.

下面的第一个截图是我当时遇到的又一个问题,我把sqljdbc.jar 和 sqljdbc4.jar 之类的复制到了lib folder下,造成sqoop引用

sqljdbc 但jre1.7又和它不匹配,造成错误,所以删除即可.

实验一:把testdata表中的数据导入到HDFS中去:

./sqoop import --connect 'jdbc:sqlserver://192.168.1.100;username=mssql;password=yaoxiaohua;database=testData' --table testdata --target-dir /user/hadoop/testdata

其实细看上面的某些参数,你会发现默认的使用了4个map tasks.我们可以指定更多的map tasks,但是如果数据量不是特别大,就没有必要指定过多的map tasks,否则效率反而会低,例如,以此例,我们指定5个,我观测值发现居然还多了几秒,这是正常的,多线程也是需要代价的.如果数据量太少,发挥不出他们的优势.

以下命令是以rowid为分割标准,使用五个map tasks进行工作.

./sqoop import --connect 'jdbc:sqlserver://192.168.1.100;username=mssql;password=yaoxiaohua;database=testData' --table testdata --target-dir /user/hadoop/testdata2 --split-by rowid -m 5

关于sqoop是如何发送命令获取sqlserver中的数据,我们可以通过sqlprofiler等工具捕获,因为我在sqoop命令中是使用mssql用户登录的,所以你可以在Eventfilter中把loginname like mssql.这样捕获到的是我们想要的.

从图中可以看出,它首先exec sp_prepexec @p1 output,NULL,N'SELECT t.* FROM [testdata] AS tWHERE 1=0'

获取了数据的schema. 然后先获取一下rowid的最大最小值,然后分成大概均匀的四份,根据 rowid 四次取完数据.

它是怎么知道用rowid进行分批获取的呢?

我细看追踪到的内容,发现有以下一句:

SELECT kcu.COLUMN_NAME FROM

INFORMATION_SCHEMA.TABLE_CONSTRAINTS tc,

INFORMATION_SCHEMA.KEY_COLUMN_USAGE kcu

WHERE tc.TABLE_SCHEMA = kcu.TABLE_SCHEMA

AND tc.TABLE_NAME = kcu.TABLE_NAME

AND tc.CONSTRAINT_SCHEMA = kcu.CONSTRAINT_SCHEMA

AND tc.CONSTRAINT_NAME = kcu.CONSTRAINT_NAME

AND tc.TABLE_SCHEMA = (SELECT SCHEMA_NAME())

AND tc.TABLE_NAME = 'testdata'

AND tc.CONSTRAINT_TYPE = 'PRIMARY KEY'

原来它是先获取主键约束.然后再去根据这个进行处理.

我没有去阅读其源码,所以现在所做的一些只是通过实验尝试去猜去工作原理.然后我就创建了一个堆表进行测试.

  1. create table mytable(rowname char(20),insertdate datetime default getdate())
  2.  
  3. declare @loopcount int =1
  4.  
  5. while @loopcount<10000
  6.  
  7. begin
  8.  
  9. insert into mytable(rowname) values('mycolumn'+CAST(@loopcount as CHAR));
  10.  
  11. set @loopcount +=1;
  12.  
  13. end
  14.  
  15. select * from mytable

执行:./sqoop import --connect 'jdbc:sqlserver://192.168.1.100;username=mssql;password=yaoxiaohua;database=testData' --table mytable --target-dir /user/hadoop/mytable

13/12/28 12:29:47 ERROR tool.ImportTool: Error during import: No primary key could be found for table mytable. Please specify one with --split-by or perform a sequential import with '-m 1'.

发现其运行报错了,找不到主键,则需要指定1个map task.

然后在前面的命令后面加上 -m 1之后运行正常.

然后我又做了一次尝试,把这个表添加主键,主键是char.

  1. --drop table mytable
  2.  
  3. create table mytable(rowname char(20) primary key,insertdate datetime default getdate())
  4.  
  5. declare @loopcount int =1
  6.  
  7. while @loopcount<10000
  8.  
  9. begin
  10.  
  11. insert into mytable(rowname) values('mycolumn'+CAST(@loopcount as CHAR));
  12.  
  13. set @loopcount +=1;
  14.  
  15. end
  16.  
  17. select * from mytable

看执行情况,它给了6个map tasks.

最后一次尝试:

我使用rowname(即主键)作为split by的依据,只分了两个 map tasks,发现速度快了一些.比默认的6个快.

但看其输出日志有一部分,强烈建议使用整型的列作为分隔方式,而且如果是char类型的,若数据是大小写不敏感,有可能产生重复取值.这点也是大家需要注意的.

MSBI BigData demo—sqoop import的更多相关文章

  1. Hive学习之七《 Sqoop import 从关系数据库抽取到HDFS》

    一.什么是sqoop Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL ...

  2. sqoop import/export使用经验

    一.先创建一个小表(test_01)进行测试(主节点IP:169.254.109.130/oracle服务器IP:169.254.109.100) 1.测试连接oracle; sqoop list-t ...

  3. Sqoop Import HDFS

    Sqoop import应用场景——密码访问 注:测试用表为本地数据库中的表 1.明码访问 sqoop list-databases \ --connect jdbc:mysql://202.193. ...

  4. Sqoop Import数据库时中文乱码解决方案

    首先查看数据库参数编码: mysql> show variables like 'character%'; +--------------------------+--------------- ...

  5. (MySQL里的数据)通过Sqoop Import Hive 里 和 通过Sqoop Export Hive 里的数据到(MySQL)

    Sqoop 可以与Hive系统结合,实现数据的导入和导出,用户需要在 sqoop-env.sh 中添加HIVE_HOME的环境变量. 具体,见我的如下博客: hadoop2.6.0(单节点)下Sqoo ...

  6. (MySQL里的数据)通过Sqoop Import HDFS 里 和 通过Sqoop Export HDFS 里的数据到(MySQL)(五)

    下面我们结合 HDFS,介绍 Sqoop 从关系型数据库的导入和导出 一.MySQL里的数据通过Sqoop import HDFS 它的功能是将数据从关系型数据库导入 HDFS 中,其流程图如下所示. ...

  7. Sqoop Import原理和详细流程讲解

    Sqoop Import原理 Sqoop Import详细流程讲解 Sqoop在import时,需要指定split-by参数.Sqoop根据不同的split-by参数值来进行切分,然后将切分出来的区域 ...

  8. (MySQL里的数据)通过Sqoop Import HBase 里 和 通过Sqoop Export HBase 里的数据到(MySQL)

    Sqoop 可以与HBase系统结合,实现数据的导入和导出,用户需要在 sqoop-env.sh 中添加HBASE_HOME的环境变量. 具体,见我的如下博客: hadoop2.6.0(单节点)下Sq ...

  9. sqoop import mysql to hive table:GC overhead limit exceeded

    1. Scenario description when I use sqoop to import mysql table into hive, I got the following error: ...

随机推荐

  1. Shiro 整合SpringMVC 并且实现权限管理,登录和注销

    Apache Shiro是Java的一个安全框架.目前,使用Apache Shiro的人越来越多,因为它相当简单,对比Spring Security,可能没有Spring Security做的功能强大 ...

  2. PhpStorm的open in browser怎么修改端口和相对路径

    昨天下班后,在电脑安装phpstorm.xampp安装正常,但是在phpstorm上直接打开网站文件一直报错,一直报错502.我感觉好奇快,怎么会报错呢.后面我用hbuild打开文件,在浏览器显示正常 ...

  3. Mysql优化经验

    一.索引优化 范围匹配使用B-tree索引  等值匹配使用 HASH索引,hash所有唯一Memory引擎 2.索引三星系统, 1.相关记录放到一起 2.索引中的数据和查找中的排序顺序一直 3.索引的 ...

  4. osx的终端软件iterm2 之 修改外观 和 常用快捷键小结

    1.修改外观:透明,自己配色,最好还有个透明的小背景,比如这样: 那么你就要这样修改: 2.快捷键小结 (1)⌘ + d 横着分屏 / ⌘ + shift + d 竖着分屏  : 适合多操作的时候 ( ...

  5. ng-show

    //当ng-show="false"时,自动添加 #animate.ng-hide { } #animate.ng-hide-add { } #animate.ng-hide-ad ...

  6. Mybatis学习记录(五)----Mybatis的动态SQL

    1.  什么是动态sql mybatis核心 对sql语句进行灵活操作,通过表达式进行判断,对sql进行灵活拼接.组装. 1.1 需求 用户信息综合查询列表和用户信息查询列表总数这两个statemen ...

  7. 解决Sharepoint每天第一次打开速度慢的问题

    每天第一次打开Sharepoint的网站会非常慢,下面是解决这个问题的几个方法. 添加crl.microsoft.com到Hosts文件,IP地址指向服务器本机. 允许服务器直接连接到crl.micr ...

  8. 2014年听写VOA50篇

    在沪江英语的VOA听写栏目上听写完成50篇,听写笔记PDF. 103.VOASP.2014奥巴马国情咨文(1-3).mp3 104.VOASP.2014奥巴马国情咨文(2-3).mp3 105.VOA ...

  9. [leetcode] Number of Islands

    Number of Islands Given a 2d grid map of '1's (land) and '0's (water), count the number of islands. ...

  10. IOS 杂笔-5(NSTimer极浅析)

    1.timer都会对它的target进行retain,我们需要小心对待这个target的生命周期问题,尤其是重复性的timer. 2. timer不是一种实时的机制,会存在延迟,而且延迟的程度跟当前线 ...