CREATE TABLE AS SELECT,使用Oracle9i的External Table 

  Oracle 9i 的一项新特性就是 External Table,它就象通常的数据库表一样,拥有字段和数据类型约束,并且可以查询,但是表中的数据却不存储在数据库中,而是在与数据库相关联的普通外部文件 里。当你查询 External Table 时,Oracle 将解析该文件并返回符合条件的数据,就象该数据存储在数据库表中一样。

   需要注意的是,你可以在查询语句中将 External Table 与数据库中其他表进行连接(Join),但是不能给 External Table 加上索引,并且不能插入/更新/删除数据,毕竟它不是真正的数据库表。另外,如果与数据库相关联的外部文件被改变或者被删除,这会影响到 External Table 返回查询结果,所以在变动前要先跟数据库打招呼。

  这种方法为导入数据打开了新的一扇门。你可以很 容易的将外部文件与数据库相关联,并且在数据库中创建对应的 External Table,然后就可以立即查询数据,就象外部数据已经导入到数据库表中一样。唯一的不足需要明确,数据并未真正导入到数据库中,当外部文件被删除或覆盖 时,数据库将不能访问 External Table 里的数据,而且索引没有被创建,访问数据速度将有所缓慢。创建 CALLS_EXTERNAL(External Table表)如下,使之与外部数据文件关联:

CREATE TABLE calls_external 
(call_id NUMBER,
call_date DATE,
emp_id NUMBER,
call_type VARCHAR2(12),
details VARCHAR2(25))
ORGANIZATION EXTERNAL
( TYPE oracle_loader
DEFAULT DIRECTORY extract_files_dir
ACCESS PARAMETERS
(
RECORDS DELIMITED BY NEWLINE
FIELDS TERMINATED BY ’,’
MISSING FIELD VALUES ARE NULL
(
call_id, call_date CHAR DATE_FORMAT DATE MASK
"yyyy-mm-dd:hh24:mi:ss",
emp_id, call_type, details
)
)
LOCATION (’calls.dat’)
);

  然后将 External Table 与真正被使用的表 CALLS 关联同步,删除 CALLS 表并重建它:

CREATE TABLE calls
(
call_id NUMBER NOT NULL,
call_date DATE NOT NULL,
emp_id NUMBER NOT NULL,
call_type VARCHAR2(12) NOT NULL,
details VARCHAR2(25)
)
TABLESPACE tbs1 NOLOGGING
AS
SELECT call_id, call_date, emp_id, call_type, details
FROM calls_external;

  因为 CALLS 表是真正的数据库表,可以创建索引来加快访问,表中的数据将被保留,即使外部数据文件被更新或被删除。在建表语句中NOLOGGING关键字用于加快索引重建。

  运用这种方法导入数据,总的导入时间为 15 秒,进程占用 CPU 的时间为8秒,这比前一种方法稍微慢些,但不能就此认为使用 External Table 导入数据一定比 OCI 批量插入慢。

   这种方法的优点是,未经进行大量的编写代码就取得了不错的结果,不象 OCI 批量插入存在编码错误风险,它还可以使用 dbms_job 包调度数据导入进程,实现数据导入的自动化。其缺点是目标表必须先删除后重建,如果只需要导入增量数据时此方法就不合适了,另外用户在表的重建过程中访问 数据时会遇到 "table or view does not exist" 的错误,它仅适用于 Oracle 9i 以上版本的数据库。

  INSERT Append as SELECT,使用 Oracle9i 的 External Table

   上一种方法演示了如何创建与外部数据文件关联的数据库表,其表的数据是由外部数据文件映射过来。缺点是数据库表需要被先删除再重建来保持与外部数据文件 的一致和同步,对导入增量的数据而不需要删除已有数据的情况不合适。针对这种需求,Oracle 提供了 INSERT 语句外带 APPEND 提示来满足。

INSERT /*+ APPEND */ INTO calls
(call_id, call_date, emp_id, call_type, details)
SELECT call_id, call_date, emp_id, call_type, details
FROM calls_external;

  该语句读取引用外部数据文件的 CALLS_EXTERNAL 表中内容,并将之增加到表 CALLS 中。Append 提示告诉 Oracle 使用快速机制来插入数据,同时可以配合使用表的 NOLOGGING 关键字。

   可以预见这种方法与前一方法消耗了相同的时间,毕竟它们是使用 External Table 特性导入数据的不同阶段解决方法。如果目标表不是空的,那将会消耗稍微长的时间(因为要重建更长的索引),而前一 CREATE TABLE as SELECT 方法是整体创建索引。

  SQL*Loader的强大功能

  SQL*Loader 是 Oracle 提供的导入实用程序,特别针对从外部文件导入大批量数据进入数据库表。该工具已经有多年的历史,每一次版本升级都使其更加强大、灵活和快捷,但遗憾的是它的语法却是神秘而不直观,并且只能从命令行窗口处进行调用。

   尽管它有不直观的缺点,但却是最快最有效的导入数据方法。缺省情况下它使用 "conventional path" 常规选项来批量导入数据,其性能提高度并不明显。我建议使用更快速的导入参数选项,在命令行添加"direct=true" 选项调用 "direct path" 导入选项。在 "direct path" 导入实现中,程序在数据库表的新数据块的 high water mark 处直接写入导入数据,缩短了数据插入的处理时间,同时优化使用了非常有效的B+二叉树方法来更新表的索引。

  运用这种方法,如果使 用缺省的 conventional path 导入选项,总的导入时间是 81 秒,进程占用 CPU 时间大约是 12 秒,这包括了更新表的索引时间。如果使用 direct path 导入选项,总的导入时间竟是 9 秒,进程占用 CPU 时间也仅仅是 3 秒,也包括了更新表的索引时间。

  由此可见,尽管表中的索引在数据导入之前并没有被删除,使用SQL*Loader的direct path 导入选项仍然是快速和有效的。当然它也有缺点,就像NOLOGGING关键字一样该方法不生成REDO日志数据,导入进程出错后将无法恢复到先前状态;在 数据导入过程中表的索引是不起作用的,用户此时访问该表时将出现迟缓,当然在数据导入的过程中最好不要让用户访问表。

  分区交换 (Partition Exchange)

   以上讨论的数据导入方法都有一个限制,就是要求用户在导入数据完成之后才可以访问数据库表。面对7×24不间断访问数据库来说,如果我们只是导入需要增 加的数据时,这种限制将对用户的实时访问产生影响。Oracle在这方面提供了表分区功能,它可以减少导入数据操作对用户实时访问数据的影响,操作模式就 象使用可热插拔的硬盘一样,只不过这里的硬盘换成了分区(Partition)而已。需要声明的是 Partitioning 分区功能只有在企业版数据库中才提供。

  在一个被分区过的表中,呈现给用户的表是多个分区段(segments)的集合。分区可以在需 要时被添加,在维护时被卸载或删除,分区表可以和数据库中的表交换数据,只要它们的表结构和字段类型是一致的,交换后的分区表将拥有与之互动的表的数据。 需要注意的是,这种交换只是在Oracle数据库的数据字典层面上进行,并没有数据被实际移动,所以分区表交换是极其快速的。

  为了创建实验环境,先假设CALLS表是个分区表,要创建一个空的分区PART_01012004,用来保存2004年1月1日的呼叫数据。然后需要再创建一临时表为CALLS_TEMP,该表与CALLS表拥有相同的字段和数据类型。

   我们使用先前介绍的导入方法将十万条数据导入到CALLS_TEMP表中,可以耐心等待数据完全导入到CALLS_TEMP表中,并且创建好索引和相关 约束条件,所有这一切操作并不影响用户实时访问CALLS表,因为我们只对CALLS_TEMP临时表进行了操作。一旦数据导入完成, CALLS_TEMP表就存有2004年1月1日的呼叫数据。同时利用CALLS表中名为PART_01012004的空分区,使用如下语句执行分区交 换:

ALTER TABLE calls 
EXCHANGE PARTITION part_01012004 WITH TABLE calls_temp 
INCLUDING INDEXES WITHOUT VALIDATION;

   分区交换操作将非常快速地只更新CALLS表的数据字典,PART_01012004分区表即刻拥有CALLS_TEMP表的所有数据,而 CALLS_TEMP表变为空表。假定CALLS表使用局部索引而非全局索引,上述语句中的INCLUDING INDEXES将保证分区交换包括索引的可用性,WITHOUT VALIDATION 指明不检查交替表中数据的匹配,加快了交换的速度。

  结论

  以上探讨了Oracle数据库的多种数据导入方法,每种方法都有其优缺点和适用环境,能够满足你不同的导入需求,当然你需要在了解了这些方法后,在速度、简易性、灵活性、可恢复性和数据可用性之间寻求最佳导入方案。

  为了对比各种方法的效果,我们创建了一个实例来展示各种方法的导入效率和效果,从中你可以选择最适合的方法用于今后的数据导入工作。同时请记住,本文并未囊括所有的ORACLE数据导入技术(比如并行数据导入技术),这需要我们继续不懈的探索和尝试。

数据导入方法 总体导入时间(秒) 导入进程占用CPU时间(秒)
逐条数据插入INSERT 172 52
逐条数据插入INSERT,表暂无索引 130 35
批量插入,表暂无索引 14 7
Create As Select,使用Oracle9i的External Table 15 8
INSERT Append as SELECT,使用Oracle9i的External Table 15 8
SQL*Loader conventional path 缺省导入选项 81 12
SQL*Loader direct path 导入选项 9 3
 

External Table的更多相关文章

  1. SQL Azure (18) 使用External Table实现垮库查询

    <Windows Azure Platform 系列文章目录> 问题 1.我们在进行SQL Server开发的时候,经常会使用垮库查询.但是在默认情况下,使用Azure SQL Datab ...

  2. Data import/export of Netezza using external table

    Introduction External table is a special table in Netezza system, which could be  used to import/exp ...

  3. Oracle利用external table 查看trace文件

    1. 用下面的语句找到trace文件的路径 select * from v$diag_info where name='Default Trace File'; 2. 创建一个directory用来加 ...

  4. [转]Greenplum 通过gpfdist + EXTERNAL TABLE 并行导入数据

    摘要: Greenplum 提供了快速导入数据的方法,下面通过一个例子演示给大家. Greenplum 提供了快速导入数据的方法,下面通过一个例子演示给大家. 我们用TPCH测试中最大的表做导入测试 ...

  5. Netezza External Tables --How to use local files in external table

    FROM: http://tennysusantobi.blogspot.com/2012/08/netezza-external-tables.html Netezza External Table ...

  6. 学习掌握oracle外表(external table)

    [转自] http://blog.chinaunix.net/uid-10697776-id-2935685.html 定义 External tables access data in extern ...

  7. hive drop和恢复partition external table

    在hdfs目录:/user/xx/table/test_external 保存 test_external 表数据 先建表,使用列式存储格式 CREATE external TABLE `test_e ...

  8. [每日一题] OCP1z0-047 :2013-08-17 EXTERNAL TABLE――加载数据 ............................56

    正确答案:C 一.对答案解释: A.       TYPE:有两个选可供选择: 1.        ORACLE_LOADER:传统方式,与SQLLDR一样,参数从多,应用较多. 2.         ...

  9. Creating External Table - KUP-04020

    原因:因为操作系统环境不同,所以换行符也不同,要查看数据文件的换行符 解决方法: 1.如果是苹果系统类的数据文件,则改为:RECORDS DELIMITED BY 0X'0D' 2.如果是window ...

随机推荐

  1. Android Fragment详解

    一.什么是Fragment Android在3.0中引入了fragments的概念,主要目的是用在大屏幕设备上--例如平板电脑上,支持更加动态和灵活的UI设计.平板电脑的屏幕要比手机的大得多,有更多的 ...

  2. Oracle中decode方法的作用

    DECODE(条件,值1,翻译值1,值2,翻译值2,...值n,翻译值n,缺省值) 该函数含义如下: IF 条件=值1 THEN    RETURN (翻译值1) ELSIF 条件=值2 THEN   ...

  3. Sublime Text 2 快捷键大全

    Ctrl+L 选择整行(按住-继续选择下行) Ctrl+KK 从光标处删除至行尾 Ctrl+Shift+K 删除整行 Ctrl+Shift+D 复制光标所在整行,插入在该行之前 Ctrl+J 合并行( ...

  4. android一些系统相关的东西

    添加快捷方式和删除快捷方式: private void addShortcut() { Intent shortcut = new Intent( "com.android.launcher ...

  5. HtmlAgilityPack.dll的使用 获取HTMLid

    简介 本文介绍net处理html页面元素的工具类(HtmlAgilityPack.dll)的使用,用途比较多的应该是例如采集类的功能,采集到的html字符串要怎样处理是一个头痛的问题,如果是截取就太麻 ...

  6. iOS NSData

    NSData全部API学习. 学习NSData,在网上找资料竟然都是拷贝的纯代码,没人去解释.在这种网上没资料的情况下,整理这个API文件好难,好艰辛.在这贡献给大家了,么么哒~示例程序用红色标注. ...

  7. js模板引擎介绍搜集

    js模板引擎越来越多的得到应用,如今已经出现了几十种js模板引擎,国内各大互联网公司也都开发了自己的js模板引擎(淘宝的kissy template,腾讯的artTemplate,百度的baiduTe ...

  8. 你真的了解javascript吗

    原文地址:http://dmitry.baranovskiy.com/post/91403200 看了文章中五个小例子,写了写自己的理解 #demo1 if (!("a" in w ...

  9. 算法设计 - LCS 最长公共子序列&&最长公共子串 &&LIS 最长递增子序列

    出处 http://segmentfault.com/blog/exploring/ 本章讲解:1. LCS(最长公共子序列)O(n^2)的时间复杂度,O(n^2)的空间复杂度:2. 与之类似但不同的 ...

  10. 在应用程序中操作NorFlash

    相对于操作NandFlash,操作NorFlash相对简单,因为基本不需要考虑坏块,NorFlash也没有OOB区域,也跟ECC没有一毛钱关系.它的读写擦除相对容易. int dealwithnor( ...