Berkeley DB 使用

http://www.ibm.com/developerworks/cn/linux/l-embdb/index.html

UNIX/LINUX平台下的数据库种类非常多，参考资料1中列举了其中的大部分。通常，我们在设计UNIX/LINUX平台下的应用软件时，如果数据种类繁多,数据与数据之间关系比较复杂，就会选用一些大型的企业级数据库系统，如DB2，ORACLE、SYBASE等，如果软件规模不大，就倾向选用如MYSQL、POSTGRESQL等中小型数据库。例如使用 PHP/PERL + MYSQL/POSTGRESQL设计网站基本上是一个很常规的做法。但是，当应用软件管理的数据类型较少（特别注意：这并不是说需要管理的数据量小），数据管理本身不复杂，且对数据操作要求高效率，则由大名鼎鼎的Berkeley（美国加州大学伯克利分校）开发的 Berkeley DB可能是一个很明智的选择。

回页首

DB最初开发的目的是以新的HASH访问算法来代替旧的hsearch函数和大量的dbm实现（如AT&T的dbm，Berkeley的 ndbm，GNU项目的gdbm）,DB的第一个发行版在1991年出现，当时还包含了B+树数据访问算法。在1992年，BSD UNIX第4.4发行版中包含了DB1.85版。基本上认为这是DB的第一个正式版。在1996年中期，Sleepycat软件公司成立，提供对DB的商业支持。在这以后，DB得到了广泛的应用，当前最新版本是4.3.27。

DB支持几乎所有的现代操作系统，如LINUX、UNIX、WINDOWS等，也提供了丰富的应用程序接口，支持C、C++、JAVA、PERL、TCL、PYTHON、PHP等。DB的应用十分广泛，在很多知名的软件中都能看到其身影。例如参考资料2中作者谈到利用DB在LINUX下实现内核级文件系统；参考资料3中通过实际测试数据说明DB提高了OPENLDAP的效率。LINUX下的软件包管理器RPM也使用DB管理软件包相关数据，可以使用命令file查看RPM数据目录/var/lib/rpm下的文件,则有形式如下的输出：

Dirnames: Berkeley DB (Btree, version 9, native byte-order)
Filemd5s: Berkeley DB (Hash, version 8, native byte-order)

值得注意的是DB是嵌入式数据库系统，而不是常见的关系/对象型数据库，对SQL语言不支持，也不提供数据库常见的高级功能，如存储过程，触发器等。

回页首

DB的设计思想是简单、小巧、可靠、高性能。如果说一些主流数据库系统是大而全的话，那么DB就可称为小而精。DB提供了一系列应用程序接口
（API），调用本身很简单，应用程序和DB所提供的库在一起编译成为可执行程序。这种方式从两方面极大提高了DB的效率。第一：DB库和应用程序运行在
同一个地址空间，没有客户端程序和数据库服务器之间昂贵的网络通讯开销，也没有本地主机进程之间的通讯；第二：不需要对SQL代码解码，对数据的访问直截
了当。

DB对需要管理的数据看法很简单，DB数据库包含若干条记录，每一个记录由关键字和数据（KEY/VALUE）构成。数据可以是简单的数据类型，也
可以是复杂的数据类型，例如C语言中结构。DB对数据类型不做任何解释,
完全由程序员自行处理，典型的C语言指针的"自由"风格。如果把记录看成一个有n个字段的表，那么第1个字段为表的主键，第2--n个字段对应了其它数
据。DB应用程序通常使用多个DB数据库，从某种意义上看，也就是关系数据库中的多个表。DB库非常紧凑，不超过500K，但可以管理大至256T的数据
量。

DB的设计充分体现了UNIX的基于工具的哲学，即若干简单工具的组合可以实现强大的功能。DB的每一个基础功能模块都被设计为独立的,也即意味着
其使用领域并不局限于DB本身。例如加锁子系统可以用于非DB应用程序的通用操作，内存共享缓冲池子系统可以用于在内存中基于页面的文件缓冲。

回页首

数据库句柄结构DB：包含了若干描述数据库属性的参数，如数据库访问方法类型、逻辑页面大小、数据库名称等；同时，DB结构中包含了大量的数据库处
理函数指针，大多数形式为（*dosomething）(DB *, arg1, arg2,
…)。其中最重要的有open,close,put,get等函数。

数据库记录结构DBT：DB中的记录由关键字和数据构成，关键字和数据都用结构DBT表示。实际上完全可以把关键字看成特殊的数据。结构中最重要的两个字段是 void * data和u_int32_t size，分别对应数据本身和数据的长度。

数据库游标结构DBC：游标（cursor）是数据库应用中常见概念，其本质上就是一个关于特定记录的遍历器。注意到DB支持多重记录（duplicate records），即多条记录有相同关键字，在对多重记录的处理中，使用游标是最容易的方式。

数据库环境句柄结构DB_ENV：环境在DB中属于高级特性，本质上看，环境是多个数据库的包装器。当一个或多个数据库在环境中打开后，环境可以为这些数据库提供多种子系统服务，例如多线/进程处理支持、事务处理支持、高性能支持、日志恢复支持等。

DB中核心数据结构在使用前都要初始化，随后可以调用结构中的函数（指针）完成各种操作，最后必须关闭数据结构。从设计思想的层面上看，这种设计方法是利用面向过程语言实现面对对象编程的一个典范。

回页首

在数据库领域中,数据访问算法对应了数据在硬盘上的存储格式和操作方法。在编写应用程序时，选择合适的算法可能会在运算速度上提高1个甚至多个数量
级。大多数数据库都选用B+树算法，DB也不例外，同时还支持HASH算法、Recno算法和Queue算法。接下来，我们将讨论这些算法的特点以及如何
根据需要存储数据的特点进行选择。

B+树算法：B+树是一个平衡树，关键字有序存储，并且其结构能随数据的插入和删除进行动态调整。为了代码的简单，DB没有实现对关键字的前缀码压缩。B+树支持对数据查询、插入、删除的常数级速度。关键字可以为任意的数据结构。

HASH算法：DB中实际使用的是扩展线性HASH算法（extended linear hashing），可以根据HASH表的增长进行适当的调整。关键字可以为任意的数据结构。

Recno算法：要求每一个记录都有一个逻辑纪录号，逻辑纪录号由算法本身生成。实际上，这和关系型数据库中逻辑主键通常定义为int AUTO型是同一个概念。Recho建立在B+树算法之上，提供了一个存储有序数据的接口。记录的长度可以为定长或不定长。

Queue算法：和Recno方式接近, 只不过记录的长度为定长。数据以定长记录方式存储在队列中，插入操作把记录插入到队列的尾部，相比之下插入速度是最快的。

对算法的选择首先要看关键字的类型，如果为复杂类型，则只能选择B+树或HASH算法，如果关键字为逻辑记录号，则应该选择Recno或Queue
算法。当工作集关键字有序时，B+树算法比较合适；如果工作集比较大且基本上关键字为随机分布时，选择HASH算法。Queue算法只能存储定长的记录，
在高的并发处理情况下，Queue算法效率较高；如果是其它情况，则选择Recno算法，Recno算法把数据存储为平面文件格式。

回页首

#include <db.h>
#include <stdio.h>
#include <stdlib.h>
#include <pthread.h>
/* DB的函数执行完成后，返回0代表成功，否则失败 */
void print_error(int ret)
{
	if(ret != 0)
		printf("ERROR: %s/n",db_strerror(ret));
}
/* 数据结构DBT在使用前，应首先初始化，否则编译可通过但运行时报参数错误  */
void init_DBT(DBT * key, DBT * data)
{
	memset(key, 0, sizeof(DBT));
	memset(data, 0, sizeof(DBT));
}
void main(void)
{
	DB *dbp;
	DBT key, data;
	u_int32_t flags;
	int ret;
	char *fruit = "apple";
	int number = 15;

	typedef struct customer
	{
		int  c_id;
		char name[10];
		char address[20];
		int  age;
	} CUSTOMER;
	CUSTOMER cust;
	int key_cust_c_id = 1;
	cust.c_id = 1;
	strncpy(cust.name, "javer", 9);
	strncpy(cust.address, "chengdu", 19);
	cust.age = 32;
	/* 首先创建数据库句柄 */
	ret = db_create(&dbp, NULL, 0);
	print_error(ret);

	/* 创建数据库标志 */
	flags = DB_CREATE;
	/* 创建一个名为single.db的数据库，使用B+树访问算法，本段代码演示对简单数据类型的处理 */
	ret = dbp->open(dbp, NULL, "single.db", NULL, DB_BTREE, flags, 0);
	print_error(ret);
	init_DBT(&key, &data);

	/* 分别对关键字和数据赋值和规定长度 */
	key.data = fruit;
	key.size = strlen(fruit) + 1;
	data.data = &number;
	data.size = sizeof(int);
	/* 把记录写入数据库中，不允许覆盖关键字相同的记录 */
	ret = dbp->put(dbp, NULL, &key, &data,DB_NOOVERWRITE);
	print_error(ret);

/* 手动把缓存中的数据刷新到硬盘文件中，实际上在关闭数据库时，数据会被自动刷新 */
dbp->sync()；

init_DBT(&key, &data);
	key.data = fruit;
	key.size = strlen(fruit) + 1;

	/* 从数据库中查询关键字为apple的记录 */
	ret = dbp->get(dbp, NULL, &key, &data, 0);
	print_error(ret);
	/* 特别要注意数据结构DBT的字段data为void *型，所以在对data赋值和取值时，要做必要的类型转换。 */
	printf("The number = %d/n", *(int*)(data.data));

	if(dbp != NULL)
    		dbp->close(dbp, 0);
	ret = db_create(&dbp, NULL, 0);
	print_error(ret);
	flags = DB_CREATE;
	/* 创建一个名为complex.db的数据库，使用HASH访问算法，本段代码演示对复杂数据结构的处理 */
	ret = dbp->open(dbp, NULL, "complex.db", NULL, DB_HASH, flags, 0);
	print_error(ret);
	init_DBT(&key, &data);
	key.size = sizeof(int);
	key.data = &(cust.c_id);
	data.size = sizeof(CUSTOMER);
	data.data = &cust;
	ret = dbp->put(dbp, NULL, &key, &data,DB_NOOVERWRITE);
	print_error(ret);

	memset(&cust, 0, sizeof(CUSTOMER));

	key.size = sizeof(int);
	key.data = &key_cust_c_id;
	data.data = &cust;
	data.ulen = sizeof(CUSTOMER);
	data.flags = DB_DBT_USERMEM;
	dbp->get(dbp, NULL, &key, &data, 0);
	print_error(ret);

	printf("c_id = %d name = %s address = %s age = %d/n",
		cust.c_id, cust.name, cust.address, cust.age);

	if(dbp != NULL)
    		dbp->close(dbp, 0);
}

回页首

游标是依赖于数据库句柄的，应用程序代码框架如下：

	/* 定义一个游标变量 */
	DBC * cur;
	/* 首先打开数据库，再打开游标 */
	dbp->open(dbp, ……);
	dbp->cursor(dbp, NULL, &cur, 0);

	/* do something with cursor */
	/* 首先关闭，在关闭数据库 */
	cur->c_close(cur);
	dbp->close(dbp, 0);

在游标打开后，可以以多种方式遍历特定记录。

		Memset(&key, 0, sizeof(DBT));
	Memset(&data, 0, sizeof(DBT));
	/* 因为KEY和DATA为空，则游标遍历整个数据库记录 */
	While((ret = cur->c_get(cur, &key, &data, DB_NEXT)) == 0)
	{
		/* do something with key and data */
	}

当想查询特定关键字对应的记录，则应对关键字赋值，并把cur->c_get()函数中标志位设置为DB_SET。例如：

		key.data = "xxxxx";
	key.size =  XXX;
	While((ret = cur->c_get(cur, &key, &data, DB_SET)) == 0)
	{
		/* do something with key and data */
	}

游标的作用还有很多，如查询多重记录，插入/修改/删除记录等。

回页首

本文前面已说明环境是DB数据库的包装器，提供多种高级功能。应用程序代码框架如下：

 /* 定义一个环境变量，并创建 */
  DB_ENV *dbenv;
  db_env_create(&dbenv, 0);

/* 在环境打开之前，可调用形式为dbenv->set_XXX()的若干函数设置环境 */
  /* 通知DB使用Rijndael加密算法（参考资料>）对数据进行处理 */
dbenv->set_encrypt(dbenv, "encrypt_string", DB_ENCRYPT_AES);
  /* 设置DB的缓存为5M */
dbenv->set_cachesize(dbenv, 0, 5 * 1024 * 1024, 0);
/* 设置DB查找数据库文件的目录 */
  dbenv->set_data_dir(dbenv, "/usr/javer/work_db");
  /* 打开数据库环境，注意后四个标志分别指示DB启动日志、加锁、缓存、事务处理子系统 */
  dbenv->open(dbenv,home,DB_CREATE|DB_INIT_LOG|DB_INIT_LOCK| DB_INIT_MPOOL
                |DB_INIT_TXN, 0)；

  /* 在环境打开后，则可以打开若干个数据库，所有数据库的处理都在环境的控制和保护中。
注意db_create函数的第二个参数是环境变量 */
db_create(&dbp1, dbenv, 0)；
dbp1->open(dbp1, ……);
db_create(&dbp2, dbenv, 0)；
dbp1->open(dbp2, ……);
  /* do something with the database */
  /* 最后首先关闭打开的数据库，再关闭环境 */
  dbp2->close(dbp2, 0);
  dbp1->close(dbp1, 0);
  dbenv->close(dbenv, 0);

回页首

从DB的官方站点http://www.sleepycat.com/下载最新的软件包db-4.3.27.tar.gz，解压到工作目录，进入该目录，依次执行下列三条命令即可。

../dist/configure
make
make install

执行make uninstall，则可卸载已安装的DB软件。

DB缺省把库和头文件安装在目录/usr/local/BerkeleyDB.4.3/下，使用gcc test.c -ggdb -I/usr/local/BerkeleyDB.4.3/include/ -L/usr/local/BerkeleyDB.4.3/lib/ -ldb -lpthread就可正确编译程序。如果读者的测试主机操作系统为RED HAT9,则安装的DB版本可能是4.0。特别要注意到这两个版本的库是不兼容的。例如打开数据库函数DB->open(),在4.0版本中入参为 6个，而在4.3版中则为7个（可自行比较两个库的头文件db.h中DB->open函数的定义）。因为在DB相关的应用程序中，open函数基本上都是要执行的，所以如果函数和版本不匹配，编译肯定会出错。当然，编译完成后，可以使用命令ldd查看库的依赖关系。

回页首

DB是一个具有工业强度的嵌入式数据库系统，数据处理的效率很高。DB功能的稳定性历经时间的考验，在大量应用程序中使用便是明证。可以想见，在同等代码质量的条件下，软件的BUG数和代码的长度是成正比的，相对几十兆、几百兆大型数据库软件，DB的只有不到500K的大小！

从实现功能上看,DB是轻量级数据库系统，或可称为"极" 轻量级数据库系统。但是，我认为不能因此而心存轻视之意，所谓"尺有所短，寸有所长"，以绝对角度比较工具之间的好坏是没有什么意义的，关键在于对工具的选择和运用（似乎可以参考一下极限编程的思想）。也许，正确的"表达范式"应该是：在当前应用背景下，选择这种工具是最合适的。

Berkeley DB 使用的更多相关文章

Berkeley DB的数据存储结构——哈希表（Hash Table）、B树（BTree）、队列（Queue）、记录号（Recno）
Berkeley DB的数据存储结构 BDB支持四种数据存储结构及相应算法,官方称为访问方法(Access Method),分别是哈希表(Hash Table).B树(BTree).队列(Queue) ...
比Redis更快：Berkeley DB面面观
比Redis更快:Berkeley DB面面观 Redis很火,最近大家用的多.从两年前开始,Memcached转向Redis逐渐成为潮流:而Berkeley DB可能很多朋友还很陌生,首先,我们简单 ...
Berkeley DB分布式探索
明天回家就没有网络,今晚就将整个编写过程记录下来.顺带整理思路以解决未能解决的问题. 标题有点托大,想将Berkeley DB做成分布式存储,感觉很高端的样子,实际上就是通过ssh将Berkeley ...
Berkeley DB数据处理
设计一个结构,利用Berkeley DB完成大数据的存储,备份,查询功能. 已有的储备: 1.Berkeley DB的基本操作. 2.数据转存后数据不丢失. 3.过百GB以上数据的存储. 数据流如下, ...
Berkeley DB
最近用BDB写点东西,写了挺多个测试工程.列下表,也理清楚最近的思路 1.测试BDB程序,包括打开增加记录,查询记录,获取所有记录.将数据转存mysql 程序的不足,增加记录仅仅只有key和value ...
BDB (Berkeley DB)数据库简单介绍（转载）
近期要使用DBD,于是搜了下相关的资料,先贴个科普性的吧: 转自http://www.javaeye.com/topic/202990 DB综述DB最初开发的目的是以新的HASH訪问算法来取代旧的hs ...
Oracle Berkeley DB Java 版
Oracle Berkeley DB Java 版是一个开源的.可嵌入的事务存储引擎,是完全用 Java 编写的.它充分利用 Java 环境来简化开发和部署.Oracle Berkeley DB Ja ...
新浪研发中心: Berkeley DB 使用经验总结
http://blog.sina.com.cn/s/blog_502c8cc40100yqkj.html NoSQL是现在互联网Web2.0时代备受关注的技术之一,被用来存储大量的非关系型的数据.Be ...
Berkeley DB基础教程
一.Berkeley DB的介绍 (1)Berkeley DB是一个嵌入式数据库,它适合于管理海量的.简单的数据.如Google使用其来保存账户信息,Heritrix用其来保存froniter. (2 ...
「JAVA」：Berkeley DB的JAVA连接
Berkeley DB是一个嵌入式的数据库,它适合于管理海量的.简单的数据.关键字/数据(key/value)是Berkeley DB用来进行数据管理的基础.每个key/value构成了一条记录,而整 ...

随机推荐

cocos2d学习笔录1
CCDirector的主要作用: 1.访问和改变场景: 2.访问cocos2d-x的配置细节 3.访问视图(OPENGL,UIVIEW,UIWINDOW): 4.暂停,恢复和结束游戏: 5.在UIKi ...
在WEB工程的web层中的编程技巧
本篇以看传智播客方立勋老师的<JDBC入门>之<实现客户关系管理案例>视频有感,从中提取方老师在设计管理系统的简单案例中对自己比较有用的部分,以便日后在开发过程中希望能有所帮助 ...
Beauty of Array
Description Edward has an array A with N integers. He defines the beauty of an array as the summatio ...
Appium TestNg Maven Android Eclipse java简单启动实例
环境准备 Eclipse + maven + appium + TestNg 确保已经在Eclipse 上面安装maven TestNg的插件打开Eclipse,新建一个java项目,把项目转换成m ...
【HTML】让<pre>标签文本自动换行
利用<pre></pre>这个标签可以将其包起来的文字排版.格式,原封不动的呈现出来. 也就是说你输入的东西被原封不动的输出,包括你输入的空格之类的,不用和<BR> ...
CImageList类Create函数参数解析
前面提到了CImageList类的Create(...)函数,虽然MSDN上已经有所解释,但仍有网友问到参数的具体含义,下面就我的理解,对参数进行一次轻量级的剖析函数原型(其他重载函数请参看msdn ...
重载(overload)，覆盖/重写(override),隐藏(hide)
写正题之前,先给出几个关键字的中英文对照,重载(overload),覆盖/重写(override),隐藏(hide).在早期的C++书籍中,常常把重载(overload)和覆盖(override)搞错 ...
JavaScript闭包(closure)入门: 拿"开发部"和"技术牛"举个例子
虽然只是一小段菜鸟的学习笔记 , 不过还是希望看到的高手看到不足的时候帮忙指点~ 一:代码和执行过程 /** * http://blog.csdn.net/ruantao1989 * ==>Ju ...
为什么Lisp语言如此先进？（译文） - 阮一峰的网络日志
为什么Lisp语言如此先进?(译文) - 阮一峰的网络日志为什么Lisp语言如此先进?(译文)
Linux入门基础 #9：管道及重定向
本文出自 http://blog.csdn.net/shuangde800 ------------------------------------------------------------ ...

Berkeley DB 使用

Berkeley DB 使用的更多相关文章

随机推荐

热门专题