mysqli_set_charset和SET NAMES优劣分析
bool mysqli_set_charset ( mysqli $link
, string $charset
)
这应该是首选的用于改变字符编码的方法,不建议使用 mysqli_query()执行SQL请求的SET NAMES ...(如 SET NAMES utf8)。
用法:
- <?php
- $mysqli = new mysqli("localhost", "my_user", "my_password", "test");
- /* check connection */
- if (mysqli_connect_errno()) {
- printf("Connect failed: %s\n", mysqli_connect_error());
- exit();
- }
- /* change character set to utf8 */
- if (!$mysqli->set_charset("utf8")) {
- printf("Error loading character set utf8: %s\n", $mysqli->error);
- } else {
- printf("Current character set: %s\n", $mysqli->character_set_name());
- }
- $mysqli->close();
- ?>
最近公司组织了个PHP安全编程的培训, 其中涉及到一部分关于Mysql的”SET NAMES”和mysql_set_charset (mysqli_set_charset)的内容:
说到, 尽量使用mysqli_set_charset(mysqli:set_charset)而不是”SET NAMES”, 当然, 这个内容在PHP手册中也有叙及, 但是却没有解释为什么.
最近有好几个朋友问我这个问题, 到底为什么?
问的人多了, 我也就觉得可以写篇blog, 专门介绍下这部分的内容了.
首先, 很多人都不知道”SET NAMES”到底是做了什么,
我之前的文章深入MySQL字符集设置中, 曾经介绍过character_set_client/character_set_connection/character_set_results这三个MySQL的”环境变量”, 这里再简单介绍下,
这三个变量, 分别告诉MySQL服务器, 客户端的编码集, 在传输给MySQL服务器的时候的编码集, 以及期望MySQL返回的结果的编码集.
比如, 通过使用”SET NAMES utf8″, 就告诉服务器, 我用的是utf-8编码, 我希望你也给我返回utf-8编码的查询结果.
一般情况下, 使用”SET NAMES”就足够了, 也是可以保证正确的. 那么为什么手册又要说推荐使用mysqli_set_charset(PHP>=5.0.5)呢?
首先, 我们看看mysqli_set_charset到底做了什么(注意星号注释处, mysql_set_charset类似):

- 1 //php-5.2.11-SRC/ext/mysqli/mysqli_nonapi.c line 342
- 2 PHP_FUNCTION(mysqli_set_charset)
- 3 {
- 4 MY_MYSQL*mysql;
- 5 zval*mysql_link;
- 6 char *cs_name = NULL;
- 7 unsigned int len;
- 8
- 9 if (zend_parse_method_parameters(ZEND_NUM_ARGS() TSRMLS_CC, getThis()
- 10 , "Os", &mysql_link, mysqli_link_class_entry, &cs_name, &len) == FAILURE) {
- 11 return;
- 12 }
- 13 MYSQLI_FETCH_RESOURCE(mysql, MY_MYSQL*, &mysql_link, "mysqli_link"
- 14 , MYSQLI_STATUS_VALID);
- 15
- 16 if (mysql_set_character_set(mysql->mysql, cs_name)) {
- 17 //** 调用libmysql的对应函数
- 18 RETURN_FALSE;
- 19 }
- 20 RETURN_TRUE;
- 21 }

那mysql_set_character_set又做了什么呢?

- 1 //mysql-5.1.30-SRC/libmysql/client.c, line 3166:
- 2 int STDCALLmysql_set_character_set(MYSQL*mysql, const char *cs_name)
- 3 {
- 4 structcharset_info_st *cs;
- 5 const char *save_csdir= charsets_dir;
- 6
- 7 if (mysql->options.charset_dir)
- 8 charsets_dir= mysql->options.charset_dir;
- 9
- 10 if (strlen(cs_name) < MY_CS_NAME_SIZE &&
- 11 (cs= get_charset_by_csname(cs_name, MY_CS_PRIMARY, MYF(0))))
- 12 {
- 13 char buff[MY_CS_NAME_SIZE + 10];
- 14 charsets_dir= save_csdir;
- 15 /* Skip execution of "SET NAMES" for pre-4.1 servers */
- 16 if (mysql_get_server_version(mysql) < 40100)
- 17 return 0;
- 18 sprintf(buff, "SET NAMES %s", cs_name);
- 19 if (!mysql_real_query(mysql, buff, strlen(buff)))
- 20 {
- 21 mysql->charset= cs;
- 22 }
- 23 }
- 24 //以下省略

我们可以看到, mysqli_set_charset除了做了”SET NAMES”以外, 还多做了一步:

- 1 sprintf(buff, "SET NAMES %s", cs_name);
- 2 if (!mysql_real_query(mysql, buff, strlen(buff)))
- 3 {
- 4 mysql->charset= cs;
- 5 }

而对于mysql这个核心结构的成员charset又有什么作用呢?
这就要说说mysql_real_escape_string()了, 这个函数和mysql_escape_string的区别就是, 它会考虑”当前”字符集. 那么这个当前字符集从哪里来呢?
对了, 你猜的没错, 就是mysql->charset.
mysql_real_string在判断宽字符集的字符的时候, 就根据这个成员变量来分别采用不同的策略, 比如如果是utf-8, 那么就会采用libmysql/ctype-utf8.c.
看个实例, 默认mysql连接字符集是latin-1, (经典的5c问题):

- 1 <?php
- 2 $db = mysql_connect('localhost:3737', 'root' ,'123456');
- 3 mysql_select_db("test");
- 4 $a = "\x91\x5c";//"慭"的gbk编码, 低字节为5c, 也就是ascii中的"\"
- 5
- 6 var_dump(addslashes($a));
- 7 var_dump(mysql_real_escape_string($a, $db));
- 8
- 9 mysql_query("set names gbk");
- 10 var_dump(mysql_real_escape_string($a, $db));
- 11
- 12 mysql_set_charset("gbk");
- 13 var_dump(mysql_real_escape_string($a, $db));
- 14 ?>

因为, “慭”的gbk编码低字节为5c, 也就是ascii中的”\”, 而因为除了mysql(i)_set_charset影响mysql->charset以外, 其他时刻mysql->charset都为默认值, 所以, 结果就是:

- 1 $ php -f 5c.php
- 2 string(3) "慭\"
- 3 string(3) "慭\"
- 4 string(3) "慭\"
- 5 string(2) "慭"

大家现在很清楚了吧?
转载自:http://www.laruence.com/2010/04/12/1396.html
mysqli_set_charset和SET NAMES优劣分析的更多相关文章
- spark和strom优劣分析
对于Storm来说:1.建议在那种需要纯实时,不能忍受1秒以上延迟的场景下使用,比如实时金融系统,要求纯实时进行金融交易和分析2.此外,如果对于实时计算的功能中,要求可靠的事务机制和可靠性机制,即数据 ...
- 小白学习mysql之存储过程的优劣分析以及接入控制
存储过程的优劣 存储过程是一组实现特定功能的SQL语句集合,存储过程一经编译便存储在了服务器上,可以通过调用存储过程的名字以及传入相应的参数来使用存储过程.要高层次的掌握存储过程,不能觉得依葫芦画瓢, ...
- 地区picker 各选择器,优劣分析
移动端选择器picker有很多,各大ui组件都有自己的picker,比如light7,HUI,MUI,jqueryUI等等.但是,我发现他们都有各种各样的问题.这次的地区选择,需要地区的省份+市+经纬 ...
- JAVA之多线程概念及其几种实现方法优劣分析
1. 多线程 程序:指令集,静态的概念 进程:操作系统调动程序,是程序的一次动态执行过程,动态的概念 线程:在进程内的多条执行路径 Ps:单核的话进程都是虚拟模拟出来的,多核处理器才可以执行真正的多线 ...
- Dedecms手机站三种不同建设方法和优劣分析
dedecms简单易用功能强大,是国内使用最多的cms建站系统,百度站长平台专门推出了“织梦移动化指南”,由此可见dedecms的影响力.织梦也是站长使用和学习最早的cms建站系统,解放了我的双手,让 ...
- Memcached与Redis对比及其优劣分析
国外讨论 本文主要总结缓存Redis和Memcached的区别,总结之前先参考外国知乎上的一篇问答:<Is memcached a dinosaur in comparison to Redis ...
- 用rem实现WebApp自适应的优劣分析
关于rem实现屏幕自适应布局的讨论还是比较多的,刚好我也看到使用rem实现自适应的web app,所以也来凑下热闹. 说起rem,免不了要联系到em.px,这里简单提提他们的定义和特点. 1. px: ...
- linux中exec和xargs命令的区别和优劣分析
find的exec及ok命令 exec命令的格式为: exec command {} \; exec后面跟着的是操作命令,然后跟着{}表示每一个参数,然后空格,然后"\;".{}之 ...
- 网络层block,delegate之优劣分析
正常情况下, block 缺点: 1.block很难追踪,难以维护 2.block会延长先关对象的生命周期 block会给内部所有的对象引用计数+1, 一方面会带来潜在的循环引用(retain cyc ...
随机推荐
- Node.Buffer
介绍 Buffer是一个典型的javascript与c++结合的模块,它将性能相关的部分用c++实现,将非性能相关的部分用javascript实现. 纯 JavaScript 对 Unicode 友好 ...
- 细数C++和C的差别
C++语言是对C语言的扩展.所以熟悉C语言的人会发现.本书的第01~18章讲的内容基本上和C语言的内容差点儿相同. C++一方面对C语言的语法进行了改动.还有一方面又加入一些新的概念. C++中新增的 ...
- Linux通过网卡驱动程序和版本号的信息
检查卡制造商和信号 查看基本信息:lspci 查看详情:lspci -vvv # 3小作文v 查看卡信息:lspci | grep Ethernet 查看网卡驱动 查看网卡驱动信息:lspci - ...
- Qt编写文件一键命名软件
之所以会写这篇博文,主要是由于近期从网上下载了一堆图片,但图片名称非常没有规律,处理起来非常不方便,由此想到是不是有一键命名的软件能够帮助我对全部图片命名,是图片名称有规律,这样在处理时方便操作. 有 ...
- 3.3 用NPOI操作EXCEL--生成一张工资单
这一节,我们将综合NPOI的常用功能(包括创建和填充单元格.合并单元格.设置单元格样式和利用公式),做一个工资单的实例.先看创建标题行的代码: //写标题文本 HSSFSheet sheet1 = h ...
- ASP.NET 母版页和内容页的加载顺序
Master 模板页Content 内容页如果希望Master页面的数据传给Content页面,请Init如果希望Content页面的数据传给Master页面,请重载Load具体细节不多说了,看下面页 ...
- Java跨域以及实现原理
最近研究了一下跨域,没接触之前我的印象就是配合单点登录的一种方式,后来在网上看到资料才知道不仅仅是这一种,用法很多,具体的可以去网上搜索. 一个众所周知的问题,Ajax直接请求普通文件存在跨域无权限访 ...
- BZOJ 1880: [Sdoi2009]Elaxia的路线( 最短路 + dp )
找出同时在他们最短路上的边(dijkstra + dfs), 组成新图, 新图DAG的最长路就是答案...因为两人走同一条路但是不同方向也可以, 所以要把一种一个的s,t换一下再更新一次答案 ---- ...
- [Python]小笔记-queue
queue的作用: 队列最大的作用就是先进先出(First in First Out).队列对于解决最短路的时候特别好用. python 2.7: 要使用队列,那么要加载头文件Queue,也就是imp ...
- [LeetCode]题解(python):015-3Sum
题目来源: https://leetcode.com/problems/3sum/ 题意分析: 这道题目是输入一个数组nums.找出所有的3个数使得这3个数之和为0.要求1.输出的3个数按小到大排序, ...