foreach 相关
20 Nov 08 深入理解PHP原理之foreach
- 作者: Laruence( )
- 本文地址: http://www.laruence.com/2008/11/20/630.html
- 转载请注明出处
foreach是PHP中很常用的一个用作数组循环的控制语句。
因为它的方便和易用,自然也就在后端隐藏着很复杂的具体实现方式(对用户透明)
今天,我们就来一起分析分析,foreach是如何实现数组(对象)的遍历的。
本节内容涉及到较多编译原理(lex and yacc)的知识,所以如果您觉得看不太懂,可以先找相关的资料看看。
我们知道PHP是一个脚本语言,也就是说,用户编写的PHP代码最终都是会被PHP解释器解释执行,
特别的,对于PHP来说,所有的用户编写的PHP代码,都会被翻译成PHP的虚拟机ZE的虚拟指令(OPCODES)来执行(参看:深入理解PHP原理之Opcodes).
不论细节的话,就是说,我们所编写的任何PHP脚本,都会最终被翻译成一条条的指令,从而根据指令,由相应的C编写的函数来执行。
那么foreach会被翻译成什么样子呢?
- foreach($arr as $key => $val){
- echo $key . '=>' . $val . "\n";
- }
在词法分析阶段,foreach会被识别为一个TOKEN:T_FOREACH,
在语法分析阶段,会被规则:
- unticked_statement: //没有被绑定ticks的语句
- //有省略
- | T_FOREACH '(' variable T_AS
- { zend_do_foreach_begin(&$1, &$2, &$3, &$4, 1 TSRMLS_CC); }
- foreach_variable foreach_optional_arg ')' { zend_do_foreach_cont(&$1, &$2, &$4, &$6, &$7 TSRMLS_CC); }
- foreach_statement { zend_do_foreach_end(&$1, &$4 TSRMLS_CC); }
- | T_FOREACH '(' expr_without_variable T_AS
- { zend_do_foreach_begin(&$1, &$2, &$3, &$4, 0 TSRMLS_CC); }
- variable foreach_optional_arg ')' { zend_check_writable_variable(&$6); zend_do_foreach_cont(&$1, &$2, &$4, &$6, &$7 TSRMLS_CC); }
- foreach_statement { zend_do_foreach_end(&$1, &$4 TSRMLS_CC); }
- //有省略
- ;
仔细分析这段语法规则,我们可以发现,对于:
foreach($arr as $key => $val){
echo $key . ‘=>’ . $val .”\n”;
}
会被分析为:
- T_FOREACH '(' variable T_AS { zend_do_foreach_begin('foreach', '(', $arr, 'as', 1 TSRMLS_CC); }
- foreach_variable foreach_optional_arg(T_DOUBLE_ARROW foreach_variable) ')' { zend_do_foreach_cont('foreach', '(', 'as', $key, $val TSRMLS_CC); }
- foreach_satement {zend_do_foreach_end('foreach', 'as');}
然后,让我们来看看foreach_statement:
它其实就是一个代码块,体现了我们的 echo $key . ‘=>’ . $val .”\n”;
T_ECHO expr;
显然,实现foreach的核心就是如下3个函数:
zend_do_foreach_begin
zend_do_foreach_cont
zend_do_foreach_end
其中,zend_do_foreach_begin (代码太长,直接写伪码) 主要做了:
1. 记录当前的opline行数(为以后跳转而记录)
2. 对数组进行RESET(讲内部指针指向第一个元素)
3. 获取临时变量 ($val)
4. 设置获取变量的OPCODE FE_FETCH,结果存第3步的临时变量
4. 记录获取变量的OPCODES的行数
而对于 zend_do_foreach_cont来说:
1. 根据foreach_variable的u.EA.type来判断是否引用
2. 根据是否引用来调整zend_do_foreach_begin中生成的FE_FETCH方式
3. 根据zend_do_foreach_begin中记录的取变量的OPCODES的行数,来初始化循环(主要处理在循环内部的循环:do_begin_loop)
最后zend_do_foreach_end:
1. 根据zend_do_foreach_begin中记录的行数信息,设置ZEND_JMP OPCODES
2. 根据当前行数,设置循环体下一条opline, 用以跳出循环
3. 结束循环(处理循环内循环:do_end_loop)
4. 清理临时变量
当然, 在zend_do_foreach_cont 和 zend_do_foreach_end之间 会在语法分析阶段被填充foreach_satement的语句代码。
这样,就实现了foreach的OPCODES line。
比如对于我们开头的实例代码,最终生成的OPCODES是:
- filename: /home/huixinchen/foreach.php
- function name: (null)
- number of ops: 17
- compiled vars: !0 = $arr, !1 = $key, !2 = $val
- line # op fetch ext return operands
- -------------------------------------------------------------------------------
- 2 0 SEND_VAL 1
- 1 SEND_VAL 100
- 2 DO_FCALL 2 'range'
- 3 ASSIGN !0, $0
- 3 4 FE_RESET $2 !0, ->14
- 5 FE_FETCH $3 $2, ->14
- 6 ZEND_OP_DATA ~5
- 7 ASSIGN !2, $3
- 8 ASSIGN !1, ~5
- 4 9 CONCAT ~7 !1, '-'
- 10 CONCAT ~8 ~7, !2
- 11 CONCAT ~9 ~8, '%0A'
- 12 ECHO ~9
- 5 13 JMP ->5
- 14 SWITCH_FREE $2
- 7 15 RETURN 1
- 16* ZEND_HANDLE_EXCEPTION
我们注意到FE_FETCH的op2的操作数是14,也就是JMP后一条opline,也就是说,在获取完最后一个数组元素以后,FE_FETCH失败的情况下,会跳到第14行opline,从而实现了循环的结束。
而15行opline的op1的操作数是指向了FE_FETCH,也就是无条件跳转到第5行opline,从而实现了循环。
附录:
- void zend_do_foreach_begin(znode *foreach_token, znode *open_brackets_token, znode *array, znode *as_token, int variable TSRMLS_DC)
- {
- zend_op *opline;
- zend_bool is_variable;
- zend_bool push_container = 0;
- zend_op dummy_opline;
- if (variable) {
- //是否是匿名数组
- if (zend_is_function_or_method_call(array)) {
- //是否是函数返回值
- is_variable = 0;
- } else {
- is_variable = 1;
- }
- /* 使用括号记录FE_RESET的opline行数 */
- open_brackets_token->u.opline_num = get_next_op_number(CG(active_op_array));
- zend_do_end_variable_parse(BP_VAR_W, 0 TSRMLS_CC); //获取数组/对象和zend_do_begin_variable_parse对应
- if (CG(active_op_array)->last > 0 &&
- CG(active_op_array)->opcodes[CG(active_op_array)->last-1].opcode == ZEND_FETCH_OBJ_W) {
- /* Only lock the container if we are fetching from a real container and not $this */
- if (CG(active_op_array)->opcodes[CG(active_op_array)->last-1].op1.op_type == IS_VAR) {
- CG(active_op_array)->opcodes[CG(active_op_array)->last-1].extended_value |= ZEND_FETCH_ADD_LOCK;
- push_container = 1;
- }
- }
- } else {
- is_variable = 0;
- open_brackets_token->u.opline_num = get_next_op_number(CG(active_op_array));
- }
- foreach_token->u.opline_num = get_next_op_number(CG(active_op_array)); //记录数组Reset Opline number
- opline = get_next_op(CG(active_op_array) TSRMLS_CC); //生成Reset数组Opcode
- opline->opcode = ZEND_FE_RESET;
- opline->result.op_type = IS_VAR;
- opline->result.u.var = get_temporary_variable(CG(active_op_array));
- opline->op1 = *array;
- SET_UNUSED(opline->op2);
- opline->extended_value = is_variable ? ZEND_FE_RESET_VARIABLE : 0;
- dummy_opline.result = opline->result;
- if (push_container) {
- dummy_opline.op1 = CG(active_op_array)->opcodes[CG(active_op_array)->last-2].op1;
- } else {
- znode tmp;
- tmp.op_type = IS_UNUSED;
- dummy_opline.op1 = tmp;
- }
- zend_stack_push(&CG(foreach_copy_stack), (void *) &dummy_opline, sizeof(zend_op));
- as_token->u.opline_num = get_next_op_number(CG(active_op_array)); //记录循环起始点
- opline = get_next_op(CG(active_op_array) TSRMLS_CC);
- opline->opcode = ZEND_FE_FETCH;
- opline->result.op_type = IS_VAR;
- opline->result.u.var = get_temporary_variable(CG(active_op_array));
- opline->op1 = dummy_opline.result; //被操作数组
- opline->extended_value = 0;
- SET_UNUSED(opline->op2);
- opline = get_next_op(CG(active_op_array) TSRMLS_CC);
- opline->opcode = ZEND_OP_DATA; //当使用key的时候附属操作数,当foreach中不包含key时忽略
- SET_UNUSED(opline->op1);
- SET_UNUSED(opline->op2);
- SET_UNUSED(opline->result);
- }
- void zend_do_foreach_cont(znode *foreach_token, const znode *open_brackets_token, const znode *as_token, znode *value, znode *key TSRMLS_DC)
- {
- zend_op *opline;
- znode dummy, value_node;
- zend_bool assign_by_ref=0;
- opline = &CG(active_op_array)->opcodes[as_token->u.opline_num]; //获取FE_FETCH Opline
- if (key->op_type != IS_UNUSED) {
- znode *tmp;//交换key和val
- tmp = key;
- key = value;
- value = tmp;
- opline->extended_value |= ZEND_FE_FETCH_WITH_KEY; //表明需要同时获取key和val
- }
- if ((key->op_type != IS_UNUSED) && (key->u.EA.type & ZEND_PARSED_REFERENCE_VARIABLE)) {
- //key不能以引用方式获取
- zend_error(E_COMPILE_ERROR, "Key element cannot be a reference");
- }
- if (value->u.EA.type & ZEND_PARSED_REFERENCE_VARIABLE) {
- //以引用方式获取值
- assign_by_ref = 1;
- if (!(opline-1)->extended_value) {
- //根据FE_FETCH的上一条Opline也就是获取数组的扩展值来判断数组是否是匿名数组
- zend_error(E_COMPILE_ERROR, "Cannot create references to elements of a temporary array expression");
- }
- opline->extended_value |= ZEND_FE_FETCH_BYREF; //指明按引用取
- CG(active_op_array)->opcodes[foreach_token->u.opline_num].extended_value |= ZEND_FE_RESET_REFERENCE; //重置原数组
- } else {
- zend_op *foreach_copy;
- zend_op *fetch = &CG(active_op_array)->opcodes[foreach_token->u.opline_num];
- zend_op *end = &CG(active_op_array)->opcodes[open_brackets_token->u.opline_num];
- /* Change "write context" into "read context" */
- fetch->extended_value = 0; /* reset ZEND_FE_RESET_VARIABLE */
- while (fetch != end) {
- --fetch;
- if (fetch->opcode == ZEND_FETCH_DIM_W && fetch->op2.op_type == IS_UNUSED) {
- zend_error(E_COMPILE_ERROR, "Cannot use [] for reading");
- }
- fetch->opcode -= 3; /* FETCH_W -> FETCH_R */
- }
- /* prevent double SWITCH_FREE */
- zend_stack_top(&CG(foreach_copy_stack), (void **) &foreach_copy);
- foreach_copy->op1.op_type = IS_UNUSED;
- }
- value_node = opline->result;
- if (assign_by_ref) {
- zend_do_end_variable_parse(value, BP_VAR_W, 0 TSRMLS_CC); //获取值(引用)
- zend_do_assign_ref(NULL, value, &value_node TSRMLS_CC);//指明value node的type是IS_VAR
- } else {
- zend_do_assign(&dummy, value, &value_node TSRMLS_CC); //获取copy值
- zend_do_free(&dummy TSRMLS_CC);
- }
- if (key->op_type != IS_UNUSED) {
- znode key_node;
- opline = &CG(active_op_array)->opcodes[as_token->u.opline_num+1];
- opline->result.op_type = IS_TMP_VAR;
- opline->result.u.EA.type = 0;
- opline->result.u.opline_num = get_temporary_variable(CG(active_op_array));
- key_node = opline->result;
- zend_do_assign(&dummy, key, &key_node TSRMLS_CC);
- zend_do_free(&dummy TSRMLS_CC);
- }
- do_begin_loop(TSRMLS_C);
- INC_BPC(CG(active_op_array));
- }
- void zend_do_foreach_end(znode *foreach_token, znode *as_token TSRMLS_DC)
- {
- zend_op *container_ptr;
- zend_op *opline = get_next_op(CG(active_op_array) TSRMLS_CC); //生成JMP opcode
- opline->opcode = ZEND_JMP;
- opline->op1.u.opline_num = as_token->u.opline_num; //设置JMP到FE_FETCH opline行
- SET_UNUSED(opline->op1);
- SET_UNUSED(opline->op2);
- CG(active_op_array)->opcodes[foreach_token->u.opline_num].op2.u.opline_num = get_next_op_number(CG(active_op_array)); //设置跳出循环的opline行
- CG(active_op_array)->opcodes[as_token->u.opline_num].op2.u.opline_num = get_next_op_number(CG(active_op_array)); //同上
- do_end_loop(as_token->u.opline_num, 1 TSRMLS_CC); //为循环嵌套而设置
- zend_stack_top(&CG(foreach_copy_stack), (void **) &container_ptr);
- generate_free_foreach_copy(container_ptr TSRMLS_CC);
- zend_stack_del_top(&CG(foreach_copy_stack));
- DEC_BPC(CG(active_op_array)); //为PHP interactive模式而设置
- }
深入理解PHP之数组(遍历顺序)
比如:
- <?php
- $arr['laruence'] = 'huixinchen';
- $arr['yahoo'] = 2007;
- $arr['baidu'] = 2008;
- foreach ($arr as $key => $val) {
- //结果是什么?
- }
又比如:
- <?php
- $arr[2] = 'huixinchen';
- $arr[1] = 2007;
- $arr[0] = 2008;
- foreach ($arr as $key => $val) {
- //现在结果又是什么?
- }
要完全了解清楚这个问题, 我想首先应该要大家了解PHP数组的内部实现结构………
PHP的数组
在PHP中, 数组是用一种HASH结构(HashTable)来实现的, PHP使用了一些机制, 使得可以在O(1)的时间复杂度下实现数组的增删, 并同时支持线性遍历和随机访问.
之前的文章中也讨论过, PHP的HASH算法, 基于此, 我们做进一步的延伸.
认识HashTable之前, 首先让我们看看HashTable的结构定义, 我加了注释方便大家理解:
- typedef struct _hashtable {
- uint nTableSize; /* 散列表大小, Hash值的区间 */
- uint nTableMask; /* 等于nTableSize -1, 用于快速定位 */
- uint nNumOfElements; /* HashTable中实际元素的个数 */
- ulong nNextFreeElement; /* 下个空闲可用位置的数字索引 */
- Bucket *pInternalPointer; /* 内部位置指针, 会被reset, current这些遍历函数使用 */
- Bucket *pListHead; /* 头元素, 用于线性遍历 */
- Bucket *pListTail; /* 尾元素, 用于线性遍历 */
- Bucket **arBuckets; /* 实际的存储容器 */
- dtor_func_t pDestructor;/* 元素的析构函数(指针) */
- zend_bool persistent;
- unsigned char nApplyCount; /* 循环遍历保护 */
- zend_bool bApplyProtection;
- #if ZEND_DEBUG
- int inconsistent;
- #endif
- } HashTable;
关于nApplyCount的意义, 我们可以通过一个例子来了解:
- <?php
- $arr = array(1,2,3,4,5,);
- $arr[] = &$arr;
- var_export($arr); //Fatal error: Nesting level too deep - recursive dependency?
这个字段就是为了防治循环引用导致的无限循环而设立的.
查看上面的结构, 可以看出, 对于HashTable, 关键元素就是arBuckets了, 这个是实际存储的容器, 让我们来看看它的结构定义:
- typedef struct bucket {
- ulong h; /* 数字索引/hash值 */
- uint nKeyLength; /* 字符索引的长度 */
- void *pData; /* 数据 */
- void *pDataPtr; /* 数据指针 */
- struct bucket *pListNext; /* 下一个元素, 用于线性遍历 */
- struct bucket *pListLast; /* 上一个元素, 用于线性遍历 */
- struct bucket *pNext; /* 处于同一个拉链中的下一个元素 */
- struct bucket *pLast; /* 处于同一拉链中的上一个元素 */
- char arKey[1]; /* 节省内存,方便初始化的技巧 */
- } Bucket;
我们注意到, 最后一个元素, 这个是flexible array技巧, 可以节省内存,和方便初始化的一种做法, 有兴趣的朋友可以google flexible array.
h是元素的Hash值,对于数字索引的元素,h为直接索引值(通过nKeyLength=0来表示是数字索引).而对于字符串索引来说, 索引值保存在arKey中, 索引的长度保存在nKeyLength中.
在Bucket中,实际的数据是保存在pData指针指向的内存块中,通常这个内存块是系统另外分配的。但有一种情况例外,就是当Bucket保存 的数据是一个指针时,HashTable将不会另外请求系统分配空间来保存这个指针,而是直接将该指针保存到pDataPtr中,然后再将pData指向本结构成员的地址。这样可以提高效率,减少内存碎片。由此我们可以看到PHP HashTable设计的精妙之处。如果Bucket中的数据不是一个指针,pDataPtr为NULL(本段来自Altair<eniac2008@hotmail.com>的”Zend HashTable详解”)
结合上面的HashTable结构, 我们来说明下HashTable的总结构图:
HashTable结构示意图
HashTable的pListhHead指向线性列表形式下的第一个元素, 上图中是元素1, pListTail指向的是最后一个元素0, 而对于每一个元素pListNext就是红色线条画出的线性结构的下一个元素, 而pListLast是上一个元素.
pInternalPointer指向当前的内部指针的位置, 在对数组进行顺序遍历的时候, 这个指针指明了当前的元素.
当在线性(顺序)遍历的时候, 就会从pListHead开始, 顺着Bucket中的pListNext/pListLast, 根据移动pInternalPointer, 来实现对所有元素的线性遍历.
比如, 对于foreach, 如果我们查看它生成的opcode序列, 我们可以发现, 在foreach之前, 会首先有个FE_RESET来重置数组的内部指针, 也就是pInternalPointer(关于foreach可以参看深入理解PHP原理之foreach), 然后通过每次FE_FETCH来递增pInternalPointer,从而实现顺序遍历.
类似的, 当我们使用, each/next系列函数来遍历的时候, 也是通过移动数组的内部指针而实现了顺序遍历, 这里有一个问题, 比如:
- <?php
- $arr = array(1,2,3,4,5);
- foreach ($arr as $v) {
- //可以获取
- }
- while (list($key, $v) = each($arr)) {
- //获取不到
- }
- ?>
了解到我刚才介绍的知识, 那么这个问题也就很明朗了, 因为foreach会自动reset, 而while这块不会reset, 所以在foreach结束以后, pInternalPointer指向数组最末端, while语句块当然访问不到了, 解决的办法就是在each之前, 先reset数组的内部指针.
而在随机访问的时候, 就会通过hash值确定在hash数组中的头指针位置, 然后通过pNext/pLast来找到特点元素.
增加元素的时候, 元素会插在相同Hash元素链的头部和线性列表的尾部. 也就是说, 元素在线性遍历的时候是根据插入的先后顺序来遍历的, 这个特殊的设计使得在PHP中,当使用数字索引时, 元素的先后顺序是由添加的顺序决定的,而不是索引顺序.
也就是说, PHP中遍历数组的顺序, 是和元素的添加先后相关的, 那么, 现在我们就很清楚的知道, 文章开头的问题的输出是:
- huixinchen
- 2007
- 2008
所以, 如果你想在数字索引的数组中按照索引大小遍历, 那么你就应该使用for, 而不是foreach
- for($i=0,$l=count($arr); $i<$l; $i++) {
- //这个时候,不能认为是顺序遍历(线性遍历)
- }
foreach 相关的更多相关文章
- 【Javascript】JS遍历数组的三种方法:map、forEach、filter
前言 近一段时间,因为项目原因,会经常在前端对数组进行遍历.处理,JS自带的遍历方法有很多种,往往不加留意,就可能导致知识混乱的现象,并且其中还存在一些坑.前端时间在ediary中总结了js原生自带的 ...
- ecshop调用后台指定广告位下所有广告循环
ecshop本身的广告调用规则是:对某个广告位下的广告列表随机显示其中一条. 而我们有时需要将某个广告位下的所有广告全部显示出来,那么如何处理呢,下面就自己做了一个函数: \includes\lib_ ...
- MyBatis实战之动态SQL
如果使用JDBC或者其他框架,很多时候你得根据需要去拼接SQL,这是一个麻烦的事情,而MyBatis提供对SQL语句动态的组装能力,而且它只有几个基本的元素,非常简单明了,大量的判断都可以在MyBat ...
- c-fmt-fn标签用法
c-fmt-fn标签用法 CreateTime--2017年1月6日15:48:43 Author:Marydon 一.参考链接 http://blog.csdn.net/fmwind/artic ...
- php模板引擎smarty
一. smarty的特点 速度:相对于其他模板引擎,速度较快 编译型:在下次访问模板时直接访问编译文件,不再进行模板重新编译 缓存技术:可以将用户最终看到的HTML文件缓存成一个静态HTML 插件技术 ...
- Java入门第一季——从此投身Java??
找工作告一段落. 最后的工作呢,和java紧密相关,也是阴差阳错,不过都是软件开发,都好了,不过以后侧重点肯定是在java这边,php有机会还是一直学下去的,那么美的说~ Java开发第一季 一.简 ...
- mybatis之批量查询
关于MyBatis批量更新和添加,参考我的如下文章即可:MyBatis的批量更新实例 MyBatis的批量添加实例 另外不管是批量的新增.删除.修改.查询也好,还是单个新增.删除.修改查询也罢.都会用 ...
- JavaScript的函数和作用域闭包
1. 函数 1.1 定义函数 function add(x, y){ return x + y; } 上述函数定义如下: 关键字function指出这是一个函数定义: add是函数的名称: (x, y ...
- 前端常用场景总结CSS/JS/插件(实用篇更新中...)
<div class="box box1"> <span>垂直居中</span> </div> .box1{ display: ta ...
随机推荐
- 浅谈算法和数据结构: 七 二叉查找树 八 平衡查找树之2-3树 九 平衡查找树之红黑树 十 平衡查找树之B树
http://www.cnblogs.com/yangecnu/p/Introduce-Binary-Search-Tree.html 前文介绍了符号表的两种实现,无序链表和有序数组,无序链表在插入的 ...
- 谈EXPORT_SYMBOL使用
EXPORT_SYMBOL只出现在2.6内核中,在2.4内核默认的非static 函数和变量都会自动导入到kernel 空间的, 都不用EXPORT_SYMBOL() 做标记的.2.6就必须用EXPO ...
- 无聊安装的Microsoft SQL Server2016步骤
SQL Server 下载 ed2k://|file|cn_sql_server_2016_enterprise_x64_dvd_8699450.iso|2452795392|D8AFD8D6245F ...
- marquee滚动,无缝连接的代码
页面的自动滚动效果,可由javascript来实现, 但是有一个html标签 - <marquee></marquee>可以实现多种滚动效果,无需js控制. 使用marquee ...
- eclipse 智能提示
eclipse 智能提示 1.显示行号 2.android 的xml提示 文本框的内容为: <=:.abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTU ...
- android 入门 004 (同一个方法,点击实现不同的效果)
同一个方法,点击实现不同的效果 <Button android:id="@+id/btn3" android:layout_width="wrap_content& ...
- Java程序中调用Python脚本的方法
在程序开发中,有时候需要Java程序中调用相关Python脚本,以下内容记录了先关步骤和可能出现问题的解决办法. 1.在Eclipse中新建Maven工程: 2.pom.xml文件中添加如下依赖包之后 ...
- Spring中MultipartHttpServletRequest实现文件上传
Spring中MultipartHttpServletRequest实现文件上传 转贴自:http://my.oschina.net/nyniuch/blog/185266 实现图片上传 用户必须能 ...
- Mac 下Cordova开发
一 Cordova开发环境搭建 1,安装node.js环境 官网: http://nodejs.org/ 下载包安装 2,使用命令行安装 cordova 主要命令: 安装Cordova: sudo ...
- Ubuntu 14.04 中安装 VMware10 Tools工具
Run: apt-get install dkms linux-headers-$(uname -r) build-essential psmisc2 - Run: git clone https:/ ...