php中foreach源码分析(编译原理)

一、总结

编译原理(lex and yacc)的知识

二、php中foreach源码分析

foreach是PHP中很常用的一个用作数组循环的控制语句。
因为它的方便和易用,自然也就在后端隐藏着很复杂的具体实现方式(对用户透明)
今天,我们就来一起分析分析,foreach是如何实现数组(对象)的遍历的。
本节内容涉及到较多编译原理(lex and yacc)的知识,所以如果您觉得看不太懂,可以先找相关的资料看看。

我们知道PHP是一个脚本语言,也就是说,用户编写的PHP代码最终都是会被PHP解释器解释执行,
特别的,对于PHP来说,所有的用户编写的PHP代码,都会被翻译成PHP的虚拟机ZE的虚拟指令(OPCODES)来执行(参看:深入理解PHP原理之Opcodes).

不论细节的话,就是说,我们所编写的任何PHP脚本,都会最终被翻译成一条条的指令,从而根据指令,由相应的C编写的函数来执行。

那么foreach会被翻译成什么样子呢?

  1. foreach($arr as $key => $val){
  2. echo $key . '=>' . $val . "\n";
  3. }

在词法分析阶段,foreach会被识别为一个TOKEN:T_FOREACH,
在语法分析阶段,会被规则:

  1. unticked_statement: //没有被绑定ticks的语句
  2. //有省略
  3. | T_FOREACH '(' variable T_AS
  4. { zend_do_foreach_begin(&$1, &$2, &$3, &$4, 1 TSRMLS_CC); }
  5. foreach_variable foreach_optional_arg ')' { zend_do_foreach_cont(&$1, &$2, &$4, &$6, &$7 TSRMLS_CC); }
  6. foreach_statement { zend_do_foreach_end(&$1, &$4 TSRMLS_CC); }
  7. | T_FOREACH '(' expr_without_variable T_AS
  8. { zend_do_foreach_begin(&$1, &$2, &$3, &$4, 0 TSRMLS_CC); }
  9. variable foreach_optional_arg ')' { zend_check_writable_variable(&$6); zend_do_foreach_cont(&$1, &$2, &$4, &$6, &$7 TSRMLS_CC); }
  10. foreach_statement { zend_do_foreach_end(&$1, &$4 TSRMLS_CC); }
  11. //有省略
  12. ;

仔细分析这段语法规则,我们可以发现,对于:
foreach($arr as $key => $val){
echo $key . ‘=>’ . $val .”\n”;
}

会被分析为:

  1. T_FOREACH '(' variable T_AS { zend_do_foreach_begin('foreach', '(', $arr, 'as', 1 TSRMLS_CC); }
  2. foreach_variable foreach_optional_arg(T_DOUBLE_ARROW foreach_variable) ')' { zend_do_foreach_cont('foreach', '(', 'as', $key, $val TSRMLS_CC); }
  3. foreach_satement {zend_do_foreach_end('foreach', 'as');}

然后,让我们来看看foreach_statement:
它其实就是一个代码块,体现了我们的 echo $key . ‘=>’ . $val .”\n”;
T_ECHO expr;

显然,实现foreach的核心就是如下3个函数:
zend_do_foreach_begin
zend_do_foreach_cont
zend_do_foreach_end

其中,zend_do_foreach_begin (代码太长,直接写伪码) 主要做了:
1. 记录当前的opline行数(为以后跳转而记录)
2. 对数组进行RESET(讲内部指针指向第一个元素)
3. 获取临时变量 ($val)
4. 设置获取变量的OPCODE FE_FETCH,结果存第3步的临时变量
4. 记录获取变量的OPCODES的行数

而对于 zend_do_foreach_cont来说:
1. 根据foreach_variable的u.EA.type来判断是否引用
2. 根据是否引用来调整zend_do_foreach_begin中生成的FE_FETCH方式
3. 根据zend_do_foreach_begin中记录的取变量的OPCODES的行数,来初始化循环(主要处理在循环内部的循环:do_begin_loop)

最后zend_do_foreach_end:
1. 根据zend_do_foreach_begin中记录的行数信息,设置ZEND_JMP OPCODES
2. 根据当前行数,设置循环体下一条opline, 用以跳出循环
3. 结束循环(处理循环内循环:do_end_loop)
4. 清理临时变量

当然, 在zend_do_foreach_cont 和 zend_do_foreach_end之间 会在语法分析阶段被填充foreach_satement的语句代码。

这样,就实现了foreach的OPCODES line。
比如对于我们开头的实例代码,最终生成的OPCODES是:

  1. filename: /home/huixinchen/foreach.php
  2. function name: (null)
  3. number of ops: 17
  4. compiled vars: !0 = $arr, !1 = $key, !2 = $val
  5. line # op fetch ext return operands
  6. -------------------------------------------------------------------------------
  7. 2 0 SEND_VAL 1
  8. 1 SEND_VAL 100
  9. 2 DO_FCALL 2 'range'
  10. 3 ASSIGN !0, $0
  11. 3 4 FE_RESET $2 !0, ->14
  12. 5 FE_FETCH $3 $2, ->14
  13. 6 ZEND_OP_DATA ~5
  14. 7 ASSIGN !2, $3
  15. 8 ASSIGN !1, ~5
  16. 4 9 CONCAT ~7 !1, '-'
  17. 10 CONCAT ~8 ~7, !2
  18. 11 CONCAT ~9 ~8, '%0A'
  19. 12 ECHO ~9
  20. 5 13 JMP ->5
  21. 14 SWITCH_FREE $2
  22. 7 15 RETURN 1
  23. 16* ZEND_HANDLE_EXCEPTION

我们注意到FE_FETCH的op2的操作数是14,也就是JMP后一条opline,也就是说,在获取完最后一个数组元素以后,FE_FETCH失败的情况下,会跳到第14行opline,从而实现了循环的结束。
而15行opline的op1的操作数是指向了FE_FETCH,也就是无条件跳转到第5行opline,从而实现了循环。

附录:

  1. void zend_do_foreach_begin(znode *foreach_token, znode *open_brackets_token, znode *array, znode *as_token, int variable TSRMLS_DC)
  2. {
  3. zend_op *opline;
  4. zend_bool is_variable;
  5. zend_bool push_container = 0;
  6. zend_op dummy_opline;
  7. if (variable) {
  8. //是否是匿名数组
  9. if (zend_is_function_or_method_call(array)) {
  10. //是否是函数返回值
  11. is_variable = 0;
  12. } else {
  13. is_variable = 1;
  14. }
  15. /* 使用括号记录FE_RESET的opline行数 */
  16. open_brackets_token->u.opline_num = get_next_op_number(CG(active_op_array));
  17. zend_do_end_variable_parse(BP_VAR_W, 0 TSRMLS_CC); //获取数组/对象和zend_do_begin_variable_parse对应
  18. if (CG(active_op_array)->last > 0 &&
  19. CG(active_op_array)->opcodes[CG(active_op_array)->last-1].opcode == ZEND_FETCH_OBJ_W) {
  20. /* Only lock the container if we are fetching from a real container and not $this */
  21. if (CG(active_op_array)->opcodes[CG(active_op_array)->last-1].op1.op_type == IS_VAR) {
  22. CG(active_op_array)->opcodes[CG(active_op_array)->last-1].extended_value |= ZEND_FETCH_ADD_LOCK;
  23. push_container = 1;
  24. }
  25. }
  26. } else {
  27. is_variable = 0;
  28. open_brackets_token->u.opline_num = get_next_op_number(CG(active_op_array));
  29. }
  30. foreach_token->u.opline_num = get_next_op_number(CG(active_op_array)); //记录数组Reset Opline number
  31. opline = get_next_op(CG(active_op_array) TSRMLS_CC); //生成Reset数组Opcode
  32. opline->opcode = ZEND_FE_RESET;
  33. opline->result.op_type = IS_VAR;
  34. opline->result.u.var = get_temporary_variable(CG(active_op_array));
  35. opline->op1 = *array;
  36. SET_UNUSED(opline->op2);
  37. opline->extended_value = is_variable ? ZEND_FE_RESET_VARIABLE : 0;
  38. dummy_opline.result = opline->result;
  39. if (push_container) {
  40. dummy_opline.op1 = CG(active_op_array)->opcodes[CG(active_op_array)->last-2].op1;
  41. } else {
  42. znode tmp;
  43. tmp.op_type = IS_UNUSED;
  44. dummy_opline.op1 = tmp;
  45. }
  46. zend_stack_push(&CG(foreach_copy_stack), (void *) &dummy_opline, sizeof(zend_op));
  47. as_token->u.opline_num = get_next_op_number(CG(active_op_array)); //记录循环起始点
  48. opline = get_next_op(CG(active_op_array) TSRMLS_CC);
  49. opline->opcode = ZEND_FE_FETCH;
  50. opline->result.op_type = IS_VAR;
  51. opline->result.u.var = get_temporary_variable(CG(active_op_array));
  52. opline->op1 = dummy_opline.result; //被操作数组
  53. opline->extended_value = 0;
  54. SET_UNUSED(opline->op2);
  55. opline = get_next_op(CG(active_op_array) TSRMLS_CC);
  56. opline->opcode = ZEND_OP_DATA; //当使用key的时候附属操作数,当foreach中不包含key时忽略
  57. SET_UNUSED(opline->op1);
  58. SET_UNUSED(opline->op2);
  59. SET_UNUSED(opline->result);
  60. }
  1. void zend_do_foreach_cont(znode *foreach_token, const znode *open_brackets_token, const znode *as_token, znode *value, znode *key TSRMLS_DC)
  2. {
  3. zend_op *opline;
  4. znode dummy, value_node;
  5. zend_bool assign_by_ref=0;
  6. opline = &CG(active_op_array)->opcodes[as_token->u.opline_num]; //获取FE_FETCH Opline
  7. if (key->op_type != IS_UNUSED) {
  8. znode *tmp;//交换key和val
  9. tmp = key;
  10. key = value;
  11. value = tmp;
  12. opline->extended_value |= ZEND_FE_FETCH_WITH_KEY; //表明需要同时获取key和val
  13. }
  14. if ((key->op_type != IS_UNUSED) && (key->u.EA.type & ZEND_PARSED_REFERENCE_VARIABLE)) {
  15. //key不能以引用方式获取
  16. zend_error(E_COMPILE_ERROR, "Key element cannot be a reference");
  17. }
  18. if (value->u.EA.type & ZEND_PARSED_REFERENCE_VARIABLE) {
  19. //以引用方式获取值
  20. assign_by_ref = 1;
  21. if (!(opline-1)->extended_value) {
  22. //根据FE_FETCH的上一条Opline也就是获取数组的扩展值来判断数组是否是匿名数组
  23. zend_error(E_COMPILE_ERROR, "Cannot create references to elements of a temporary array expression");
  24. }
  25. opline->extended_value |= ZEND_FE_FETCH_BYREF; //指明按引用取
  26. CG(active_op_array)->opcodes[foreach_token->u.opline_num].extended_value |= ZEND_FE_RESET_REFERENCE; //重置原数组
  27. } else {
  28. zend_op *foreach_copy;
  29. zend_op *fetch = &CG(active_op_array)->opcodes[foreach_token->u.opline_num];
  30. zend_op *end = &CG(active_op_array)->opcodes[open_brackets_token->u.opline_num];
  31. /* Change "write context" into "read context" */
  32. fetch->extended_value = 0; /* reset ZEND_FE_RESET_VARIABLE */
  33. while (fetch != end) {
  34. --fetch;
  35. if (fetch->opcode == ZEND_FETCH_DIM_W && fetch->op2.op_type == IS_UNUSED) {
  36. zend_error(E_COMPILE_ERROR, "Cannot use [] for reading");
  37. }
  38. fetch->opcode -= 3; /* FETCH_W -> FETCH_R */
  39. }
  40. /* prevent double SWITCH_FREE */
  41. zend_stack_top(&CG(foreach_copy_stack), (void **) &foreach_copy);
  42. foreach_copy->op1.op_type = IS_UNUSED;
  43. }
  44. value_node = opline->result;
  45. if (assign_by_ref) {
  46. zend_do_end_variable_parse(value, BP_VAR_W, 0 TSRMLS_CC); //获取值(引用)
  47. zend_do_assign_ref(NULL, value, &value_node TSRMLS_CC);//指明value node的type是IS_VAR
  48. } else {
  49. zend_do_assign(&dummy, value, &value_node TSRMLS_CC); //获取copy值
  50. zend_do_free(&dummy TSRMLS_CC);
  51. }
  52. if (key->op_type != IS_UNUSED) {
  53. znode key_node;
  54. opline = &CG(active_op_array)->opcodes[as_token->u.opline_num+1];
  55. opline->result.op_type = IS_TMP_VAR;
  56. opline->result.u.EA.type = 0;
  57. opline->result.u.opline_num = get_temporary_variable(CG(active_op_array));
  58. key_node = opline->result;
  59. zend_do_assign(&dummy, key, &key_node TSRMLS_CC);
  60. zend_do_free(&dummy TSRMLS_CC);
  61. }
  62. do_begin_loop(TSRMLS_C);
  63. INC_BPC(CG(active_op_array));
  64. }
    1. void zend_do_foreach_end(znode *foreach_token, znode *as_token TSRMLS_DC)
    2. {
    3. zend_op *container_ptr;
    4. zend_op *opline = get_next_op(CG(active_op_array) TSRMLS_CC); //生成JMP opcode
    5. opline->opcode = ZEND_JMP;
    6. opline->op1.u.opline_num = as_token->u.opline_num; //设置JMP到FE_FETCH opline行
    7. SET_UNUSED(opline->op1);
    8. SET_UNUSED(opline->op2);
    9. CG(active_op_array)->opcodes[foreach_token->u.opline_num].op2.u.opline_num = get_next_op_number(CG(active_op_array)); //设置跳出循环的opline行
    10. CG(active_op_array)->opcodes[as_token->u.opline_num].op2.u.opline_num = get_next_op_number(CG(active_op_array)); //同上
    11. do_end_loop(as_token->u.opline_num, 1 TSRMLS_CC); //为循环嵌套而设置
    12. zend_stack_top(&CG(foreach_copy_stack), (void **) &container_ptr);
    13. generate_free_foreach_copy(container_ptr TSRMLS_CC);
    14. zend_stack_del_top(&CG(foreach_copy_stack));
    15. DEC_BPC(CG(active_op_array)); //为PHP interactive模式而设置
    16. }

php中foreach源码分析(编译原理)的更多相关文章

  1. Tomcat源码分析——请求原理分析(中)

    前言 在<TOMCAT源码分析——请求原理分析(上)>一文中已经介绍了关于Tomcat7.0处理请求前作的初始化和准备工作,请读者在阅读本文前确保掌握<TOMCAT源码分析——请求原 ...

  2. 鸿蒙内核源码分析(编译脚本篇) | 如何防编译环境中的牛皮癣 | 百篇博客分析OpenHarmony源码 | v58.01

    百篇博客系列篇.本篇为: v58.xx 鸿蒙内核源码分析(环境脚本篇) | 编译鸿蒙原来如此简单 | 51.c.h.o 本篇用两个脚本完成鸿蒙(L1)的编译环境安装/源码下载/编译过程,让编译,调试鸿 ...

  3. 【原】Spark中Master源码分析(二)

    继续上一篇的内容.上一篇的内容为: Spark中Master源码分析(一) http://www.cnblogs.com/yourarebest/p/5312965.html 4.receive方法, ...

  4. 【原】 Spark中Worker源码分析(二)

    继续前一篇的内容.前一篇内容为: Spark中Worker源码分析(一)http://www.cnblogs.com/yourarebest/p/5300202.html 4.receive方法, r ...

  5. MyBatis 源码分析 - 缓存原理

    1.简介 在 Web 应用中,缓存是必不可少的组件.通常我们都会用 Redis 或 memcached 等缓存中间件,拦截大量奔向数据库的请求,减轻数据库压力.作为一个重要的组件,MyBatis 自然 ...

  6. Spring Boot 揭秘与实战 源码分析 - 工作原理剖析

    文章目录 1. EnableAutoConfiguration 帮助我们做了什么 2. 配置参数类 – FreeMarkerProperties 3. 自动配置类 – FreeMarkerAutoCo ...

  7. Tomcat源码分析——请求原理分析(下)

    前言 本文继续讲解TOMCAT的请求原理分析,建议朋友们阅读本文时首先阅读过<TOMCAT源码分析——请求原理分析(上)>和<TOMCAT源码分析——请求原理分析(中)>.在& ...

  8. Tomcat源码分析——请求原理分析(上)

    前言 谈起Tomcat的诞生,最早可以追溯到1995年.近20年来,Tomcat始终是使用最广泛的Web服务器,由于其使用Java语言开发,所以广为Java程序员所熟悉.很多人早期的J2EE项目,由程 ...

  9. wifidog源码分析 - wifidog原理 tiger

    转:http://www.cnblogs.com/tolimit/p/4223644.html wifidog源码分析 - wifidog原理 wifidog是一个用于配合认证服务器实现无线网页认证功 ...

随机推荐

  1. 利用日志使管理Linux更轻松

    利用日志使管理Linux更轻松 操作系统的日志主要具有审计与监测的功能,通过对日志信息的分析,可以检查错误发生的原因,监测追踪入侵者及受到攻击时留下的痕迹,甚至还能实时的进行系统状态的监控.有效利用日 ...

  2. F的ACM暑期集训计划

    暑假的知识计划(补充中...) 1.数论相关 (7days) 待完成 多项式同余方程/高次同余方程/欧拉函数/克莱姆法则/高斯消元/莫比乌斯反演/伪素数判定/baby-step-gaint-step ...

  3. jquery追加元素,移除DOM,jqueryDOM操作

    1.append() 方法在被选元素的结尾插入内容. 2.prepend() 方法在被选元素的开头插入内容. 3.after() 方法在被选元素之后插入内容. 4.before() 方法在被选元素之前 ...

  4. Node.js笔记 http fs

    const http=require('http'); const fs=require('fs'); var server = http.createServer(function(req, res ...

  5. Appium_Java_API

    1. driver.findElement(MobileBy.AndroidUIAutomator("邀请")).click();2. driver.findElementById ...

  6. Loadrunner--运行场景报Socket descriptor not found错误

    今天早上在使用LoadRunner时,报了如下的错误,开始并未看错误以为是录制问题引起,就重新录制了一遍,简单施压看看错误是否还有,结果错误仍然有,如下所示: Error: Socket descri ...

  7. C语言深度剖析-----多维数组和多维指针

    多维数组和多维指针 指向指针的指针 指针变量同样也有传址调用和传值调用 case1:估算要5个字节的空间,实际只用前面3个字节,设计释放空的2字节 case2:扩充到10字节 二维数组与二维指针 二维 ...

  8. 【BZOJ 3998】弦论

    [链接]h在这里写链接 [题意]     给你一个长度为n的子串;     让你求出第k小的子串是什么;     输出答案的类型分两种;     第一种,重复的算两次,第二种,重复的算一次.     ...

  9. Diskpart工具应用两则:MBR/GPT分区转换 &amp; 基本/动态磁盘转换

    将基本磁盘转换为动态磁盘可直接在操作系统的磁盘管理中完毕,如图1所看到的,这一转换过程对硬盘上的数据没有影响,可是可能会影响到系统的启动(盗版系统激活会受影响). 图1:基本磁盘转换为动态磁盘 要注意 ...

  10. js课程 2-8 js内置对象有哪些

    js课程 2-8 js内置对象有哪些 一.总结 一句话总结:JS中内置了17个对象,常用的是Array对象.Date对象.正则表达式对象.string对象.Global对象. 1.js常用对象有哪些? ...