springboot升级过程中踩坑定位分析记录 | 京东云技术团队
作者:京东零售 李文龙
1.背景
“ 俗话说:为了修复一个小bug而引入了一个更大bug ”
因所负责的系统使用的spring框架版本5.1.5.RELEASE在线上出过一个偶发的小事故,最后定位为spring-context中的一个bug导致的。
为了修复此bug进行了spring版本的升级,最终定的版本为收银台团队使用的版本5.2.12.RELEASE,对应的springboot版本为2.2.12.RELEASE。
选择这个版本的原因是:
1.有团队经过了长时间的线上验证
2.修复了5.1.5.RELEASE对应的bug
2.升级上线
升级相关版本后在预发环境进行了验证,暂未遇到关于框架的问题。本以为安全升级完成,在上线过程中发现在APP中无法访问,此时还未挂载流量。
日志中分析是某些参数未解析到,后在nginx日志中查到相关请求,使用postman模拟请求可以正常使用。
3.分析验证定位原因
1.临时修复
在代码一致的情况下,唯一的可能就只能是线上与预发配置不同,经对比分析得出是某个过滤器的顺序在线上未配置,按照预发的配置后可正常使用。我们暂且称修改的这两个过滤器为M和A,
其中默认情况下执行顺序为M->A,顺序修改为A->M后正常,其两者作用大致为:
M : 通用过滤器,解析url中的参数至parameterMap中,并初始化读取了body中的inputstream进行了byte数组的缓存,用于解决重复读取流问题 A: 特定处理器,先是查询parameter中的参数,然后逻辑处理后再设置一些特殊参数。
2.为何需要改过滤器顺序
经查未升级前过滤器的顺序与升级后过滤器顺序一致,为何升级spring框架后需要修改配置。此时猜测可能是spring在升级过程中修改了一部分代码,
但未有头绪,只能先调转方向分析为什么postman和浏览器中的swagger可以正常使用
3.分析nginx日志
前端请求与postman请求的nginx日志进行了分析得出了原因,对比日志如下:
postman : POST /shop/bpaas/floor?client&clientVersion&ip=111.202.149.19&gfid=getShopMainFloor&body= 前端 : POST /shop/bpaas/floor HTTP/1.0" 200 634 "-" "api" "0.94" 0.008 0.007 client&clientVersion&ip=111.202.149.17&gfid=getShopMainFloor&body=
经过以上对比发现虽然postman使用了post请求,但数据还是放置在url中,在经过系统的一个内置过滤器M时将url中的参数解析到了parameterMap中,后续过滤器可以使用
request.getParameter获取到,注意此方法是解决问题的关键,此时还未意识到。
4.升级前后框架是否有大的修改
因升级的版本是升级了一个小版本号,所以不好对比升级的buglist,只能慢慢进行分析,后在分析过滤器时发现升级spring后过滤器个数由11个减少到了10个,减少了那一个为:
org.springframework.web.filter.HiddenHttpMethodFilter
此过虑器的作用是在浏览器不支持PUT、DELETE、PATCH等method时,可以在form表单中使用隐藏的_method参数支持这几种method。好像跟参数解析没有任何关系,
继续分析升级版本中 (由2.1.3.RELEASE->2.2.12.RELEASE)是否修改了此过滤器的一些内容,后在2.2.0.M5的release notes中发现HiddenHttpMethodFilter相关的:
“ Disable auto-configuration of HiddenHttpMethodFilter by default ” github上对应的版本release notes: https://github.com/spring-projects/spring-boot/releases/tag/v2.2.0.M5
也就是说升级后HiddenHttpMethodFilter默认配置由enable修改为了disable,如果再修改回去是不是可以修复参数解析的问题呢?
5.添加过滤器enable配置
因bug修复列表中有对应的issues,所以找到了此过滤器对应的配置:
-Dspring.mvc.hiddenmethod.filter.enabled=true
添加后可以正常使用,证明是此过滤器中在某种条件下不可缺少。
6.未升级spring版本时disable验证
在确认未升级版本的spring支持此参数的情况下,添加了以上参数,将默认的启动修改成了禁用,经验证:在不代码修改的情况下,无此过滤器时参数无法解析。证明了上步的猜测。
7.深入源码分析
此时需要分析HiddenHttpMethodFilter过滤器中是否有特殊操作,源码如下:
protected void doFilterInternal(HttpServletRequest request, HttpServletResponse response, FilterChain filterChain)
throws ServletException, IOException {
HttpServletRequest requestToUse = request;
if ("POST".equals(request.getMethod()) && request.getAttribute(WebUtils.ERROR_EXCEPTION_ATTRIBUTE) == null) {
String paramValue = request.getParameter(this.methodParam);
if (StringUtils.hasLength(paramValue)) {
String method = paramValue.toUpperCase(Locale.ENGLISH);
if (ALLOWED_METHODS.contains(method)) {
requestToUse = new HttpMethodRequestWrapper(request, method);
}
}
}
filterChain.doFilter(requestToUse, response);
}
分析以上源码可以发现,有且只有一种可能,就是request.getParameter可能是解决问题的是关键。
8.大胆猜测
分析后源码猜测,第一步中的修改顺序有可能是A中有调用getParameter,所以顺序调整为A->M后,相当于间接使用了HiddenHttpMethodFilter。
9.开始验证
在不使用HiddenHttpMethodFilter的情况下,如果在过滤器原有顺序不修改的情况下,只要在M执行前调用了request.getParameter,理论上可以正常为使用。所以在debug情况下
利用工具在M过滤器调用前先行执行request.getParameter,发现的确可以正常使用。
10.分析过滤器
先前简述了M的功能,主要是包装了request,后读源码时发现,如果是post请求,读取body体中的数据后并未解析body中的参数至parameterMap中,而代码中的其它过滤器都是
通过request.getParameter获取的数据,重写后的代码:
public String getParameter(String name) {
if ( this.parameterMap.containsKey(name) )
return this.parameterMap.get(name);
else {
return super.getParameter(name);
}
}
在经过request包装后,先是从paremeterMap中获取数据,此时map肯定是没有数据,只能从父类获取,而父类获取时会解析parameter,解析时使用到了inputStream,但M过滤器
的在初始化时解析了输入流,此时tomcat内部使用内部的request获取stream时将获取到空数据,即无法从parameter中获取到body体中的数据。
而如果在调用M前调用了request.getParameter,tomcat内部将提前于M解析parameter,可以保证后续可获取到相关参数。
4. 修复方案
既然得出了结论,那么升级spring版本后修复此bug可选择的方案就比较多了,主要有:
启用HiddenHttpMethodFilter,添加对应的参数,保证升级前后过滤器个数与顺序一致
调整理过滤器A与M的顺序,保证M在A之前执行即可。
修改过滤器M内部的逻辑,不在初始化的时候解析body,或是在解析body后将参数重新放置到parameterMap中。
此文是笔者按照分析流程进行简单验证,分析验证过程中难免有遗漏之处,如有错误遗漏还烦请各位指出共同进步。
springboot升级过程中踩坑定位分析记录 | 京东云技术团队的更多相关文章
- SpringBoot1.x升级SpringBoot2.x踩坑之文件上传大小限制
SpringBoot1.x升级SpringBoot2.x踩坑之文件上传大小限制 前言 LZ最近升级SpringBoo框架到2.1.6,踩了一些坑,这里介绍的是文件上传大小限制. 升级前 #文件上传配置 ...
- Torch-RNN运行过程中的坑 [2](Lua的string sub函数,读取中文失败,乱码?)
0.踩坑背景 仍然是torch-rnn/LanguageModel.lua文件中的一些问题,仍然是这个狗血的LM:encode_string函数: function LM:encode_string( ...
- Torch-RNN运行过程中的坑 [1](读取Lua非空table,size为0)
0.踩坑背景 执行Torch-RNN的时候,在LanguageModel.lua中的encode_string函数中,对start_text的各个character进行id映射编码,实现功能类似“北京 ...
- Torch-RNN运行过程中的坑 [0](一些基础概念)
0.Lua & LuaJIT简介 Lua 是一种轻量小巧的脚本语言,用标准C语言编写并以源代码形式开放, 其设计目的是为了嵌入应用程序中,从而为应用程序提供灵活的扩展和定制功能. Lua 是巴 ...
- WDCP从php5.2升级到5.3的办法,以及升级过程中iconv错误的处理
从wdcp官方论坛我们可以找到一个询问升级的帖子,然后管理员在回复中也提供了升级方法: cd /tmp wget -c http://dl.wdlinux.cn:5180/soft/php-5.3.1 ...
- 使用ffmpeg视频编码过程中踩的一个坑
今天说说使用ffmpeg在写视频编码程序中踩的一个坑,这个坑让我花了好多时间,回头想想,非常多时候一旦思维定势真的挺难突破的.以下是不对的编码结果: ...
- 通过PAML中的CODEML模块计算dnds的过程以及踩坑
最近帮女朋友做毕业设计的时候用到了 PAML这个软件的codeml功能,发现网上相关的资料很少,于是把自己踩的一些坑分享一下,希望能帮到其他有相同困难的人 一.下载与安装 PAML软件下载地址 htt ...
- spring-data-redis 使用过程中踩过的坑
spring-data-redis简介 Spring-data-redis是spring大家族的一部分,提供了在srping应用中通过简单的配置访问redis服务,对reids底层开发包(Jedis, ...
- jenkins配置过程中踩过的一些坑
1,编译通过之后,想要将编译好的war包放到远程服务器上,并解压 unzipBus.sh的脚本如下: #!/bin/bash jar -xvf bus.war 编译后报错:jar:Command no ...
- 细数阿里云在使用 Docker 过程中踩过的那些坑
昨天下午道哥在微信上丢给我一条新闻,看看,我们阿里云支持 Docker 企业版了.我打开一看,果然,阿里云发布了飞天敏捷版,开始支持企业级的 Docker 容器. 美国中部时间4月19日,阿里云在容器 ...
随机推荐
- leedcode 刷题-V2
leetcode 字符串类 数组类 链表类 树类 二叉树类 图类 数学类 数据结构类 1. 稀疏相似度 (倒排索引) (https://leetcode-cn.com/problems/sparse- ...
- SpringBoot的几大重要问题
1: traceID调用链 2:异步调用注解问题 import org.springframework.scheduling.annotation.Async;import org.springfra ...
- POI设置单元格下拉框
一.导出 Excel 单元格设置下拉框 日常开发中,导出基础数据为模版,填充信息后导入时,有时候会要求某些导入项应该为下拉框选择,一个是为了规范数据,也可以简化填充. 1.1 单元格下拉框选项总字符较 ...
- webpack之webpack和vite的区别
打包原理 缺点 其他特点 webpack 解析各个模块的依赖关系 使用loader转换文件,使用plugin注入钩子,打包合并模块,最终生成bundle文件,使用express开启本地服务器, 浏 ...
- Less8-Less10 时间注入
Less-8和Less-5使用的是一样的布尔盲注,为了学习,这里我们使用时间盲注 Less-8 这里使用到了mysql中的if语句,格式为if(条件,正确执行,错误执行) 实例如图: sleep(秒速 ...
- 后疫情时代,RTE“沉浸式”体验还能这么玩?丨RTE 2022 编程挑战赛赛后专访
前言 9 月 17 日,由声网.环信与 RTE 开发者社区联合主办的"RTE 2022 编程挑战赛"圆满落幕.从 300+ 支参赛队伍中冲出重围的 27 支决赛队伍,在元宇宙中用精 ...
- CF1167G题解
CF1167G题解 传送门 简化题意:数轴上有 n 个不相交且处于坐标为非负整数的单位正方形,给 m 个询问点,求出把这个点右侧的数轴逆时针旋转至与左侧相交时的角度. 首先,碰撞时只能有以下两种情况: ...
- CAS乐观锁(原子操作)
更多内容,前往 IT-BLOG 锁主要分为两种:乐观锁和悲观锁,而 synchronized 就属于一种悲观锁,每次在操作数据前都会加锁.乐观锁是指:乐观的认为自己在操作数据时,别人不会对当前数据进行 ...
- 雪花算法 SnowFlake 内部结构【分布式ID生成策略】
更多内容,前往IT-BLOG 一.前言 如何在分布式集群中生产全局唯一的 ID?[方案一]UUID:UUID是通用唯一识别码 (Universally Unique Identifier),在其他 ...
- STM32 HAL库学习(F407ZGT6) (1)-晶振/时钟树
时钟树(以F407为例) 对于 STM32F4 系列的芯片,正常工作的主频可以达到 168Mhz,但并不是所有外设都需要系统时钟这么高的频率,比如看门狗以及RTC只需要几十Khz的时钟即可.同一个 ...