安卓端出现https请求失败的一次问题排查
背景
某天早上,正在一个会议时,突然好几个同事被叫出去了;后面才知道,是有业务同事反馈到领导那里,我们app里面某个功能异常。
具体是这样,我们安卓版本的app是禁止截屏的(应该是app里做了拦截),但部分页面,支持配置成可以截屏。这个配置是通过后端接口获取的,意思就是,如果调用这个接口失败,就整个app默认不能截屏;如果调用成功,就可以在配置的指定页面截屏。
业务反馈就是说,之前可以截屏的几个页面,现在突然不能截屏了,不知道是不是我们搞了啥变更;后面产品去业务那深入了解了下,发现:连接公司wifi后就不能截屏,用4g/5g是可以的。
排查过程
前期排查
安卓开发首先介入,具体方式就是,因为可以复现,找了个安卓设备,连接电脑就可以debug app(没搞过安卓,具体不清楚),后面说是获取截屏配置的接口(https)报错了:
ret:
java.security.cert.CertPathValidatorException: Trust anchor for certification path not found
丢出这个后,就没有进一步的动作了,认为不是安卓端的问题,因为用5g就可以,只是wifi不行。然后问题就卡在那了。有人又丢出之前的一个变更通知,那次变更是这样,之前我们https证书卸载都是在业务服务器的nginx做的,这样的话,每个业务都会有自己的nginx,每个nginx都要负责https加解密,后来就提出来,要把这个https加解密前置,后面就前置到了负载均衡设备(比如典型的硬件负载均衡设备:F5)。
有人就说是不是动了这个导致的,虽然这个极有可能,但是,没有人去查,去确认。
后端开始介入
因为安卓侧认为自己没问题,产品后面来找我,我才开始介入这个问题。
下午先了解了下整个事情,比较重要的事情是,拿到了复现问题的手机,然后试着连接电脑charles进行抓包,才想起来安卓目前抓包非常困难,在电脑端用charles、fiddler这类代理是没有用的;那就只能找安卓开发看这个,我本来预期的是,在他那里,通过debug,要知道这个错误到底是什么导致的,比如是https的哪个阶段,是不是https证书的哪个字段有啥问题,结果,最终和我说的是,这个是底层okhttp的,没法debug到那一层;我其实是对这块持怀疑态度,肯定是有办法的,但可能他不会,从没深入过https这层,所以就说他没办法继续定位到更多信息了。
他么当时火也大,但问题还是得解决(后面我看到货拉拉那个文章里,其实是可以debug那部分代码,不过确实是不在android.jar源码里,在单独的模块中)。
安卓端没法看,电脑端没法用简单的方式抓包,我了解到的一些抓包的办法都是很复杂,不搞安卓开发的话,光是搭环境都要搭半天那种;要么就是在手机上装抓包软件,但有些需要root,且能不能抓https这层检查证书,我也持怀疑态度,我个人又是垃圾iphone,对安卓确实不熟悉。
唯一的办法,就只有:wifi路由器上抓包,或者是找到目前负责https加解密的负载均衡设备的同事,来进行抓包。
搜索引擎查找可能原因
证书锁定
拿那个错误,查了下原因,查到一篇货拉拉的文章,感觉比较靠谱。
https://mp.weixin.qq.com/s/Je1Kf0UX9pkwedaL7pTe3A 货拉拉SSL证书踩坑之旅
里面提到,app内部可能内置了服务端的证书,而app在访问https后端建立https连接的过程中,服务端会把自己的证书(一般配置在nginx,我们这边就是负载均衡设备,F5)返回给app,app检查到返回的证书如果和本地内置的不一致,就可能报那个错;
java.security.cert.CertPathValidatorException: Trust anchor for certification path not found
这个专业术语叫做:证书锁定. (https://zhuanlan.zhihu.com/p/58204817)
这种就是可以防止中间人攻击的,如fiddler、charles这类基于代理的,基本就属于中间人攻击,因为charles他们会把自己的证书给我们,我们内置了证书的话,就会发现charles证书和内置证书不一致,就可以主动终止连接。
好些安卓的专业抓包方案,就是基于hook,把证书校验的那些代码都给hook掉,这类方案对于非安卓开发人员还是困难了一点,要一整套工具链,以后换个遥遥领先的话,可以好好折腾下。
另外,如果真用了证书锁定,那么根据货拉拉文章内容,新证书可能少了某个字段,导致这个问题:
检测网站
可以输入自己的网址,检查下,不一定准,我们的问题当时就没查出来。
检查安卓端配置
可能有如下这个配置文件,看看里面的内容,这里面也涉及一些trust-anchor的内容:
负载均衡设备抓包
排除后端嫌疑
次日,我直接找了app端的leader,结果leader反馈说,app没搞证书锁定那些高级玩意,其他配置也检查了,好像没啥问题,所以无疾而终。
然后去找了负载均衡设备的同事,同事还是非常支持,所以,那天下午,我们就在一块,在负载均衡设备上,抓了一下午的包。
他首先怀疑的是,后端服务返回的内容是不是有问题,因为,用他手机尝试时,一会可以截屏,一会不可以,就是没能稳定复现。
于是就抓取负载设备和后端nginx之前的报文,这块我们面临一个问题,负载上流量很大,怎么区分出他手机的流量呢?尤其是现在好多手机都是优先用Ipv6,而目前在百度这种查ip,基本只显示了ipv4
那天我看同事用的ip138.com,我今天又搜了一个:https://ipw.cn/
都还不错。
所以我们就抓负载和nginx之间的包,包里会有字段带了我们的手机的出口ip:
就用这个字段筛选出我们的流量后,检查发现,后端返回的内容没啥问题。
后面和那个能稳定复现的安卓设备比较,发现是同事手机的app版本低了,艹,升到最新版,就能稳定复现了。
各种场景对比
后面就开始对比,从公网过来,和从wifi过来的包;再就是,安卓设备端公网出口ip为ipv4和ipv6的,这么一组合,就有4种组合。
后面发现,公网过来的,不管是ipv4还是ipv6,都没问题;从wifi过来的,我们这边测试,好像都是有问题的,但我们也抓包发现了其他人的请求,看着好像是从wifi来的,又没问题的。
这期间其实探索了很多可能性,比如也检查了waf设备(waf设备比负载均衡设备还要靠前,且waf工作在7层,也会涉及https的加解密,我是有怀疑过waf,但当时看了waf的日志啥的,没发现异常)
另外,这期间,我也在自己的云服务器上,尝试了如下方式:
openssl s_client -debug -connect xxx.com.cn:443
tcpdump -i any host xxx.com.cn and tcp port 443 -w 443.pcap
和负载均衡端侧的抓包进行交叉对比。
对比的场景太多,都记不清了,但最终确定的是,wifi网络下,出口ip是ipv4还是ipv6来着的时候,就有问题。
其实我一开始就是怀疑证书那块可能有问题,但是,也不能在没找到确切原因的时候,贸然对证书进行操作,所以就和负载均衡设备的同事搞了一下午。
虽然当时没确定出根因,但收获包括:
流量情况下,访问xxx.com.cn:443是直接到xxx.com.cn:443的防火墙设备;
wifi下,访问xxx.com.cn:443也是绕到了公司的互联网出口,再去访问xxx.com.cn:443的防火墙设备;
但是,可以肯定的是,这两种情况下,xxx.com.cn:443的防火墙那边,肯定是配置了不同的路由策略,两者的网络路径应该是不一样的,这块就还得找具体负责防火墙的同事来一起看。
本机模拟发现新端倪
我们不是在负载均衡和nginx那层抓了包吗,那层是明文的,我们就照着那个明文,录入到本机的postman里,调用,发现是成功的。
后来,我想是不是postman没校验证书,所以才成功的,然后找了找,发现确实有这么个选项:
默认是false,不校验,我打卡后,再一请求,果然报错了,不过报的是服务端返回的证书缺少了中间证书。
所谓的中间证书,可以这么理解,目前世界上,有一批权威机构(ROOT CA),他们负责给大家颁发https证书,颁发的证书会给到我们,然后我们就放到服务器上。
浏览器、手机等客户端访问我们时,我们就把证书返回给浏览器等,此时,他们怎么知道我们的证书是真的假的呢,就是靠证书里的颁发者字段,他们找到颁发者,再和自己浏览器内置的或者操作系统中内置的ROOT CA白名单做一个匹配,如果在本机内置的ROOT CA白名单中,就可以认为证书确实是这些权威机构颁发的,值得信赖。(当然,这只是其中的一个检查项,不是全部,比如还要检查证书是否在有效期内,是否已经被吊销了)
但是哈,一般我们的证书,不会是这些ROOT CA直接颁发的,而是ROOT CA下属的某个中间证书颁发的,以下面百度的为例:
此时,百度服务端就必须返回baidu.com这个证书,但是它是由中间证书签发的,而一般操作系统或者浏览器没内置中间证书那些机构,所以,服务端一般要把baidu.com以及中间证书机构的证书,一并返回,这样,才能一层层找到中间证书的签发者,然后发现签发者是root ca的话,就和本机的白名单做对比。
另外,我也在本机对了对照组,postman在两种网络下发请求:
- 本机pc在公司wifi下,此时,走的是公司wifi
- 本机pc连接手机的热点,此时,走的是流量网络
对比了下,发现真的有问题:
在这两种情况下,客户端首先发请求(client hello)和服务端协商后续用哪个版本的tls协议。客户端发出去的请求我对比了,除了随机数部分,基本一致,但是,服务端最终协商出来的结果却不一样,一个是tls v1.2 ,一个是tls v.1.3
从这里也验证了,这个xxx.com.cn:443的接入这块(一般接入那里应该是路由器,但一般好像也具有防火墙的功能),会根据客户端的网络来源于wifi和流量,走了不同的路线。
这块也得具体咨询接入这块的同事了。
补齐证书链解决问题
结果我们后续还没来得及去找接入的同事,负责负载均衡设备的同事跟我说,他把证书链补充完整了,让我再试试。
所谓证书链补齐了的意思是,他之前就是负责将nginx层的证书挪到了负载均衡设备,在他完成这次变更后,https建立连接时,每次服务端就只返回两层证书了:
其实更好的办法是用openssl工具,因为上面这个方法我发现也不一定准确,我之前确实是发现有返回3层证书(含root ca)的时候,但我写文章这会,测试了下,发现又只有两层了。
但是,用openssl进行如下测试,都是能看到三层证书的:
openssl s_client -debug -connect xxx.com.cn:443
或
[root@VM-0-6-centos ~]# openssl s_client -showcerts -verify 5 -verify_return_error -connect xxx.com.cn:443
CONNECTED(00000003)
depth=2 C = US, O = DigiCert Inc, OU = www.digicert.com, CN = DigiCert Global Root CA
verify return:1
depth=1 C = US, O = DigiCert Inc, CN = DigiCert Secure Site CN CA G3
verify return:1
depth=0 C = CN, ST = xxxx, CN = *.xxx.com.cn
verify return:1
对我对上述openssl命令,同时抓包的话,包内显示依然只有两层证书,我之前看一本书里也说,一般也是不推荐返回ROOT CA的证书的,没必要:
遗留问题
因为问题解决了,也就没有再去找负责xxx.com.cn网络接入的同事查问题了,大家事情也多,就这样吧,事情搞定就行了。
但这也算隐形的坑,我猜测的话,可能是一个链路走了waf,一个链路没走waf;所以最终一个协商出用tls v1.2,一个协商出用tls v1.3.
补充问题
我翻到一个8月份的抓包文件:跟随追踪.pcap,里面的话,服务端确实是返回了3层证书的,包括了ROOT CA的,如下:
所以,我现在也有点疑问了,到底他么该返回几层呢,只能说,如果大家遇到这类问题,可以往这个方面试一下,这个https水还是比较深的。
curl知识补充
平时经常用curl,但遇到https这种时,一般会失败;此时,习惯性加个-k,跳过https证书校验.
-k, --insecure
(SSL) This option explicitly allows curl to perform "insecure" SSL connections and transfers. All SSL connections are
attempted to be made secure by using the CA certificate bundle installed by default. This makes all connections considered
"insecure" fail unless -k, --insecure is used.
See this online resource for further details: http://curl.haxx.se/docs/sslcerts.html
[root@VM-0-6-centos ~]# curl https://www.baidu.com
curl: (77) error setting certificate verify locations: CAfile: /etc/ssl/certs/ca-certificates.crt CApath: none
[root@VM-0-6-centos ~]# curl https://www.baidu.com -k
<!DOCTYPE html>
...
但是,这次是要解决https的问题,肯定不能跳过了,所以研究了下怎么把root ca装到机器上,我是centos机器,我发现这样就可以了:
root ca文件参考:https://curl.se/docs/caextract.html
wget https://curl.se/ca/cacert.pem -k 下载到cacert.pem
然后指定下ca文件:
[root@VM-0-6-centos ~]# curl --cacert cacert.pem https://www.baidu.com
参考文档
https://mp.weixin.qq.com/s/Je1Kf0UX9pkwedaL7pTe3A 货拉拉SSL证书踩坑之旅
https://mp.weixin.qq.com/s/bGc-GScIEn_1cqZ64A7E3Q
https://mp.weixin.qq.com/s/5Cfwli0aC-ueaXTi0Pwfyw
https://mp.weixin.qq.com/s/zAFkcDBTNjfDLAnzbi5j6Q
https://cloud.tencent.com/developer/article/1973401
https://mp.weixin.qq.com/s/eKLNLj7ZqD80kZbsjQzS6Q
https://mp.weixin.qq.com/s/xFj9fjQ7crc2RnR5ckTfpw
https://mp.weixin.qq.com/s/XD8cvqb1ScWMxEwhnwaVtg
https://mp.weixin.qq.com/s/7-iQtXifIvwyXcleO2rpzw
https://mp.weixin.qq.com/s/_bVnCAheO5e71iniSzTLcg
https://mp.weixin.qq.com/s/faExv_-y0MxTFBoum7csHQ
openssl: man openssl
openssl s_client : man s_client
安卓端出现https请求失败的一次问题排查的更多相关文章
- nodejs中https请求失败,无报错
今天群里一位同学在做练习的时候,采用https例子: // curl -k https://localhost:8000/ const https = require('https'); const ...
- https请求失败,解决方法
把请求头中 Content-Type 属性去掉就可以了
- jmeter 模拟ajax/ https请求 失败的解决方法
1.去掉请求头的Content-Type字段.Host字段 即可
- 如何用 fiddler 捕获 https 请求
安装完 Fiddler 后,我们每次打开浏览器输入 url,Fiddler 便会捕获到我们的 http 请求(Fiddler 是以代理 web 服务器的形式工作的,它使用代理地址:127.0.0.1, ...
- 美图App的移动端DNS优化实践:HTTPS请求耗时减小近半
本文引用了颜向群发表于高可用架构公众号上的文章<聊聊HTTPS环境DNS优化:美图App请求耗时节约近半案例>的部分内容,感谢原作者. 1.引言 移动互联网时代,APP 厂商之间的竞争非常 ...
- Windows环境中,通过Charles工具,抓取安卓手机、苹果手机中APP应用的http、https请求包信息
Windows环境中,通过Charles工具,抓取安卓手机.苹果手机中APP应用的http.https请求包信息1.抓取安卓手机中APP应用的http请求包信息1)在电脑上操作,查看Windows机器 ...
- Charles如何抓取https请求-移动端+PC端
Charles安装完成,默认只能抓取到http请求,如果查看https请求,会显示unkonw或其它之类的响应.所以需要先进行一些配置,才能抓取到完整的https请求信息.下面针对PC端和手机端抓包的 ...
- 如何使用fiddler抓取https请求(PC和移动端)
最近做一个抓取移动端app接口,并执行评论,收藏的接口功能测试.怎么搞/(ㄒoㄒ)/~~ 按照老思路试一试,第一步还是要用fiddler来帮忙获取接口信息! 一.基本的抓取http请求设置: 1.cm ...
- [HTTPS] - 请求API失败(Could not create SSL/TLS secure channel)之解决
背景 在单元测试中请求 HTTPS API 失败. 异常 Result StackTrace: at System.Web.Services.Protocols.WebClientProtocol. ...
- HTTPS请求HTTP接口被浏览器阻塞,python实现websocket客户端,websocket服务器,跨域问题,dwebsocket,https,拦截,服务端
HTTPS请求HTTP接口被浏览器阻塞,python实现websocket客户端,websocket服务器,跨域问题,dwebsocket,https,拦截,服务端 发表时间:2020-03-05 1 ...
随机推荐
- .net开发-心情与效率
随着现代科技的不断发展,笔记本电脑已经成为我们日常生活中不可或缺的一部分.然而,在使用笔记本电脑的过程中,我们可能会遇到一些问题,例如显示器闪烁.HDMI接口接触不良等,这些问题不仅会影响我们的工作效 ...
- java入门2..0
java的运行原理 1.在本地磁盘中创建一个文本文件为Demo.java的源文件 2.在源文件中编写java代码如下: public class Demo public static void ,ma ...
- SpringBoot3之Web编程
标签:Rest.拦截器.swagger.测试; 一.简介 基于web包的依赖,SpringBoot可以快速启动一个web容器,简化项目的开发: 在web开发中又涉及如下几个功能点: 拦截器:可以让接口 ...
- Docker Dockerfile指令大全
FROM-指定基础镜像 指定基础镜像,并且Dockerfile中第一条指令必须是FROM指令,且在同一个Dockerfile中创建多个镜像时,可以使用多个FROM指令. # 语法格式 FROM < ...
- Redis的五大数据类型的数据结构
概述 Redis底层有六种数据类型包括:简单动态字符串.双向链表.压缩列表.哈希表.跳表和整数数组.这六种数据结构五大数据类型关系如下: String:简单动态字符串 List:双向链表.压缩列表 ...
- 聊一聊使用Spring事物时不生效的场景
前言 今天介绍一下Spring事物不生效的场景,事物是我们在项目中经常使用的,如果是Java的话,基本上都使用Spring的事物,不过Spring的事物如果使用不当,那么就会导致事物失效或者不回滚,最 ...
- 【matplotlib基础】--图例
Matplotlib 中的图例是帮助观察者理解图像数据的重要工具.图例通常包含在图像中,用于解释不同的颜色.形状.标签和其他元素. 1. 主要参数 当不设置图例的参数时,默认的图例是这样的. impo ...
- SpringBoot拦截器和动态代理有什么区别?
在 Spring Boot 中,拦截器和动态代理都是用来实现功能增强的,所以在很多时候,有人会认为拦截器的底层是通过动态代理实现的,所以本文就来盘点一下他们两的区别,以及拦截器的底层实现. 1.拦截器 ...
- mysql8安装踩坑记
背景:已安装mysql5.7版本 问题一:默认的3306端口被占用 进入mysql5.7的my.ini文件,更改port为3307或者其他未被占用的端口 问题二:Install/Remove of t ...
- Trie字典
Trie树,又叫字典树,前缀树(Prefix Tree),单词查找树,是一种多叉树的结构. {"a","apple","appeal",&q ...