SLB 7层负载均衡“HUNG”问题追查
最近接到博客园的反馈,SLB 7层负载均衡的实例会不定期出现流量突跌的情况,突跌持续10s左右;同时,SLB自身监控也观察到了相同的现象;
针对该问题,我们进行了持续追查,最终定位到是nginx配置的原因;在此,分享一下分析排查过程,希望对大家使用nginx有所帮助;
问题描述
- SLB 7层负载均衡(nginx)流量会出现不定期的突跌,每次突跌持续10s左右;同时,每次突跌必然发生在 12点 或者 0点;
- 查看SLB实例流量图,发现 部分实例 在12点 和 0点 流量突增几十倍;
两个时间点吻合,初步推断是突增流量导致nginx异常,从而导致流量下跌;
分析过程
- 观察每台nginx流量,发现当前运行负载比较低,远远小于阈值;CPU/MEM/NET各项指标都不高;
- 通过抓包发现大量的 syn 包被丢弃重传;
从上述现象,怀疑是网络问题,但从协议栈/网卡/交换机多个层面排查,没有发现网络异常;
- 在 Nginx 的机器上 curl 服务的统计接口时也出现了请求被 hang 住的情况;- (突破点)
抓包发现即使是本机发起的请求也会出现 syn 包丢弃重传,从而基本可以确定不是网络的问题,而是我们ngnix有问题。
查看linux协议栈源码,引起 syn 包被丢弃的原因可能有以下两点:
1. Accept backlog(接收队列)满了
2.内存分配不出来了
内核代码如下:
inttcp_v4_conn_request(structsock*sk,structsk_buff*skb)
{
...
if(sk_acceptq_is_full(sk)&&inet_csk_reqsk_queue_young(sk)>1){
NET_INC_STATS_BH(sock_net(sk),LINUX_MIB_LISTENOVERFLOWS);
gotodrop;
}
req=inet_reqsk_alloc(&tcp_request_sock_ops);
if(!req)
gotodrop;
...
}
机器内存是够用的,只能是 accept backlog 满掉了,
但是问题在于我们是给每一个 virtual ip 配置一个单独的 server { listen vip; } 的, 怎么会在 backlog 满的时候影响到其他业务的 virtual ip 呢?
我们再回到我们的 Nginx 的配置文件来:
http{
server{
listen 1.1.1.1:80;
location /{
return200"10.232.6.3:80";
}
}
server{
listen 1.1.1.2:80;
location /{
return200"10.232.6.3:80";
}
}
server{
listen 1.1.1.3:80;
location /{
return200"10.232.6.3:80";
}
}
...
server{
listen 80;
location /{
return200"0.0.0.0:80";
}
}
}
深入了解 Nginx 的同学看到这里或许也就了然了。
但是我们拥有非常多的 virtual ip server 在配置文件中,一开始也并没有注意到最后一条 listen 80 的配置(该配置用于 nginx健康检查 和 状态统计)。
原因定位:Nginx 处理 bind listen 的时候会对监听的所有 ip:port 做一次规整合并,也就是由于最后一条 listen 80 导致 Nginx 在 listen 的时候只 bind 了一个 0.0.0.0:80 端口, 之后请求进入 Nginx 的时候会通过 ip 再来查找其对应的 virtual server。这也就导致了我们前面看到的结果,当有瞬时的大流量进来时引起 accept backlog 被占满,从而也影响了其他 virtual ip 的服务。
我们也可以在 Nginx 源码里看到这点:
void
ngx_http_init_connection(ngx_connection_t*c)
{
...
port=c->listening->servers;
if(port->naddrs>1){
/*
* there are several addresses on this port and one of them
* is an "*:port" wildcard so getsockname() in ngx_http_server_addr()
* is required to determine a server address
*/
if(ngx_connection_local_sockaddr(c,NULL,0)!=NGX_OK){
ngx_http_close_connection(c);
return;
}
switch(c->local_sockaddr->sa_family){
#if(NGX_HAVE_INET6)
caseAF_INET6:
sin6=(structsockaddr_in6*)c->local_sockaddr;
addr6=port->addrs;
/* the last address is "*" */
for(i=0;i<port->naddrs-1;i++){
if(ngx_memcmp(&addr6[i].addr6,&sin6->sin6_addr,16)==0){
break;
}
}
hc->addr_conf=&addr6[i].conf;
break;
#endif
default:/* AF_INET */
sin=(structsockaddr_in*)c->local_sockaddr;
addr=port->addrs;
/* the last address is "*" */
for(i=0;i<port->naddrs-1;i++){
if(addr[i].addr==sin->sin_addr.s_addr){
break;
}
}
hc->addr_conf=&addr[i].conf;
break;
}
}else{
switch(c->local_sockaddr->sa_family){
#if(NGX_HAVE_INET6)
caseAF_INET6:
addr6=port->addrs;
hc->addr_conf=&addr6[0].conf;
break;
#endif
default:/* AF_INET */
addr=port->addrs;
hc->addr_conf=&addr[0].conf;
break;
}
}
/* the default server configuration for the address:port */
hc->conf_ctx=hc->addr_conf->default_server->ctx;
...
}
这里是在建立连接结构体时去查找所属 server,可以清晰的看到针对一个 listening 会有多个 server,也就是说这些 server 公用了一个 listen socket,以及 backlog。
问题解决
原因定位了,解决可以有多种方法;
我们采取的措施是把 listen 80 这条配置加上本地内网IP listen 172.168.1.1:80,这样Nginx 会对每个 virtual ip 进行一次 bind 和 listen,从而做到了实例间的隔离,各个 virtual ip 之间不会互相影响;
也就不再出现当有一个 virtual ip 瞬时流量过大时导致整个服务看起来像是 hung 住的问题。
SLB 7层负载均衡“HUNG”问题追查的更多相关文章
- Azure上七层负载均衡APP Gateway
Azure的SLB和ILB是最常用的4层负载均衡工具.但有些场景是7层的负载均衡,SLB和ILB就无能为力了. Azure上已经推出了APP Gateway的服务,就是7层负载均衡的负载均衡器. 如上 ...
- 当Kubernets遇上阿里云 -之七层负载均衡(一).
我们知道Kubernetes的service只能实现基于4层的负载均衡,无法提供7层之上的许多特性,诸如基于URL的负载均衡,SSL支持,三方授权等等:Ingress可以实现七层负载均衡的许多功能,唯 ...
- nginx 七层负载均衡
[tcp] nginx 七层负载均衡 nginx负载均衡概述 当我们的Web服务器直接面向用户,往往要承载大量并发请求,单台服务器难以负荷,我使用多台Web服务器组成集群,前端使用Nginx负载均衡, ...
- 13、Nginx七层负载均衡
1.Nginx负载均衡基本概述 1.1为什么需要使用负载均衡 当我们的Web服务器直接面向用户,往往要承载大量并发请求,单台服务器难以负荷,我使用多台WEB服务器组成集群,前端使用Nginx负载均衡, ...
- Linux架构之Nginx 七层负载均衡
第50章 Nginx七层负载均衡 一.Nginx负载均衡基本概述 1)为什么要使用负载均衡 当我们的Web服务器直接面向用户,往往要承载大量并发请求,单台服务器难以负荷.使用多台Web服务器组成集群, ...
- 第十五章 nginx七层负载均衡
一.Nginx负载均衡 1.为什么做负载均衡 当我们的Web服务器直接面向用户,往往要承载大量并发请求,单台服务器难以负荷,我使用多台Web服务器组成集群,前端使用Nginx负载均衡,将请求分散的打到 ...
- 阿里云slb和ucloud负载均衡ulb添加ssl证书将http服务https化的配置详解
阿里云和ucloud服务器配置ssl证书将http服务https化的配置详解 项目背景: 苹果App于2017年1月1日将启用App Transport Security安全功能,即强制App通过HT ...
- Windows Azure支持七层负载均衡--Application Gateway
一直以来Windows Azure的负载均衡(Loadbalancer)功能一直被客户诟病,无法其竞争对手(特别是国内的云厂商)匹敌. Windows Azure的负载均衡器是四层的,前期的版本不支持 ...
- 大型网站系统架构实践(四)http层负载均衡之haproxy实践篇(一)
方案 上篇文章讲到了负载均衡的相关理论知识,这篇文章我打算讲讲实践方法以及实践中遇到的问题 方案:haproxy http层负载均衡 安装一个haproxy服务,两个web服务 haproxy:192 ...
随机推荐
- ASP.NET Core - 初期准备
微软在前不久发布了.NET Core1.0(以下简称Core),由于项目需要开始对其进行研究,希望将自己踩过的坑和见解分享给大家. Core和Framework4.6是属于并行产品,前者侧重于跨平台的 ...
- 笨办法学Python(三十四)
习题 34: 访问列表的元素 列表的用处很大,但只有你能访问里边的内容时它才能发挥出作用来.你已经学会了按顺序读出列表的内容,但如果你要得到第 5 个元素该怎么办呢?你需要知道如何访问列表中的元素.访 ...
- 开始用PyTorch
怎么说呢,TensorFlow有些实现过于蛋疼,我需要使用更实用的框架. 目前在读https://github.com/chenyuntc/pytorch-book
- java线程详细版(未完待续)
1. Java线程:概念与原理 一.操作系统中线程和进程的概念 现在的操作系统是多任务操作系统.多线程是实现多任务的一种方式. 进程是指一个内存中运行的应用程序,每个进程都有自己独立的一块内存空间,一 ...
- css3弹性盒子
CSS3 弹性盒子(Flex Box) 弹性盒子是 CSS3 的一种新的布局模式. CSS3 弹性盒( Flexible Box 或 flexbox),是一种当页面需要适应不同的屏幕大小以及设备类型时 ...
- axure 动态面板实现图片轮播效果(淘宝)
淘宝中经常可以看到店铺中的图片轮播效果,本经验将通过axure7.0实现 工具/原料 axure7.0 方法/步骤 下载需要轮播的图片 将图片引入至axure中,将引入的第一张图片转为 ...
- Git学习环境搭建和git对用户的增删改查命令
git安装 windows下安装git git下载进入网址: https://git-scm.com/downloads 点击下载,进行安装,安装成功,你会看到图标,点击进入到git bash 查看g ...
- firewalld 使用简介
学习apache安装的时候需要打开80端口,由于centos 7版本以后默认使用firewalld后,网上关于iptables的设置方法已经不管用了,想着反正iptable也不会用,索性直接搬官方文档 ...
- php5.3 yum安装升级版本到 php5.6
centOS系统下如何将php升级到5.6,之前通过yum来安装lamp环境,直接升级的话,提示没有更新包,也就是说默认情况下php5.3.3是最新 1.查看已经安装的php版本号 键入下面代码: ...
- 我对XCode Objective
我对XCode Objective-c Cocoa的简单理解 Xcode Xcode说的通俗一点就是开发OS X 和 iOS 应用程序的. 如果我们想要认真点说 ,Xcode 是运行在操作系统Mac ...