摘要:虽然网卡是接入RoCE网络,但其实问题本身是单纯路由相关的,所以看的时候,不用关注RoCE,只当做一个独立子网就行了

本文分享自华为云社区《<跟唐老师学习云网络> - RoCE多网卡时,报文可以过去,但是回不来》,作者: tsjsdbd 。

一、网络概要

一台机子,接入2个子网,一个普通通信的,一个高速通信的。并且接入高速通信子网,有8张网卡。如下图:

本文描述的问题,只关注高速子网这一部分。为帮助理解问题,网络可以简化为:

每个网卡,都有分配该子网的一个IP。如下:

二、问题现象

A只能通B里面的一个IP,其余7个IP都不通。下图为A--->B 的结果:

图示:只有1个IP能通

反过来也一样,后面只讲一个方向的(A-->B)。

三、问题定位

1.先看报文有没有到达B。

如果都不能到B,说明网络接的有问题。如果到了B,但是不回来,说明路由配置可能有问题。

Ping不通的ip(228)时,在主机B上面进行抓包分析(228对应的网卡名是enp80s0f0,所以这里监听这个网卡):

  1. tcpdump -i enp80s0f0 -n arp
  2. listening on enp80s0f0, link-type EN10MB (Ethernet), capture size 262144 bytes
  3. 17:02:23.720556 ARP, Request who-has 29.28.195.228 tell 29.28.204.80, length 46
  4. 17:02:24.758954 ARP, Request who-has 29.28.195.228 tell 29.28.204.80, length 46
  5. 17:02:25.782954 ARP, Request who-has 29.28.195.228 tell 29.28.204.80, length 46
  6. 17:02:26.807063 ARP, Request who-has 29.28.195.228 tell 29.28.204.80, length 46
  7. ^C

可以看到,报文能到B。

2.但是为什么B不给A回消息呢?

于是我们来看看,当B要给A回消息时,路由怎么走的?

查看路由表:

  1. ip route
  2. default via 192.168.0.1 dev enp218s0 proto dhcp metric 104
  3. 29.28.192.0/20 dev enp137s0f1 proto kernel scope link src 29.28.201.211 metric 105
  4. 29.28.192.0/20 dev enp137s0f0 proto kernel scope link src 29.28.193.28 metric 106
  5. 29.28.192.0/20 dev enp80s0f1 proto kernel scope link src 29.28.204.230 metric 107
  6. 29.28.192.0/20 dev enp106s0f0 proto kernel scope link src 29.28.194.199 metric 108
  7. 29.28.192.0/20 dev enp106s0f1 proto kernel scope link src 29.28.195.31 metric 109
  8. 29.28.192.0/20 dev enp80s0f0 proto kernel scope link src 29.28.195.228 metric 110
  9. 29.28.192.0/20 dev enp234s0f1 proto kernel scope link src 29.28.197.165 metric 111
  10. 29.28.192.0/20 dev enp234s0f0 proto kernel scope link src 29.28.195.75 metric 112

根据以前学的router知识,可以看到,(排除default路由外)应该是会匹配到 第1条(标红)规则。

注:metric表示路由代价,目的子网都匹配的情况下,会选代价最低的那一条。

即 B-->A给A回消息时,报文要从 网卡enp137s0f1 发出去,并且发出去的报文源地址要设为29.28.201.211。

难怪不通,因为答非所问了嘛(回arp报文,内容对不上)。

再看为什么211这个ip能通?

因为 211 是该子网路由选择,所对应的IP,所以刚好能通。

这就解释了为什么刚好1个IP能通,另外7个不通。

3.如何让报文从哪个口收到,就从哪个口回去?

往外发报文,根据源地址来选择网卡(注意这里的源是指 主机B,因为回报文是往外发),这种场景可以称之为「源地址路由」,而要实现源地址路由,就需要用到「ip rule 路由策略」这种高级路由配置。

四、ip rule 路由策略

在配置「源地址路由」规则前,我们需要先补充一点基础知识。

1. 路由表“副本”

以前我们学的 route -n 路由表,其实属于“新手村”,即系统默认使用这张路由规则表。但就像《剑来》里面说的那样,在新手村外还有很多其他“境界”。Linux新版本(2.x之后)为实现更复杂的路由能力,将原来的“新手村”,复制了很多的“副本”。

Ps:这种增加“副本”的思路,在咱们IT领域非常常见,比如我们之前学到的各种namespace。

当前系统总的“副本”数量,在 /etc/iproute2/rt_tables 这个文件中。

  1. 255 local
  2. 254 main
  3. 253 default
  4. 0 unspec

我们之前学的 route -n 新手村表,就是其中的 254 这个副本号,名字叫做 main。

要增加副本,可以如下这么操作:

  1. echo "$id $table" >> /etc/iproute2/rt_tables

就行了。

2. 如何决定使用哪个“副本”

为了确认使用哪个“副本”,在前面补了一个 rule 规则。

条件基本就是:源IP,目的地址,收到网口这些。

具体见:https://www.computerhope.com/unix/ip.htm

所以现在流程变成了:

  1. 新增一个副本
  2. 设置rule规则,指向这个新增的副本
  3. 往副本里面增加以前学会的route记录

比如,我们希望某个源IP为 29.28.201.211 的报文,走独立的“路由副本”策略:

  • 新建“路由副本”
  1. echo "200 table0" >> /etc/iproute2/rt_tables
  • 增加规则,使这种报文,走该独立副本。(from表示源ip)
  1. ip rule add from 29.28.201.211 table table0
  • 然后我们往这个“路由表副本”里面,放入以前学到的普通的路由规则:
  1. ip route add 29.28.192.0/20 dev eth0 table table0
  • 可以确认下副本中路由是否正确
  1. ip route show table table0
  2. 29.28.192.0/20 dev eth0 scope link

这样,我们就可以控制更复杂的路由规则了。

3. 再看“新手村”路由表

在知道路由表可以有很多“副本”之后,我们再回头看看原来那个“新手村”。

从 /etc/iproute2/rt_tables 文件内容可以知道,咱们“新手村”对应的那个路标表名字叫做main。

所以查询这个表的内容:

  1. root@tsjsdbd:/# ip route show table main
  2. default via 172.17.0.1 dev eth0
  3. 172.17.0.0/16 dev eth0 proto kernel scope link src 172.17.0.2

这个和我们平时看到的路由,是一样的:

  1. root@tsjsdbd:/# ip route
  2. default via 172.17.0.1 dev eth0
  3. 172.17.0.0/16 dev eth0 proto kernel scope link src 172.17.0.2

也就是,我们平时敲的 route -n 看到的列表,其实就是 main 这张表里面的内容。

其余表(0-local,253-default,255-local)的内容,一般不用关注。

4. rule规则匹配优先级

在rule规则表里面,很多记录的时候,匹配优先级是怎么定的?答案是每一条记录,它有个优先级的字段。如下:

  1. [root@tsjsdbd]# ip rule
  2. 0: from all lookup local
  3. 32766: from all lookup main
  4. 32767: from all lookup default

最前面的数字,就是优先级。数字越小,优先级越高,也就是会先进行匹配,同时也代表这条规则可以排的更靠前。

在 rule add 添加规则的时候,是可以指定“优先级的”。如:

  1. ip rule add from 192.168.1.0/24 table table0 pri 333

就可以指定

在不指定优先级的情况下,会默认加到当前最小值前面(即,不指定优先值时,会加一条优先级较高的rule)。

如下:

  1. [root@tsjsdbd]# ip rule add from 192.168.1.0/24 table table0 pri 333

上面这条会加一条333优先级的rule

  1. [root@tsjsdbd]# ip rule add from 192.168.2.0/24 table table0

这条没指定优先级,就会加一条优先级332的(因为当前rule里面最小的是333)。

可以查询确认:

  1. [root@tsjsdbd]# ip rule
  2. 0: from all lookup local
  3. 332: from 192.168.2.0/24 lookup table0
  4. 333: from 192.168.1.0/24 lookup table0
  5. 32766: from all lookup main
  6. 32767: from all lookup default

删除rule的话,有几种便捷的指定方式:(优先级、条件、table)

  1. ip rule del pri 333
  2. ip rule del from 192.168.2.0/24
  3. ip rule del table table0

最后注意,添加或修改了rule规则后,不会立即生效,需要 ip route flush cache 后才生效(官方文档是这么说的,自己验证的时候注意下就行)。

五、源地址路由

再回到问题上来,8个网卡,哪个口收到,要求使用该口的ip回去。可以通过8个路由table实现(因为大家的目标网段是一样的,所以在同一个table表里面话,不好写规则)。

于是,可以把8个路由规则,分散到8个“世界”中,然后通过 rule 分散后,各自进行匹配。

事实上,「源地址路由」的实现,一般都是这种套路:

  • 添加一条“源地址”的rule
  1. ip rule add from 192.168.1.2 table 100
  • 在目标table里面,设置路由规则
  1. ip route add 172.25.2.0/24 via 192.168.1.5 table 100

最终解决8个RoCE网卡可以互通的路由设置如下:

  • table表(8个)
  1. /root # cat /etc/iproute2/rt_tables
  2. 200 table0
  3. 201 table1
  4. 202 table2
  5. 203 table3
  6. 204 table4
  7. 205 table5
  8. 206 table6
  9. 207 table7
  • rule表(8个)
  1. /root # ip rule
  2. 0: from all lookup local
  3. 32758: from 29.28.197.165 lookup table7
  4. 32759: from 29.28.195.75 lookup table6
  5. 32760: from 29.28.201.211 lookup table5
  6. 32761: from 29.28.193.28 lookup table4
  7. 32762: from 29.28.195.31 lookup table3
  8. 32763: from 29.28.194.199 lookup table2
  9. 32764: from 29.28.204.230 lookup table1
  10. 32765: from 29.28.195.228 lookup table0
  11. 32766: from all lookup main
  12. 32767: from all lookup default
  • 每个table表里面,1条路由规则
  1. /root # ip route show table table5
  2. 29.28.192.0/20 dev enp137s0f1 scope link src 29.28.201.211

以上3步行为,通过一个脚本来完成。

六、最后

最后我们来看看,网络有问题的时候,与设置完「源地址路由」后的区别:

查询“以xx为源ip,以yy为目的ip,路由选择结果是什么”方式,

可以使用ip route get 命令。

设置前:

  1. # ip route get 29.28.204.80 from 29.28.201.211
  2. 29.28.204.80 from 29.28.201.211 dev enp137s0f0 uid 0

设置后:

  1. # ip route get 29.28.204.80 from 29.28.201.211
  2. 29.28.204.80 from 29.28.201.211 dev enp137s0f1 table table5 uid 0

可以看到,是按照我们的目标“哪个口来,哪个口回去”的方式运行的。

注:虽然网卡是接入RoCE网络,但其实问题本身是单纯路由相关的,所以看的时候,不用关注RoCE,只当做一个独立子网就行了。

点击关注,第一时间了解华为云新鲜技术~

RoCE多网卡时,报文可以过去,但是回不来的更多相关文章

  1. 更新新网卡驱动,修复win7雷凌网卡Ralink RT3290在电脑睡眠时和启动网卡时出现蓝屏netr28x.sys驱动文件错误

    更新新网卡驱动,修复win7雷凌网卡Ralink RT3290在电脑睡眠时和启动网卡时出现蓝屏netr28x.sys驱动文件错误 我的本本是win7,雷凌网卡Ralink RT3290   802.1 ...

  2. Hibernate 批量update数据时,怎么样做可以回滚,

    Hibernate 批量update数据时,怎么样做可以回滚, 1.serviceManagerDaoImpl代码里对异常不进行try,catch抛出, 2.或者抛出throw new Runtime ...

  3. Linux启动网卡时出现RTNETLINK answers: File exists错误解决方法

    这里说一下,如果复制了虚拟机,设置新的MAC地址为什么? 在虚拟机的网络设置中--->高级.然后找到如下窗口,生成新的MAC地址即可. ----------------------------- ...

  4. 当linux遇上多网卡时

    我虚拟机有三个网卡,有两个在用,分别是不同的网段 eth4: 192.168.100.6/24 eth6: 192.168.137.131/24 但是默认系统把我的内部网络eth6设置为所有ip地址需 ...

  5. dubbo多网卡时,服务提供者的错误IP注册到注册中心导致消费端连接不上

    使用了虚拟机之后,启动了dubbo服务提供者应用,又连了正式环境的注册中心: 一旦dubbo获取的ip错误后, 这种情况即使提供者服务停掉,目前dubbo没有能力清除这类错误的提供者: (需要修改源码 ...

  6. C# 使用WebClient时,在多网卡时,指定IP发送Web请求

    需要定义一个类,重写GetWebRequest,在方法内,指定IP地址 public class MyWebClient : WebClient { private IPAddress ipAddre ...

  7. 阿里云k8s构建镜像时设置版本号用于版本回滚

    jenkins 构建配置参数化构建过程 构建  执行 shell  , 将版本号参数传入 脚本 脚本push  带版本号的镜像到阿里云镜像仓库 #!/bin/bash #获取参数 while geto ...

  8. 在回显时遇到的问题,回显的值无法显示到页面 vue

    //理解为 重新渲染 this.form的数据 1 this.form = Object.assign({}, this.form)

  9. (转)深度分析Linux下双网卡绑定七种模式

    现在一般的企业都会 使用双网卡接入,这样既能添加网络带宽,同时又能做相应的冗余,可以说是好处多多.而一般企业都会使用linux操作系统下自带的网卡绑定模式,当然现在 网卡产商也会出一些针对window ...

  10. 深度分析Linux下双网卡绑定七种模式

    现在一般的企业都会使用双网卡接入,这样既能添加网络带宽,同时又能做相应的冗余,可以说是好处多多.而一般企业都会使用linux操作系统下自带的网卡绑定模式,当然现在网卡产商也会出一些针对windows操 ...

随机推荐

  1. Vue基础语法整理

    vue基础用法&基础原理整理 1. vue基础知识和原理 1.1 初识Vue 想让Vue工作,就必须创建一个Vue实例,且要传入一个配置对象 demo容器里的代码依然符合html规范,只不过混 ...

  2. Java面试——专业技能

    目录 一.简单讲下 Java 的跨平台原理 二.装箱与拆箱 三.实现一个拷贝文件的工具类使用字节流还是字符流 四.介绍下线程池 五.JSP和 Servlet 有哪些相同点和不同点 六.简单介绍一下关系 ...

  3. better-scroll横向滚动、纵向滚动

    <div ref="tab" class="tab"> <ul ref="tabWrapper" class=" ...

  4. Linux报错:audit: backlog limit exceeded(审计:超出积压限制)

    Linux报错:audit: backlog limit exceeded(审计:超出积压限制) 系统版本:CentOS Linux release 7.6.1810 (Core) 问题现象:一次巡检 ...

  5. 为什么wait()需要在同步代码块内使用

    我们还是通过源代码和代码注释来学习这个问题 我们先来看看wait方法的注释,这里截取最根源的native方法给的注释 Causes the current thread to wait until e ...

  6. PyQt5学习 (3)--QWidget(下)

    层级关系.层级控制: 调整Z轴顺序 点击查看代码 label1 = QLabel(window) label1.setText("标签1") label1.resize(200, ...

  7. 迁移学习《Asymmetric Tri-training for Unsupervised Domain Adaptation》

    论文信息 论文标题:Asymmetric Tri-training for Unsupervised Domain Adaptation论文作者:Kuniaki Saito, Y. Ushiku, T ...

  8. python内置模块之ctype

    ctypes --- Python 的外部函数库¶ ctypes 是 Python 的外部函数库.它提供了与 C 兼容的数据类型,并允许调用 DLL 或共享库中的函数.可使用该模块以纯 Python ...

  9. [Java SE]Java版本特性解读:java.util.Optional [JDK1.8-]

    1 概述 本质上,这是一个包含有可选值的包装类,这意味着 Optional 类既可以含有对象也可以为空(null/empty). Optional 是 Java 实现函数式编程的强劲一步,并且帮助在范 ...

  10. 面试某大厂,被Channel给吊打了,这次一次性通关channel!

    目录 一 前言 面试题 然后我们进行一下扩展,玩转Channel! 二 解决面试题 1. 介绍一下Channel 2. Channel在go中起什么作用 3. Channel为什么需要两个队列实现 4 ...