13
2025
04
01:03:55

当多网卡遇上复杂网络:Linux路由策略优化方案

Linux多网卡场景的路由


当传统路由设置方法在智算环境下失效,一个可行的应对方式是提前规划GPU服务器内的路由,借助Linux的多路由表和策略机制实现更加灵活、精细的流量控制和路由管理功能,但也伴随着一定的复杂性和潜在风险。

在Linux多网卡场景中,路由问题主要表现为流量路径选择错误、默认路由冲突、策略路由配置复杂等问题。以下是针对多网卡路由问题的系统化分析:

默认路由冲突

  • 现象:多个网卡配置了不同的默认网关(default via 192.168.1.1 和 default via 10.0.0.1)。

  • 后果:系统仅使用优先级最高的默认路由,导致部分流量无法通过预期网卡发送。

查看路由表:

代码语言:txt
AI代码解释
ip route show  # 或使用 route -n
代码语言:javascript
代码运行次数:0
运行
AI代码解释
default via 192.168.1.1 dev eth0 metric 100default via 10.0.0.1 dev eth1 metric 200

metric 值越小优先级越高,此时所有流量通过eth0发送。

子网路由覆盖

  • 现象:多个网卡连接到同一子网的不同IP段(如eth0:192.168.1.2/24和eth1:192.168.1.3/24)。

  • 后果:系统可能随机选择出口网卡,导致流量路径不稳定。

策略路由需求

场景:需根据源IP、目的IP或协议类型选择不同出口。

例:内网流量(10.0.0.0/24)走eth0,公网流量走eth1。

更高效的实现方式

更高效的办法,当然是用脚本工具批量自动配置啊!

AI智算网络解决方案中包含的EasyRoCE Toolkit – IRM工具(In-Node Route Map,GPU服务器内部路由规划)正是用于解决多网卡路由问题——根据已有的IP地址规划表,自动生成并对集群内所有GPU服务器下发内部路由规划和配置。

IRM工具运行过程中需要通过SSH和集群中的所有GPU服务器进行交互,一般运行在管理节点上。

仅需完成三步微操:

1. 将IRM工具上传到管理节点;

2. 指定需要解析的路由规划信息文件。该文件可在EasyRoCE-AID (AI Infrastructure Descriptor,AI基础设施蓝图规划)工具引导下手动填写,形式为下图所示的excel表格,主要包含IP和接口地址规划、Rail平面划分等构造智算网络的必备信息;

3. 运行IRM工具脚本。等待上述规划信息完成转换重组后,IRM工具会生成包含路由配置的JSON文件并下发到集群,随后网络运维人员即可查验到所有GPU服务器内部的策略路由都已成功生效,同一个Rail平面内的网段按照预期正常互通。此外,该阶段生成的JSON文件亦可复用于其他客户自定义/第三方工具。




推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

本文链接:https://hqyman.cn/post/10497.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: