26
2019
03

Linux的高级路由和流量控制:介绍iproute2

HQY

希望这篇文档能对你更好地理解Linxs2.2/2.4的路由有所帮助和启发。不被大多数使用者所知道的是,你所使用工具,其实能够完成相当规模工作。比如route 和ifconfig,实际上暗中调用了非常强大的iproute 2的底层基本功能。

Linux能为你做什么

一个小列表:

? 管制某台计算机的带宽
? 管制通向某台计算机的带宽
? 帮助你公平地共享带宽
? 保护你的网络不受DoS攻击
? 保护Internet不受到你的客户的攻击
? 把多台服务器虚拟成一台,进行负载均衡或者提高可用性
? 限制对你的计算机的访问
? 限制你的用户访问某些主机
? 基于用户账号(没错!)、MAC地址、源IP地址、端口、服务类型、时间或者内容等条件进行路由。

现在,很多人都没有用到这些高级功能。这有很多原因。比如提供的文档过于冗长而且不容易上手,而且流量控制甚至根本就没有归档。

1 为什么使用 iproute2?

现在,绝大多数 Linux 发行版和绝大多数 UNIX都使用古老的arp, ifconfig和route命令。虽然这些工具能够工作,但它们在Linux2.2和更高版本的内核上显得有一些落伍。比如,现在GRE隧道已经成为了路由的一个主要概念,但却不能通过上述工具来配置。
使用了iproute2,隧道的配置与其他部分完全集成了。

2.2 和更高版本的Linux 内核包含了一个经过彻底重新设计的网络子系统。这些新的代码让Linux在操作系统的竞争中取得了功能和性能上的优势。实际上,Linux新的路由、过滤和分类代码,从功能和性能上都不弱于现有的那些专业的路由器、防火墙和流量整形产品。

随着新的网络概念的提出,人们在现有操作系统的现有体系上修修补补来实现他们。这种固执的行为导致了网络代码中充斥着怪异的行为,这有点像人类的语言。过去,Linux模仿了SunOS的许多处理方式,并不理想。

这个新的体系则有可能比以往任何一个版本的Linux都更善于清晰地进行功能表达。

2 iproute2 概览

Linux有一个成熟的带宽供给系统,称为Traffic Control(流量控制)。这个系统支持各种方式进行分类、排序、共享和限制出入流量。

我们将从 iproute2 各种可能性的一个简要概览开始。

3 先决条件

你应该确认已经安装了用户级配置工具。这个包的名字在RedHat和Debian中都叫作“iproute”,也可以在这个地方找到:

ftp://ftp.inr.ac.ru/ip-routing/iproute2-2.2.4-now-ss??????.tar.gz

你也可以试试在这里(ftp://ftp.inr.ac.ru/ip-routing/iproute2-current.tar.gz)找找最新版本。

iproute 的某些部分需要你打开一些特定的内核选项。应该指出的是,RedHat6.2及其以前的所有发行版中所带的缺省内核都不带有流量控制所需要的绝大多数功能。

而RedHat 7.2在缺省情况下能满足所有要求。

另外,确认一下你的内核支持netlink ,Iproute2需要它.

4 浏览你的当前配置

这听上去确实让人惊喜:iproute2已经配置好了!当前的ifconfig和route命令已经正在使用新的系统调用,但通常使用了缺省参数(真无聊)。

新的工具ip成为中心,我们会让它来显示我们的网卡配置。

4.1. 让ip显示我们的链路

[ahu@home ahu]$ ip link list
1: lo: <LOOPBACK,UP> mtu 3924 qdisc noqueue
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
2: dummy: <BROADCAST,NOARP> mtu 1500 qdisc noop
link/ether 00:00:00:00:00:00 brd ff:ff:ff:ff:ff:ff
3: eth0: <BROADCAST,MULTICAST,PROMISC,UP> mtu 1400 qdisc pfifo_fast qlen 100
link/ether 48:54:e8:2a:47:16 brd ff:ff:ff:ff:ff:ff
4: eth1: <BROADCAST,MULTICAST,PROMISC,UP> mtu 1500 qdisc pfifo_fast qlen 100
link/ether 00:e0:4c:39:24:78 brd ff:ff:ff:ff:ff:ff
3764: ppp0: <POINTOPOINT,MULTICAST,NOARP,UP> mtu 1492 qdisc pfifo_fast qlen 10
link/ppp

你的结果可能有所区别,但上述显示了我家里NAT路由器的情况。我将只解释输出中并非全部直接相关的部分。因为并不是所有部分都与我们的话题有关,所以我只会解释输出的一部分。

我们首先看到了 loopback 接口。 While your computer may function somewhat without one, I'd advise against it. MTU (最大传输单元)尺寸为 3924 字节,并且不应该参与队列。这是因为 loopback 接口完全是内核想象出来的、并不存在的接口。

现在我们跳过这个无关的接口,它应该并不实际存在于你的机器上。然后就是两个物理网络接口,一个接在我的 cable modem 上,另一个接到我家里的以太网端上。再下面,我们看见了一个 ppp0 接口。

应该指出,我们没有看到 IP 地址。iproute 切断了“链路”和“IP 地址”两个概念的直接联系。当使用 IP 别名的时候,IP地址的概念显得更加不相关了。

尽管如此,还是显示出了标识以太网卡硬件的 MAC 地址。

4.2. 让ip显示我们的 IP 地址

[ahu@home ahu]$ ip address show
1: lo: <LOOPBACK,UP> mtu 3924 qdisc noqueue
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 brd 127.255.255.255 scope host lo
2: dummy: <BROADCAST,NOARP> mtu 1500 qdisc noop
link/ether 00:00:00:00:00:00 brd ff:ff:ff:ff:ff:ff
3: eth0: <BROADCAST,MULTICAST,PROMISC,UP> mtu 1400 qdisc pfifo_fast qlen 100
link/ether 48:54:e8:2a:47:16 brd ff:ff:ff:ff:ff:ff
inet 10.0.0.1/8 brd 10.255.255.255 scope global eth0
4: eth1: <BROADCAST,MULTICAST,PROMISC,UP> mtu 1500 qdisc pfifo_fast qlen 100
link/ether 00:e0:4c:39:24:78 brd ff:ff:ff:ff:ff:ff
3764: ppp0: <POINTOPOINT,MULTICAST,NOARP,UP> mtu 1492 qdisc pfifo_fast qlen 10
link/ppp
inet 212.64.94.251 peer 212.64.94.1/32 scope global ppp0

这里包含了更多信息。显示了我们所有的地址,以及这些地址属于哪些网卡。“inet”表示Internet (IPv4)。还有很多其它的地址类型,但现在还没有涉及到。

让我们先就近看看eth0。上面说它与IP地址10.0.0.1/8相关联。这是什么意思呢?“/8”表示IP地址表示网络地址的位数。因为一共是32个bit,所以我们的这个网络有了24 bit的主机空间。 10.0.0.1 的开始8bit是10.0.0.0,也就是我们的网络地址,我们的子网掩码是255.0.0.0。

其它的bit直接连接在这个网卡上,所以10.250.3.13可以直接通过eth0联络到,就象10.0.0.1一样。

对于ppp0,仍是相同的概念,虽然数字看上去有所不同。它的地址是212.64.94.251,不带子网掩码。这意味着这是一个点到点的连接,而且除了212.64.94.251之外的地址是对端的。当然,还有很多信息。它还告诉我们这个链路的另一端只有一个地址:212.64.94.1。/32意思是说没有表示网络的bit。

掌握这些概念是绝对重要的。如果有问题,不妨先参考以下这个HOWTO文件开头曾经提到的那些文档。

你应该注意到了“qdisc”,它是基于对列规范的一个概念。它在后面会变得很重要。

4.3. 让ip显示路由

好的,现在我们已经知道如何找到10.x.y.z了,然后我们就可以到达212.64.94.1。但这还不够,我们还得说明如何找到全世界。可以通过我们的ppp连接找到Internet,212.64.94.1愿意把我们的数据包发给全世界,并把回应的数据包传回给我们。

[ahu@home ahu]$ ip route show
212.64.94.1 dev ppp0 proto kernel scope link src 212.64.94.251
10.0.0.0/8 dev eth0 proto kernel scope link src 10.0.0.1
127.0.0.0/8 dev lo scope link
default via 212.64.94.1 dev ppp0

字面的意思相当清楚。前4行的输出明确地说明了ip address show的意思,最后一行说明了世界的其它部分可以通过我们的缺省网关212.64.94.1找到。我们通过“via”这个词断定这是一个网关,我们要把数据包交给它。这就是我们要留心的问题
下面列出以前route 命令的输出作为参考:

[ahu@home ahu]$ route -n
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use
Iface
212.64.94.1 0.0.0.0 255.255.255.255 UH 0 0 0 ppp0
10.0.0.0 0.0.0.0 255.0.0.0 U 0 0 0 eth0
127.0.0.0 0.0.0.0 255.0.0.0 U 0 0 0 lo
0.0.0.0 212.64.94.1 0.0.0.0 UG 0 0 0 ppp0

5. ARP

ARP 是由 RFC 826 所描述的“地址解析协议”。ARP是网络上的计算机在居域网中用来解析另一台机器的硬件地址/位置的时候使用的。互联网上的机器一般都是通过机器名解析成IP地址来互相找到的。这就能够解决foo.com网络能够与bar.net网络通讯。但是,仅仅依靠IP地址,却无法得到一台计算机在一个网络中的物理位置。这时候就需要ARP。

让我们举一个非常简单的例子。假定我有一个网络,里面有几台机器。其中的两台在我的子网上,一台叫foo,IP地址是10.0.0.1,另一台叫bar,IP地址是10.0.0.2。现在,foo想ping一下bar看看是不是正常,但是呢,foo只知道bar的IP地址,却并不知道bar的硬件(MAC)地址。所以foo在ping bar之前就会先发出ARP询问。这个ARP询问就像在喊:“Bar(10.0.0.2)!你在哪里(你的MAC地址是多少)?!” 结果这个广播域中的每台机器都能听到foo的喊话,但是只有bar(10.0.0.2)会回应。Bar会直接给foo发送一个ARP回应,告诉它“Foo (10.0.0.1),我的Mac地址是00:60:94:E9:08:12”。经过这种简单的交谈,机器就能够在局域网中定位它要通话的对象。Foo会一直使用这个结果,直到它的ARP缓冲忘掉这个结果(在Unix系统上通常是15分钟之后)。

现在我们来看一看具体的工作过程。你可以这样察看你的ARP表(缓冲):

[root@espa041 /home/src/iputils]# ip neigh show
9.3.76.42 dev eth0 lladdr 00:60:08:3f:e9:f9 nud reachable
9.3.76.1 dev eth0 lladdr 00:06:29:21:73:c8 nud reachable

你可以看到,我的机器 espa041 (9.3.76.41) 知道如何找到 espa042 (9.3.76.42) 和 espagate (9.3.76.1)。现在让我们往缓冲中添加另一台机器。

[root@espa041 /home/paulsch/.gnome-desktop]# ping -c 1 espa043
PING espa043.austin.ibm.com (9.3.76.43) from 9.3.76.41 : 56(84) bytes of data.
64 bytes from 9.3.76.43: icmp_seq=0 ttl=255 time=0.9 ms
--- espa043.austin.ibm.com ping statistics ---
1 packets transmitted, 1 packets received, 0% packet loss
round-trip min/avg/max = 0.9/0.9/0.9 ms
[root@espa041 /home/src/iputils]# ip neigh show
9.3.76.43 dev eth0 lladdr 00:06:29:21:80:20 nud reachable
9.3.76.42 dev eth0 lladdr 00:60:08:3f:e9:f9 nud reachable
9.3.76.1 dev eth0 lladdr 00:06:29:21:73:c8 nud reachable

由于espa041试图联络espa043,espa043的硬件地址已经添加到ARP缓冲里了。所以直到espa043的记录失效以前(也就是两个机器间长时间没有通讯),espa041 知道如何找到espa043,也就不必频繁地进行ARP询问了。

现在让我们来删除 espa043 的ARP缓冲:

[root@espa041 /home/src/iputils]# ip neigh delete 9.3.76.43 dev eth0
[root@espa041 /home/src/iputils]# ip neigh show
9.3.76.43 dev eth0 nud failed
9.3.76.42 dev eth0 lladdr 00:60:08:3f:e9:f9 nud reachable
9.3.76.1 dev eth0 lladdr 00:06:29:21:73:c8 nud stale

现在espa041 已经忘记了espa043 的MAC地址,如果下次它要与espa043 通讯,需要再次发送 ARP询问。你在espagate (9.3.76.1) 上也会发现以上输出已经变成了"stale"状态。这意味着MAC地址仍然是在册,但是接下来第一次通讯的时候需要确认一下。


HQY
« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。