wmproxy

wmproxy已用Rust实现http/https代理, socks5代理, 反向代理, 负载均衡, 静态文件服务器，websocket代理，四层TCP/UDP转发，内网穿透等，会将实现过程分享出来，感兴趣的可以一起造个轮子

项目地址

国内: https://gitee.com/tickbh/wmproxy

github: https://github.com/tickbh/wmproxy

设计目标

负载均衡时通过匹配规则匹配正确的location进行处理相关的操作。

设计方案变更

初始设计方案

初始方案以最快的方式进行支持，仅支持前缀匹配，即如果配置

[[http.server.location]]

rule = "/wmproxy"

那么当我们访问/wmproxy/xx时将会被分配到该location，此方案相对简单，但是当我们碰到复杂的需求时将无法被满足。

设计方案需求

除了前缀匹配外，我们将会有其它各种需求的匹配：

后缀匹配 比如以wmproxy结尾的path，如/api/update/wmproxy 需要匹配成 *wmproxy
中间匹配 比如常用的api中间转化成数据/api/<user_id>/get，那么匹配为 /api/*/get
正则匹配 当前的配置的为正则规则，需进行匹配
请求方法匹配 比如仅当请求方法为POST才进行转发
客户端IP 比如仅当客户端内网或者外网时区分请求
Host地址 比如当前如果请求为ip则不进行转发，需要匹配host才进行转发
协议比如某个网站不支持http当我们匹配到http时需强制转化成https

实际配置中当仅仅只有前缀匹配时已经显然无法满足我们的需求

设计方案迭代

当前我们就必须将数据进行更迭，但是在通常情况下我们又不想将配置变得复杂，此时就需要我们支持更多的类的自定义化，首先我们定义类：

/// location匹配，将根据该类的匹配信息进行是否匹配

#[serde_as]

#[derive(Debug, Clone, Serialize, Deserialize, PartialEq, Eq)]

pub struct Matcher {

    path: Option<String>,

    #[serde_as(as = "Option<DisplayFromStr>")]

    client_ip: Option<IpSets>,

    #[serde_as(as = "Option<DisplayFromStr>")]

    remote_ip: Option<IpSets>,

    host: Option<String>,

    #[serde_as(as = "Option<DisplayFromStr>")]

    method: Option<MatchMethod>,

    #[serde_as(as = "Option<DisplayFromStr>")]

    scheme: Option<MatchScheme>,

}

此时我们将location中的rule的类型从String变成了Matcher，那么此时我们首先遇到的一个问题他可能为一个String值或者可能为一个Map值，我们先得对这种情况进行处理。

我们根据serde的提供的解析方案进行如下函数，当前我们重写了visit_str及visit_map表示我们将只支持这两种源格式转化成Matcher

pub fn string_or_struct<'de, T, D>(deserializer: D) -> Result<T, D::Error>

where

    T: Deserialize<'de> + FromStr<Err = WebError>,

    D: Deserializer<'de>,

{

    struct StringOrStruct<T>(PhantomData<fn() -> T>);

    impl<'de, T> Visitor<'de> for StringOrStruct<T>

    where

        T: Deserialize<'de> + FromStr<Err = WebError>,

    {

        type Value = T;

        fn expecting(&self, formatter: &mut fmt::Formatter) -> fmt::Result {

            formatter.write_str("string or map")

        }

        fn visit_str<E>(self, value: &str) -> Result<T, E>

        where

            E: de::Error,

        {

            Ok(FromStr::from_str(value).unwrap())

        }

        fn visit_map<M>(self, map: M) -> Result<T, M::Error>

        where

            M: MapAccess<'de>,

        {

            Deserialize::deserialize(de::value::MapAccessDeserializer::new(map))

        }

    }

    deserializer.deserialize_any(StringOrStruct(PhantomData))

}

其次我们将在location中做处理

/// 负载均衡中的location匹配，将匹配合适的处理逻辑

#[serde_as]

#[derive(Debug, Clone, Serialize, Deserialize)]

pub struct LocationConfig {

    #[serde(deserialize_with = "string_or_struct")]

    pub rule: Matcher,

    //...

}

由于这种大类的匹配通常会在别处额外定义，我们通过以@name以@开头来表示索引的信息，来简化配置。通过初始化的时候来重新初始化Matcher

处理匹配

我们初始化完Matcher之后，需要能正确的判断传入的数据是否当前能正确匹配。主要的复杂点在于path的匹配，主要为正则匹配、前缀匹配、中间匹配 、后缀匹配。

对其进行细分，可确定分为两种

正则匹配
带*的路径匹配
1. 前缀匹配可以看成/start*或者/start
2. 中间匹配可以看成/start*end
3. 后缀匹配可以看成*end

即当前我们只需处理两种匹配模式：

正则匹配，频繁调用时主要在于初始化正则时可能会消耗大量的算力。当前我们对我们的匹配规则的正则进行缓存

/// may memory leak

pub fn try_cache_regex(origin: &str) -> Option<Regex> {

    // 因为均是从配置中读取的数据, 在这里缓存正则表达示会在总量上受到配置的限制

    lazy_static! {

        static ref RE_CACHES: Mutex<HashMap<&'static str, Option<Regex>>> =

            Mutex::new(HashMap::new());

    };

    if origin.len() == 0 {

        return None;

    }

    if let Ok(mut guard) = RE_CACHES.lock() {

        if let Some(re) = guard.get(origin) {

            return re.clone();

        } else {

            if let Ok(re) = Regex::new(origin) {

                guard.insert(

                    Box::leak(origin.to_string().into_boxed_str()),

                    Some(re.clone()),

                );

                return Some(re);

            }

        }

    }

    return None;

}

此处我们用到了static变量，也就是将某部分数据进行了静态化处理，且此处我们将String转化成了&'static str可能存在一定的内存泄漏，大小值跟配置的数据有关，可以接受这空间换取时间。然后用正则的is_match进行匹配即可。

if let Some(re) = Helper::try_cache_regex(&p) {

    if !re.is_match(path) {

        return Ok(false);

    }

}

带*的路径匹配 主要将路径中的*进行前进字符串的匹配。

在rust中的字符串切割主要由split或者strip_prefix或者strip_suffix来处理，相对其它语言中均存在的subString或者substr在rust中的则表示为引用，所以在rust中不存在substring函数

let src = "wmproxy is good";

let first = &src[..7];

let second = &src[3..8];

let end = &src[8..];

let vals = src.split(" ").collect::<Vec<&str>>();

以上各数据均引用src的资源，即在这过程中并没有创建内存对象。

那么匹配函数则先将'*'进行分割，数组的第一个则前缀匹配，最后一个则后缀匹配，若不存在'*'则数组数量为1，符合前缀匹配。

pub fn is_match(src: &str, pattern: &str) -> bool {

    let mut oper = src;

    let vals = pattern.split("*").collect::<Vec<&str>>();

    for i in 0..vals.len() {

        if i == 0 {

            if let Some(val) = oper.strip_prefix(vals[i]) {

                oper = val;

            } else {

                return false;

            }

        } else if i == vals.len() - 1 {

            if let Some(val) = oper.strip_suffix(vals[i]) {

                oper = val;

            } else {

                return false;

            }

        } else {

            if let Some(idx) = oper.find(vals[i]) {

                oper = &oper[idx + vals[i].len() .. ]

            } else {

                return false;

            }

        }

    }

    true

}

那么完整的匹配函数在Matcher

/// 当本地限制方法时,优先匹配方法,在进行路径的匹配

pub fn is_match_rule(&self, path: &String, req: &RecvRequest) -> ProtResult<bool>  {

    if let Some(p) = &self.path {

        let mut is_match = false;

        if Helper::is_match(&path, p) {

            is_match = true;

        }

        if !is_match {

            if let Some(re) = Helper::try_cache_regex(&p) {

                if !re.is_match(path) {

                    return Ok(false);

                }

            } else {

                return Ok(false);

            }

        }

    }

    if let Some(m) = &self.method {

        if !m.0.contains(req.method()) {

            return Ok(false);

        }

    }

    if let Some(s) = &self.scheme {

        if !s.0.contains(req.scheme()) {

            return Ok(false);

        }

    }

    if let Some(h) = &self.host {

        match req.get_host() {

            Some(host) if &host == h => {},

            _ => return Ok(false),

        }

    }

    if let Some(c) = &self.client_ip {

        match req.headers().system_get("{client_ip}") {

            Some(ip) => {

                let ip = ip

                .parse::<IpAddr>()

                .map_err(|_| ProtError::Extension("client ip error"))?;

                if !c.contains(&ip) {

                    return Ok(false)

                }

            },

            None => return Ok(false),

        }

    }

    Ok(true)

}

小结

匹配规则在对于复杂匹配的时候尤为重要，我们可以轻松的将各个请求分配到合适的位置，此处我们着重介绍了正则匹配及带*的路径匹配。

点击 [关注]，[在看]，[点赞] 是对作者最大的支持

47从零开始用Rust编写nginx，配对还有这么多要求！负载均衡中的路径匹配的更多相关文章

在Linux上使用Nginx为Solr集群做负载均衡
在Linux上使用Nginx为Solr集群做负载均衡在Linux上搭建solr集群时需要用到负载均衡,但测试环境下没有F5 Big-IP负载均衡交换机可以用,于是先后试了weblogic的proxy ...
nginx作反向代理，实现负载均衡
nginx作反向代理,实现负载均衡按正常的方法安装好 ngixn,方法可参考http://www.cnblogs.com/lin3615/p/4376224.html其中作了反向代理的服务器的配置如下 ...
LVS + keepalived + nginx + tomcat 实现主从热备 + 负载均衡
前言首先声明下,由于这两天找资料,看了不少博客 ,但是出于不细心,参考者的博客地址没有记录下来,所有文中要是出现了与大家博客相同的地方,那么请大家在评论区说明并附上博客地址,我好引用进来:这里表示抱 ...
Nginx + Memcached 实现Session共享的负载均衡
session共享我们在做站点的试试,通常需要保存用户的一些基本信息,比如登录就会用到Session:当使用Nginx做负载均衡的时候,用户浏览站点的时候会被分配到不同的服务器上,此时如果登录后Se ...
使用nginx sticky实现基于cookie的负载均衡
在多台后台服务器的环境下,我们为了确保一个客户只和一台服务器通信,我们势必使用长连接.使用什么方式来实现这种连接呢,常见的有使用nginx自带的ip_hash来做,我想这绝对不是一个好的办法,如果前端 ...
nginx的概念与几种负载均衡算法
Nginx的背景 Nginx和Apache一样都是一种WEB服务器.基于REST架构风格,以URI(Uniform Resources Identifier,统一资源描述符)或URL(Uniform ...
用Nginx搭建IIS集群实现负载均衡
长话短说,我们用Nginx来搭建一个简单的集群,实现Web应用的负载均衡,架构图如下: 两台Web服务器,一台静态资源服务器,因为是演示,我们以网站形式部署在本机IIS中一台Nginx代理服务器,安 ...
Nginx负载均衡中后端节点服务器健康检查的操作梳理
正常情况下,nginx做反向代理,如果后端节点服务器宕掉的话,nginx默认是不能把这台realserver踢出upstream负载集群的,所以还会有请求转发到后端的这台realserver上面,这样 ...
Nginx负载均衡中后端节点服务器健康检查的一种简单方式
摘自:https://cloud.tencent.com/developer/article/1027287 一.利用nginx自带模块ngx_http_proxy_module和ngx_http_u ...
nginx之rewrite重写,反向代理,负载均衡
rewrite重写(伪静态): 在地址栏输入xx.com/user-xxx.html, 实际上访问的就是xxx.com/user.php?id=xxx rewrite就这么简单附上ecshop re ...

随机推荐

AtCoder Beginner Contest 198 个人题解（AB水题，C思维，D思维+全排列，E题DFS搜索，F懵逼）
补题链接:Here A - Div 题意:N 个不一样的糖,请问有多少种分法给 A,B两人水题,写几组情况就能知道输出 \(N - 1\) 即可 B - Palindrome with leadin ...
SCA 技术进阶系列（二）：代码同源检测技术在供应链安全治理中的应用
直击痛点:为什么需要同源检测随着 "数字中国" 建设的不断提速,企业在数字化转型的创新实践中不断加大对开源技术的应用,引入开源组件完成应用需求开发已经成为了大多数研发工程师开发软 ...
<vue 组件 3、父子组件相互访问>
代码结构一. 01-组件访问-父访问子 1. 效果点击后在父组件里展示子组件的参数 2.代码 01-组件访问-父访问子.html <!DOCTYPE html> <htm ...
freeswitch自带yum源配置方式
概述在开发过程中,我们使用freeswitch源代码编译安装的方式比较多,这种方式适合对fs比较了解,有一定基础的研发人员. 但是,对于希望快速上手使用fs普通功能的人员来说,源代码编译的方式就过于 ...
C#设计模式03——简单工厂的写法
什么是C#简单工厂? C#简单工厂是一种创建对象的设计模式,它定义一个工厂类来创建指定类型的对象,而不是在客户端代码中直接创建对象.简单工厂模式通常使用静态方法来生成对象,并且这些静态方法通常被称为工 ...
机器学习-无监督机器学习-LDA线性判别分析-25
目录 1. Linear Discriminant Analysis 线性判别分析 1. Linear Discriminant Analysis 线性判别分析经常被用于分类问题的降维技术,相比于P ...
Qt5.9 UI设计(二)——最简Qt工程搭建
前言前面一章已经介绍了QT的开发环境的安装,这里介绍一下一个最简工程的搭建操作步骤新建项目选择带界面的Qt Widgets Application 设置项目位置注意这里的目录不能有中文路径 ...
后端开发之光！Django应用的容器化部署实践~
在此之前,我一直用uwsgi+virtualenv+nginx方式进行应用部署,操作起来比较麻烦,而且依赖于服务器上的Python版本,服务的管理方面单纯uwsgi + pid算不上特别麻烦但总没有d ...
[转帖]AES算法（四）基本工作模式
https://zhuanlan.zhihu.com/p/376077687 8 人赞同了该文章本文所述工作模式可适用于 DES.AES 等分组密码算法中分组密码算法只能加密固定长度为 N 比特的 ...
[转帖]Linux文件系统的几个性能测试软件小结
https://developer.aliyun.com/article/297631#:~:text=Linux%E6%96%87%E4%BB%B6%E7%B3%BB%E7%BB%9F%E7%9A% ...

47从零开始用Rust编写nginx，配对还有这么多要求！负载均衡中的路径匹配