Rust很适合写命令行工具,特别是使用clap crate 更加方便,这篇文章介绍使用rust写一个jar包class冲突检测的工具。项目地址: https://github.com/Aitozi/jar_conflict_detector

首先jar包class冲突的现象是多个jar包中有同名的class,并且class的md5还不一样,那么就意味着该class存在多个版本,那么就存在冲突的可能。

思路比较简单,就是遍历每个jar包,记录ClassName 和 对应 CRC 校验码 及 jar 包的对应关系。

通过clap的derive api就可以快速定义个命令行的参数解析器。

  1. #[derive(Parser, Debug)]
  2. #[command(author, version, about, long_about = None)]
  3. struct Args {
  4. #[arg(
  5. short,
  6. long = "jars",
  7. required = true,
  8. help = "The jar list joined by semicolon"
  9. )]
  10. jar_list: String,
  11. #[arg(long, help = "Disable the crc check", action = clap::ArgAction::SetTrue)]
  12. #[arg(default_value_t = false)]
  13. disable_crc: bool,
  14. #[arg(short, long, action = clap::ArgAction::Append, help = "The exclude package prefix")]
  15. exclude: Vec<String>,
  16. }

通过zip读取jar包中的entry, 过滤只处理.class文件,并从zip_file中读取crc32的元数据,这样可以避免读取原始数据生成md5,可以大大加快处理速度。

中间编写的时候遇到了一个常见的rust borrow checker的问题。

以下代码为例

  1. fn main() {
  2. let path = "/tmp/a.jar";
  3. let jar = File::open(path).unwrap();
  4. let mut zip = ZipArchive::new(jar).unwrap();
  5. for name in zip.file_names() {
  6. let entry = zip.by_name(name);
  7. println!("name: {}, size: {}", name, entry.unwrap().size());
  8. }
  9. }

我是想通过遍历ZipArchive#file_names然后根据文件名获取ZipFile但是会有如下编译错误

  1. pub fn file_names(&self) -> impl Iterator<Item = &str> {
  2. self.shared.names_map.keys().map(|s| s.as_str())
  3. }
  1. /// Search for a file entry by name
  2. pub fn by_name<'a>(&'a mut self, name: &str) -> ZipResult<ZipFile<'a>> {
  3. Ok(self.by_name_with_optional_password(name, None)?.unwrap())
  4. }

但是用以下的方式就没有问题

  1. let path = "/tmp/a.jar";
  2. let jar = File::open(path).unwrap();
  3. let mut zip = ZipArchive::new(jar).unwrap();
  4. for i in 0..zip.len() {
  5. let entry = zip.by_index(i).unwrap();
  6. println!("name: {}, size: {}", entry.name(), entry.size());
  7. }

这里我比较奇怪的是从方法签名上看 len()file_names()都会发生immutable borrow,而后面by_indexby_name都会发生mutable borrow。为什么会一个可以通过检查,一个不行。

  1. pub fn len(&self) -> usize {
  2. self.shared.files.len()
  3. }

len函数实际的签名应该是fn len<'a>(&'a self) -> usize 返回值是usize,所以函数调用完成后就不再和借用有关了。所以 immutable borrow 就结束了。

file_names实际签名是fn file_names<'a>(&'a self) -> impl Iterator<Item = &'a str> {…}返回值的生命周期和 入参的 immutable ref周期相同,所以后续就检测出同时存在可变和不可变引用了。

详细解释: https://users.rust-lang.org/t/borrow-check-understanding/94260/2

命令行频繁被Killed问题

问题现象是当使用cargo build打包出binary后,通过cp 到 /tmp/jcd执行 会出现 Killed的情况,不是必现,但是当出现之后后续就一直会这样,百思不得其解。

  1. $ /tmp/jcd
  2. [1] 16957 killed /tmp/jcd

后通过在rust user 论坛提问找到答案,不得不说回复效率很高。

https://users.rust-lang.org/t/rust-command-line-tools-keeps-beeing-killed/94179

原因应该是和苹果电脑上的 Code sign机制有关,在苹果没有解决这个问题之前,建议通过ditto替代cp命令来copy程序。

经过检查系统日志确实有出现 Code Signature Invalid的报错

相同的Class CRC和MD5却不一样

问题是发现在集成这个工具到内部的插件框架中,集成过程中发现一个Jar包被另一个module依赖,经过shade插件打包(没有对相关class进行relocate) 后,生成的class crc32不同,被识别为会冲突的类。通过javap -v 查看两个class对比发现里面的仅仅是一些constant pool 不同。

那么怀疑就是maven-shade-plugin 做了什么操作,翻阅了下代码,查看了shade的处理流程.

看到以下这段,发现这不就是我遇到的问题么。



查阅了相应的issue: https://issues.apache.org/jira/browse/MSHADE-391

在3.3.0 才解决,而我使用的版本正好是3.2.4。升级插件重新生成校验码一致了。

解决冲突的Class

最后再回到最初的目的,当我们通过工具检测出冲突的class应该怎么解决呢。

首先我们需要判断这个class是否是运行时所需要的。

如果不是所需要的那么我们就应该直接排掉他,排除有两种手段(这里针对的是maven shade的打包方式),如果在dependency tree中可以看到相应package的依赖,那么可以直接通过如下的白名单 include 或者 exclude 掉某个 artifact。

  1. <artifactSet combine.self="override">
  2. <includes>
  3. <include>commons-dbcp:commons-dbcp</include>
  4. <include>commons-pool:commons-pool</include>
  5. <include>mysql:mysql-connector-java</include>
  6. </includes>
  7. </artifactSet>

但是不排除这个依赖包本身就是fatjar,那么直接通过这种方式就排不掉这个依赖,可以通过filters 配置文件 粒度的匹配过滤

  1. <filters>
  2. <filter>
  3. <artifact>*:*</artifact>
  4. <excludes>
  5. <exclude>META-INF/*.SF</exclude>
  6. <exclude>META-INF/*.DSA</exclude>
  7. <exclude>META-INF/*.RSA</exclude>
  8. <exclude>javax/**</exclude>
  9. <exclude>org/apache/flink/fnexecution/**</exclude>
  10. <exclde>org/slf4j/**</exclde>
  11. </excludes>
  12. </filter>
  13. </filters>

如果这个冲突的class是运行时需要的,那么可以通过relocation的方式给各自的插件包中shade成带特殊前缀的class名,解决同名冲突。

  1. <relocation>
  2. <pattern>org.apache.http</pattern>
  3. <shadedPattern>com.alipay.flink.sls.shaded.org.apache.http</shadedPattern>
  4. </relocation>

用rust 写一个jar包 class冲突检测工具的更多相关文章

  1. Maven将代码及依赖打成一个Jar包的方式

    Maven可以使用mvn package指令对项目进行打包,如果使用java -jar xxx.jar执行运行jar文件,会出现"no main manifest attribute, in ...

  2. Jmeter用BeanShell Sampler调用java写的jar包进行MD5加密

    [前言] 在工作中,有时候我们请求的参数可能需要加密,比如登录接口中的密码做了加密操作,今天我就给大家介绍一种方法:Jmeter用BeanShell Sampler调用java写的jar包进行MD5加 ...

  3. 将多个jar包重新打包成一个jar包

    我介绍的方法是使用java命令来操作的,所以首先的安装jdk,这个就自己搞定吧. 提取jar包 为了将多个jar包打包成一个jar包,首先要将每个jar包的内容提取出来放到一个文件夹下,具体的操作命令 ...

  4. 一个jar包冲突引起的StackOverflowError

    项目运行中错误信息:java.lang.IllegalStateException: Unable to complete the scan for annotations for web appli ...

  5. maven将项目及第三方jar打成一个jar包

    pom.xml中添加如下配置 把依赖包和自己项目的文件打包如同一个jar包(这种方式对spring的项目不支持) <build> <plugins> <plugin> ...

  6. maven 引用另一个jar包 需要先打包在仓库里面 并在pom里面配置 才可以引用

    maven 引用另一个jar包 需要先打包在仓库里面 并在pom里面配置 才可以引用

  7. 从零开始写一个npm包及上传

    最近刚好自己需要写公有npm包及上传,虽然百度上资料都能找到,但是都是比较零零碎碎的,个人就来整理下,如何从零开始写一个npm包及上传. 该篇文件只记录一个大概的流程,一些细节没有记录. tips:  ...

  8. 多个module实体类集合打一个jar包并上传至远程库

    本章内容主要分享多个module中的实体类集合生成到一个jar包中,并且发布到远程库:这里采用maven-assembly-plugin插件的功能来操作打包,内容不长却贴近实战切值得拥有,主要节点内容 ...

  9. 从零开始写一个npm包,一键生成react组件(偷懒==提高效率)

    前言 最近写项目开发新模块的时候,每次写新模块的时候需要创建一个组件的时候(包含组件css,index.js,组件js),就只能会拷贝其他组件修改名称 ,但是写了1-2个后发现效率太低了,而且极容易出 ...

  10. 创建Jmeter中使用的jar包中的工具类方法

    1. 在IDEA中新建一个maven工程. 2. 编写工具类方法,如加密算法.此处以加法为例. package DemoTest; public class DemoClass{ public int ...

随机推荐

  1. Linux的文件权限管理

    Linux文件权限管理介绍 一:Ubuntu 简介 1 .什么是Ubuntu Ubuntu是基于Debian开发的一个开源的Linux操作系统,Ubuntu这个名字名称来⾃⾮洲南部某种语言的一个词语, ...

  2. Linux & 标准C语言学习 <DAY8_2>

    一.函数 Function     一段具有某一项功能的代码集合,是C语言管理代码的最小单位     把代码封装成一个个函数,方便管理和调用函数     1.函数分类         标准库函数:   ...

  3. 实践解析丨如何通过 WebAssembly 在 Web 进行实时视频人像分割

    5 月 15 日,声网Agora 高级架构师高纯参加了 WebAssambly 社区举办的第一场线下活动"WebAssembly Meetup",并围绕声网Agora 在 Web ...

  4. 20个值得收藏的实用JavaScript技巧

    1.确定对象的数据类型 function myType(type) { return Object.prototype.toString.call(type).slice(8, -1); 使用Obje ...

  5. MySQL高可用架构-MMM、MHA、MGR、分库分表

    总结 MMM是是Perl语言开发的用于管理MySQL主主同步架构的工具包.主要作用:管理MySQL的主主复制拓扑,在主服务器失效时,进行主备切换和故障转移. MMM缺点:故障切换可能会丢事务(主备使用 ...

  6. style中加了scoped无法更改element ui样式解决办法

    第一种方法 原因:scoped 解决方法:去掉scoped 注意:此时该样式会污染全局样式,可以把它放在公共的css里面 为了不让所有的 el-input标签都是该样式,可以在HTML给改input加 ...

  7. react中的虚拟DOM,jsx,diff算法。让代码更高效

    在react中当你的状态发生改变时,并不是所有组件的内容销毁再重建,能复用的就复用 react 组件其实 就是按照层级划分的 找到两棵任意的树之间最小的修改是一个复杂度为 O(n^3) 的问题. 你可 ...

  8. 全网最详细中英文ChatGPT-GPT-4示例文档-智能编写Python注释文档字符串从0到1快速入门——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)

    目录 Introduce 简介 setting 设置 Prompt 提示 Sample response 回复样本 API request 接口请求 python接口请求示例 node.js接口请求示 ...

  9. 五月九号java基础知识点

    1.哈希集合元素不按顺序排序,若要排序使用LinkedHashSet类2.树集合类不仅实现Set接口,还实现java.lang.SortedSet接口来实现排序操作3.TreeSet<Strin ...

  10. 让SQL起飞(优化)

    最近博主看完了<SQL进阶教程>这本书,看完后给博主打开了SQL世界的新大门,对于 SQL 的理解不在局限于以前的常规用法.借用其他读者的评论, ❝ 读完醍醐灌顶,对SQL做到了知其然更能 ...