一、犯错经历

1.1 故事背景

最近有个需求大致的背景类似:

我已经通过一系列的操作拿到一批学生的考试成绩数据,现在需要筛选成绩大于 95 分的学生名单。

善于写 bug 的我,三下五除二完成了代码的编写:

  1. @Test
  2. public void shouldCompile() {
  3. for (int i = 0; i < studentDomains.size(); i++) {
  4. if (studentDomains.get(i).getScore() < 95.0) {
  5. studentDomains.remove(studentDomains.get(i));
  6. }
  7. }
  8. System.out.println(studentDomains);
  9. }

测试数据中四个学生,成功筛选出了两个 95 分以上的学生,测试成功,打卡下班。

  1. [StudentDomain{id=1, name='李四', subject='科学', score=95.0, classNum='一班'}, StudentDomain{id=1, name='王六', subject='科学', score=100.0, classNum='一班'}]

1.2 貌似,下不了班!

从业 X 年的直觉告诉我,事情没这么简单。

但是自测明明没问题,难道写法有问题?那我换个写法(增强的 for 循环):

  1. @Test
  2. public void commonError() {
  3. for (StudentDomain student : studentDomains) {
  4. if (student.getScore() < 95.0) {
  5. studentDomains.remove(student);
  6. }
  7. }
  8. System.out.println(studentDomains);
  9. }

好家伙,这一试不得了,直接报错:ConcurrentModificationException

  • 普通 for 循环“没问题”,增强 for 循环有问题,难道是【增强 for 循环】的问题?

1.3 普通 for 循环真没问题吗?

为了判断普通 for 循环是否有问题,我将原代码加了执行次数的打印:

  1. @Test
  2. public void shouldCompile() {
  3. System.out.println("studentDomains.size():" + studentDomains.size());
  4. int index = 0;
  5. for (int i = 0; i < studentDomains.size(); i++) {
  6. index ++;
  7. if (studentDomains.get(i).getScore() < 95.0) {
  8. studentDomains.remove(studentDomains.get(i));
  9. }
  10. }
  11. System.out.println(studentDomains);
  12. System.out.println("执行次数:" + index);
  13. }

这一加不得了,我的 studentDomains.size() 明明等于 4,怎么循环体内只执行了 2 次。

更巧合的是:执行的两次循环的数据,刚好都符合我的筛选条件,故会让我错以为【需求已完成】。

二、问题剖析

一个个分析,我们先看为什么普通 for 循环比我们预计的执行次数要少。

2.1 普通 for 循环次数减少

这个原因其实稍微有点儿开发经验的人应该都知道:在循环中删除元素后,List 的索引会自动变化,List.size() 获取到的 List 长度也会实时更新,所以会造成漏掉被删除元素后一个索引的元素。

比如:循环到第 1 个元素时你把它删了,那么第二次循环本应访问第 2 个元素,但这时实际上访问到的是原来 List 的第 3 个元素,因为第 1 个元素被删除了,原来的第 3 个元素变成了现在的第 2 个元素,这就造成了元素的遗漏。

2.2 增强 for 循环抛错

  • 我们先看 JDK 源码中 ArrayListremove() 源码是怎么实现的:
  1. public boolean remove(Object o) {
  2. if (o == null) {
  3. for (int index = 0; index < size; index++)
  4. if (elementData[index] == null) {
  5. fastRemove(index);
  6. return true;
  7. }
  8. } else {
  9. for (int index = 0; index < size; index++)
  10. if (o.equals(elementData[index])) {
  11. fastRemove(index);
  12. return true;
  13. }
  14. }
  15. return false;
  16. }

只要不为空,程序的执行路径会走到 else 路径下,最终调用 fastRemove() 方法:

  1. private void fastRemove(int index) {
  2. modCount++;
  3. int numMoved = size - index - 1;
  4. if (numMoved > 0)
  5. System.arraycopy(elementData, index+1, elementData, index, numMoved);
  6. elementData[--size] = null;
  7. }

fastRemove() 方法中,看到第 2 行【把 modCount 变量的值加 1】。

  • 增强 for 循环实际执行

通过编译代码可以看到:增强 for 循环在实际执行时,其实使用的是Iterator,使用的核心方法是 hasnext()next()

next() 方法调用了 checkForComodification()

  1. final void checkForComodification() {
  2. if (modCount != expectedModCount)
  3. throw new ConcurrentModificationException();
  4. }

看到 throw new ConcurrentModificationException() 那么就可以结案了:

因为上面的 remove() 方法修改了 modCount 的值,所以这里肯定会抛出异常。

三、正确方式

既然知道了普通 for 循环和增强 for 循环都不能用的原因,那么我们先从这两个地方入手。

3.1 优化普通 for 循环

我们知道使用普通 for 循环有问题的原因是因为数组坐标发生了变化,而我们仍使用原坐标进行操作。

  • 移除元素的同时,变更坐标。
  1. @Test
  2. public void forModifyIndex() {
  3. for (int i = 0; i < studentDomains.size(); i++) {
  4. StudentDomain item = studentDomains.get(i);
  5. if (item.getScore() < 95.0) {
  6. studentDomains.remove(i);
  7. // 关键是这里:移除元素同时变更坐标
  8. i = i - 1;
  9. }
  10. }
  11. System.out.println(studentDomains);
  12. }
  • 倒序遍历

采用倒序的方式可以不用变更坐标,因为:后一个元素被移除的话,前一个元素的坐标是不受影响的,不会导致跳过某个元素。

  1. @Test
  2. public void forOptimization() {
  3. List<StudentDomain> studentDomains = genData();
  4. for (int i = studentDomains.size() - 1; i >= 0; i--) {
  5. StudentDomain item = studentDomains.get(i);
  6. if (item.getScore() < 95.0) {
  7. studentDomains.remove(i);
  8. }
  9. }
  10. System.out.println(studentDomains);
  11. }

3.2 使用 Iterator 的 remove()

  1. @Test
  2. public void iteratorRemove() {
  3. Iterator<StudentDomain> iterator = studentDomains.iterator();
  4. while (iterator.hasNext()) {
  5. StudentDomain student = iterator.next();
  6. if (student.getScore() < 95.0) {
  7. iterator.remove();
  8. }
  9. }
  10. System.out.println(studentDomains);
  11. }

你肯定有疑问,为什么迭代器的 remove() 方法就可以呢,同样的,我们来看看源码:

  1. public void remove() {
  2. if (lastRet < 0)
  3. throw new IllegalStateException();
  4. checkForComodification();
  5. try {
  6. ArrayList.this.remove(lastRet);
  7. cursor = lastRet;
  8. lastRet = -1;
  9. expectedModCount = modCount;
  10. } catch (IndexOutOfBoundsException ex) {
  11. throw new ConcurrentModificationException();
  12. }
  13. }

我们可以看到:每次执行 remove() 方法的时候,都会将 modCount 的值赋值给 expectedModCount,这样 2 个变量就相等了。

3.3 Stream 的 filter()

了解 Stream 的童鞋应该都能想到该方法,这里就不过多赘述了。

  1. @Test
  2. public void streamFilter() {
  3. List<StudentDomain> studentDomains = genData();
  4. studentDomains = studentDomains.stream().filter(student -> student.getScore() >= 95.0).collect(Collectors.toList());
  5. System.out.println(studentDomains);
  6. }

3.4 Collection.removeIf()【推荐】

JDK1.8 中,Collection 以及其子类新加入了 removeIf() 方法,作用是按照一定规则过滤集合中的元素。

  1. @Test
  2. public void removeIf() {
  3. List<StudentDomain> studentDomains = genData();
  4. studentDomains.removeIf(student -> student.getScore() < 95.0);
  5. System.out.println(studentDomains);
  6. }

看下 removeIf() 方法的源码,会发现其实底层也是用的 Iteratorremove() 方法:

  1. default boolean removeIf(Predicate<? super E> filter) {
  2. Objects.requireNonNull(filter);
  3. boolean removed = false;
  4. final Iterator<E> each = iterator();
  5. while (each.hasNext()) {
  6. if (filter.test(each.next())) {
  7. each.remove();
  8. removed = true;
  9. }
  10. }
  11. return removed;
  12. }

四、总结

详细认真的看完本文的话,最大感悟应该是:还是源码靠谱!

4.1 啰嗦几句

其实在刚从事 Java 开发的时候,这个问题就困扰过我,当时只想着解决问题,所以采用了很笨的方式:

新建一个新的 List,遍历老的 List ,将满足条件的元素放到新的元素中,这样的话,最后也完成了当时的任务。

现在想一想,几年前,如果就像现在一样,抽空好好想想为什么不能直接 remove() ,多问几个为什么,估计自己会比现在优秀很多吧。

当然,只要意识到这个,什么时候都不算晚,共勉!

4.2 文中代码示例

Github/vanDusty

【代码优化】List.remove() 剖析的更多相关文章

  1. 系统级性能分析工具perf的介绍与使用

    测试环境:Ubuntu16.04(在VMWare虚拟机使用perf top存在无法显示问题) Kernel:3.13.0-32 系统级性能优化通常包括两个阶段:性能剖析(performance pro ...

  2. 系统级性能分析工具perf的介绍与使用[转]

    测试环境:Ubuntu16.04(在VMWare虚拟机使用perf top存在无法显示问题) Kernel:3.13.0-32 系统级性能优化通常包括两个阶段:性能剖析(performance pro ...

  3. jQuery之Deferred源码剖析

    一.前言 大约在夏季,我们谈过ES6的Promise(详见here),其实在ES6前jQuery早就有了Promise,也就是我们所知道的Deferred对象,宗旨当然也和ES6的Promise一样, ...

  4. 计算机程序的思维逻辑 (51) - 剖析EnumSet

    上节介绍了EnumMap,本节介绍同样针对枚举类型的Set接口的实现类EnumSet.与EnumMap类似,之所以会有一个专门的针对枚举类型的实现类,主要是因为它可以非常高效的实现Set接口. 之前介 ...

  5. MapReduce剖析笔记之二:Job提交的过程

    上一节以WordCount分析了MapReduce的基本执行流程,但并没有从框架上进行分析,这一部分工作在后续慢慢补充.这一节,先剖析一下作业提交过程. 在分析之前,我们先进行一下粗略的思考,如果要我 ...

  6. Java代码优化(长期更新)

    前言 2016年3月修改,结合自己的工作和平时学习的体验重新谈一下为什么要进行代码优化.在修改之前,我的说法是这样的: 就像鲸鱼吃虾米一样,也许吃一个两个虾米对于鲸鱼来说作用不大,但是吃的虾米多了,鲸 ...

  7. Java 中Iterator 、Vector、ArrayList、List 使用深入剖析

    标签:Iterator Java List ArrayList Vector 线性表,链表,哈希表是常用的数据结构,在进行Java开发时,JDK已经为我们提供了一系列相应的类来实现基本的数据结构.这些 ...

  8. 深入剖析ConcurrentHashMap(2)

    转载自并发编程网 – ifeve.com本文链接地址: 深入剖析ConcurrentHashMap(2) 经过之前的铺垫,现在可以进入正题了.我们关注的操作有:get,put,remove 这3个操作 ...

  9. 深入剖析ConcurrentHashMap(1)

    转载自并发编程网 – ifeve.com本文链接地址: 深入剖析ConcurrentHashMap(1) ConcurrentHashMap是Java5中新增加的一个线程安全的Map集合,可以用来替代 ...

随机推荐

  1. Elasticsearch写入数据的过程是什么样的?以及是如何快速更新索引数据的?

    前言 最近面试过程中遇到问Elasticsearch的问题不少,这次总结一下,然后顺便也了解一下Elasticsearch内部是一个什么样的结构,毕竟总不能就只了解个倒排索引吧.本文标题就是我遇到过的 ...

  2. Unity Ioc 类型初始值设定项引发异常,The type name or alias SqlServer could not be resolved. Please check your configuration file and verify this type name.

    先看一下unity的配置信息 <unity> <typeAliases> <typeAlias alias="IDatabase" type=&quo ...

  3. [cf1479D]Odd Mineral Resource

    先考虑判定是否有解,注意到无解即每一个数都出现偶数次,根据异或的性质,只需要随机$V_{i}$,假设$u$到$v$路径上所有节点构成集合$S$,若$\bigoplus_{x\in S,l\le a_{ ...

  4. 高并发异步解耦利器:RocketMQ究竟强在哪里?

    上篇文章消息队列那么多,为什么建议深入了解下RabbitMQ?我们讲到了消息队列的发展史: 并且详细介绍了RabbitMQ,其功能也是挺强大的,那么,为啥又要搞一个RocketMQ出来呢?是重复造轮子 ...

  5. Java8-JVM内存区域划分白话解读

    前言 java作为一款能够自动管理内存的语言,与传统的c/c++语言相比有着自己独特的优势.虽然我们无需去管理内存,但为了防范可能发生的异常,我们需要对java内部数据如何存储有一定了解,已应对突发问 ...

  6. 重新整理 .net core 实践篇——— 权限中间件源码阅读[四十六]

    前言 前面介绍了认证中间件,下面看一下授权中间件. 正文 app.UseAuthorization(); 授权中间件是这个,前面我们提及到认证中间件并不会让整个中间件停止. 认证中间件就两个作用,我们 ...

  7. while,do...while及for三种循环结构

    循环结构 while循环 while (布尔表达式) { //循环内容 } 只要布尔表达式为true循环就会一直执行 我们大多数情况会让循环停止下来,需要一个让表达式失效的方式来停止循环 while循 ...

  8. 【Perl示例】整合多个文件

    这个需求是在生信分析中几乎天天用到,各种语言都能实现,也都各有特点.这次以perl为例. 已知 文件CT-VS-CON.All.xls为全部蛋白表达矩阵及其差异分析结果. 文件Homo_sapiens ...

  9. [linux] rm -rf删除软链接无权限?

    一个很简单的命令,使用频率非常高,但一没注意就会失策. 我将别人盘下的list目录软连接到自己盘中,想要删除时: rm -rf list/ #输入时自然地用tab键补全 结果: 试了多次也删除不了,最 ...

  10. NFS FTP SAMBA的区别

    Samba服务 samba是一个网络服务器,用于Linux和Windows之间共享文件. samba端口号 samba (启动时会预设多个端口) 数据传输的TCP端口 139.445 进行NetBIO ...