C# GroupBy分组的问题和解决
起因
今天在公司做一个需求的时候,写的是面条代码,一个方法直接从头写到尾,其中用到了GroupBy
,且GroupBy
的KeySelector
是多个属性而不是单个属性。
但是公司最近推行Clean Code,要让代码有可读性。且作为一个有追求的程序员,肯定是不能写面条代码的,要对代码进行拆分。
重构前GroupBy
大概是这样子的:
var groups = data.GroupBy(m => new { m.PropertyA, m.PropertyB})
个人对于短的Linq比较习惯于用方法而不是用关键字的那种写法。
一开始这样写是没问题的,但是重构的时候问题就来了:这个groups
是什么类型?
重构以后这个groups
是要作为参数进入到别的方法中的,方法签名显然是不能用var
做类型推导,必须指定确定的类型。
我们知道GroupBy
出来的东西是个泛型的东西,签名是IEnumerable<IGrouping<TKey, TSource>>
,这个TSource
类型是没问题,我没有对Source
做修改,就是data
本身的类型。
但是这个Key
就有问题了。
我没有指定Key
的类型,这里应该是匿名类型,于是定义了一个类型承接Key
,代码变成了:
class EntityKey
{
public int PropertyA { get set; }
public string PropertyB { get set; }
}
......
var groups = data.GroupBy(m => new EntityKey { PropertyA = m.PropertyA, PropertyB = m.PropertyB});
但是后来我发现这样有问题,GroupBy
指定的Key
失效了。也就是说,groups
的分组数量与data
的长度一致,每一个group
里面只有一个对象。
分析
发现这个问题后,我仔细思考了一下,大致猜到了问题出在哪里。
GroupBy
这种东西,判断两个对象是不是一个分组,必然用到了相等判断。
虽然我没有看匿名类型反编译生成后的IL
代码,不知道之前用的是怎么做的Key相等判断,但是引用类型的肯定是直接用对象的HashCode
做判断。
这样子肯定是不行的,要解决引用类型的相等判断问题。
重现
根据猜测,我写了一个Sample程序最小化的重现了这个问题:
class Program
{
static void Main(string[] args)
{
var list = new List<Student>();
list.Add(new Student(1, "Cat", 10, "University1"));
list.Add(new Student(2, "Dog", 10, "University1"));
list.Add(new Student(3, "Pig", 10, "University2"));
list.Add(new Student(4, "Fish", 12, "University1"));
var groups = list.GroupBy(m => new {m.Age, m.Class});
foreach (var group in groups)
{
Console.WriteLine("Age:{0},Class:{1}", group.Key.Age, group.Key.Class);
foreach (var student in group)
{
Console.WriteLine(student);
}
}
}
class Student
{
public int Id { get; set; }
public string Name { get; set; }
public int Age { get; set; }
public string Class { get; set; }
public Student(int id, string name, int age, string @class)
{
Id = id;
Name = name;
Age = age;
Class = @class;
}
public override string ToString()
{
return $"Id={Id},Name={Name},Age={Age},Class={Class}";
}
}
class StudentKey
{
public int Age { get; set; }
public string Class { get; set; }
}
}
这时候输出结果是
Age:10,Class:University1
Id=1,Name=Cat,Age=10,Class=University1
Id=2,Name=Dog,Age=10,Class=University1
Age:10,Class:University2
Id=3,Name=Pig,Age=10,Class=University2
Age:12,Class:University1
Id=4,Name=Fish,Age=12,Class=University1
将new {m.Age, m.Class}
替换为new StudentKey {Age = m.Age, Class = m.Class}
,结果却变成了
Age:10,Class:University1
Id=1,Name=Cat,Age=10,Class=University1
Age:10,Class:University1
Id=2,Name=Dog,Age=10,Class=University1
Age:10,Class:University2
Id=3,Name=Pig,Age=10,Class=University2
Age:12,Class:University1
Id=4,Name=Fish,Age=12,Class=University1
Id=1
和Id=2
变成了两组。
解决问题
解决问题方式有几种。
第一种
最简单,就是直接将StudentKey
从class
变成struct
。
但是这样有个问题,class
是堆内存,struct
是栈内存。
虽然实际情况不一定会出现内存异常什么的,但是总归是改变了一些东西,存在隐患。
第二种
第一种方式被我自己否决后,于是打开了Google搜了一下,在StackOverflow和MSDN以及查看GroupBy
源码之后,得到了GroupBy
的运行原理。
GroupBy
在没有传comparer
的时候,会创建一个基于当前TSource
类型的默认的comparer
。
但不管是默认的comparer
还是我们自己传的comparer
,都会调用Equals
和GetHashCode
两个方法,所以我们需要重载这两个方法。
第二种方法就是我们在类型上重载Equals
和GetHashCode
两个方法。
可以实现IEquatable<TKey>
使用下面的代码,也可以不实现接口,使用重载的Equals
方法。
但是不论如何,一定要重载GetHashCode
。
修改后StudentKey
如下
class StudentKey : IEquatable<StudentKey>
{
public int Age { get; set; }
public string Class { get; set; }
public override int GetHashCode()
{
return Age.GetHashCode() ^ Class.GetHashCode();
}
// public override bool Equals(object obj)
// {
// var model = obj as StudentKey;
// if (model == null)
// {
// return false;
// }
//
// return model.Age == Age && model.Class == Class;
// }
public bool Equals(StudentKey other)
{
return Age == other.Age && Class == other.Class;
}
}
第三种
第三种就是传一个comparer
给GroupBy
参数,实现一个IEqualityComparer<TKey>
。
代码如下:
list.GroupBy(m => new StudentKey {Age = m.Age, Class = m.Class}, new StudentKeyComparer());
......
class StudentKeyComparer: IEqualityComparer<StudentKey>
{
public bool Equals(StudentKey x, StudentKey y)
{
return x.Age == y.Age && x.Class == y.Class;
}
public int GetHashCode(StudentKey obj)
{
return obj.Age.GetHashCode() ^ obj.Age.GetHashCode();
}
}
这种相对于第二种方式,最大的区别在于不用侵入实体类添加代码,但是原理是类似的。
总结
本文是在c#开发过程中碰到的一个GroupBy
的分组的Key
失效的问题。
了解其分组原理后,通过实现Equals
和GetHashCode
或者传入自定义的comparer
,解决GroupBy
的分组Key
失效的问题。
C# GroupBy分组的问题和解决的更多相关文章
- laravel groupby分组问题。
laravel 5.7使用groupBy分组查询时会提示一个错误,但是sql可以执行. 因为:mysql从5.7以后,默认开启了严格模式. 解决方法:将/config/database.php 中:关 ...
- c# Linq及Lamda表达式应用经验之 GroupBy 分组
示例1: GroupBy 分组在List<>泛型中的应用 原表: 按姓名Nam 分组后结果: 对DATATABLE 进行LAMDA查询时必须在项目的引用中添加 System.Data.Da ...
- pandas获取groupby分组里最大值所在的行,获取第一个等操作
pandas获取groupby分组里最大值所在的行 10/May 2016 python pandas pandas获取groupby分组里最大值所在的行 如下面这个DataFrame,按照Mt分组, ...
- itertools.groupby()分组字典列表
## itertools.groupby()分组字典列表数据 from operator import itemgetter from itertools import groupby student ...
- (转)c# Linq及Lamda表达式应用经验之 GroupBy 分组
本文转载自:http://www.cnblogs.com/han1982/p/4138163.html 示例1: GroupBy 分组在List<>泛型中的应用 原表: 按姓名Nam 分组 ...
- C# Linq及Lamda表达式实战应用之 GroupBy 分组统计
在项目中做统计图表的时候,需要对查询出来的列表数据进行分组统计,首先想到的是避免频繁去操作数据库可以使用 Linq eg: //例如对列表中的Cu元素进行按年GroupBy分组统计 //包含年份,平均 ...
- pandas之groupby分组与pivot_table透视表
zhuanzi: https://blog.csdn.net/qq_33689414/article/details/78973267 pandas之groupby分组与pivot_table透视表 ...
- Sql语句groupBY分组后取最新一条记录的SQL
一.问题 groupBY分组后取最新一条记录的SQL的解决方案. 二.解决方案 select Message,EventTime from PT_ChildSysAlarms as a where E ...
- Python中itertools.groupby分组的使用
Python中itertools.groupby分组的使用 有时候我们需要给一个列表按照某个属性分组,可以借助groupby来实现. 比如:一下列表我想以严重程度给它分组,并求出每组的元素个数. fr ...
随机推荐
- SSM商城项目(七)
1. 学习计划 1.Solr服务搭建 2.Solrj使用测试 3.把数据库中的数据导入索引库 4.搜索功能的实现 2. Solr服务搭建 2.1. Solr的环境 Solr是java开发. 需 ...
- intellij idea 配置gitlab ssh key
1 安装git,登录官网https://www.git-scm.com/download/ ,选择相应系统版本,下载后安装好. 公司网慢的可以用第三方的软件管家下载. 2 打开git bash,不需要 ...
- 服务器解析慢,可以安装nscd解决
针对服务器解析慢,可以在服务器上安装nscd,就可以把解析缓存起来,不用每次都解析 安装nscd: yum -y install nscd chkconfig nscd on service nscd ...
- 解题(GeLeiMa -生成格雷码)
题目描述 在一组数的编码中,若任意两个相邻的代码只有一位二进制数不同, 则称这种编码为格雷码(Gray Code),请编写一个函数,使用递归的方法生成N位的格雷码. 给定一个整数n,请返回n位的格雷码 ...
- mysql学习笔记--表操作
一.显示所有表 1. 语法:show tables; 二.创建表 1. 语法:create table [if not exists] 表名( 字段名 数据类型 [null | not null] ...
- 自定义RPC框架--基于JAVA实现
视频教程地址 DT课堂(原名颜群) 整体思路RPC(Remote Procedure Call),即远程过程调用.使用RPC,可以像使用本地的程序一样使用远程计算机上的程序.RPC使得开发分布式程序更 ...
- linux rescue 修复引导 与linux下修复windows引导
在windows有引导的情况下修复linux引导 插入U盘启动 进入rescue模式 fdisk -l 查看分区情况 chroot /mnt/sysimage/ 进入系统 grub-install / ...
- java多线程系列17 ThreadLocal
ThreadLocal 叫做 线程局部变量 在详细解释之前 先看一段代码 public class ThreadLocalTest { private static ThreadLocal<In ...
- 走进JDK(六)------ArrayList
对于广大java程序员来说,ArrayList的使用是非常广泛的,但是发现很多工作了好几年的程序员不知道底层是啥...这我觉得对于以后的发展是非常不利的,因为java中的每种数据结构的设计都是非常完善 ...
- c语言模拟c++的继承和多态
//C++中的继承与多态 struct A { virtual void fun() //C++中的多态:通过虚函数实现 { cout << "A:fun()" < ...