distinct
在mysql中,distinct关键字的主要作用就是对数据库表中一个或者多个字段重复的数据进行过滤,只返回其中的一条数据给用户
*distinct只可以在select中使用
distinct去重原理
distinct进行去重的主要原理是通过先对要进行去重的数据进行分组操作,然后从分组后的每组数据中取一条返回给客户端。
在这个分组的过程可能会出现两种不同的情况:
distinct 依赖的字段全部包含索引:
该情况mysql直接通过操作索引对满足条件的数据进行分组,然后从分组后的每组数据中去一条数据。
distinct 依赖的字段未全部包含索引:
该情况由于索引不能满足整个去重分组的过程,所以需要用到临时表,mysql首先需要将满足条件的数据放到临时表中,然后在临时表中对该部分数据进行分组,然后从临时表中每个分组的数据中取一条数据,在临时表中进行分组的过程中不会对数据进行排序。
distinct语法
select distinct expression[,expression…] from tables [where conditions];
distinct注意事项
1.在对字段进行去重的时候,要保证distinct在所有字段的最前面
2.如果distinct关键字后面有多个字段时,则会对多个字段进行组合去重,只有多个字段组合起来的值是相等的才会被去重
group by
groupby在Mysql8.0之前会进行隐式排序,导致触发filesort,sql执行效率低下,Mysql8.0开始,Mysql就删除了隐式排序
在Mysql8.0之前,Group by会默认根据作用字段(Groupby的后接字段)对结果进行排序。在能利用索引的情况下,Group by不需要额外进行排序操作;但当无法利用索引排序时,Mysql优化器就不得不选择通过使用临时表然后再排序的方式来实现GROUPBY了。且当结果集的大小超出系统设置临时表大小时,Mysql会将临时表数据copy到磁盘上面再进行操作,语句的执行效率会变得极低。这也是Mysql选择将此操作(隐式排序)弃用的原因。
distinct 和 group by 比较
在语义相同,有索引的情况下:
group by和distinct都能使用索引,效率相同。因为groupby和distinct近乎等价,distinct可以被看做是特殊的group by。
在语义相同,无索引的情况下:
distinct效率高于group by。
原因是distinct 和 group by都会进行分组操作,但group by在Mysql8.0之前会进行隐式排序,导致触发filesort,sql执行效率低下。
但从Mysql8.0开始,Mysql就删除了隐式排序,所以,此时在语义相同,无索引的情况下,groupby和distinct的执行效率也是近乎等价的。