MySQL排序规则决定字符比较、排序等行为,与字符集绑定,影响ORDER BY等操作;如utf8mb4_general_ci不区分大小写和重音,utf8mb4_bin则严格区分。

mysql中的排序规则是什么_mysql排序规则原理解析  第1张

MySQL中的排序规则(Collation)不是指ORDER BY语法的写法,而是决定字符如何比较、排序、大小写是否敏感、重音是否忽略等行为的一套规则。它和字符集(Character Set)绑定,直接影响ORDER BYGROUP BY=LIKE等操作中字符串的处理逻辑。

排序规则决定字符串怎么比大小

比如字段值为 'apple''Apple''ápple',在不同排序规则下排序结果可能完全不同:

  • utf8mb4_general_ci:不区分大小写('Apple' = 'apple'),也忽略重音('ápple''apple'
  • utf8mb4_bin:按二进制字节逐位比较,严格区分大小写和重音,'Apple' 'apple'(因ASCII中大写A=65,小写a=97)
  • utf8mb4_0900_as_cs(MySQL 8.0+):区分大小写(case-sensitive)、不忽略重音(accent-sensitive),更符合现代Unicode标准

排序规则影响ORDER BY的实际行为

即使写了ORDER BY name ASC,最终谁排前面、谁排后面,由该列的排序规则决定:

  • name字段用的是utf8mb4_unicode_ci,则'z'会排在'Z'之后,但'Z''z'会被视为等价,排序时可能相邻出现
  • 若字段是utf8mb4_bin,则所有字符严格按编码值排序,'A'~'Z'(65–90)一定排在'a'~'z'(97–122)之前
  • 中文排序也受此影响:默认utf8mb4_general_ci对汉字按拼音首字母粗略分组,但不保证完整拼音序;真正按拼音排序需借助CONVERT(name USING gbk)或自定义函数

空值与空字符串在排序中的位置

对于非数字类型(如VARCHAR),MySQL把空字符串''当作最小值处理:

  • 升序(ASC)时,''总排最前;降序(DESC)时,总排最后
  • 多个''之间无确定顺序,按存储物理顺序返回(即插入先后)
  • NULL''更小——在ASC排序中,NULL永远在''之前;DESC中则永远在最后

排序过程背后的执行机制

当无法利用索引避免排序时,MySQL会启动内部排序流程:

  • 先分配sort_buffer_size内存空间,尝试将待排序行的排序字段+主键(或整行)载入内存
  • 若数据量小,直接在内存中快速排序;若超限,则生成多个临时排序文件,再归并(merge sort)
  • 执行计划中出现Using filesort,说明触发了该机制——这不是错误,而是提示“这里需要额外排序”
  • 可通过添加合适组合索引(如INDEX(status, amount DESC))让B+树天然有序,跳过filesort