MySQL数据类型和字符集的选择

前言

在使用MySQL的时候我们会遇到一个问题就是如何去选择合适的数据类型和字符集,选择合适的数据类型可以提供效率和节省空间,选择合适的字符集可以解决一些编码问题。

数据类型

char和varchar

都是用来存储字符串的,但是它们的检索方式不同,char属于固定长度的字符类型,而varchar属于可变长度的字符类型。

char(4)存储长度varchar(4)存储长度
‘’‘    ’4个字节‘’1个字节
‘ab’‘ab  ’4个字节‘ab’2个字节
‘abc’‘abc ’4个字节‘abc’3个字节
‘abcd’‘abcd’4个字节‘abcd’4个字节

由于char是固定长度的,所以它的处理速度比varchar快的多,但是浪费存储空间,所以对于那些长度变化不大并对查询速度有要求的数据可以考虑使用char类型来存储。

另外,随着MySQL版本的不断升级,varchar数据类型的性能也在不断改进并提高,所以实际使用中varchar被使用的更多。

text和blob

一般存储大量文本会选择text或者blob,二者区别就是blob存储的是二进制数据,而text存储的是文本数据。

blob和text在大量删除操作时会引起一些性能问题,删除操作会在数据表中留下很大的”空洞”,以后填入这些”空洞”的记录在插入的性能上会有影响,为了提高性能,建议定期使用OPTIMIZE TABLE功能对这类表进行碎片化整理。

另外可以使用合成的(Synthetic)索引来提高大文本字段的查询性能,也就是给创建一个散列值,用来对比查询。

浮点数和定点数

当一个字段被定义为浮点类型后,如果插入的数据的精度超过该列定义的实际精度,则插入值会被四舍五入到实际定义的精度值,定点数不同于浮点数的是以字符串形式表示小数,不存在四舍五入,所以定点数可以更精确的存储数据。

日期类型的选择

MySQL中的日期类型有date、time、datetime、timestamp。根据实际情况选择能够满足应用的最小存储的日期类型,如果只需要存储年份就使用year类型,而不要使用4个字节的date存储,这样可以节约存储提高操作效率。如果要记录的年月日时分秒,并且记录的年份比较久远,最好使用datetime而不要使用timestamp,因为timestamp表示的日期范围比datetime要短得多。如果记录的日期需要让不同的时区的用户使用,最好使用timestamp存储,因为日期类型中只有它能够和实际时区相对应。

字符集

查看字符集

MySQL服务可以支持多种字符集,在同一台服务器、同一个数据库甚至同一个表的不同字段都可以指定使用不同的字符集,相比oracle等其他数据库,在同一个数据库只能使用相同字符集,MySQL明显存在着更大的灵活性。

查看所有可用的字符集:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
mysql> show character set;
+----------+---------------------------------+---------------------+--------+
| Charset | Description | Default collation | Maxlen |
+----------+---------------------------------+---------------------+--------+
| big5 | Big5 Traditional Chinese | big5_chinese_ci | 2 |
| dec8 | DEC West European | dec8_swedish_ci | 1 |
| cp850 | DOS West European | cp850_general_ci | 1 |
| hp8 | HP West European | hp8_english_ci | 1 |
| koi8r | KOI8-R Relcom Russian | koi8r_general_ci | 1 |
| latin1 | cp1252 West European | latin1_swedish_ci | 1 |
| latin2 | ISO 8859-2 Central European | latin2_general_ci | 1 |
| swe7 | 7bit Swedish | swe7_swedish_ci | 1 |
| ascii | US ASCII | ascii_general_ci | 1 |
| ujis | EUC-JP Japanese | ujis_japanese_ci | 3 |
| sjis | Shift-JIS Japanese | sjis_japanese_ci | 2 |
| hebrew | ISO 8859-8 Hebrew | hebrew_general_ci | 1 |
| tis620 | TIS620 Thai | tis620_thai_ci | 1 |
| euckr | EUC-KR Korean | euckr_korean_ci | 2 |
| koi8u | KOI8-U Ukrainian | koi8u_general_ci | 1 |
| gb2312 | GB2312 Simplified Chinese | gb2312_chinese_ci | 2 |
| greek | ISO 8859-7 Greek | greek_general_ci | 1 |
| cp1250 | Windows Central European | cp1250_general_ci | 1 |
| gbk | GBK Simplified Chinese | gbk_chinese_ci | 2 |
| latin5 | ISO 8859-9 Turkish | latin5_turkish_ci | 1 |
| armscii8 | ARMSCII-8 Armenian | armscii8_general_ci | 1 |
| utf8 | UTF-8 Unicode | utf8_general_ci | 3 |
| ucs2 | UCS-2 Unicode | ucs2_general_ci | 2 |
| cp866 | DOS Russian | cp866_general_ci | 1 |
| keybcs2 | DOS Kamenicky Czech-Slovak | keybcs2_general_ci | 1 |
| macce | Mac Central European | macce_general_ci | 1 |
| macroman | Mac West European | macroman_general_ci | 1 |
| cp852 | DOS Central European | cp852_general_ci | 1 |
| latin7 | ISO 8859-13 Baltic | latin7_general_ci | 1 |
| utf8mb4 | UTF-8 Unicode | utf8mb4_general_ci | 4 |
| cp1251 | Windows Cyrillic | cp1251_general_ci | 1 |
| utf16 | UTF-16 Unicode | utf16_general_ci | 4 |
| utf16le | UTF-16LE Unicode | utf16le_general_ci | 4 |
| cp1256 | Windows Arabic | cp1256_general_ci | 1 |
| cp1257 | Windows Baltic | cp1257_general_ci | 1 |
| utf32 | UTF-32 Unicode | utf32_general_ci | 4 |
| binary | Binary pseudo charset | binary | 1 |
| geostd8 | GEOSTD8 Georgian | geostd8_general_ci | 1 |
| cp932 | SJIS for Windows Japanese | cp932_japanese_ci | 2 |
| eucjpms | UJIS for Windows Japanese | eucjpms_japanese_ci | 3 |
| gb18030 | China National Standard GB18030 | gb18030_chinese_ci | 4 |
+----------+---------------------------------+---------------------+--------+
41 rows in set (0.00 sec)

每个字符集至少对应一个校对规则,校对规则是用来定义比较字符串的方式,字符集和校对规则是一对多的关系,MySQL支持30多种字符集和70多种校对规则。

可以使用show collation like '***'命令或者通过系统表information_schema.COLLATIONS来查看相关字符集的校对规则:

1
2
3
4
5
6
7
8
mysql> show collation like 'gbk%';
+----------------+---------+----+---------+----------+---------+
| Collation | Charset | Id | Default | Compiled | Sortlen |
+----------------+---------+----+---------+----------+---------+
| gbk_chinese_ci | gbk | 28 | Yes | Yes | 1 |
| gbk_bin | gbk | 87 | | Yes | 1 |
+----------------+---------+----+---------+----------+---------+
2 rows in set (0.00 sec)

校对规则命名约定:_ci指大小写不敏感。_bin指二元,比较是基于字符编码的值而与language无关。

例如上面例子中的gbk的校对规则,其中gbk_chinese_ci是默认的校对规则,对大小写不明感,而gbk_bin按照编码值进行比较,对大小写敏感。

设置字符集

MySQL的字符集校对规则有4个级别的默认设置:服务器级别、数据库级别、表级别、字段级别。

服务器级别在服务启动的时候确定,可以在my.cnf中设置:

1
2
[mysqld]
character-set-server=gbk

或者在启动选项中指定:

1
mysqld --character-set-server=gbk

或者在编译时指定

1
shell> cmake . -DDEFAULT_CHARSET=gbk

如果没有特别的指定服务器字符集,默认使用的是latin1作为字符集,上面只是指定了字符集,而没有指定校对规则,可以使用show variables like 'character_set_server'命令查询当前服务器字符集和校对规则。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
mysql> show variables like 'character_set_server';
+----------------------+--------+
| Variable_name | Value |
+----------------------+--------+
| character_set_server | latin1 |
+----------------------+--------+
1 row in set (0.00 sec)

mysql> show variables like 'collation_server';
+------------------+-------------------+
| Variable_name | Value |
+------------------+-------------------+
| collation_server | latin1_swedish_ci |
+------------------+-------------------+
1 row in set (0.00 sec)

数据库级别可以在创建数据库的时候指定,也可以在创建完数据库后通过alter database来修改。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
mysql> show variables like 'character_set_database';
+------------------------+--------+
| Variable_name | Value |
+------------------------+--------+
| character_set_database | latin1 |
+------------------------+--------+
1 row in set (0.01 sec)

mysql> show variables like 'collation_database';
+--------------------+-------------------+
| Variable_name | Value |
+--------------------+-------------------+
| collation_database | latin1_swedish_ci |
+--------------------+-------------------+
1 row in set (0.00 sec)

表级别可以在创建表的时候指定也可以通过alter table命令来进行修改,可以使用下面命令来查看字符集:

1
2
3
4
5
6
7
mysql> show create table ai \G;
*************************** 1. row ***************************
Table: ai
Create Table: CREATE TABLE `ai` (
`i` bigint(20) NOT NULL AUTO_INCREMENT,
PRIMARY KEY (`i`)
) ENGINE=InnoDB DEFAULT CHARS

字符集修改步骤

如果在应用运行了一段时间后发现需要修改字符集,不能直接通过alter databasealter table来修改字符集,因为表中已经有了数据,这样会造成数据编码错误,所以通常需要先导出数据,调整字符集后再导入数据。

评论

Ajax Android AndroidStudio Animation Anroid Studio AppBarLayout Babel Banner Buffer Bulma ByteBuffer C++ C11 C89 C99 CDN CMYK COM1 COM2 CSS Camera Raw, 直方图 Chrome Class ContentProvider CoordinatorLayout C语言 DML DOM Dagger Dagger2 Darktable Demo Document DownloadManage ES2015 ESLint Element Error Exception Extensions File FileProvider Flow Fresco GCC Git GitHub GitLab Gradle Groovy HTML5 Handler HandlerThread Hexo Hybrid I/O IDEA IO ImageMagick IntelliJ Intellij Interpolator JCenter JNI JS Java JavaScript JsBridge Kotlin Lab Lambda Lifecycle Lint Linux Looper MQTT MVC MVP Maven MessageQueue Modbus Momentum MySQL NDK NIO NexT Next Nodejs ObjectAnimator Oracle VM Permission PhotoShop Physics Python RGB RS-232 RTU Remote-SSH Retrofit Runnable RxAndroid RxJava SE0 SSH Spring SpringBoot Statubar Style Task Theme Thread Tkinter UI UIKit UML VM virtualBox VS Code VUE ValueAnimator ViewPropertyAnimator Vue Vue.js Web Web前端 Workbench api apk bookmark by关键字 cli compileOnly computed css c语言 databases demo hexo hotfix html iOS icarus implementation init jQuery javascript launchModel logo merge methods mvp offset photos pug query rxjava2 scss servlet shell svg tkinter tomcat transition unicode utf-8 vector virtual box vscode watch webpack 七牛 下载 中介者模式 串口 临潼石榴 主题 书签 事件 享元模式 仓库 代理模式 位运算 依赖注入 修改,tables 光和色 内存 内核 内部分享 函数 函数式编程 分支 分析 创建 删除 动画 单例模式 压缩图片 发布 可空性 合并 同向性 后期 启动模式 命令 命令模式 响应式 响应式编程 图层 图床 图片压缩 图片处理 图片轮播 地球 域名 基础 增加 备忘录模式 外观模式 多线程 大爆炸 天气APP 太白山 头文件 奇点 字符串 字符集 存储引擎 宇宙 宏定义 实践 属性 属性动画 岐山擀面皮 岐山肉臊子 岐山香醋 工具 工厂模式 年终总结 开发技巧 异常 弱引用 恒星 打包 技巧 指令 指针 插件 插值 摄影 操作系统 攻略 故事 数据库 数据类型 数组 文件 新功能 旅行 旋转木马 时序图 时空 时间简史 曲线 杂谈 权限 枚举 架构 查询 标准库 标签选择器 样式 核心 框架 案例 桥接模式 检测工具 模块化 模板 模板引擎 模板方法模式 油泼辣子 泛型 洛川苹果 浅色状态栏 渲染 源码 源码分析 瀑布流 热修复 版本 版本控制 状态栏 状态模式 生活 留言板 相册 相对论 眉县猕猴桃 知识点 码云 磁盘 科学 笔记 策略模式 类图 系统,发行版, GNU 索引 组件 组合模式 绑定 结构 结构体 编码 网易云信 网格布局 网站广播 网站通知 网络 美化 联合 脚手架 膨胀的宇宙 自定义 自定义View 自定义插件 蒙版 虚拟 虚拟机 补码 补齐 表单 表达式 装饰模式 西安 观察者模式 规范 视图 视频 解耦器模式 设计 设计原则 设计模式 访问者模式 语法 责任链模式 贪吃蛇 转换 软件工程 软引用 运算符 迭代子模式 适配器模式 选择器 通信 通道 配置 链表 锐化 错误 键盘 闭包 降噪 陕西地方特产 面向对象 项目优化 项目构建 黑洞
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×