MySQL学习笔记 04、MySQL进阶(索引、事务、锁)
@[toc]
前言
本篇博客是MySQL的学习笔记,若文章中出现相关问题,请指出!
所有博客文件目录索引:博客目录索引(持续更新)
一、MySQL的目录结构
1.1、认识目录文件
手动安装mysql版
整体的目录结构:
- bin目录:用于放置一些可执行文件,如mysql.exe、mysqld.exe、mysqlshow.exe等。
- data目录: 用于放置一些日志文件以及数据库。
- docs目录:文档。
- include目录:用于放置一些头文件,如:mysql.h、mysql_ername.h等。
- lib目录:用于放置一系列库文件。
- share目录: 用于存放字符集、语言等信息。
数据文件目录:
- data目录:存储数据库文件及表内容。
my.ini
:配置文件,用于修改一些mysql的配置,如端口号,数据库连接池等。
1.2、配置文件设置
配置文件中详细信息见:mysql目录结构及配置文件
windows平台下设置
一般在C:\ProgramData\MySQL\MySQL Server 5.7
目录下的my.ini
,直接更改其中配置后重启服务器即可生效。
linux环境下设置
①Linux
查看mysql
数据库服务器的bin
工具:①cd /usr/bin
②ls | grep mysql
②配置文件my.cnf
存放在哪里?
查看修改配置文件my.cnf
:①cd /etc/ ②vim my.cnf
- 其中包含了datadir(数据库中数据目录的位置),pid-file为存放mysql运行的进程pid号文件通过使用cat命令即可查看进程号。获取到进程号之后可使用
kill pid
来关闭数据库。
两种修改配置文件方式:
-
修改配置文件并重启服务器(对上线项目不推荐使用):
vim
打开/etc/
目录下的my.cnf
配置文件,修改设置之后,使用systemctl restart mysqld
命令重启数据库。(针对于配置文件,永久改变) -
设置全局变量方式(推荐),必须指定"GLOBAL"或者"@@global",同时必须要有super权限。(针对于内存加载的数据库配置,所有连接到服务器的用户都会使用该全局变量配置,重启之后就会不生效)
-
-- 设置全局变量(两种形式),需要进入到mysql环境命令行中 mysql> select global wait_timeout=10; mysql> select @@global.wait_timeout=10; -- 查看全局变量是否设置成功(两种方式) mysql> select @@global.wait_timeout mysql> show global variables like 'wait_timeout'
-
说明:使用这种方式的话,能够在不重启数据库前提下使用修改后的配置,不会造成生产环境出现问题,不过需要记得同时修改一下配置文件中对应配置信息,以防下次重启服务器会不生效。
-
-
设置会话变量方式:通过使用@@、@@session、@@local来进行设置。(针对于内存加载的数据库配置,只针对本次连接会话)
-
-- 设置会话变量(三种方式) mysql> select @@wait_timeout=10; mysql> select @@session.wait_timeout=10; mysql> select @@local.wait_timeout=10; -- 查看会话设置变量是否成功 mysql> show variables like 'wait_timeout'; mysql> show local variables like 'wait_timeout'; mysql> show session variables like 'wait_timeout';
-
说明:这种方式只对本次连接会话有效,换一个连接就不生效了!
-
二、MySQL的系统架构
2.1、MySQL系统的逻辑架构:
2.2、MySQL系统架构(包含每个部分介绍)
-
①
Connectors
(Mysql向外提供的交互接口):连接器组件,是Mysql服务器向外提供的交互组件,上面也列举了多种语言来通过该组件操作sql语句,实现与mysql服务器进行交互。 -
②
Management Service & Utilities
(管理组件与工具组件):提供对Mysql的集成管理,如备份(Backup)、恢复(Recovery)、安全管理(Security)等。 -
③
Connection Pool
(连接池组件):负责监听客户端向mysql服务端发送的请求,接收请求,转发请求到目标模块,每个成功连接到Mysql服务器的客户请求都会被创建或分配一个线程,该线程负责客户端与Mysql服务器的通信,如接收客户端的命令,传递服务端的执行命令的结果信息等。连接池
:若是没有连接池的话,来一个请求就要开启一个端口分配一个线程这样的话就会十分的浪费资源,通过使用连接池能够更好的管理连接,提供资源利用率。保证总连接数不超出预计数量的连接,更好的进行管理。
-
④
SQL interface
(SQL接口组件):接收用户SQL命令,如DML、DDL和存储过程等,并将最终结果返回给用户。 -
⑤
Parser
(查询分析器组件):首先分析SQL命令语法的合法性,并尝试将SQL命令分解为数据结构,若分解失败,则提示SQL语句不合理。 -
⑥
Optimizer
(优化器组件):对SQL命令按照标准流程进行优化分析,那么就不是按照你写的sql语句从上至下执行了,根据对应优化策略来执行。(与cpu的指令重排都有相似的目的) -
⑦
Caches & Buffers
(缓存组件):缓存与缓冲组件。- 缓冲组件:将多条sql先放置在缓冲中,之后再统一提交执行。Mysql8把缓冲给自动关闭了。
- 缓存:将一些sql语句及对应的查询结果(key、value形式)通过缓存形式保存到内存中,若是下次过来一条查询语句与缓存中sql语句一直,那么直接将查询结果返回。
-
⑧
Pluggable Storage Engines
(可插拔存储引擎,mysql的存储引擎):如上图所示,包含多种类型的存储引擎,其各自都有优缺点,现在大多使用MyISAM
以及InnDB
,一般公司都使用InnDB
,大公司的话考虑不同场景会选择MyISAM
引擎。- 用途:存储引擎与文件系统打交道,存储引擎帮助我们去拿数据,存储数据也是存储引擎帮我们做,存储到文件系统。
-
⑨
File System
(文件系统):NTFS
(New Technology File System,日志文件系统,最早是windows NT内核支持的,是一种磁盘格式)-NFS
(Network File System,网络文件系统,能使使用者访问网络上别处的文件就像在使用自己的计算机一样);SAN
(Storage Area Network,存储区域网络,是一种专为存储网络建立的TCP/IP之外的专用网络)-NAS
(Network Attached Storage,网络附属存储)
-
⑩
Files & Logs
:文件与日志。
2.3、MySQL的查询过程
查询过程图如下:
- 首先客户端发送一条SQL给服务器。
- 服务器会先检查查询缓存,如果命中了缓存,则直接返回存储在缓存中的结果(到此直接结束);若是没有命中进入下一阶段。
- 服务器端进行SQL解析、预处理,再由优化器生成对应的执行计划。
- MySQL根据优化器生成的执行计划,调用存储引擎的API来执行查询。
- 将查询结果返回给客户端。
对于其中每个步骤详细内容见:MySQL查询执行过程
三、学习I/O原理以及数据库选型
3.1、学习计算机硬盘原理
认识硬盘与磁盘的区别:
- 硬盘能够持久保存数据,但是执行效率慢;内存速度快,必须在有电情况下载才能存储数据,一旦掉电数据都会丢失。
为什么内存读的快,硬盘读得慢?
- 内存通过
地址
来读取数据,是随机读取;硬盘的话是将数据烧在盘片上,读取数据需要磁头从外向内读取
(寻道)。一个是通过电来读取,一个是通过机械来读取,自然而然就是内存读的更快。 - 固态硬盘比一般的硬盘(机械硬盘)读取快。但是比内存慢。CPU速度比内存更快。CPU>内存>硬盘(固态硬盘>机械硬盘)
相关知识:
- 硬盘相关的名词:盘片、片面、磁头;扇区和磁道;磁头与柱面。
- 磁盘的存储容量=磁头数x每道扇区数x每扇区字节数。
- 读写一次磁盘信息所需要的时间:寻道时间,延迟时间,传输时间。
- 操作系统经常与内存、硬盘进行通信。操作系统通信内存以
页
来作为最小单位,通信硬盘以块
为最小单位(认为好几个扇区)。扇区
:硬盘的最小读取单元。块/簇
:操作系统针对硬盘读写的最小单元。page
:内存与操作系统之间操作的最小单元。- 扇区<=块/簇<=page
知识点详细讲解见:IT楠老师—磁盘概念
重要知识点
计算机读取磁盘数据流程:当需要从磁盘读取数据时,系统会将数据地址传给磁盘,即确定要读的数据在哪个磁道,哪个扇区。为了读取这个扇区的数据,需要将磁头放到这个扇区上面(需要有一个操作过程—磁头需要移动对准相应磁道,这个过程叫做寻道
,所耗费的时间叫做寻道时间
),接着磁盘旋转将目标扇区转到磁头下,这个过程耗费的时间叫做旋转时间
。
IO操作
即指的是外存操作,输入输出操作。
局部性原理与磁盘预读:
局部性原理
:由于存储介质的特性,磁盘本身存取就比主存慢很多,加上机械运动耗费,磁盘的存取速度往往是主存的的十万分之一,因此为了提高效率,要尽量减少磁盘I/O(局部性原理目的)。为了达到该目的,硬盘往往不是严格按需读取,而是每次都会预读,比如本来只需要1个字节的数据,磁盘也会从该位置开始,顺序再依次向后读取一定长度的数据放入内存,因为科学认为既然你需要这部分位置的1个字节,那么后面连续的位置你在之后极有可能会再次访问,所以会直接多读取一部分到内存中,这就是计算机科学中著名的局部性原理
。预读
:即践行局部性原理,在读取定长的数据时多读取一部分连续的值,这样下次若是需要该连续的字段就不需要再进行一次I/O操作,提升了性能!- 预读的长度一般为
页
(page)的整倍数。页是计算机管理存储器的逻辑块,硬件及操作系统往往将主存和磁盘存储区分割为连续的大小相等的块,每个存储块称为页(大多操作系统中,页大小为4KB=2^12^),磁盘与主存以页为单位交换数据。 - 当程序要读取的数据不在主存中,会触发一个缺页异常,接着系统会向磁盘发出读盘信号,磁盘会找到数据的起始位置并向后连续读取一页或几页载入内存中,接着异常返回,程序继续执行。
- 预读的长度一般为
各个硬件延迟对比:
L1 cache
:高速缓存,Main memory
:主存(内存条),disk seek
:磁盘。可以看到磁盘的延迟最大!
3.2、Mysql数据库的数据结构选型
为什么选择B树数据结构?
数组
:使用该数据结构对于插入数据的话,插入位置后的数据都需要往后移动。
链表
:对于查询的话需要全表遍历,时间复杂度为log(n)
hash
:类似于hashmap
,其速度很快,但是只要是哈希就会有无序的问题,像数据库中就有order by(排序)操作,所以该种数据结构只能说不常用但也有。
树
:对于为什么不使用上面的数据结构都进行了说明,看来看去觉得树结构更加合理。
二叉查找树
:在查找一个数据时,二叉树是从根节点开始读起,若是查找数比当前节点小的话从左找,大则右找,每次读取一个数据,没有办法合理的利用局部性原理与磁盘预读,I/O次数太多太多,还有就是树的层次还是比较高,所以并不适合。- 查询时间复杂度为log~2~n(数据量越大,性能越高),对于1024条数据,依旧要查找10次才能找到。(2^n^=1024,n=10),I/O次数还是比较多。
B-树
与B+
树:既然二叉查找也不太适合了,我们看向B树,每次读多个数据,每一个节点存多个数据的结构(减少I/O)就只有B-
树和B+
树。
说明:上面对于不同数据结构进行了分析,并且说明了不适合数据库进行读取,插入的缘由,最终确定来使用B树这种数据类型结构,因为其每个节点存多个数据,在二叉查找树之上减少了I/O次数,提升了性能,下面来看一下B+
树与B-
树。
B-树
B-树就是B树,其中的-并不是减号意思。B-树与B树都是B-tree 的翻译,两者是同一种数。
五分钟搞懂什么是B-树(全程图解) : 浅显易懂,讲解了在数据库中使用B-树的查询。
B-树(或称B树):类似普通的平衡树,B-树是一种平衡多路查找树。
为什么相对于二叉搜索树会更选择B-树?
- 其实B树在查询中的比较次数其实不比二叉查找树少,尤其是当单一节点中的元素数量很多时,可是相比磁盘IO的速度,在内存中的比较耗时几乎不计,所以只要树的高度足够低,IO次数足够少,就可以提升查找性能。
下面是B-数的简化图:二阶B-树为例(二阶的话,若是添加数据不会产生新阶,而是一直在第二层中扩展增加节点)
上面的B-树就是我们所说的索引,索引一般存储在磁盘中以如上的形式存储。内存每次读取磁盘时读取页的整数倍,一般每次读取一个节点,一个节点如下:
B-
树的特点:
- 所有键值分布在整棵树中。
- 任何一个关键字出现且只出现在一个结点中。
- 搜索有可能在非叶子节点中结束。
- 在关键字全集内做一次查找性能逼近二分查找。
注意(重点):看图根节点
不仅存放了节点(如主键id)还存放了对应数据信息。
B+树(InnoDB与MyISAM底层使用)
B+
树:是B-树的变体,也是一种多路搜索树。
B+树简化图如下:二阶B+树
上图B+
树与之前B-
树示例的两点不同之处。
- 非叶子节点并不存储真正的data(数据)如图根节点,所有的关键字存储在叶子节点出现。
- 所有的叶子节点增加了一个链指针(实质就是一个链表)。
举两个例子来说明吧:首先需要知道在Mysql数据库中的InnoDB
存储引擎中的B+树既存储了索引又存储了所有的数据,MyISAM
中的B+树只存储了索引的key值地址,实际的数据另外存储。推荐阅读1:MySQL中MyISAM与InnoDB底层使用的数据结构 、推荐阅读2——MySQL存储引擎MyISAM和InnoDB底层索引结构
- 例子1(索引查询):通过主键id来查询数据,由于主键是索引,所以在进行I/O操作时是从根节点开始读取对应的索引id,从上至下能够很快找到对应的数据,如我要查询id为71的,只需要两次I/O操作即可找到该数据位置(如上图)!
- 例子2(非索引查询):通过一个字段名来查找,由于该字段名没有索引,并且在B+树中除了叶子节点其他都是只存储索引的,那么对于该字段名查找就会从最底层的叶子节点进行一个个查询,就是相当于链表的整体遍历查询(从前到后),可想而知速度有多慢。
实践(感受索引的力量)
准备工作
目的描述:首先我们需要准备一个500000条数据的表格,确保每条记录中的一个字段不同方便后面测试!
-- ①选择test数据库(没有就新建一个,编码格式为:utf8,排序规则:utf8_general_ci)
use test;
-- ②创建一个student表
DROP TABLE IF EXISTS `student`;
CREATE TABLE `student` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
`sex` char(1) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
`education` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
`randnum` char(32) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
PRIMARY KEY (`id`) USING BTREE
) ENGINE = InnoDB AUTO_INCREMENT = 5052348 CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;
-- ③定义函数过程:插入5000000(五百万)条数据
CREATE DEFINER=`root`@`localhost` PROCEDURE `insertRecords`()
BEGIN
DECLARE c int DEFAULT 0; -- 声明c默认为0,int类型
WHILE c < 5000000 DO -- 循环10次
INSERT into student(`name`,sex,education,randnum) VALUES("小王",'男',"苏州市职业大学",REPLACE(UUID(),'-','')); -- 其中randnum使用uuid()生成
set c = c+1;
END WHILE;
END
此时数据库、表以及函数过程创建好了,接下来调用函数过程来插入五百万条数据:
-- 执行插入语句
CALL insertRecords()
- 插入时间大概有5-6小时,占据磁盘400MB容量。
开始测试
①简单查询有索引与无索引的字段:可看到id是主键,默认带有索引
查询带有索引的主键id:SELECT * from student where id = 5000000;
查询没有带索引的randnum(也就是第5000000条):
②接下来我们设置randnum为索引再次查询测试一下
设置索引内容如下:
- 设置好索引之后,我们可以看到索引长度一下子增长了237MB:
我去设置个索引字段占我磁盘这么大!!!赶紧看看有没有给我增加性能了,再测试一下:
好家伙好家伙没让我失望,这速度快了106倍,这查询速度舒服了!!!
说明:通过本次实践体会到了建立索引带来的好处,不过随之带来的就是磁盘资源的大量占用,有利也有弊,以空间换时间。
3.3、为什么使用B+树
再次看下B+树:
- 对于非叶子节点不存储数据,那么每个节点就能够存储更多的索引id,每个节点的范围更大更精确,这样的话I/O效率更高(减少IO)。
- MySQL是一种关系型数据库,区间访问是常见的一种情况(如区间查找),在B+树叶子节点中增加了链指针,加强了区间的访问性!
四、MySQL索引
4.1、索引的基本知识
【MySql数据库】索引相关知识总结 :可查看。
索引是什么?
- 可以给表中的字段设置索引,设置索引之后会对该字段进行B+树形式(或hash)的字段排序,提高了查询的速度。
- 索引具有两种类型:B树索引(
BTREE
)与哈希索引(HASH
)。InnoDB
和MyISAM
存储引擎支持BTREE
索引,不支持HASH
索引(一般使用这两种引擎)。MEMORY
存储引擎支持BTREE
和HASH
索引。
为什么使用索引?
- MySQL的数据都是存在磁盘上的,若是只是按照普通方式存储(非树结构)那么查询一条记录会相对来说会很慢,建立索引的数据表在存储时使用B+树结构,这样就能够可以快速查询出数据。
聚簇索引
特点:聚簇索引具有唯一性,由于聚簇索引是将数据根索引结构放到一块,因此一个表仅有一个聚簇索引。
索引的缺点:
- 占用磁盘空间。
- 增加了插入和删除的操作时间。一个表拥有的索引越多,插入和删除的速度越慢。如要求快速录入的系统不宜建过多索引。原因:每插入或删除都要在维护数据的同时去维护聚簇索引或非聚簇索引。
什么时候添加索引?
- 一定要在查询数据慢的时候再加索引,不要什么情况都加索引!!!
按照索引方式查找是什么?
- 查找数据不需要一条一条从头到尾找,只需要按照B+树的存储结构自上而下找。
为什么设置主键自增id?①将id设置为主键其会默认设置为索引,形成一个聚簇索引;②若表没有主键id,依旧会有B+树结构,InnoDB会选择一个唯一且非空的索引代替;③若是没有这样的索引,InnoDB会隐式定义一个主键(类似于oracle的rowid,行号)来作为聚簇索引。
- 如果设置了主键又希望单独设置聚簇索引呢?必须先删除主键,然后添加到我们想要的聚簇索引,最后恢复设置主键即可。
- 不使用
uuid
作为主键原因:uuid生成的为36个字符,若是每次新增一条记录可能会在B+数的叶子节点中间去插入(会造成重新组织编排页),而相对于若是使用自增id作为主键,每次新增都是直接增加在最后,会更加好维护索引。 - 最好建议:使用自增id作为主键。
表中行的物理顺序与索引中行的物理顺序是相同的,在创建任何非聚簇索引之前创建聚簇索引,这是因为聚簇索引改变了表中行的物理顺序,数据行,会按照一定的顺序排序并且自动维护这个顺序。
4.2、回表与索引覆盖
介绍回表与索引覆盖
根据索引字段来查询一般是这样的:
- 根据索引在B+树上自上而下查询。
- 一直到k层的叶子节点中查找到id。
回表
:在非聚簇索引中找到id,接着根据id去聚簇索引中查找真正的数据(后面查找过程叫做回表)。
索引覆盖
:若是以查找的数据直接通过索引找到了,没有回表操作即为覆盖索引。
说明:聚簇索引与非聚簇索引在下面索引分类中有具体介绍。
引出聚簇索引与非聚簇索引(重要)
一般你创建一张表(包含主键id)存储多条数据,MySQL将这些数据通过B+树形式存储到磁盘中,此时是以id来作为索引(因为其被设置成主键),此时将索引id与数据存放在一起的则称为聚簇索引
,如下图:
- 可以看到最下层叶子节点存储着索引
id
以及数据。
那么非聚簇索引呢?我们对上面创建的表中的name
设置为索引字段(BTREE索引),此时数据库会再次创建一次B+树结构的索引,该树结构中只保存对应设置为索引的name
以及对应的id
,注意了没有数据,此时则为非聚簇索引
,如下图:
name
字段如何作为索引呢?name字段应该是字符类型的,所以会通过英文字母来建立对应的索引如A,B,C,L,N…来构建出索引,在最下层的叶子节点中保存中着对应的name字段,该字段对应主键id。
此时我们又会有一个疑问就是查询name索引字段是如何查询到对应的数据呢?
- 过程:首先会去
非聚簇索引
中根据对应的字符(单个字符)索引找到对应的要查找的name
字段,于此同时获取到主键id值,接着会有回表操作,也就是拿着id回到聚簇索引中查一遍最终拿到对应的数据。
下面则是根据name
索引字段查询大致过程:若是只是根据主键id查询就不会经过非聚簇索引了,直接通过聚簇索引
4.3、索引的分类与创建
4.3.1、聚簇索引与非聚簇索引(InnoDB与MyISAM不同的索引表)
聚簇索引:将数据存储与索引放到了一块(即一棵B+树上),找到索引也就找到了数据。
非聚簇索引:索引与数据不放到一块,在一棵B+树中叶子节点不存放数据的。
两种引擎中识别聚簇索引与费聚簇索引
InnoDB
以及MyISAM
中的索引表分布:
- 左图的主键索引就是聚簇索引,并且其辅助键索引就是非聚簇索引;右图的主键索引与辅助索引均不是聚簇索引。
- 对于
InnoDB
引擎会将索引与数据存储到一个文件中;MyISAM
引擎会索引与数据分开存储到两个文件中。(注意上图InnoDB引擎中的辅助键索引指代的是设置其他索引字段创建的) - 具体两类引擎介绍说明:
InnDB
引擎使用的聚簇索引,将主键组织到一棵B+树中,而行数据就存储在叶子节点上,①若使用如where id=11
根据该条件来查询主键,则会按照B+树的检索算法从上至下查找到对应的叶子节点中,之后获得行数据;②如若是使用where name='JOBS'
会先从辅助键索引B+树上从上至下找到对应name对应的id值(该过程需要设置name
为索引),接着回表到主键索引使用主键id来在主索引B+树上再执行一次B+树检索操作,最终到达叶子节点获取整行数据。MyISAM
引擎使用的是非聚簇索引,其主键索引只存放主键id,辅助键索引只存储辅助键(及其他字段索引),而表数据是单独存储在一个独立的地方,这两颗B+树的叶子节点都使用了一个地址指向真正的表数据,这与InnoDB的B+树存储的内容不同,由于其索引树是独立的,通过辅助检索无需访问主键的索引树,而是直接在最后的叶子节点(存放的是地址)中指向对应的数据表数据。
重要:插入或删除一个数据就要维护聚簇索引
,以及非聚簇索引
。
4.3.2、主键索引
主键索引
:它是一种特殊的唯一索引,不允许有空值。一般是在建表的时候指定了主键,就会创建主键索引, CREATE INDEX
不能用来创建主键索引,使用 ALTER TABLE
来代替。
主键索引的相关操作
1、修改指定表字段为主键(语法):alter table 表名 add primary key( 列名 )
- 例如:修改student表中的id字段为其添加主键
alter table student add primary key(id)
2、在创建表的过程中设置字段为主键
-- ①直接在表字段之后添加primary key即设置id为主键索引
create table score(
id int AUTO_INCREMENT primary key comment "设置id为主键"
);
-- ②在最后一行,使用primary key(指定字段)来设置主键
create table score(
id int AUTO_INCREMENT comment "设置id为主键",
PRIMARY key(id)
);
4.3.3、普通索引(常规索引,normal)
普通索引
:这是最基本的索引,它没有任何限制。
普通索引的相关操作
下面创建索引最终效果:normal
(普通)的BETREE
索引。
1、修改一个字段为普通索引(语法):alter table 表名 add index 索引名(指定字段)
。
- 例如:修改student表中的name为索引,索引名是stu_name,SQL为
alter table student add index stu_name(name)
。
2、为某个字段创建一个普通索引(语法):create index 索引名 on 表名(指定字段)
。
- 例如:为student表中的name创建索引,索引名是stu_name,SQL为
create index stu_name add on student(name)
。
3、创建表过程中添加添加多个普通索引。
create table test01(
id int not null,
name varchar(20) not null,
index test_id(id), -- 设置id为普通索引,索引名为test_id
index test_name(name) -- 设置name为普通索引,索引名为test_name
)
4、为某个字段创建指定长度的普通索引(语法):create index 索引名 on 表名(指定字段(长度))
。
- 说明:该条语法主要是为某个字段(一般为字符型)设置指定长度的索引,针对于一些长度很长的字段设置一部分为索引。
- 例如:为student表中的passage创建索引,索引名是pass_name,长度为10,SQL为
create table index pass_name add on student(passage(10))
5、删除普通索引(语法):drop index 索引名 on 表名
。
- 例如:将student表中索引名为stu_name的删除,SQL为
drop index stu_name on student
。
4.3.4、唯一索引(unique)
唯一索引
(unique key):与普通索引类似,不同的就是索引列的值必须唯一,但允许有空值。如果是组合索引,则列值的组合必须唯一。
唯一索引与主键的一些区别:
- 主键可以被其他表引用为外键,而其他索引不能。
- 一个表最多创建一个主键(复合主键例外),但可以创建多个唯一索引。
- 主键更适合那些不容易更改的唯一标识,如自动递增列,身份证号。
唯一索引的相关操作(实际上就是在执行操作时替换unqiue index)
1、在表的指定字段上创建一个唯一索引(语法):create unique index 索引名 on 表名(指定字段)
。
2、修改指定字段为唯一索引(语法):alter table 表名 add unique index 索引名(指定字段)
。
其他如删除操作与之前的类似相同。
4.3.5、全文索引(fulltext,不常用)
全文索引
:FULLTEXT索引用于全文搜索,在企业中一般不使用全文索引,通过使用ElacticSearch
等中间件替代。
全文搜索的版本支持
- MySQL5.6以前的版本,只有
MyISAM
存储引擎支持全文索引。 - MySQL5.6之后的版本,
InnoDB
与MyISAM
存储引擎均支持全文索引。 - 数据类型为
char
、varchar
、text
的字段才可以建全文索引。
为什么使用全文索引?一般想要查找采用数值比对,范围过滤即可完全大多数操作,如使用like+’%‘或like+’_'或正则表达式即可进行过滤查询,但是若是希望使用关键字来匹配查询,就需要基于相似度的查询,而不是之前的精确数值、文字比较,全文搜索使用于之类场景。
- 什么场景能够遇到全文搜索,例如表中有一个id、content字段,content表示的是文章,此时你想要搜索一部分关键词,就需要手动设置全文索引 。
- 日常生活中肯定使用过许多搜索引擎,许多搜索引擎的索引对象是超大量的数据,并且通常其背后都不是使用的关系型数据库,而是非关系型数据库,如
redis
、MongoDB
…
注意点:
- 使用全文索引前,搞清楚版本支持情况。
- 全文索引比like+%快N被,但是可能存在精度问题。
- 如果需要全文索引的是大量数据,建议先添加数据,再创建索引。
- 对于中文,可以使用MySQL5.7.6之后的版本或者第三方插件。
全文索引的相关操作
1、创建表过程中创建全文索引
create table test01(
id int not null,
content text not null,
FULLTEXT key test01_content(content) -- 创建content字段为全文索引
)
2、在已存在表中创建索引(语法):create fulltext index 索引名 on 表名(指定字段)
。
3、删除指定索引(语法):drop index 索引名 on 表名
。
4、修改表字段为其添加全文索引(语法):alter table 索引名 add fulltext index 表名(指定索引字段)。
5、全文搜索的使用语法(重要)
自然语言搜索:select * from test01 where match(content) against('a')
- 自己测试了最终木有效果???
其他搜索模式可见:Mysql全文索引的使用
4.3.6、空间索引(spatial,不常用)
MySQL在5.7之后的版本支持空间索引,而且支持OpenGIS几何数据模型。这是在地理位置领域使用的一种索引,其他场景使用的很少了解即可。
4.3.7、复合索引(联合索引,重点!!!)
认识与创建复合索引
何时使用复合索引?当我们有多个查询条件时,建议将对应的多个条件设置为复合索引,复合索引(索引合并)效率是高于单独设置多个字段索引的。
- 举个例子:
create index 索引名 on 表名(字段1,字段2,字段3)
:通过该方式直接添加三个字段为一个索引,其实际上会将3个字段合并来创建一个复合索引(三个字段合起来的),创建复合索引的效率高于单独创建三个索引的。
在第一个索引有序的情况下,第二个有序,在第二个有序情况下第三个有序
优缺点:
优点
:效率高,索引列越多,通过索引筛选出的数据越少,比单值索引效率高。缺点
:若是联合索引很多,那么索引列也就越多,创建的索引越多,索引都是存储在磁盘中的,通过索引算法(B+数为代表的形式来做索引的)来查找数据,虽说可以大幅度提升查询效率,但是与此通知若是做增删改操作,则需要花费额外时间去更新索引,并且设置索引所占磁盘大小也特别大!
复合索引的操作如下
方式一:创建复合索引的方式(语法):create index 索引名 on 表名(字段1,字段2,...,字段n)
,下面是创建三个字段为一个索引的例子
- 排序规则:对于其中合并之后的三个字段,实际上根据其对应初始设置来进行排序的,首先按照字段1排序,若是字段1排序相同情况,字段2会进行排序,若是出现字段1字段2排序相同情况,字段3也会进行排序。
方式二:修改指定表中的几个字段为复合索引(语法):alter table 表名 add index 索引名(字段1,字段2,...,字段n)
,创键效果如下。
方式三:删除指定索引(语法):drop index 索引名 on 表(字段1,字段2,...,字段3)
实例介绍复合索引的最左匹配原则(重要)
下面就是最左匹配原则的最好例子
首先有10条记录如下:
我们将四个字段设置复合索引:create index 索引名 on 表名(A,B,C,D)
,将A、B、C、D四个字段设置为一个索引(复合索引),excel模拟其中的索引操作如下:
- 实际上的排序操作与数据库在创建复合索引几乎一致。首先会对A进行索引排序,若是出现A排序相同的情况,就会对B进行排序;若出现A排序、B排序相同情况时,就会对C进行排序;若是再出现A、B、C排序都相同情况时,就会对D进行排序!
复合索引创建好如下(根据排序根据):放置在前面A、B、C、D是对应的索引
我们可以注意到A列是按照升序排序的,之后的B、C、D列从整体上来看并不是按照升序排序的,接下来根据各个情况来进行描述。
①A字段相同情况的记录来说B字段是按照升序进行排序的,如下:
②A字段、B字段都相同情况下,C字段也是按照顺序排序的
③A字段、B字段、C字段都相同情况,D也是按照顺序排序的
上面主要想要说明的点是:多条件搜素时,尽量搜索的条件顺序与设置复合索引(多个字段)的相一致,否则无法索引将会无法生效。
为什么一定要按照设置索引的顺序来进行检索呢?由于复合索引的规则,只有当A出现值相同情况下,B字段才会进行排序,如下两行数据A字段15、20时,B对应数据并不是进行排序的,若是查询如where B=33 and A=15
,那么索引就不会生效,从而会对B一行一行从到往下去找。
相反若是查询如where A=15 and B = 33
呢,根据复合索引的规则,从左到右若是有相同的字段,后面一个字段就会排序,其效率就会特别高:
总结:若是设置复合索引,如index 索引名 表名(A,B,C,D)
,尽量条件搜索方式如①where A=1
。②where A=1 and B=2
。③where A=1 and B=2 and C=3
。④where A=1 and B=2 and C=3 and D = 4
。这种根据复合索引设置顺序去找往往是使用到了索引。
最左匹配原则及优化器
最左前缀匹配原则
:对于定值查询一直都会是根据索引查询,但是一旦遇到范围查询,后边的索引会失效。MySQL会一直向右匹配知道遇到范围查询(>,<,between,like)就停止匹配,如建议(a,b,c,d)顺序索引,对于where a=1 and b=2 and c>3 and d=4
,当遇到c时后面的索引就会失效了,如果建立(a,b,d,c)则一定能够用上索引,因为对于a,b,d始终是定值查询,c是范围查询。
- MySQL优化器:MySQL底层有个优化器,对于查询条件会根据你设置的索引进行自动优化,若是你设置索引为(a,b,c),你自己写的SQL是
where a=1 and c>5 and b=4
,那么通过优化器会根据你设置的(a,b,c)索引顺序优化成where a=1 and b=4 and c>5
,这样的话就会命中索引,提升效率。 - 注意注意:优化器只会根据你设置的索引顺序进行优化,切记切记!
=
与in
可以乱序,对于范围查找(如>,<)需要放在最后,MySQL
优化器对于等值与in进行顺序优化,对于范围查找不会优化。
实际案例及分析
实际案例:你要进行多条件查询,包含如下字段,product_name
(产品名称)指定值,product_price
(产品价格)区间范围,product_type
(产品类型)指定值,现在要你设计复合索引,如何设计?
分析:一定要将指定值设置在前,区间范围设置在后,无论你SQL语句写的顺序如何,MySQL优化器会根据你设置的索引字段来对SQL语句进行优化,将一些关键索引字段移到前面,所以设计方案为:(product_name,product_type,product_price)
两个定值在前,范围区间在后。
4.3.8、哈希索引(Hash,不常用也重要)
认识与创建哈希索引
MEMORY
存储引擎支持hash索引。一般很少使用哈希索引,但在一些场景中会使用。
哈希索引:基于哈希表实现,对于每一行数据,存储引擎都会对其设置的索引列计算一个哈希码,对于哈希索引,是将哈希码来作为索引进行存储的,同时保持着每个数据行的指针。
特点:天然优点无序、快,瞬间定位,时间复杂度O(1),查询任何东西只要一次。
缺点:
- 哈希索引数据并不是按照索引顺序存储的,所以无法使用排序。
- 哈希索引不支持部分索引列查找,因为哈希索引始终是用索引列的全部内容来计算哈希码,也就是说不能进行模糊查询!
- 哈希冲突(不同索引列会用相同的哈希码)会影响查询速度,此时需遍历索引中的行指针,逐行进行比较。
创建哈希索引方式
语法:create index 索引名 using hash on 表(指定字段)
- 记得表引擎使用
Memary
。
使用哈希来解决BTREE索引较大的字段
问题描述+分析
问题描述:若是想要给一些超长的字段设置索引,可能会造成索引效果比较差,又长并且还是字符,如何在不使用哈希索引情况下解决这个问题呢?
分析:我们可以增加一列哈希列,将超长字段映射为哈希值(数字),接着对该哈希值使用索引即可提升效率!
方案如下:
crc32()
来获取指定字符哈希码,并将该哈希码字段设置为索引
过程如下:
- 设置url对应的哈希值为索引字段。
插入语句如下:其中的crc32()
函数是将指定字符串转为指定的数字哈希码
-- 插入一条记录(url值以及对应的哈希值)
INSERT into url(url,urlhash) values('https://blog.csdn.net/cl939974883/article/details/115497511?spm=1001.2014.3001.5501',
crc32('https://blog.csdn.net/cl939974883/article/details/115497511?spm=1001.2014.3001.5501')) -- crc32()是一种哈希算法转为数字
SELECT * from url
注意:若是要使用该哈希值来查询应该将url带上一同查询!!!
查询语句如下:为了防止出现哈希碰撞的现象所以使用两个条件
-- urlhash是哈希码(数字),其作为索引查询效果会很好
SELECT * from url WHERE urlhash = 1402908114 and url = 'https://blog.csdn.net/cl939974883/article/details/115497511?spm=1001.2014.3001.5501'
4.4、使用索引的问题
4.4.1、索引究竟何时使用?
引言:索引十分重要,当我们的查询SQL开始变慢时,就应该考虑去建立索引,根据SQL的查询条件来定建立指定索引,可以是主键索引、普通索引、复合索引…,建立索引能够大大提升我们的查询速度,但是建立索引会占用额外的磁盘空间,并且对于插入、删除操作不仅要对原有数据进行修改,还要去维护对应的B+树索引。
对于使用没有建立索引的字段作为查询条件时会进行全表扫描,若是单表数据量特别大且查询条件结果较少的话,其查询性能会特别差,此时就应该建立索引。但也不是所有表你都需要建立索引,根据情况来建,因为建立索引也会带有坏的影响,例如影响更新速度,若是建立了索引查询速度并没有多大效果,却影响了原本的更新速度,那么就称为过度索引
。
下面列出一些场景来作为你是否要建立索引的参考示例
(1)、适合建立索引场景
- 首先并不是建表时就直接建立索引,而是当你的查询SQL出现性能问题时才要去考虑建立索引。
- 频繁作为
where
条件语句查询的字段。例如:where 字段1=2
,字段1设为普通索引。where A=1 and C>3 and B=2
,设置复合索引(A,B,C)
。 - 与其他表关联字段可建立索引,如表中的外键。例如:
user
表中的stu_id
作为外键引用student
表的id
。(stu_id
设置索引) - 排序字段可建立索引。例如:
order by 字段1
。(字段1设索引) - 分组字段可建立索引,因为分组的前提是排序。例如:
group by 字段1
。(字段1设索引) - 统计字段。例如:
count(name)
。(name设索引)
(2)、不适合建立索引场景
- 需要频繁更新的字段不适合建立索引。
where
条件中用不到的字段不适合建立索引。- 表数据确定比较少(几百、千、万条)不需要建立索引。
- 对于数据重复且发布比较均匀的字段不适合建立索引,唯一性太差的字段不适合建立索引。例如:性别(男、女),真假(true,false),像这些字段在不同记录中重复情况过多也不建议建立索引。
- 参与列计算的字段不适合建立索引,索引会失效。例如:
where age+1=28
,age索引字段就会失效,规避失效方式改为where age = 27
。- 若是在字段上进行计算,那么在索引树上也会进行计算那么不就破坏了索引树嘛,所以列一计算MySQL就会默认失效了。
tips
①对于日志表之类不是给用户的就不需要建立索引,因为其既占用磁盘资源还会影响插入操作,自己写的忍下即可。
②一般在企业中是不会删数据的(数据很珍贵),一般设置一个字段值del_flag
作为删除标记,0表示没有删除,1表示删除。
4.4.2、索引不会包含有NULL值的列
为什么索引列无法存储null值?
- 由于索引是有序的,null值进入索引时,无法确定其应该放在哪里;还有就是就算你放在索引中,使用其null值作为条件搜索,null值是不确定的是无法找到对应索引树的叶子节点位置。
- 这也是为什么主键默认是非空字段的主要原因。
使用null作为查询条件查找的操作是什么?
- 若是查询null,就会在聚簇索引的B+树的叶子节点层进行全表查找。
案例:此时有个需求,要对某个null
字段进行索引,如何设计?
- 解决过程:由于单独设置为null的字段为索引,其会自动失效,解决方法就是将该
null
字段与另一个非null
字段设置成一个复合索引即可!
说明:单列索引
无法存储null值、复合索引
无法存储全为null的值。
4.4.3、短索引使用
短索引
:对串列进行索引,一般就是指定一个前缀长度。使用短索引不仅可以提高查询速度而且可以节省磁盘空间和I/O操作。
短索引创建方式:create index 索引名 on 表名(指定字段(长度))
使用场景
场景1:例如针对于url字段,目的是区分是百度与新浪
https://www.baidu.com/s?wd=%E9%98%BF%E6%96%AF%E8%92%82%E8%8A%AC%E4%BB%80%E4%B9%88
http://blog.sina.com.cn/s/blog_9ba9f6570102z7p7.html?tj=1
只要设置url(20)
为索引即可,将如下字段设置为索引即可
https://www.baidu.com/
http://blog.sina.com.cn/
场景2:例如针对于url字段,目的是区别百度图片还是问题查询
https://www.baidu.com/s?ie=utf-8&wd=xinlang
https://image.baidu.com/search/detailct=503316480&z=0&ipn=d&word=xinlang&step_word=&hs=0&pn=0&spn=0&di=145750&pi=0&rn=1&tn=baiduimagedetail&is=0%2C0&istype=0&ie=u
如何设置短索引也就很明显了,索引位置为url(17)
,到…baidu即可。
总结:视情况而定来建立短索引,对于一个字段中区分度高的部分来设置为短索引较好,短索引在进行索引时比较会更快。
4.4.4、排序(order by)的索引问题
前提说明:MySQL查询只使用一个索引!
where
与order by
合用情况:因此如果在where
子句中已经使用了索引的话,那么之后若是有order by 字段1
,那么该字段1列是不会使用索引的。
注意点:尽量不要包含多个列的排序,如若进行多个列排序,那么最好对多个列进行复合索引
,这样建立索引效率会更高。
参考文章
[1]. 修改mysql的全局变量_mysql用户变量和全局变量
[2]. MySQL查询执行过程
[3]. ns单位换算
[4]. 五分钟搞懂什么是B-树(全程图解)
[5]. 推荐阅读1:MySQL中MyISAM与InnoDB底层使用的数据结构 两个引擎底层都是使用B+树来存储数据,InnDB是将索引与数据都存储到一个文件中,而MyISAM将索引与数据分开存储为两个文件
[6]. 推荐阅读2——MySQL存储引擎MyISAM和InnoDB底层索引结构
[7]. 【MySql数据库】索引相关知识总结
[9]. Mysql全文索引的使用
[10]. mysql: 哈希索引,虽不常用,但威力巨大
[11]. mysql5.7允许空值_数据库允许空值(null),往往是悲剧的开始 介绍空值null案例
[12]. MySQL EXPLAIN结果集分析 - 附带大量案例
[13]. 什么是间隙锁?
- 点赞
- 收藏
- 关注作者
评论(0)