1.数据库事务概述


事务是数据库区别于文件系统的重要特性之一,当我们有了事务就会让数据库始终保持一致性,同时我们还能通过事务的机制恢复到某个时间点,这样可以保证已提交到数据库的修改不会因为系统崩溃而丢失。

1.1 存储引擎支持情况

SHOW ENGINES命令来查看当前MySQL支持的存储引擎都有那些,以及这些存储引擎是否支持事务。
MySQL-13.事务基础知识-小白菜博客
从执行结果来看,在MySQL中,只有InnoDB是支持事务。

1.2 基本概念

事务:一组逻辑操作单元,使数据从一种状态变换到另一种状态。
事务处理的原则:保证所有事务都作为一个工作单元来执行,即使出现了故障,都不能改变这种执行方式。当在一个事务中执行多个操作时,要么所有的事务都被提交(commit),那么这些修改就永久地保存下来要么数据库管理系统将放弃所作的所有修改,整个事务回滚( rollback)到最初状态。

-- 案例:AA用户给BB用户转账100
update account set money = money - 100 where name = 'AA’;
-- 服务器宕机
update account set money = money + 100 where name = 'BB';

1.3 事务的ACID特性

  • 原子性( atomicity ):

原子性是指事务是一个不可分割的工作单位,要么全部提交,要么全部失败回滚。即要么转账成功,要么转账失败,是不存在中间的状态。如果无法保证原子性会怎么样?就会出现数据不一致的情形,A账户减去100元,而B账户增加100元操作失败,系统将无故丢失100元。

  • 一致性( consistency ):

(国内很多网站上对一致性的阐述有误,具体你可以参考Wikipedia对Consistency的阐述)

根据定义,一致性是指事务执行前后,数据从一个合法性状态变换到另外一个合法性状态。这种状态是语义上的而不是语法上的,跟具体的业务有关。

那什么是合法的数据状态呢? 满足预定的约束的状态就叫做合法的状态。通俗一点,这状态是由你自己来定义的(比如满足现实世界中的约束)。满足这个状态,数据就是一致的,不满足这个状态,数据就是不一致的! 如果事务中的某个操作失败了,系统就会自动撤销当前正在执行的事务,返回到事务操作之前的状态。

举例1:A账户有200元,转账300元出去,此时A账户余额为-100元。你自然就发现了此时数据是不一致的,为什么呢?因为你定义了一个状态,余额这列必须>=0。

举例2:A账户200元,转账50元给B账户,A账户的钱扣了,但是B账户因为各种意外,余额并没有增加。你也知道此时数据是不一致的,为什么呢?因为你定义了一个状态,要求A+B的总余额必须不变。

举例3:在数据表中我们将姓名字段设置为唯一性约束,这时当事务进行提交或者事务发生回滚的时候,如果数据表中的姓名不唯一,就破坏了事务的一致性要求。

  • 隔离性( isolation )

事务的隔离性庭指一个事务的执行不能被其他事务干扰,即一个事务内部的操作及使用的数据对并发的其他事务是隔离的,并发执行的各个事务之间不能互相干扰。

如果无法保证隔离性会怎么样?假设A账户有200元,B账户o元。A账户往B账户转账两次,每次金额为50元,分别在两个事务中执行。如果无法保证隔离性,会出现下面的情形:

UPDATE accounts SET money = money - 50 WHERE NAME = 'AA' ;

UPDATE accounts SET money = money + 50 WHERE NAME = 'BB';

  • 持久性(durability):

持久性是指一个事务一旦被提交,它对数据库中数据的改变就是永久性的,接下来的其他操作和数据库故障不应该对其有任何影响。

持久性是通过事务日志来保证的。日志包括了重做日志回滚日志。当我们通过事务对数据进行修改的时候,首先会将数据库的变化信息记录到重做日志中,然后再对数据库中对应的行进行修改。这样做的好处是,即使数据库系统崩溃,数据库重启后也能找到没有更新到数据库系统中的重做日志,重新执行,从而使事务具有持久性。

总结
ACID是事务的四大特性,在这四个特性中,原子性是基础,隔离性是手段,一致性是约束条件,而持久性是我们的目的。

数据库事务,其实就是数据库设计者为了方便起见,把需要保证原子性隔离性一致性持久性的一个或多个数据库操作称为一个事务。

1.4 事务的状态

我们现在知道事务是一个抽象的概念,它其实对应着一个或多个数据库操作,MySQL根据这些操作所执行的不同阶段把事务大致划分成几个状态:

  • 活动的(active)

事务对应的数据库操作正在执行过程中时,我们就说该事务处在活动的状态。

  • 部分提交的(partially committed)

当事务中的最后一个操作执行完成,但由于操作都在内存中执行,所造成的影响并没有刷新到磁盘时,我们就说该事务处在部分提交的状态。

  • 失败的(failed)

当事务处在活动的或者部分提交的状态时,可能遇到了某些错误(数据库自身的错误、操作系统错误或者直接断电等)而无法继续执行,或者人为的停止当前事务的执行,我们就说该事务处在失败的状态。

  • 中止的(aborted)

如果事务执行了一部分而变为失败的状态,那么就需要把已经修改的事务中的操作还原到事务执行前的状态。换句话说,就是要撤销失败事务对当前数据库造成的影响。我们把这个撤销的过程称之为回滚。当回滚操作执行完毕时,也就是数据库恢复到了执行事务之前的状态,我们就说该事务处在了中止的状态。

举例:

UPDATE accounts SET money = money - 50 WHERE NAME = 'AA';

UPDATE accounts SET money = money + 50 WHERE NAME = 'BB';
  • 提交的(committed)

当一个处在部分提交的状态的事务将修改过的数据都同步到磁盘上之后,我们就可以说该事务处在了提交的状态。

一个基本的状态转换图如下所示:
MySQL-13.事务基础知识-小白菜博客
图中可见,只有当事务处于提交的或者中止的状态时,一个事务的生命周期才算是结束了。对于已经提交的事务来说,该事务对数据库所做的修改将永久生效,对于处于中止状态的事务,该事务对数据库所做的所有修改都会被回滚到没执行该事务之前的状态。

2.如何使用事务


使用事务有两种方式,分别为显式事务隐式事务

2.1 显式事务

步骤1:start transtaction或者BEGIN,作用是显示开启一个事务。

start transtaction;-- 真实写的时候,关键字都建议大写,此处是笔记,便于观看故小写。

-- ..DML操作,数据库修改语言
-- data modify language
commit;
-- 或者

begin;

-- ..DML操作,数据库修改语言
-- data modify language
commit;

start transtaction语句相较于begin特别之处在于,后边能跟随几个修饰符

read only:标识当前事务是一个只读事务,也就是属于该事务的数据库操作只能读取数据,而不能修改数据。

补充:只读事务中只是不允许修改那些其他事务也能访问到的表中的数据,对于临时表来说(我们使用CREATE TMEPORARY TABLE创建的表),由于它们只能在当前会话中可见,所以只读事务其实也是可以对临时表进行增、删、改操作的。

read write默认情况;标识当前事务是一个可读可写事务,也就是当前事务下的操作,可以读取数据,也可以写(修改)数据。

with consistent snapshot:启动一致性读。

START TRANSACTION WITH CONSISTENT SNAPSHOT 是SQL语句的一部分,主要用于开启一个事务,并且这个事务将使用一致性快照(consistent snapshot)的隔离级别。在数据库管理系统中,事务的隔离级别定义了事务之间如何交互以及数据的一致性如何被维护。一致性快照是一种读取已提交(Read Committed)隔离级别的变体,但它提供了一种更稳定的视图,使事务能够看到在其开始时一致的数据状态,而不是实时的数据变化。

当你在一个事务中使用 WITH CONSISTENT SNAPSHOT 选项时,该事务将看到在它开始时刻所有已经提交的事务所反映出来的数据状态。这意味着,即使在事务执行期间有其他事务对数据进行了修改并提交,当前事务仍然会看到开始时刻的数据状态,而不是这些实时的更新。这有助于避免某些类型的并发问题,如幻读(Phantom Reads),即在两次查询之间,由于其他事务插入了新行而出现额外的行。

这种机制对于需要稳定数据视图的复杂查询或批处理操作特别有用,因为它可以减少锁的竞争,提高并发性能,同时保持数据的一致性和事务的隔离性。

然而,值得注意的是,不同数据库系统可能对 WITH CONSISTENT SNAPSHOT 的实现和支持程度有所不同。例如,PostgreSQL 自动为每个事务提供一致性快照,而不需要显式指定。但在其他一些数据库系统中,如SQL Server,你可能需要明确地使用这个选项来控制事务的隔离级别和行为。

来自,通义千问

比如:

start transaction read only;#开启只读事务

start transaction read write,with consistent snapshot;#开启只读,和一致性读事务

#注意,read only 和 read write事务都可以和一致性读事务,同时使用,但是其二者不能同时使用
  • READ ONLYREAD WRITE是用来设置所谓的事务访问模式的,就是以只读还是读写的方式来访问数据库中的数据,一个事务的访问模式不能同时既设置为只读的也设置为读写的,所以不能同时把READ ONLYREAD WRITE放到START TRANSACTION语句后边。
  • 如果使用start xx语句开启且不显式指定事务的访问模式,那么该事务的访问模式就是读写模式。

步骤2:一系列事务中的操作(主要是DML,不包括DDL) DDL(Data Definition Language)

步骤3:提交事务或中止事务(即回滚事务)

#提交事务。当提交事务后,对数据库的修改是永久性的
commit;

#回滚事务,即撤销正在进行的所有没有提交的修改
rollback;

rollback to savepoint;#将事务回滚到,当前事务中的保存点
-- 在事务中创建保存点,方便后续对保存点进行回滚,一个事务中可以存在多个保存点

savepoint 保存点名称;

-- 删除某个保存点
release savepoint 保存点名称;

2.2 隐式事务

MySQL中有一个系统变量autocommit

mysql> show variables like 'autocommit';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| autocommit    | ON    |
+---------------+-------+
1 row in set (0.00 sec)

默认情况下,如果我们不显式的使用START TRANSACTION或者BEGIN语句开启一个事务,那么每一条语句都算是一个独立的事务,这种特性称之为事务的自动提交。也就是说,不以START TRANSACTION或者BEGIN语句显式的开启一个事务,那么下边这两条语句就相当于放到两个独立的事务中去执行:

UPDATE account SET balance = balance - 10 WHERE id = 1;

UPDATE account SET balance = balance + 10 WHERE id = 2;

当然,如果关闭这种自动提交功能,可以使用下边两种方法之一。

  • 显式的的使用START TRANSACTION或者BEGIN语句开启一个事务。这样在本次事务提交或者回滚前会暂时关闭掉自动提交的功能。
  • 把系统变量autocommit的值设置为OFF,就像这样。
SET autocommit = 'OFF';-- 会话级别

SET autocommit = 0;-- 会话级别

这样的话,我们写入的多条语句就算是属于同一个事务了,直到我们显示的写出commit语句来吧这个事务提交掉,或者显示的写出ROLLBACK语句来把这个事务回滚掉。

Oracle数据库,默认不自动,commit,而MySQL中,有自动提交。

2.3 隐式提交事务的情况

  • 数据定义语言(Data definition language,缩写为:DDL)

数据库对象,指的就是数据库视图存储过程等结构。当我们使用CREATEALTERDROP等语句去修改数据库对象时,就会隐式的提交前边语句所属于的事务。即:

BEGIN;

SELECT ...
UPDATE ...

... #事务的其他语句

create table ... -- 此语句会隐式的提交前边语句所属的事务
  • 隐式使用或修改mysql数据库中的表

当我们使用ALTER USERCREATE USERDROP USERGRANTRENAME USERREVOKESET PASSWORD等语句时也会隐式的提交前边语句所属于的事务。

  • 事务控制或关于锁定的语句

① 当我们在一个事务还没提交或者回滚时就又使用START TRANSACTION或者BEGIN语句开启了另一个事务时,会隐式的提交上一个事务。即:

② 当前的autocommit系统变量的值为OFF,我们手动把它调为ON时,也会隐式的提交前边语句所属的事务。

③ 使用LOCK TABLESUNLOCK TABLES等关于锁定的语句也会隐式的提交前边语句所属的事务。LOCKUNLOCK语句,后面章节会讲解。

  • 加载数据的语句

使用LOAD DATA语句来批量往数据库中导入数据时,也会隐式的提交前边语句所属的事务。

  • 关于MySQL复制的一些语句

使用START SLAVESTOP SLAVERESET SLAVECHANGE MASTER TO等语句时会隐式的提交前边语句所属的事务。后续章节。

  • 其他的一些语句

使用ANALYZE TABLE、CACHE INDEX、CHECK TABLE、FLUSH、LOAD INDEX INTO CACHE 、OPTIMIZE TABLE、REPAIR TABLE、RESET等语句也会隐式的提交前边语句所属的事务。

2.4 使用举例

3.事务隔离级别


MysQL是一个客户端/服务器架构的软件,对于同一个服务器来说,可以有若干个客户端与之连接,每个客户端与服务器连接上之后,就可以称为一个会话(Session)。每个客户端都可以在自己的会话中向服务器发出请求语句,一个请求语句可能是某个事务的一部分,也就是对于服务器来说可能同时处理多个事务。事务有隔离性的特性,理论上在某个事务对某个数据进行访问时,其他事务应该进行排队,当该事务提交之后,其他事务才可以继续访问这个数据。但是这样对性能影响太大,我们既想保持事务的隔离性,又想让服务器在处理访问同一数据的多个事务时性能尽量高些,那就看二者如何权衡取舍了。

3.1 数据准备

我们需要创建一个表:

CREATE TABLE student (
    studentno INT,
    name VARCHAR(20),
    class varchar(20),
    PRIMARY KEY (studentno)
) Engine=InnoDB CHARSET=utf8;

然后向这个表里插入一条数据:

INSERT INTO student VALUES(1, '小谷', '1班');
mysql> select * from student;
+-----------+--------+-------+
| studentno | name   | class |
+-----------+--------+-------+
|         1 | 小谷   | 1班   |
+-----------+--------+-------+
1 row in set (0.00 sec)

3.2 数据并发问题

针对事务的隔离性和并发性,我们怎么做取舍呢?先看一下访问相同数据的事务在不保证串行执行(也就是执行完一个再执行另一个)的情况下可能会出现哪些问题:

1.脏写(Dirty Write

对于两个事务 Session A、Session B,如果事务Session A修改了另一个未提交事务Session B修改过的数据,那就意味着发生了脏写

2.脏读( Dirty Read)

对于两个事务 Session A、Session B,Session A读取了已经被 Session B更新但还没有被提交的字段。之后若 Session B回滚,Session A读取的内容就是临时且无效的。

Session A和Session B各开启了一个事务,Session B中的事务先将studentno列为1的记录的name列更新为'张三',然后Session A中的事务再去查询这条studentno为1的记录,如果读到列name的值为'张三',而Session B中的事务稍后进行了回滚,那么Session A中的事务相当于读到了一个不存在的数据,这种现象就称之为脏读

3.不可重复读( Non-Repeatable Read )

对于两个事务Session A、Session B,Session A读取了一个字段,然后 Session B更新了该字段。 之后Session A再次读取同一个字段, 值就不同 了。那就意味着发生了不可重复读。

我们在Session B中提交了几个隐式事务(注意是隐式事务,意味着语句结束事务就提交了),这些事务都修改了studentno列为1的记录的列name的值,每次事务提交之后,如果Session A中的事务都可以查看到最新的值,这种现象也被称之为不可重复读

4.幻读( Phantom )

对于两个事务Session A、Session B, Session A 从一个表中读取了一个字段, 然后 Session B 在该表中插入了一些新的行。 之后, 如果 Session A再次读取同一个表, 就会多出几行。那就意味着发生了幻读。

Session A中的事务先根据条件 studentno > 0这个条件查询表student,得到了name列值为'张三'的记录;之后Session B中提交了一个隐式事务,该事务向表student中插入了一条新记录;之后Session A中的事务再根据相同的条件 studentno > 0查询表student,得到的结果集中包含Session B中的事务新插入的那条记录,这种现象也被称之为幻读。我们把新插入的那些记录称之为幻影记录

注意,这里的4个问题,只是在事务并发访问可能会出现的问题,在实际的使用中,要根据自身项目对于,数据一致性的要求,来考虑,是否要全部避免这些的问题。这也是,MySQL为什么会出现隔离级别,来控制,避免这定义的标准问题中的某几个,而不是直接默认一个隔离级别,避免这些所有的问题的原因。

3.3 SQL中的四种隔离级别

上面介绍了几种并发事务执行过程中可能遇到的一些问题,这些问题有轻重缓急之分,我们给这些问题按照严重性来排一下序:

脏写 > 脏读 > 不可重复读 > 幻读

我们愿意舍弃一部分隔离性来换取一部分性能在这里就体现在:设立一些隔离级别,隔离级别越低,并发问题发生的就越多。SQL标准中设立了4个隔离级别

  • READ UNCOMMITTED:读未提交,在该隔离级别,所有事务都可以看到其他未提交事务的执行结果。不能避免脏读、不可重复读、幻读。
  • READ COMMITTED:读已提交,它满足了隔离的简单定义:一个事务只能看见已经提交事务所做的改变。这是大多数数据库系统的默认隔离级别(但不是MySQL默认的)。可以避免脏读,但不可重复读、幻读问题仍然存在。
  • REPEATABLE READ:可重复读,事务A在读到一条数据之后,此时事务B对该数据进行了修改并提交,那么事务A再读该数据,读到的还是原来的内容。可以避免脏读、不可重复读,但幻读问题仍然存在。这是MySQL的默认隔离级别。
  • SERIALIZABLE:可串行化,确保事务可以从一个表中读取相同的行。在这个事务持续期间,禁止其他事务对该表执行插入、更新和删除操作。所有的并发问题都可以避免,但性能十分低下。能避免脏读、不可重复读和幻读。

SQL标准中规定,针对不同的隔离级别,并发事务可以发生不同严重程度的问题,具体情况如下:

MySQL-13.事务基础知识-小白菜博客
脏写怎么没涉及到?因为脏写这个问题太严重了,不论是哪种隔离级别,都不允许脏写的情况发生。

不同的隔离级别有不同的现象,并有不同的锁和并发机制,隔离级别越高,数据库的并发性能就越差,4种事务隔离级别与并发性能的关系如下:

3.4 MySQL支持的四种隔离级别

MySQL的默认隔离级别为REPEATABLE READ,我们可以手动修改一下事务的隔离级别。

# 查看隔离级别,MySQL 5.7.20的版本之前:
mysql> SHOW VARIABLES LIKE 'tx_isolation';
+---------------+-----------------+
| Variable_name | Value |
+---------------+-----------------+
| tx_isolation | REPEATABLE-READ |
+---------------+-----------------+
1 row in set (0.00 sec)

# MySQL 5.7.20版本之后,引入transaction_isolation来替换tx_isolation
# 查看隔离级别,MySQL 5.7.20的版本及之后:
mysql> SHOW VARIABLES LIKE 'transaction_isolation';
+-----------------------+-----------------+
| Variable_name | Value |
+-----------------------+-----------------+
| transaction_isolation | REPEATABLE-READ |
+-----------------------+-----------------+
1 row in set (0.02 sec)

#或者不同MySQL版本中都可以使用的:
SELECT @@transaction_isolation;

3.5 设置隔离级别

SET [GLOBAL|SESSION] TRANSACTION ISOLATION LEVEL 隔离级别;
#其中,隔离级别格式:
> READ UNCOMMITTED
> READ COMMITTED
> REPEATABLE READ
> SERIALIZABLE

#或者

SET [GLOBAL|SESSION] TRANSACTION_ISOLATION = '隔离级别' -- 宋红康老师推荐这种方式
#其中,隔离级别格式:
> READ-UNCOMMITTED -- 注意 '-'符号连接
> READ-COMMITTED
> REPEATABLE-READ
> SERIALIZABLE

对于GLOBAL | SESSION的影响

  • 使用GLOBAL关键字(在全局范围影响):
SET GLOBAL TRANSACTION ISOLATION LEVEL SERIALIZABLE; #临时全局
#或
SET GLOBAL TRANSACTION_ISOLATION = 'SERIALIZABLE';
  • 当前已经存在的会话无效

  • 只对执行完该语句之后产生的会话起作用

  • 使用 SESSION 关键字(在会话范围影响):

SET SESSION TRANSACTION ISOLATION LEVEL SERIALIZABLE;
#或
SET SESSION TRANSACTION_ISOLATION = 'SERIALIZABLE';
  • 对当前会话的所有后续的事务有效
  • 如果在事务之间执行,则对后续的事务有效
  • 该语句可以在已经开启的事务中间执行,但不会影响当前正在执行的事务

小结:

数据库规定了多种事务隔离级别,不同隔离级别对应不同的干扰程度,隔离级别越高,数据一致性就越好,但并发性越弱。

全局修改

TRANSACTION_ISOLATION=REPEATABLE-READ #注意是-不是空格

3.6 不同隔离级别举例

读未提交之脏读

设置隔离级别为读未提交:
MySQL-13.事务基础知识-小白菜博客
事务1和事务2的执行流程如下:
MySQL-13.事务基础知识-小白菜博客
阻塞原因,是加了锁。在后续MVCC章节中对讲到,MVCC(Multiversion Concurrency Control) 多版本并发控制

演示2:读已提交

演示3:可重复读级别

设置隔离级别为可重复读,事务的执行流程如下:

幻读问题
MySQL-13.事务基础知识-小白菜博客
这里要灵活的理解读取的意思,第一次select是读取,第二次的insert其实也属于隐式的读取,只不过是在mysql的机制中读取的,插入数据也是要先读取一下有没有主键冲突才能决定是否执行插入。

幻读,并不是说两次读取获取的结果集不同,幻读侧重的方面是某一次的select 操作得到的结果所表征的数据状态无法支撑后续的业务操作。更为具体一些: select 某记录是否存在,不存在,准备插入此记录,但执行insert时发现此记录已存在,无法插入,此时就发生了幻读。

在RR(可重复读)隔离级别下,step1、step2是会正常执行的,step3则会报错主键冲突,对于事务1的业务来说是执行失败的,这里事务1就是发生了幻读,因为事务1在step1中读取的数据状态并不能支撑后续的业务操作,事务1:“见鬼了,我刚才读到的结果应该可以支持我这样操作才对啊,为什么现在不可以”。事务1不敢相信的又执行了step4,发现和setp1读取的结果是一样的(RR下的MVCC机制)。此时,幻读无疑已经发生,事务1无论读取多少次,都查不到id =3的记录,但它的确无法插入这条他通过读取来认定不存在的记录(此数据已被事务2插入),对于事务1来说,它幻读了。

其实RR也是可以避免幻读的,通过对select操作手动加行X锁(独占锁) (SELECT ...FOR UPDATE这也正是SERIALIZABLE隔离级别下会隐式为你做的事情)。同时,即便当前记录不存在,比如id = 3是不存在的,当前事务也会获得一把记录锁(因为InnoDB的行锁锁定的是索引,故记录实体存在与否没关系,存在就加行X锁,不存在就加间隙锁),其他事务则无法插入此索引的记录,故杜绝了幻读。

SERIALIZABLE隔离级别下,step1执行时是会隐式的添加行(X)锁/gap(X)锁的,从而step2会被阻塞,step3会正常执行,待事务1提交后,事务2才能继续执行(主键冲突执行失败),对于事务1来说业务是正确的,成功的阻塞扼杀了扰乱业务的事务2,对于事务1来说他前期读取的结果是可以支撑其后续业务的。

所以MySQL的幻读并非什么读取两次返回结果集不同,而是事务在插入事先检测不存在的记录时,惊奇的发现这些数据已经存在了,之前的检测读获取到的数据如同鬼影一般。

这里,只是抛出这些问题,后续章节,有这些内容的解释。

4.事务的常见分类


从事务理论的角度来看,可以把事务分为以下几种类型:

  • 扁平事务(Flat Transactions)
  • 带有保存点的扁平事务(Flat Transactions with Savepoints)
  • 链事务(Chained Transactions)
  • 嵌套事务(Nested Transactions)
  • 分布式事务(Distributed Transactions)

只是为了记录自己的学习历程,且本人水平有限,不对之处,请指正。