久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

<p id="vfaef"><kbd id="vfaef"></kbd></p>

<pre id="vfaef"><u id="vfaef"></u></pre>

<thead id="vfaef"><input id="vfaef"></input></thead>

<dfn id="z7w7r"><input id="z7w7r"></input></dfn>

<dfn id="z7w7r"></dfn><small id="z7w7r"><u id="z7w7r"><strike id="z7w7r"></strike></u></small>

當前位置：站長資訊網(wǎng) > 編程知識 > 正文

聊聊MySQL的基礎架構(gòu)和日志系統(tǒng)

2022-07-07 分類：編程知識閱讀(708) 評論(0)

本篇文章帶大家了解一下MySQL的相關(guān)知識，深入聊聊MySQL基礎架構(gòu)與日志系統(tǒng)，希望對大家有所幫助！

聊聊MySQL的基礎架構(gòu)和日志系統(tǒng)

一、MySQL基礎架構(gòu)

聊聊MySQL的基礎架構(gòu)和日志系統(tǒng)
MySQL可以分為Server層和存儲引擎層兩部分

Server層包括連接器、查詢緩存、分析器、優(yōu)化器、執(zhí)行器等，涵蓋MySQL的大多數(shù)核心服務功能，以及所有的內(nèi)置函數(shù)（如日期、時間、數(shù)學和加密函數(shù)等），所有跨存儲引擎的功能都在這一層實現(xiàn)，比如存儲過程、觸發(fā)器、視圖等

存儲引擎負責數(shù)據(jù)的存儲和提取。其架構(gòu)模式是插件式的，支持InnoDB、MyISAM、Memory等多個存儲引擎?，F(xiàn)在最常用的存儲引擎是InnoDB，它從MySQL 5.5.5版本開始成為了默認存儲引擎?？梢酝ㄟ^在SQL語句中使用engin=memory來指定使用內(nèi)存引擎執(zhí)行

不同的存儲引擎共用一個Server層

1、連接器

連接器負責跟客戶端建立連接、獲取權(quán)限、維持和管理連接。連接命令一般是：

mysql -h$ip -P$port -u$user -p

連接命令中的mysql是客戶端工具，用來跟服務端建立連接。在完成TCP握手后，連接器就要開始認證身份

如果用戶名或密碼不對，就會收到一個"Access denied for user"的錯誤，然后客戶端程序結(jié)束執(zhí)行
如果用戶名密碼認證通過，連接器回到權(quán)限表里面查出你擁有的權(quán)限。之后，這個連接里面的權(quán)限判斷邏輯，都將依賴于此時讀到的權(quán)限

這就意味著，一個用戶成功建立連接后，即使用管理員帳號對這個用戶的權(quán)限做了修改，也不會影響已經(jīng)存在連接的權(quán)限。修改完成后，只有再新建的連接才會使用新的權(quán)限設置

連接完成后，如果你沒有后續(xù)的動作，這個連接就處于空閑狀態(tài)，可以在show processlist命令中看到它

聊聊MySQL的基礎架構(gòu)和日志系統(tǒng)

Command為Sleep表示此連接是一個空閑連接

客戶端如果太長時間沒動靜，連接器就會自動將它斷開。這個時間是由參數(shù)wait_timeout控制的。默認值是8小時

如果在連接被斷開之后，客戶端再次發(fā)送請求的話，就會收到一個錯誤提示：Lost connection to MySQL server during query。這時候就需要重新連接，然后在執(zhí)行請求了

數(shù)據(jù)庫里面，長連接是指連接成功后，如果客戶端持續(xù)有請求，則一直使用同一個連接。短連接則是指每次執(zhí)行完很少的幾次查詢就斷開連接，下次查詢再重新建立一個

建立連接的過程通常是比較復雜的，所以建議盡量使用長連接

但是全部使用長連接后，有些時候MySQL占用內(nèi)存漲得特別快，這是因為MySQL在執(zhí)行過程中臨時使用的內(nèi)存是管理在連接對象里面的。這些資源會在連接斷開的時候才釋放。所以如果長連接累計下來，可能導致內(nèi)存占用太大，被系統(tǒng)強行殺掉（OOM），從現(xiàn)象看就是MySQL異常重啟了

可以通過以下兩種方案解決這個問題：

1.定期斷開長連接。使用一段時間，或者程序里面判斷執(zhí)行過一個占用內(nèi)存的大查詢后，斷開連接，之后要查詢再重連

2.如果使用的是MySQL5.7或更新版本，可以在每次執(zhí)行一個比較大的操作后，通過執(zhí)行mysql_reset_connection來重新初始化連接資源。這個過程不需要重連和重新做權(quán)限驗證，但是會將連接恢復到剛剛創(chuàng)建完時的狀態(tài)

2、查詢緩存

建立連接完成后，可以執(zhí)行select語句了。MySQL拿到一個查詢請求后，會先到查詢緩存看看，之前是不是執(zhí)行過這條語句。之前執(zhí)行過的語句及其結(jié)果可能會以key-value對的形式，被直接緩存在內(nèi)存中。key是查詢的語句，value是查詢的結(jié)果。如果查詢能夠直接在這個緩存中找到key，那么這個value就會被直接返回給客戶端

如果語句不在查詢緩存中，就會繼續(xù)后面的執(zhí)行階段。執(zhí)行完成后，執(zhí)行結(jié)果會被存入查詢緩存中。如果查詢命中緩存，MySQL不需要執(zhí)行后面的復雜操作，就可以直接返回結(jié)果，這個效率很高

但是大多數(shù)情況下不建議使用查詢緩存，因為查詢緩存的失效非常頻繁，只要對一個表的更新，這個表上所有的查詢緩存都會被清空。對于更新壓力大的數(shù)據(jù)庫來說，查詢緩存的命中率會非常低

可以將參數(shù)query_cache_type設置成DEMAND，這樣對于默認的SQL語句都不使用查詢緩存。而對于確定要是查詢緩存的語句，可以用SQL_CACHE顯示指定，如下面這條語句一樣：

select SQL_CACHE * from T where ID=10；

MySQL8.0版本直接將查詢緩存的整塊功能刪掉了

3、分析器

如果沒有命中查詢緩存，就要開始真正執(zhí)行語句了。MySQL首先要對SQL語句做解析

分析器會先做詞法分析。輸入的是由多個字符串和空格組成的一條SQL語句，MySQL需要識別出里面的字符串分別是什么，代表什么

select * from T where ID=10；

MySQL從輸入的select這個關(guān)鍵字識別出來，這是一個查詢語句。它也要把字符串T識別成表名T，把字符串ID識別成列ID

做完了這些識別以后，就要做語法分析。根據(jù)詞法分析的結(jié)果，語法分析器會根據(jù)語法規(guī)則，判斷這個SQL語句是否滿足MySQL語法。如果語法不對，就會收到"You have an error in your SQL syntax"的錯誤提示

4、優(yōu)化器

經(jīng)過了分析器，在開始執(zhí)行之前，還要先經(jīng)過優(yōu)化器的處理

優(yōu)化器是在表里面有多個索引的時候，決定使用哪個索引；或者在一個語句有多表關(guān)聯(lián)的時候，決定各個表的連接順序

5、執(zhí)行器

優(yōu)化器階段完成后，這個語句的執(zhí)行方案就確定下來了，然后進入執(zhí)行器階段，開始執(zhí)行語句

開始執(zhí)行的時候，要先判斷一下你對這個表T有沒有執(zhí)行查詢的權(quán)限，如果沒有，就會返回沒有權(quán)限的錯誤，如下所示

mysql> select * from T where ID=10; ERROR 1142 (42000): SELECT command denied to user 'b'@'localhost' for table 'T'

如果有權(quán)限，就打開表繼續(xù)執(zhí)行。打開表的時候，執(zhí)行器就會根據(jù)表的引擎定義，去使用這個引擎提供的接口

比如在表T中，ID字段沒有索引，那么執(zhí)行器的執(zhí)行流程是這樣的：

1.調(diào)用InnoDB引擎接口取這個表的第一行，判斷ID值是不是10，如果不是則跳過，如果是則將這個行存在結(jié)果集中

2.調(diào)用引擎接口取下一行，重復相同的判斷邏輯，直到取到這個表的最后一行

3.執(zhí)行器將上述遍歷過程中所有滿足條件的行組成的記錄集作為結(jié)果集返回給客戶端

在數(shù)據(jù)庫的慢查詢?nèi)罩局锌吹揭粋€rows_examined的字段，表示這個語句執(zhí)行過程掃描了多少行。這個值就是在執(zhí)行器每次調(diào)用引擎獲取數(shù)據(jù)行的時候累加的

在有些場景下，執(zhí)行器調(diào)用一次，在引起內(nèi)部則掃描了多行，因此引擎掃描行數(shù)跟rows_examined并不是完全相同的

二、日志系統(tǒng)

表T的創(chuàng)建語句如下，這個表有一個主鍵ID和一個整型字段c：

create table T(ID int primary key, c int);

如果要將ID=2這一行的值加1，SQL語句如下：

update T set c=c+1 where ID=2;

1、redo log（重做日志）

在MySQL中，如果每次的更新操作都需要寫進磁盤，然后磁盤也要找到對應的那條記錄，然后再更新，整個過程IO成本、查找成本都很高。MySQL里常說的WAL技術(shù)，全稱是Write-Ahead Logging，它的關(guān)鍵點就是先寫日志，再寫磁盤

當有一條記錄需要更新的時候，InnoDB引擎就會把記錄寫到redo log里面，并更新buffer pool的page，這個時候更新就算完成了

buffer pool是物理頁的緩存，對InnoDB的任何修改操作都會首先在buffer pool的page上進行，然后這樣的頁面將被標記為臟頁并被放到專門的flush list上，后續(xù)將由專門的刷臟線程階段性的將這些頁面寫入磁盤

InnoDB的redo log是固定大小的，比如可以配置為一組4個文件，每個文件的大小是1GB，從頭開始寫，寫到末尾就又回到開頭循環(huán)寫

聊聊MySQL的基礎架構(gòu)和日志系統(tǒng)
write pos是當前記錄的位置，一邊寫一邊后移，寫到第3號文件末尾后就回到0號文件開頭。check point是當前要擦除的位置，也是往后推移并且循環(huán)的，擦除記錄前要把記錄更新到數(shù)據(jù)文件

write pos和check point之間空著的部分，可以用來記錄新的操作。如果write pos追上check point，這時候不能再執(zhí)行新的更新，需要停下來擦掉一些記錄，把check point推進一下

有了redo log，InnoDB就可以保證即使數(shù)據(jù)庫發(fā)生異常重啟，之前提交的記錄都不會丟失，這個能力稱為crash-safe

2、binlog（歸檔日志）

MySQL整體來看就有兩塊：一塊是Server層，主要做的是MySQL功能層面的事情；還有一塊是引擎層，負責存儲相關(guān)的具體事宜。redo log是InnoDB引擎特有的日志，而Server層也有自己的日志，稱為binlog

為什么會有兩份日志？

因為最開始MySQL里并沒有InnoDB引擎。MySQL自帶的引擎是MyISAM，但是MyISAM沒有crash-safe的能力，binlog日志只能用于歸檔。而InnoDB是以插件形式引入MySQL的，既然只依靠binlog是沒有crash-safe能力的，所以InnoDB使用redo log來實現(xiàn)crash-safe能力

binlog的日志格式：

binlog的格式有三種：STATEMENT，ROW，MIXED

1）、STATEMENT模式

binlog里面記錄的就是SQL語句的原文。優(yōu)點是并不需要記錄每一行的數(shù)據(jù)變化，減少了binlog日志量，節(jié)約IO，提高性能。缺點是在某些情況下會導致master-slave中的數(shù)據(jù)不一致(如sleep()函數(shù)， last_insert_id()，以及user-defined functions(udf)等會出現(xiàn)問題)

2）、ROW模式

不記錄每條SQL語句的上下文信息，僅需記錄哪條數(shù)據(jù)被修改了，修改成什么樣了。而且不會出現(xiàn)某些特定情況下的存儲過程或function或trigger的調(diào)用和觸發(fā)無法被正確復制的問題。缺點是會產(chǎn)生大量的日志，尤其是alter table的時候會讓日志暴漲

3）、MIXED模式

以上兩種模式的混合使用，一般的復制使用STATEMENT模式保存binlog，對于STATEMENT模式無法復制的操作使用ROW模式保存binlog，MySQL會根據(jù)執(zhí)行的SQL語句選擇日志保存方式

3、redo log和binlog日志的不同

1.redo log是InnoDB引擎特有的；binlog是MySQL的Server層實現(xiàn)的，所有引擎都可以使用

2.redo log是物理日志，記錄的是在某個數(shù)據(jù)也上做了什么修改；binlog是邏輯日志，記錄的是這個語句的原始邏輯，比如給ID=2這一行的c字段加1

3.redo log是循環(huán)寫的，空間固定會用完；binlog是可以追加寫入的，binlog文件寫到一定大小后會切換到下一個，并不會覆蓋以前的日志

4、兩階段提交

執(zhí)行器和InnoDB引擎在執(zhí)行這個update語句時的內(nèi)部流程：

1.執(zhí)行器先找到引擎取ID=2這一行。ID是主鍵，引擎直接用樹搜索找到這一行。如果ID=2這一行所在的數(shù)據(jù)也本來就在內(nèi)存中，就直接返回給執(zhí)行器；否則，需要先從磁盤讀入內(nèi)存，然后再返回

2.執(zhí)行器拿到引擎給的行數(shù)據(jù)，把這個值加上1，得到新的一行數(shù)據(jù)，再調(diào)用引擎接口寫入這行新數(shù)據(jù)

3.引擎將這行新數(shù)據(jù)更新到內(nèi)存中，同時將這個更新操作記錄到redo log里面，此時redo log處于prepare狀態(tài)。然后告知執(zhí)行器執(zhí)行完成了，隨時可以提交事務

4.執(zhí)行器生成這個操作的binlog，并把binlog寫入磁盤

5.執(zhí)行器調(diào)用引擎的提交事務接口，引擎把剛剛寫入的redo log改成提交狀態(tài)，更新完成

update語句的執(zhí)行流程圖如下，圖中淺色框表示在InnoDB內(nèi)部執(zhí)行的，深色框表示是在執(zhí)行器中執(zhí)行的

聊聊MySQL的基礎架構(gòu)和日志系統(tǒng)

將redo log的寫入拆成了兩個步驟：prepare和commit，這就是兩階段提交

由于redo log和binlog是兩個獨立的邏輯，如果不用兩階段提交，要么就是先寫完redo log再寫binlog，或者先寫完binlog再寫redo log

1.先寫完redo log再寫binlog。如果在redo log寫完，binlog還沒有寫完的時候，MySQL進程異常重啟。由于redo log寫完之后，系統(tǒng)即使崩潰，仍然能夠把數(shù)據(jù)恢復回來，所以恢復后這一行c的值是1。但是由于binlog還沒寫完就crash了，這時候binlog里面就沒有記錄這個語句，binlog中記錄的這一行c的值為0

2.先寫binlog后寫redo log。如果在binlog寫完之后crash，由于redo log還沒寫，崩潰恢復以后這個事務無效，所以這一行的c的值是0。但是binlog里面已經(jīng)記錄了把c從0改成1這個日志。所以，在之后binlog來恢復的時候就多了一個事務出來，恢復出來的這一行c的值就是1

如果不使用兩階段提交，那么數(shù)據(jù)庫的狀態(tài)就有可能和用它的日志恢復出來的庫的狀態(tài)不一致。redo log和binlog都可以用于表示事務的提交狀態(tài)，而兩階段提交就是讓這兩個狀態(tài)保持邏輯上的一致

redo log用于保證crash-safe能力。innodb_flush_log_at_trx_commit這個參數(shù)設置成1的時候，表示每次事務的redo log都直接持久化到磁盤，這樣可以保證MySQL異常重啟之后數(shù)據(jù)不丟失

sync_binlog這個參數(shù)設置成1的時候，表示每次事務的binlog都持久化到磁盤，這樣可以保證MySQL異常重啟之后binlog不丟失

三、MySQL刷臟頁

1、刷臟頁的場景

當內(nèi)存數(shù)據(jù)頁跟磁盤數(shù)據(jù)頁不一致的時候，我們稱這個內(nèi)存頁為臟頁。內(nèi)存數(shù)據(jù)寫入到磁盤后，內(nèi)存和磁盤行的數(shù)據(jù)頁的內(nèi)容就一致了，稱為干凈頁

第一種場景是，InnoDB的redo log寫滿了，這時候系統(tǒng)會停止所有更新操作，把checkpoint往前推進，redo log留出空間可以繼續(xù)寫

checkpoint位置從CP推進到CP’，就需要將兩個點之間的日志對應的所有臟頁都flush到磁盤上。之后，上圖中從write pos到CP’之間就是可以再寫入的redo log的區(qū)域
第二種場景是，系統(tǒng)內(nèi)存不足。當需要新的內(nèi)存頁，而內(nèi)存不夠用的時候，就要淘汰一些數(shù)據(jù)頁，空出內(nèi)存給別的數(shù)據(jù)頁使用。如果淘汰的是臟頁，就要先將臟頁寫到磁盤

這時候不能直接把內(nèi)存淘汰掉，下次需要請求的時候，從磁盤讀入數(shù)據(jù)頁，然后拿redo log出來應用不就行了？

這里是從性能考慮的。如果刷臟頁一定會寫盤，就保證了每個數(shù)據(jù)頁有兩種狀態(tài)：一種是內(nèi)存里存在，內(nèi)存里就肯定是正確的結(jié)果，直接返回；另一種是內(nèi)存里沒有數(shù)據(jù)，就可以肯定數(shù)據(jù)文件上是正確的結(jié)果，讀入內(nèi)存后返回。這樣的效率最高

第三種場景是，MySQL認為系統(tǒng)空閑的時候刷臟頁，當然在系統(tǒng)忙的時候也要找時間刷一點臟頁
第四種場景是，MySQL正常關(guān)閉的時候會把內(nèi)存的臟頁都flush到磁盤上，這樣下次MySQL啟動的時候，就可以直接從磁盤上讀數(shù)據(jù)，啟動速度會很快

redo log寫滿了，要flush臟頁，出現(xiàn)這種情況的時候，整個系統(tǒng)就不能再接受更新了，所有的更新都必須堵住

內(nèi)存不夠用了，要先將臟頁寫到磁盤，這種情況是常態(tài)。InnoDB用緩沖池管理內(nèi)存，緩沖池中的內(nèi)存頁有三種狀態(tài)：

第一種是還沒有使用的
第二種是使用了并且是干凈頁
第三種是使用了并且是臟頁

InnoDB的策略是盡量使用內(nèi)存，因此對于一個長時間運行的庫來說，未被使用的頁面很少

當要讀入的數(shù)據(jù)頁沒有在內(nèi)存的時候，就必須到緩沖池中申請一個數(shù)據(jù)頁。這時候只能把最久不使用的數(shù)據(jù)頁從內(nèi)存中淘汰掉：如果要淘汰的是一個干凈頁，就直接釋放出來復用；但如果是臟頁，即必須將臟頁先刷到磁盤，變成干凈頁后才能復用

刷頁雖然是常態(tài)，但是出現(xiàn)以下兩種情況，都是會明顯影響性能的：

一個查詢要淘汰的臟頁個數(shù)太多，會導致查詢的響應時間明顯變長
日志寫滿，更新全部堵住，寫性能跌為0，這種情況對敏感業(yè)務來說，是不能接受的

2、InnoDB刷臟頁的控制策略

首先，要正確地告訴InnoDB所在主機的IO能力，這樣InnoDB才能知道需要全力刷臟頁的時候，可以刷多快。參數(shù)為innodb_io_capacity，建議設置成磁盤的IOPS

InnoDB的刷盤速度就是考慮臟頁比例和redo log寫盤速度。參數(shù)innodb_max_dirty_pages_pct是臟頁比例上限，默認值是75%。臟頁比例是通過Innodb_buffer_pool_pages_dirty/Innodb_buffer_pool_pages_total得到的，SQL語句如下：

mysql>  select VARIABLE_VALUE into @a from performance_schema.global_status where VARIABLE_NAME = 'Innodb_buffer_pool_pages_dirty'; select VARIABLE_VALUE into @b from performance_schema.global_status where VARIABLE_NAME = 'Innodb_buffer_pool_pages_total'; select @a/@b;

四、日志相關(guān)問題

聊聊MySQL的基礎架構(gòu)和日志系統(tǒng)

問題一：在兩階段提交的不同時刻，MySQL異常重啟會出現(xiàn)什么現(xiàn)象

如果在圖中時刻A的地方，也就是寫入redo log處于prepare階段之后、寫binlog之前，發(fā)生了崩潰，由于此時binlog還沒寫，redo log也還沒提交，所以崩潰恢復的時候，這個事務會回滾。這時候，binlog還沒寫，所以也不會傳到備庫

如果在圖中時刻B的地方，也就是binlog寫完，redo log還沒commit前發(fā)生崩潰，那崩潰恢復的時候MySQL怎么處理？

崩潰恢復時的判斷規(guī)則：

1）如果redo log里面的事務是完整的，也就是已經(jīng)有了commit標識，則直接提交

2）如果redo log里面的事務只有完整的prepare，則判斷對應的事務binlog是否存在并完整

a.如果完整，則提交事務

b.否則，回滾事務

時刻B發(fā)生崩潰對應的就是2(a)的情況，崩潰恢復過程中事務會被提交

問題二：MySQL怎么知道binlog是完整的？

一個事務的binlog是有完整格式的：

statement格式的binlog，最后會有COMMIT
row格式的binlog，最后會有一個XID event

問題三：redo log和binlog是怎么關(guān)聯(lián)起來的？

它們有一個共同的數(shù)據(jù)字段，叫XID。崩潰恢復的時候，會按順序掃描redo log：

如果碰到既有prepare、又有commit的redo log，就直接提交
如果碰到只有prepare、而沒有commit的redo log，就拿著XID去binlog找對應的事務

問題四：redo log一般設置多大？

如果是現(xiàn)在常見的幾個TB的磁盤的話，redo log設置為4個文件、每個文件1GB

問題五：正常運行中的實例，數(shù)據(jù)寫入后的最終落盤，是從redo log更新過來的還是從buffer pool更新過來的呢？

redo log并沒有記錄數(shù)據(jù)頁的完整數(shù)據(jù)，所以它并沒有能力自己去更新磁盤數(shù)據(jù)頁，也就不存在數(shù)據(jù)最終落盤是由redo log更新過去的情況

1.如果是正常運行的實例的話，數(shù)據(jù)頁被修改以后，跟磁盤的數(shù)據(jù)頁不一致，稱為臟頁。最終數(shù)據(jù)落盤，就是把內(nèi)存中的數(shù)據(jù)頁寫盤。這個過程，甚至與redo log毫無關(guān)系

2.在崩潰恢復場景中，InnoDB如果判斷到一個數(shù)據(jù)頁可能在崩潰恢復的時候丟失了更新，就會將它對到內(nèi)存，然后讓redo log更新內(nèi)存內(nèi)容。更新完成后，內(nèi)存頁變成臟頁，就回到了第一種情況的狀態(tài)

問題六：redo log buffer是什么？是先修改內(nèi)存，還是先寫redo log文件？

在一個事務的更新過程中，日志是要寫多次的。比如下面這個事務：

begin;insert into t1 ...insert into t2 ...commit;

這個事務要往兩個表中插入記錄，插入數(shù)據(jù)的過程中，生成的日志都得先保存起來，但又不能在還沒commit的時候就直接寫到redo log文件里

所以，redo log buffer就是一塊內(nèi)存，用來先存redo日志的。也就是說，在執(zhí)行第一個insert的時候，數(shù)據(jù)的內(nèi)存被修改了，redo log buffer也寫入了日志。但是，真正把日志寫到redo log文件，是在執(zhí)行commit語句的時候做的

五、MySQL是怎么保證數(shù)據(jù)不丟的？

只要redo log和binlog保證持久化到磁盤，就能確保MySQL異常重啟后，數(shù)據(jù)可以恢復

1、binlog的寫入機制

事務執(zhí)行過程中，先把日志寫到binlog cache，事務提交的時候，再把binlog cache寫到binlog文件中。一個事務的binlog是不能被拆開的，因此不論這個事務多大，也要確保一次性寫入

系統(tǒng)給binlog cache分配了一片內(nèi)存，每個線程一個，參數(shù)binlog_cache_size用于控制單個線程內(nèi)binlog cache所占內(nèi)存的大小。如果超過了這個參數(shù)規(guī)定的大小，就要暫存到磁盤

事務提交的時候，執(zhí)行器把binlog cache里的完整事務寫入到binlog中，并清空binlog cache

聊聊MySQL的基礎架構(gòu)和日志系統(tǒng)
每個線程有自己binlog cache，但是共用一份binlog文件

圖中的write，指的就是把日志寫入到文件系統(tǒng)的page cache，并沒有把數(shù)據(jù)持久化到磁盤，所以速度比較快
圖中的fsync，才是將數(shù)據(jù)持久化到磁盤的操作。一般情況下認為fsync才占磁盤的IOPS

write和fsync的時機，是由參數(shù)sync_binlog控制的：

sync_binlog=0的時候，表示每次提交事務都只write，不fsync
sync_binlog=1的時候，表示每次提交事務都會執(zhí)行fsync
sync_binlog=N（N>1）的時候，表示每次提交事務都write，但累積N個事務后才fsync

因此，在出現(xiàn)IO瓶頸的場景中，將sync_binlog設置成一個比較大的值，可以提升性能，對應的風險是：如果主機發(fā)生異常重啟，會丟失最近N個事務的binlog日志

2、redo log的寫入機制

事務在執(zhí)行過程中，生成的redo log是要先寫到redo log buffer的。redo log buffer里面的內(nèi)容不是每次生成后都要直接持久化到磁盤，也有可能在事務還沒提交的時候，redo log buffer中的部分日志被持久化到磁盤

redo log可能存在三種狀態(tài)，對應下圖的三個顏色塊

聊聊MySQL的基礎架構(gòu)和日志系統(tǒng)

這三張狀態(tài)分別是：

存在redo log buffer中，物理上是在MySQL進程內(nèi)存中，就是圖中紅色的部分
寫到磁盤，但是沒有持久化，物理上是在文件系統(tǒng)的page cache里面，也就是圖中黃色的部分
持久化到磁盤，對應的是hard disk，也就是圖中的綠色部分

日志寫到redo log buffer和write到page cache都是很快的，但是持久化到磁盤的速度就慢多了

為了控制redo log的寫入策略，InnoDB提供了innodb_flush_log_at_trx_commit參數(shù)，它有三種可能取值：

設置為0的時候，表示每次事務提交時都只是把redo log留在redo log buffer中
設置為1的時候，表示每次事務提交時都將redo log直接持久化到磁盤
設置為2的時候，表示每次事務提交時都只是把redo log寫到page cache

InnoDB有一個后臺線程，每隔1秒，就會把redo log buffer中的日志，調(diào)用write寫到文件系統(tǒng)的page cache，然后調(diào)用fsync持久化到磁盤。事務執(zhí)行中間過程的redo log也是直接寫在redo log buffer中的，這些redo log也會被后臺線程一起持久化到磁盤。也就是說，一個沒有提交的事務的redo log也是可能已經(jīng)持久化到磁盤的

還有兩種場景會讓一個沒有提交的事務的redo log寫入到磁盤中

1.redo log buffer占用的空間即將達到innodb_log_buffer_size一半的時候，后臺線程會主動寫盤。由于事務并沒有提交，所以這個寫盤動作只是write，而沒有調(diào)用fsync，也就是只留在文件系統(tǒng)的page cache

2.并行的事務提交的時候，順帶將這個事務的redo log buffer持久化到磁盤。假設一個事務A執(zhí)行到一半，已經(jīng)寫了一些redo log到buffer中，這時候有另外一個線程的事務B提交，如果innodb_flush_log_at_trx_commit設置的是1，事務B要把redo log buffer里的日志全部持久化到磁盤。這時候，就會帶上事務A在redo log buffer里的日志一起持久化到磁盤

兩階段提交，時序上redo log先prepare，再寫binlog，最后再把redo log commit。如果把innodb_flush_log_at_trx_commit設置成1，那么redo log在prepare階段就要持久化一次

MySQL的雙1配置，指的就是sync_binlog和innodb_flush_log_at_trx_commit都設置成1。也就是說，一個事務完整提交前，需要等待兩次刷盤，一次是redo log（prepare階段），一次是binlog

3、組提交機制

日志邏輯序列號LSN是單調(diào)遞增的，用來對應redo log的一個個寫入點，每次寫入長度為length的redo log，LSN的值就會加上length。LSN也會寫到InnoDB的數(shù)據(jù)頁中，來確保數(shù)據(jù)頁不會被多次執(zhí)行重復的redo log

聊聊MySQL的基礎架構(gòu)和日志系統(tǒng)
上圖是三個并發(fā)事務在prepare階段，都寫完redo log buffer，持久化到磁盤的過程，對應的LSN分別是50、120和160

1.trx1是第一個到達的，會被選為這組的leader

2.等trx1要開始寫盤的時候，這個組里面已經(jīng)有了三個事務，這時候LSN也變成了160

3.trx1去寫盤的時候，帶的就是LSN=160，因此等trx1返回時，所有LSN小于等于160的redo log，都已經(jīng)被持久化到磁盤

4.這時候trx2和trx3就可以直接返回了

一個組提交里面，組員越多，節(jié)約磁盤IOPS的效果要好

為了讓一次fsync帶的組員

贊(0)

標簽：AI list master NEC php set 關(guān)鍵字內(nèi)存命令基礎架構(gòu)序列號數(shù)據(jù)庫觸發(fā)器

相關(guān)推薦

?

網(wǎng)站地圖滬ICP備18035694號-2

滬公網(wǎng)安備31011702889846號