MySQLのバッファプールの詳細な説明

MySQL のデータはディスクに書き込む必要があることは誰もが知っています。ディスクの読み取りと書き込みは、特にメモリと比較すると非常に遅くなります。ただし、通常 SQL を実行すると、書き込み操作と読み取り操作の両方で、予想ほど遅くなく、すぐに結果を得ることができます。

インデックスがあるから、当然インデックスがあった方が速いと言うかもしれません。しかし、インデックスファイルもディスクに保存されるため、検索プロセスによってディスク I/O が生成されます。データ行に対して複数の操作を同時に実行すると、ディスク IO が何度も繰り返されるのではないでしょうか。

おそらくあなたも考えたことがあるでしょうが、データをメモリに保存するだけではだめなのでしょうか?メモリがディスクよりも高速であることは間違いありません。そうです、それではどうやって保存するのでしょうか? これが今日お話しするトピック、つまりバッファプールです。

読者の皆様、ぜひフォローしてくださいね〜

図：マインドマップ

バッファプールを使い始める

上で述べたように、行を操作する SQL を実行する場合、必ずしもディスク操作を直接実行できるとは限りません。少なくとも緩衝地帯はある。そうでなければ、毎回巣の奥深くまで行くのに誰が耐えられるだろうか。

ここでバッファプールが登場します。簡単に言えば、メモリ領域です。その存在理由の 1 つは、毎回ディスクにアクセスすることを回避し、最も頻繁にアクセスされるデータをキャッシュに入れて、データのアクセス速度を向上させることです。

バッファプールの機能がわかったところで、バッファプールが MySQL アーキテクチャ全体の中でどのような位置を占めているかを見て、マクロ的に理解してみましょう。

内部コンポーネントを見てみましょう。バッファプールには、データページとインデックスページ以外にもいくつかの種類があります。

バッファプールの応用

バッファプールについて理解できたので、SQL 実行におけるバッファプールの役割について最も関心があるかもしれません。前回の記事では、SQL ステートメントの実行プロセスについて簡単に説明しましたが、バッファプールに関連する問題については触れませんでした。この問題では、エントリポイントとして SQL を引き続き使用します。

SQL 文を実行すると、それが読み取り操作である場合、検索対象のデータが配置されているデータページがメモリ内にある場合に結果が返されます。それ以外の場合は、対応するデータページがメモリにロードされ、結果が返されます。

書き込み操作にも同じことが当てはまります。変更する行が配置されているデータページがメモリ内にある場合は、変更後に対応する結果が返されます (もちろん、後続の操作もあります)。存在しない場合は、行に対応するデータページがディスクからメモリに読み込まれ、変更されます。

さて、最初の質問に戻りましょう。ディスク操作は遅いのに、SQL 実行は遅くないのはなぜですか?おそらくあなたはもうそれを知っていると思います。

バッファプールの存在により、ディスク I/O によって発生するオーバーヘッドが大幅に削減されます。操作対象となるデータ行が配置されているデータページがキャッシュ内に存在する場合は、ディスクから読み取る必要はありません。この方法では、実行後にすぐに結果を得ることができます。

バッファプールの事前読み取りメカニズム

ディスク I/O がなくなるか減少する限り、実行速度は自然に速くなることがわかります。では、データページのロードに伴う避けられないディスク I/O に対処するためのより良い方法はあるのでしょうか?避けられないのであれば、ディスク I/O の数を減らすことが常に選択肢になるのではないでしょうか?

これから説明するのは、MySQL の「先読み」という新機能です。これは、バッファプールで複数のデータページを事前に読み取ることで、Innodb が I/O を最適化する方法です。ディスクの読み取りと書き込みはページ単位で行われるため（固定サイズのデータとして理解できます。たとえば、1 ページのデータは 16K です）、毎回少なくとも 1 ページのデータが読み取られます。次に読み取るデータがページ内にある場合は、ディスクから再度読み取る必要がないため、ディスク I/O が削減されます。

対応するページサイズは、コマンドラインで次のコマンドを実行すると確認できます。

バッファプールスペース管理

バッファプールが流行っているのだから、すべてのデータをバッファプールに入れたらどうかと思うかもしれません。この速度は本当に素晴らしいのですが、それをディスクに保存するのは、年老いた牛が荷車を引くのと同じくらい遅いです。

おい、兄弟、目を覚ませ。メモリの揮発性はさておき、バッファプールにもサイズ制限がある。すると、また混乱してしまうかもしれません。バッファプールにはサイズ制限があるので、毎回読み取るデータページをどのように管理すればよいのでしょうか。他のデータページがスペースを占有しているので、私のスペースはどこにあるのでしょうか?

ここでは、バッファプールのスペース管理について説明します。実際、バッファプールの管理の重要な部分は、プール内のデータをどのように整理し、特定の戦略に従ってプール内のデータを削除して、プール内のデータが「オーバーフロー」しないようにしながら、よく使用されるデータがプール内に残るようにすることです。

従来のLRU除去法

バッファプールは、従来の LRU 方式に基づいてキャッシュページを管理します。まず、LRU を使用してどのように管理されるかを見てみましょう。

LRU の正式名称は Least Recently Used で、中国語名は「least Recently Used」です。名前からすぐに分かります。

ここでは 2 つの状況があります。

（１）キャッシュページはすでにバッファプール内にある

この場合、対応するキャッシュページは、ディスクから読み取ったり、他のキャッシュページを削除したりすることなく、LRU リンクリストの先頭に配置されます。

下の図に示すように、アクセスするデータがページ 6 にある場合は、リンクリストの先頭にページ 6 を配置するだけです。この場合、キャッシュページは削除されません。

（２）キャッシュページがバッファプールに存在しない

キャッシュページはバッファ内にありません。このとき、対応するデータページをディスクから読み取り、リンクリストの先頭に配置し、末尾のキャッシュページを削除する必要があります。

下の図に示すように、アクセスするデータがページ 60 にあり、ページ 60 がバッファプールにない場合は、それがロードされてリンクリストの先頭に配置され、末尾のキャッシュページ 17 は削除されます。

バッファプール内のキャッシュページを削除する方法はシンプルかつ満足できるものだと思いますか?しかし、いくつかの質問について考えてみましょう。

事前読み取りの失敗

上で、バッファプールの先読みメカニズムによって隣接するデータページがプリロードされる可能性があることを説明しました。隣接する 2 つのデータページ 20 と 21 がロードされ、ページ番号 20 のキャッシュページのみがアクセスされ、他のキャッシュページはアクセスされないとします。このとき、両方のキャッシュページはリンクリストの先頭にありますが、この 2 つのキャッシュページをロードするために、末尾のキャッシュページが削除され、削除されたキャッシュページが頻繁にアクセスされます。この場合、事前読み取りが失敗し、バッファプールに事前ロードされたページにアクセスされません。これは不合理ではありませんか?

バッファプールの汚染
また、SQL 文を実行する際に、大量のデータをスキャンしたり、テーブル全体をスキャンしたりすると、大量のデータページがバッファープールにロードされ、バッファープール内の既存のページがすべて置き換えられるという状況もあります。この状況も不合理です。これはバッファプールの汚染であり、MySQL のパフォーマンスが大幅に低下する可能性があります。

ホットデータとコールドデータの分離

従来の LRU 方式では、バッファプールのスペース管理要件を満たすことができないようです。そのため、Msyql は LRU に基づいてホットデータとコールドデータを分離するソリューションを設計しました。

つまり、LRU リンクリストは、ホットデータ領域用とコールドデータ領域用の 2 つの部分に分割されます。

データページが最初にバッファープールにロードされると、コールドデータ領域のリンクリストの先頭に配置されます。1 秒後 (innodb_old_blocks_time パラメータによって制御されます)、キャッシュページがアクセスされ、ホットデータ領域のリンクリストの先頭に移動されます。

ホットデータ領域に移動する前に 1 秒待たなければならないのはなぜかと疑問に思うかもしれません。考えてみてください。データページがコールドデータ領域にロードされた直後にアクセスされ、二度とアクセスされない場合はどうなるでしょうか。これにより、ホットデータ領域が無駄になるのではないですか? 1 秒経ってもアクセスされない場合は、今後頻繁にアクセスされない可能性があるので、ホットバッファに移動する必要はありません。キャッシュページが不足している場合は、コールドデータ領域からそれらを削除します。

別のケースでは、データページがすでにホットバッファー内にある場合、アクセスされる限り、キャッシュページはリンクリストの先頭に挿入されますか?言うまでもなく、それは無理だと思うに違いありません。ホットデータ領域のキャッシュページは頻繁にアクセスされます。キャッシュページがアクセスされるたびにリンクリストヘッダーが挿入されると、ホットバッファー全体が非常に混乱した状態になります。その光景を想像してみてください。

では私たちは何をすべきでしょうか? MySQL では、ホットデータ領域の最後の 3/4 は、アクセスされた後にのみリンクリストの先頭に移動されるように最適化されており、最初の 1/4 のキャッシュページはアクセスされた後に移動されません。

さて、バッファプールについては以上です。今回は、バッファプールによって SQL 実行が高速化される理由と、バッファプール領域の管理方法について説明しました。コメント欄での議論を歓迎します。

要約する

バッファプールの応用

バッファプールは、ディスク I/O によるオーバーヘッドを大幅に削減します。データ行が操作されるデータページをバッファプールにロードすることで、SQL の実行速度を向上させることができます。

バッファプールの事前読み取りメカニズム

ディスク I/O を削減するために、Innodb はバッファプールで複数のデータページを事前に読み取ることによって最適化します。これを事前読み取りと呼びます。

バッファプールスペース管理

バッファプールの従来の LRU 方式では、事前読み取りの失敗とバッファプールの汚染という 2 つの状況が発生します。したがって、この従来の方法はバッファプールのスペース管理には適していません。
Msyql は、LRU 方式の最適化に基づいて、ホットデータとコールドデータを分離するソリューションを設計し、LRU リンクリストをホットデータ領域とコールドデータ領域の 2 つの部分に分割して、事前読み取りの失敗とバッファープールの汚染の問題を解決しました。

以上がMySQLのバッファプールの詳しい説明です。MySQLのバッファプールについてさらに詳しく知りたい方は、123WORDPRESS.COMの関連記事もぜひご覧ください！

以下もご興味があるかもしれません: