MySQL接続がハングする理由の詳細な説明

1. 背景

最近、テスターから非常に多くの問題が報告されていますが、その中でもシステム信頼性テストで発生した問題は非常に厄介です。第一に、このような問題は「散発的」な場合があり、環境ですぐに再現することが困難です。第二に、信頼性の問題のロケーションチェーンが非常に長くなる場合があります。極端な場合には、サービス A からサービス Z まで、またはアプリケーションコードからハードウェアレベルまでトレースする必要がある場合もあります。

今回は、MySQL の高可用性の問題を特定するプロセスを共有します。プロセスには紆余曲折がありましたが、問題自体は非常に代表的なものなので、参考のために記録します。

建築

まず、このシステムでは、主要なデータストレージコンポーネントとして MySQL を使用します。全体は典型的なマイクロサービスアーキテクチャ (SpringBoot + SpringCloud) であり、永続化レイヤーでは次のコンポーネントが使用されます。

Mybatis、SQL <-> メソッドマッピングを実現

hikaricp、データベース接続プールを実装する

mariadb-java-client、JDBC ドライバーを実装します

MySQL サーバー部分では、バックエンドはデュアルマスターアーキテクチャを採用し、フロントエンドは keepalived とフローティング IP (VIP) を組み合わせて高可用性レイヤーを提供します。次のように：

例示する

MySQL は 2 つのインスタンスをデプロイし、それらをマスターとスレーブの関係に設定します。
各 MySQL インスタンスに keepalived プロセスを展開すると、keepalived によって VIP 高可用性フェイルオーバーが提供されます。実際、keepalived と MySQL は両方ともコンテナ化されており、VIP ポートは VM 上の nodePort サービスポートにマッピングされています。
すべてのビジネスサービスは VIP を使用してデータベースにアクセスします。

Keepalived は、VRRP プロトコルに基づいてルーティングレイヤー変換を実装します。同時に、VIP は 1 つの仮想マシン (マスター) のみを指します。マスターノードに障害が発生すると、他の keepalived が問題を検出し、新しいマスターを再選択し、その後 VIP は別の利用可能な MySQL インスタンスノードに切り替えます。このように、MySQL データベースには基本的な高可用性機能が備わっています。

もう 1 つのポイントは、Keepalived が MySQL インスタンスに対して定期的なヘルスチェックも実行することです。MySQL インスタンスが利用できないことが判明すると、Keepalived は自身のプロセスを強制終了し、VIP 切り替えアクションをトリガーします。

問題現象

このテストケースも、仮想マシンの障害のシナリオに基づいて設計されています。

負荷を軽減しながらビジネスサービスへのアクセスを継続し、MySQL コンテナインスタンスの 1 つ (マスター) を再起動します。当初の評価によれば、ビジネスでは非常に小さなジッターが発生する可能性がありますが、中断時間は 2 番目のレベルに維持される必要があります。

しかし、多くのテストを行った結果、MySQL マスターノードコンテナを再起動すると、ビジネスにアクセスできなくなる可能性が一定数あることが判明しました。

2. 分析プロセス

問題が発生した後、開発者の最初の反応は、MySQL の高可用性メカニズムに問題があるというものでした。過去に、keepalived の設定が不適切だったために VIP が時間内に切り替えられなかったという問題が発生したことがあるため、私たちはすでにその問題に対して警戒しています。

徹底的に調査した結果、keepalived の設定に問題は見つかりませんでした。

その後、他に選択肢がなかったので、数回再テストしましたが、問題は再び発生しました。

そこで私たちはいくつかの質問をしました。

1.Keepalived は MySQL インスタンスの到達可能性に基づいて判断します。ヘルスチェックに問題がある可能性がありますか?

ただし、このテストシナリオでは、MySQL コンテナが破棄されると、keepalived のポート検出が失敗し、keepalived も失敗します。 keepalived も終了した場合、VIP は自動的にプリエンプトされるはずです。 2 つの仮想マシンノードの情報を比較すると、VIP が実際に切り替えられたことがわかりました。

2. ビジネスプロセスが配置されているコンテナーはネットワーク上でアクセス不可能ですか?

コンテナに入り、切り替え後のフローティング IP とポートで Telnet テストを実行してみてください。アクセスがまだ成功していることがわかります。

接続プール

前の 2 つの疑わしい点をトラブルシューティングした後は、ビジネスサービスの DB クライアントに注意を向けるしかありません。

ログから、障害が発生したときにビジネス側で次のようないくつかの例外が発生したことがわかります。

JDBC接続を取得できません[n/a]
java.sql.SQLTransientConnectionException: HikariPool-1 - 接続が利用できません。要求は 30000 ミリ秒後にタイムアウトしました。
com.zaxxer.hikari.pool.HikariPool.createTimeoutException(HikariPool.java:669) ~[HikariCP-2.7.9.jar!/:?] で
com.zaxxer.hikari.pool.HikariPool.getConnection(HikariPool.java:183) で ~[HikariCP-2.7.9.jar!/:?]
...

ここでのプロンプトは、ビジネスオペレーションが接続を取得するためにタイムアウトした (30 秒を超える) ことを示しています。ということは、接続数が足りないということでしょうか?

ビジネスアクセスでは、市場でも非常に人気のあるコンポーネントである hikariCP 接続プールが使用されます。

次に、現在の接続プールの構成を次のように確認しました。

//アイドル接続の最小数 spring.datasource.hikari.minimum-idle=10
//接続プールの最大サイズ spring.datasource.hikari.maximum-pool-size=50
// 接続の最大アイドル時間 spring.datasource.hikari.idle-timeout=60000
//接続の有効期間 spring.datasource.hikari.max-lifetime=1800000
//接続タイムアウトの長さを取得します spring.datasource.hikari.connection-timeout=30000

hikari 接続プールは minimum-idle = 10 に設定されていることに注意してください。つまり、ビジネスがない場合でも、接続プールは 10 個の接続を保証する必要があります。さらに、現状の業務アクセス量は極めて少なく、接続数が不足するような状況は発生しないはずです。

さらに、別の可能性として、「ゾンビ接続」の出現が考えられます。つまり、再起動プロセス中に、接続プールがこれらの利用できない接続を解放しなかったため、利用可能な接続がなくなるのです。

開発者は「ゾンビリンク」理論を信じており、おそらく HikariCP コンポーネントのバグが原因であると考えていました...

そこで、HikariCP のソースコードを読み始めたところ、アプリケーション層が接続プールから接続を要求するコードは次のようになっていることがわかりました。

パブリッククラスHikariPool {

   //接続オブジェクトエントリを取得します。public Connection getConnection(final long hardTimeout) throws SQLException
   {
      suspendResumeLock.acquire();
      最終的な長い開始時間 = currentTime();

      試す {
         // プリセットの 30 秒のタイムアウトを使用します。long timeout = hardTimeout;
         する {
            //ループに入り、指定された時間内に利用可能な接続を取得します //connectionBag から接続を取得します PoolEntry poolEntry = connectionBag.borrow(timeout, MILLISECONDS);
            プールエントリが null の場合
               break; // タイムアウトしました... break して例外をスローします
            }

            最終的なlong now = currentTime();
            //接続オブジェクトがクリア済みとしてマークされているか、存続条件を満たしていない場合は、接続を閉じます if (poolEntry.isMarkedEvicted() || (elapsedMillis(poolEntry.lastAccessed, now) > aliveBypassWindowMs && !isConnectionAlive(poolEntry.connection))) {
               poolEntry が接続を切断した場合、接続が切断されます。
               タイムアウト = hardTimeout - elapsedMillis(startTime);
            }
            //接続オブジェクトを正常に取得します else {
               metricsTracker.recordBorrowStats(プールエントリ、開始時間);
               poolEntry.createProxyConnection(leakTaskFactory.schedule(poolEntry)、now) を返します。
            }
         } while (タイムアウト > 0L);

         //タイムアウト、例外をスローします metricsTracker.recordBorrowTimeoutStats(startTime);
         createTimeoutException をスローします(startTime);
      }
      キャッチ（中断された例外e）{
         スレッド.currentThread().interrupt();
         throw new SQLException(poolName + " - 接続取得中に中断されました", e);
      }
      ついに {
         一時停止解除ロックを解除します。
      }
   }
}

getConnection() メソッドは、接続を取得するプロセス全体を示します。ここで、connectionBag は接続オブジェクトを格納するためのコンテナオブジェクトです。 connectionBag から取得した接続が存続条件を満たさなくなった場合は、手動で閉じられます。コードは次のとおりです。

void closeConnection(final PoolEntry poolEntry、final String closureReason) 関数は、
   {
      //接続オブジェクトを削除します if (connectionBag.remove(poolEntry)) {
         最終接続 connection = poolEntry.close();
         //非同期に接続を閉じる closeConnectionExecutor.execute(() -> {
            静かに接続を閉じます(接続、閉鎖の理由);
            // 利用可能な接続数が減少すると、接続プールを埋めるタスクがトリガーされます if (poolState == POOL_NORMAL) {
               フィルプール();
            }
         });
      }
   }

接続は、次のいずれかの条件が満たされた場合にのみ閉じられることに注意してください。

isMarkedEvicted() の戻り結果は true であり、クリア済みとしてマークされていることを意味します。接続の存続時間が最大存続時間 (maxLifeTime) を超えるか、最後の使用からの時間がidleTimeout を超えると、スケジュールされたタスクによってクリア済みとしてマークされます。クリア状態の接続は、取得時に実際に閉じられます。
500 ミリ秒以内に使用されなかった場合、接続は無効になります。つまり、isConnectionAlive() は false を返します。

idolTimeout と maxLifeTime の両方を非常に大きな値に設定しているため、次のように isConnectionAlive メソッドでの判定のチェックに重点を置く必要があります。

パブリッククラスPoolBase {

   //接続が生きているかどうかを判断します boolean isConnectionAlive(final Connection connection)
   {
      試す {
         試す {
            //JDBC 接続の実行タイムアウトを設定します。setNetworkTimeout(connection, validationTimeout);

            最終的な int 検証秒数 = (int) Math.max(1000L, validationTimeout) / 1000;

            //TestQueryが設定されていない場合は、JDBC4検証インターフェースを使用します。if (isUseJdbc4Validation) {
               connection.isValid(validationSeconds) を返します。
            }

            //接続を検出するためにTestQuery（select 1など）ステートメントを使用する try (Statement statement = connection.createStatement()) {
               if (isNetworkTimeoutSupported != TRUE) {
                  setQueryTimeout(ステートメント、検証秒数);
               }

               ステートメントを実行します(config.getConnectionTestQuery());
            }
         }
         ついに {
            setNetworkTimeout(接続、ネットワークタイムアウト);

            if (isIsolateInternalQueries && !isAutoCommit) {
               接続.ロールバック();
            }
         }

         true を返します。
      }
      キャッチ（例外e）{
         //例外が発生した場合、失敗情報をコンテキストに記録します lastConnectionFailure.set(e);
         logger.warn("{} - 接続 {} ({}) の検証に失敗しました。maxLifetime 値を短くすることを検討してください。",
                     プール名、接続、e.getMessage());
         false を返します。
      }
   }

}

PoolBase.isConnectionAlive メソッドでは接続に対して一連の検出が実行され、例外が発生した場合は現在のスレッドコンテキストに例外情報が記録されることがわかります。その後、HikariPool が例外をスローすると、次のように、最後に失敗した検出の例外も収集されます。

プライベート SQLException createTimeoutException(long startTime)
{
   logPoolState("タイムアウト失敗 ");
   metricsTracker.recordConnectionTimeout();

   文字列 sqlState = null;
   // 最後の接続失敗例外を取得します。final Throwable originalException = getLastConnectionFailure();
   if (originalException インスタンス SQLException) {
      sqlState = ((SQLException) originalException).getSQLState();
   }
   //例外をスローします。final SQLException connectionException = new SQLTransientConnectionException(poolName + " - 接続が利用できません。要求は " + elapsedMillis(startTime) + "ms 後にタイムアウトしました。", sqlState, originalException);
   if (originalException インスタンス SQLException) {
      接続例外。次の例外を設定します ((SQLException) 元の例外);
   }

   connectionException を返します。
}

ここでの例外メッセージは、基本的にビジネスサービスで表示される例外ログと一致しています。タイムアウトによって生成された「接続が利用できません。要求は xxxms 後にタイムアウトしました」というメッセージに加えて、ログには検証失敗情報も出力されます。

原因: java.sql.SQLException: 閉じられた接続では Connection.setNetworkTimeout を呼び出すことはできません
org.mariadb.jdbc.internal.util.exceptions.ExceptionMapper.getSqlException(ExceptionMapper.java:211) で ~[mariadb-java-client-2.2.6.jar!/:?]
org.mariadb.jdbc.MariaDbConnection.setNetworkTimeout(MariaDbConnection.java:1632) で ~[mariadb-java-client-2.2.6.jar!/:?]
com.zaxxer.hikari.pool.PoolBase.setNetworkTimeout(PoolBase.java:541) で ~[HikariCP-2.7.9.jar!/:?]
com.zaxxer.hikari.pool.PoolBase.isConnectionAlive(PoolBase.java:162) で ~[HikariCP-2.7.9.jar!/:?]
com.zaxxer.hikari.pool.HikariPool.getConnection(HikariPool.java:172) で ~[HikariCP-2.7.9.jar!/:?]
com.zaxxer.hikari.pool.HikariPool.getConnection(HikariPool.java:148) で ~[HikariCP-2.7.9.jar!/:?]
com.zaxxer.hikari.HikariDataSource.getConnection(HikariDataSource.java:128) で ~[HikariCP-2.7.9.jar!/:?]

この時点で、アプリケーションが接続を取得するためのコードが大まかに整理されました。全体のプロセスを次の図に示します。

実行ロジックの観点から見ると、接続プールの処理に問題はありません。それどころか、多くの細部が考慮されています。非生存接続が閉じられると、removeFromBag アクションも呼び出され、接続プールから削除されるため、ゾンビ接続オブジェクトの問題は発生しません。

そうなると、私たちのこれまでの推測は間違っていたに違いありません!

不安に陥る

コード分析に加えて、開発者は、現在使用されている hikariCP のバージョンが 3.4.5 であるのに対し、環境内で問題が発生しているビジネスサービスはバージョン 2.7.9 であることにも気付きました。これは、何かを示しているようです... ここでも、hikariCP バージョン 2.7.9 に何らかの未知のバグがあり、それが問題の原因になっていると仮定しましょう。

サーバー側の障害に対処する際の接続プールの動作をさらに分析するために、ローカルマシンでシミュレーションしてみました。今回は、テストに hikariCP 2.7.9 を使用し、hikariCP ログレベルを DEBUG に設定しました。

シミュレーションシナリオでは、ローカルアプリケーションは操作のためにローカル MySQL データベースに接続します。手順は次のとおりです。

1. データソースを初期化し、接続プールの min-idle を 10 に設定します。
2. 50 ミリ秒ごとに SQL 操作を実行して、現在のメタデータテーブルを照会します。
3. MySQL サービスをしばらく停止し、ビジネスパフォーマンスを観察します。
4. MySQL サービスを再起動し、サービスのパフォーマンスを観察します。

結果のログは次のようになります。

// 初期化プロセス、10 個の接続を確立
DEBUG -HikariPool.logPoolState - プールの統計 (合計 = 1、アクティブ = 1、アイドル = 0、待機 = 0)
DEBUG -HikariPool$PoolEntryCreator.call- 接続を追加しました MariaDbConnection@71ab7c09
DEBUG -HikariPool$PoolEntryCreator.call- 接続を追加しました MariaDbConnection@7f6c9c4c
DEBUG -HikariPool$PoolEntryCreator.call- 接続を追加しました MariaDbConnection@7b531779
...
DEBUG -HikariPool.logPoolState- 統計を追加した後 (合計 = 10、アクティブ = 1、アイドル = 9、待機 = 0)
//ビジネスオペレーションの実行、成功
ステートメントを実行: true
テスト時間 -------1
ステートメントを実行: true
テスト時間 -------2
...
//MySQLを停止する
...
//無効な接続が検出されました
警告 -PoolBase.isConnectionAlive - 接続の検証に失敗しました MariaDbConnection@9225652 ((conn=38652)
Connection.setNetworkTimeout は閉じられた接続では呼び出せません。maxLifetime 値を短くすることを検討してください。
警告 -PoolBase.isConnectionAlive - 接続の検証に失敗しました MariaDbConnection@71ab7c09 ((conn=38653)
Connection.setNetworkTimeout は閉じられた接続では呼び出せません。maxLifetime 値を短くすることを検討してください。
//接続を解放する
DEBUG -PoolBase.quietlyCloseConnection(PoolBase.java:134) - 接続を閉じています MariaDbConnection@9225652: (接続が切断されています)
DEBUG -PoolBase.quietlyCloseConnection(PoolBase.java:134) - 接続を閉じています MariaDbConnection@71ab7c09: (接続が切断されています)
//接続の作成に失敗しました
DEBUG -HikariPool.createPoolEntry - データソースから接続を取得できません
java.sql.SQLNonTransientConnectionException: アドレス=(ホスト=localhost)(ポート=3306)(タイプ=master) に接続できませんでした:
ソケットはホスト:localhost、ポート:3306 への接続に失敗しました。接続が拒否されました: connect
原因: java.sql.SQLNonTransientConnectionException: ソケットがホスト:localhost、ポート:3306 に接続できませんでした。接続が拒否されました: connect
internal.util.exceptions.ExceptionFactory.createException(ExceptionFactory.java:73) で ~[mariadb-java-client-2.6.0.jar:?]
...
// MySQL が再起動されるまで失敗し続けます
//再起動後、接続は自動的に正常に作成されます
DEBUG -HikariPool$PoolEntryCreator.call -接続を追加しました MariaDbConnection@42c5503e
DEBUG -HikariPool$PoolEntryCreator.call -接続を追加 MariaDbConnection@695a7435
//接続プールのステータス、10個の接続を再確立
DEBUG -HikariPool.logPoolState(HikariPool.java:421) -統計を追加した後 (合計=10、アクティブ=1、アイドル=9、待機=0)
//ビジネス操作を実行し、成功（自己修復）
ステートメントを実行: true

ログから、hikariCP が不良接続を正常に検出し、接続プールから追い出すことができることがわかります。MySQL を再起動すると、ビジネス操作は自動的に正常に復元されます。この結果から、hikariCP バージョン問題に基づくアイデアは再び失敗し、R&D チームは再び不安に陥りました。

雲を晴らして光を見よう

問題を検証する多くの試みが失敗した後、最終的に、ビジネスサービスが配置されているコンテナー内のパケットをキャプチャして、手がかりが見つかるかどうかを確認しようとしました。

障害のあるコンテナに入り、 tcpdump -i eth0 tcp port 30052を実行してパケットをキャプチャし、サービスインターフェイスにアクセスします。

この時点で、何か奇妙なことが起こり、ネットワークパケットが生成されませんでした。ビジネスログには、30 秒後に接続を取得できないという例外も表示されました。

netstat コマンドを使用してネットワーク接続を確認したところ、ESTABLISHED 状態の TCP 接続は 1 つだけであることがわかりました。

つまり、現在のビジネスインスタンスと MySQL サーバーの間には接続が確立されているのに、ビジネス側がまだ利用可能な接続を報告するのはなぜでしょうか。

考えられる理由は 2 つあります。

接続はサービス (タイマーなど) によって占有されています。
接続はまだ実際には使用できず、デッド状態になっている可能性があります。

理由 1 はすぐに反論できます。まず、現在のサービスにはタイマータスクがありません。次に、接続が占有されている場合でも、接続プールの原則に従って、上限に達しない限り、新しいビジネス要求は接続プールに新しい接続を確立するように促す必要があります。したがって、netstat コマンドのチェックからでも、tcpdump の結果からでも、常に接続が 1 つだけであるとは限りません。

そうすると、状況 2 の可能性が非常に高くなります。この考えを念頭に置いて、Java プロセスのスレッドスタックの分析を続けます。

kill -3 pid を実行してスレッドスタックを出力し、それを分析すると、予想どおり、現在のスレッドスタックに次のエントリが見つかります。

「HikariPool-1 接続追加」#121 デーモン prio=5 os_prio=0 tid=0x00007f1300021800 nid=0xad 実行可能 [0x00007f12d82e5000]
java.lang.Thread.State: 実行可能
java.net.SocketInputStream.socketRead0(ネイティブメソッド)
java.net.SocketInputStream.socketRead(SocketInputStream.java:116) で
java.net.SocketInputStream.read(SocketInputStream.java:171) で
java.net.SocketInputStream.read(SocketInputStream.java:141) で
java.io.FilterInputStream.read(FilterInputStream.java:133) で
org.mariadb.jdbc.internal.io.input.ReadAheadBufferedStream.fillBuffer(ReadAheadBufferedStream.java:129) で
org.mariadb.jdbc.internal.io.input.ReadAheadBufferedStream.read(ReadAheadBufferedStream.java:102) で
- ロックされました <0x00000000d7f5b480> (org.mariadb.jdbc.internal.io.input.ReadAheadBufferedStream)
org.mariadb.jdbc.internal.io.input.StandardPacketInputStream.getPacketArray(StandardPacketInputStream.java:241) で
org.mariadb.jdbc.internal.io.input.StandardPacketInputStream.getPacket(StandardPacketInputStream.java:212) で
org.mariadb.jdbc.internal.com.read.ReadInitialHandShakePacket.<init>(ReadInitialHandShakePacket.java:90) で
org.mariadb.jdbc.internal.protocol.AbstractConnectProtocol.createConnection(AbstractConnectProtocol.java:480) で
org.mariadb.jdbc.internal.protocol.AbstractConnectProtocol.connectWithoutProxy(AbstractConnectProtocol.java:1236) で
org.mariadb.jdbc.internal.util.Utils.retrieveProxy(Utils.java:610) で
org.mariadb.jdbc.MariaDbConnection.newConnection(MariaDbConnection.java:142) で
org.mariadb.jdbc.Driver.connect(Driver.java:86) で
com.zaxxer.hikari.util.DriverDataSource.getConnection(DriverDataSource.java:138) で
com.zaxxer.hikari.pool.PoolBase.newConnection(PoolBase.java:358) で
com.zaxxer.hikari.pool.PoolBase.newPoolEntry(PoolBase.java:206) で
com.zaxxer.hikari.pool.HikariPool.createPoolEntry(HikariPool.java:477) で

ここでは、HikariPool-1 接続追加スレッドが常に socketRead の実行可能状態にあることが示されています。名前から判断すると、このスレッドは、HikariCP 接続プールが接続を確立するために使用するタスクスレッドです。ソケット読み取り操作は MariaDbConnection.newConnection() メソッドから実行されます。これは、MySQL 接続を確立するための mariadb-java-client ドライバーレイヤーの操作です。ReadInitialHandShakePacket 初期化は、MySQL 接続確立プロトコルのリンクです。

つまり、上記のスレッドはリンク構築の過程にあります。MariaDB ドライバーと MySQL 間のリンク構築のプロセスは次のとおりです。

MySQL リンクを構築する最初のステップは、TCP 接続 (3 ウェイハンドシェイク) を確立することです。クライアントは、MySQL プロトコルの初期ハンドシェイクメッセージパケット (MySQL のバージョン番号、認証アルゴリズムなどの情報を含む) を読み取り、次に ID 認証段階に入ります。

ここでの問題は、ReadInitialHandShakePacket の初期化 (ハンドシェイクメッセージパケットの読み取り) がソケット読み取り状態になっていることです。

この時点で MySQL リモートホストに障害が発生すると、操作は停止します。この時点では接続は確立されていますが（ESTABLISHED状態）、プロトコルハンドシェイクとそれに続くID認証プロセスは完了していません。つまり、接続は半完成品としかみなせません（hikariCP接続プールのリストに入ることはできません）。障害のあるサービスの DEBUG ログから、次のように、接続プールに使用可能な接続がないことも確認できます。

DEBUG HikariPool.logPoolState --> クリーンアップ前の統計 (合計=0、アクティブ=0、アイドル=0、待機=3)

説明する必要があるもう 1 つの質問は、このようなソケット読み取り操作をブロックすると、接続プール全体がブロックされるかどうかです。

コードを読んだ後、いくつかのモジュールを含む hikariCP の接続を確立するプロセスを整理しました。

接続プールインスタンスである HikariPool は、接続を取得、解放、および維持するために使用されます。
接続オブジェクトコンテナーである ConnectionBag は、現在の接続オブジェクトのリストを格納し、使用可能な接続を提供するために使用されます。
AddConnectionExecutor は、シングルスレッドのスレッドプールである「HikariPool-1 connection adder」などの名前の接続エグゼキュータを追加します。
PoolEntryCreator は、接続のタスクを追加し、接続を作成するための特定のロジックを実装します。
内部タイマーである HouseKeeper は、接続タイムアウトの解消、接続プールの補充などを実装するために使用されます。

HouseKeeper は、接続プールが初期化されてから 100 ミリ秒後に実行するようにトリガーされます。fillPool() メソッドを呼び出して、接続プールの充填を完了します。たとえば、min-idle が 10 の場合、初期化時に 10 個の接続が作成されます。 ConnectionBag は、現在の接続オブジェクトのリストを保持します。また、このモジュールは、現在の接続要件の数を評価するために、接続要求者 (待機者) のカウンターも保持します。

借用メソッドのロジックは次のとおりです。

パブリック T 借用 (長いタイムアウト、最終 TimeUnit timeUnit) は InterruptedException をスローします
   {
      // スレッドローカルから最終的な List<Object> list = threadList.get(); を取得しようとする
      (int i = list.size() - 1; i >= 0; i--) {
         ...
      }

      // 現在リクエストを待機しているタスクを計算します final int waiting = waiters.incrementAndGet();
      試す {
         (T bagEntry:sharedList) の場合 {
            bagEntry.compareAndSet(STATE_NOT_IN_USE, STATE_IN_USE)の場合{
               //利用可能な接続が取得された場合、充填タスクがトリガーされます if (waiting > 1) {
                  リスナー.addBagItem(待機中 - 1);
               }
               bagEntryを返します。
            }
         }

         //接続が利用できません。最初に充填タスクをトリガーします listener.addBagItem(waiting);

         // 指定された時間内に利用可能な接続が入るのを待ちます。timeout = timeUnit.toNanos(timeout);
         する {
            最終的な長い開始 = currentTime();
            最終的なT bagEntry = handoffQueue.poll(timeout, NANOSECONDS);
            bagEntry == null の場合 || bagEntry.compareAndSet(STATE_NOT_IN_USE, STATE_IN_USE) {
               bagEntryを返します。
            }

            タイムアウト -= elapsedNanos(開始);
         } while (タイムアウト > 10_000);

         null を返します。
      }
      ついに {
         ウェイターズ.decrementAndGet();
      }
   }

このメソッドは、利用可能な接続があるかどうかに関係なく、listener.addBagItem() メソッドをトリガーすることに注意してください。HikariPool はこのインターフェースを次のように実装します。

パブリック void addBagItem(final int 待機中)
   {
      final boolean shouldAdd = waiting - addConnectionQueueReadOnlyView.size() >= 0; // はい、>= は意図的です。
      if (shouldAdd) {
         //AddConnectionExecutor を呼び出して、接続を作成するタスクを送信します。addConnectionExecutor.submit(poolEntryCreator);
      }
      それ以外 {
         logger.debug("{} - 接続を追加 (省略)、待機中 {}、キュー {}", poolName、待機中、addConnectionQueueReadOnlyView.size());
      }
   }
PoolEntryCreator は、次のように接続を作成するための特定のロジックを実装します。
パブリッククラスPoolEntryCreator {
     @オーバーライド
      パブリックブール呼び出し()
      {
         ロングスリープバックオフ = 250L;
         //接続を確立する必要があるかどうかを判断します while (poolState == POOL_NORMAL && shouldCreateAnotherConnection()) {
            //MySQL 接続を作成する final PoolEntry poolEntry = createPoolEntry();
 
            プールエントリが null の場合
               //接続が正常に確立され、直接戻ります。
               接続バッグを追加します(プールエントリ)。
               logger.debug("{} - 接続 {} を追加しました", poolName, poolEntry.connection);
               ログ記録プレフィックスが null の場合
                  logPoolState(ログ記録プレフィックス);
               }
               Boolean.TRUE を返します。
            }
            ...
         }

         // プールは一時停止またはシャットダウンされているか、最大サイズです
         ブール値FALSEを返します。
      }
}

AddConnectionExecutor はシングルスレッド設計を採用していることがわかります。新しい接続要求が生成されると、それを補完するために PoolEntryCreator タスクが非同期的にトリガーされます。 PoolEntryCreator.createPoolEntry() は、MySQL ドライバー接続を確立するすべての作業を完了しますが、この場合、MySQL 接続確立プロセスは永続的にブロックされます。したがって、後でどのように接続が取得されたとしても、新しいリンク確立タスクは常にキューに入れられ、ビジネスで利用できる接続がなくなります。

次の図は、hikariCP のリンク構築プロセスを示しています。

さて、信頼性テストに関する前のシナリオを見直してみましょう。

まず、MySQL マスターインスタンスに障害が発生し、その後、hikariCP がデッド接続を検出して解放しました。閉じられた接続を解放する際に、接続数を補充する必要があることが判明し、すぐに新しいリンク確立要求がトリガーされました。
問題は、このリンク確立要求にありました。TCP ハンドシェイクは成功しました (クライアントと MySQL VM 上の nodePort が接続を完了しました) が、現在の MySQL コンテナが停止したため (この時点で VIP も別の MySQL インスタンスに切り替えられました)、クライアントは元の MySQL インスタンスからハンドシェイクパケット応答を取得できなくなり (ハンドシェイクは MySQL アプリケーション層プロトコルに属します)、長いブロッキング socketRead 操作に陥りました。リンク構築リクエストタスクはシングルスレッドであるため、すべてのサービスがブロックされることになります。

3. 解決策

問題の詳細を理解した後、私たちは主に次の 2 つの側面から最適化を検討しました。

最適化 1: HirakiPool 内の AddConnectionExecutor スレッドの数を増やして、最初のスレッドがハングした場合でも、リンク構築タスクの割り当てに参加できる他のスレッドが存在するようにします。
最適化 2: 問題のある socketRead は同期ブロッキング呼び出しですが、SO_TIMEOUT を使用して長時間ハングしないようにすることで回避できます。

最適化ポイント 1 については、あまり役に立たないことは誰もが認めるところです。接続がハングすると、スレッドリソースがリークされたことになり、その後のサービスの安定運用に非常に悪影響を及ぼします。また、hikariCP がすでにここで書いています。したがって、重要な解決策は、通話をブロックしないようにすることです。

mariadb-java-client の公式ドキュメントを参照したところ、ネットワーク IO タイムアウトパラメータは次のように JDBC URL で指定できることがわかりました。

具体的な参考資料: https://mariadb.com/kb/en/about-mariadb-connector-j/

説明したように、socketTimeout はソケットの SO_TIMEOUT 属性を設定してタイムアウト期間を制御できます。デフォルトは 0 で、タイムアウトがないことを意味します。

次のように、関連するパラメータを MySQL JDBC URL に追加しました。

spring.datasource.url=jdbc:mysql://10.0.71.13:33052/appdb?socketTimeout=60000&connectTimeout=30000&serverTimezone=UTC

その後、MySQLの信頼性を何度か検証したところ、接続ハング現象は発生しなくなり、問題は解決しました。

IV. 要約

今回は、MySQL 接続デッドロック問題のトラブルシューティングの体験を共有しました。環境設定の作業負荷が膨大で、問題を再現する際のランダム性のため、分析プロセス全体が少し困難でした (いくつかの落とし穴にも遭遇しました)。実際、私たちは表面的な現象に簡単に混乱し、問題を解決するのが難しいと感じると、偏った考え方で問題に対処する可能性が高くなります。たとえば、このケースでは、接続プールに問題があると一般に考えられていましたが、実際には MySQL JDBC ドライバー (mariadb ドライバー) の不正確な構成が原因でした。

原則として、リソースがハングする原因となる可能性のある動作は避ける必要があります。初期段階でコードと関連する構成を徹底的に調査できれば、996 はさらに遠ざかると思います。

上記は、MySQL 接続がハングする理由の詳細な説明です。MySQL 接続がハングする理由の詳細については、123WORDPRESS.COM の他の関連記事に注目してください。

以下もご興味があるかもしれません: