サーバーの冷却効果が不十分?専門家がおすすめする方法はコレ!(その2)
Allion Labs 前回の記事では、サーバーの冷却効果がシステムの安定性に非常に重要であることに触れ、冷却効果に対してアリオンが提供するサポートとサービスについて説明しました。 今回は、アリオンの評価方法を詳しく説明するとともに、テストで発見された問題と改善されたデータについても、具体的な例を挙げて説明します。 AIサーバーの冷却構造にある3つの重要なポイント: 1. GPUエアガイド:異なるGPUエアガイド構造を試し、サーバーの吸気量を集中させ、GPUの冷却効果を高めます。 2. GPUトレイ:GPUトレイの構造を変更し、出力面積の大きさがGPUの冷却に及ぼす影響の程度を検証します。 3. CPUエアガイド:CPUエアガイドの隙間を閉じて空気の流れを集中させ、CPUの冷却効果を検証します。 アリオンの専門家チームがまず現状をヒアリングし、実際に冷却構造を確認したうえで、温度監視用の熱電対ポイントの配置を行います。配置が完了したら、加圧プログラムの実行と温度データの収集を開始します。加圧プロセスには、さまざまな部品の加圧(例:GPUまたはCPU)や加圧の程度(例:30%〜100%)があります。同時にファンの回転速度を制御したり、人為的にファンに故障を発生させ、さまざまなシナリオをシミュレーションして関連データを収集して分析し、突発的な状況が発生しても、サーバーが冷却の安定性を維持できるようにします。 事例紹介 プロジェクトの一例を挙げると、アリオンは、このプロジェクトについて2つの冷却構造のデータ収集を試み、分析した結果、冷却構造1のパフォーマンスが想定通りだったことを確認しました。テスト結果は以下の図のとおりです。 データ収集の過程で、PSUの配置ポイントで熱電対データを収集したところ、温度の曲線が中心に近いほど温度が高くなるのではなく、2つのポイントが逆の状態を示すという異常な現象も発見しました。分析およびお客様との協議の結果、実際の原因は熱風の逆流によるものであり、発生場所はPSU近くのケース側面または隙間であることが判明しました。データ情報とその過程は以下のとおりです。 改善前PSU温度異常:中心に近いTemperature_2の温度が、外側のTemperature_1よりも低い 可能な原因:機構設計による蓄熱/熱の逆流などの冷却問題が原因と考えられます。 改善後、システムのPSU温度は正常になりました:PSU中心のTemperature_3の温度 [...]