Category Archives: Server関連記事

サーバーの冷却効果が不十分?専門家がおすすめする方法はコレ!(その2)

Allion Labs  前回の記事では、サーバーの冷却効果がシステムの安定性に非常に重要であることに触れ、冷却効果に対してアリオンが提供するサポートとサービスについて説明しました。 今回は、アリオンの評価方法を詳しく説明するとともに、テストで発見された問題と改善されたデータについても、具体的な例を挙げて説明します。 AIサーバーの冷却構造にある3つの重要なポイント: 1. GPUエアガイド:異なるGPUエアガイド構造を試し、サーバーの吸気量を集中させ、GPUの冷却効果を高めます。 2. GPUトレイ:GPUトレイの構造を変更し、出力面積の大きさがGPUの冷却に及ぼす影響の程度を検証します。 3. CPUエアガイド:CPUエアガイドの隙間を閉じて空気の流れを集中させ、CPUの冷却効果を検証します。 アリオンの専門家チームがまず現状をヒアリングし、実際に冷却構造を確認したうえで、温度監視用の熱電対ポイントの配置を行います。配置が完了したら、加圧プログラムの実行と温度データの収集を開始します。加圧プロセスには、さまざまな部品の加圧(例:GPUまたはCPU)や加圧の程度(例:30%〜100%)があります。同時にファンの回転速度を制御したり、人為的にファンに故障を発生させ、さまざまなシナリオをシミュレーションして関連データを収集して分析し、突発的な状況が発生しても、サーバーが冷却の安定性を維持できるようにします。 事例紹介 プロジェクトの一例を挙げると、アリオンは、このプロジェクトについて2つの冷却構造のデータ収集を試み、分析した結果、冷却構造1のパフォーマンスが想定通りだったことを確認しました。テスト結果は以下の図のとおりです。 データ収集の過程で、PSUの配置ポイントで熱電対データを収集したところ、温度の曲線が中心に近いほど温度が高くなるのではなく、2つのポイントが逆の状態を示すという異常な現象も発見しました。分析およびお客様との協議の結果、実際の原因は熱風の逆流によるものであり、発生場所はPSU近くのケース側面または隙間であることが判明しました。データ情報とその過程は以下のとおりです。 改善前PSU温度異常:中心に近いTemperature_2の温度が、外側のTemperature_1よりも低い 可能な原因:機構設計による蓄熱/熱の逆流などの冷却問題が原因と考えられます。 改善後、システムのPSU温度は正常になりました:PSU中心のTemperature_3の温度 [...]

Thunderbolt音声と映像が転送失敗に陥る原因とは?

Allion Labs Thunderboltは近年高速インターフェースの代表となっており、この仕様は個人向けノートパソコン、拡張ポート、ディスプレイ、外付けハードドライブ、グラフィックスカードなどの用途で広く普及しています。このインターフェースはデータ転送だけでなく、ディスプレイとの間で音声/映像の転送も可能で、ユーザーはThunderboltを通じて高解像度の画面を楽しむことができます。しかし、高品質の音声/映像転送が重要なセールスポイントでありながら、実際に接続する際に表示に問題が発生した場合、ユーザーの評価と体験が根本的に損なわれる可能性があります。本文では、アリオンが実際に発見した状況とその解決策をご紹介します。 Thunderboltの音声と映像転送の異常 ThunderboltノートパソコンはThunderboltケーブルを使用してディスプレイに接続でき、高解像度のビデオやゲームを楽しんだり、さらにはディスプレイをハブとして使用して、他のディスプレイやストレージなどを追加で接続することもできます。 アリオンは専門のラボとして豊富なテスト経験がありますが、ノートパソコンをディスプレイに接続しても反応がなかったり、接続に成功したサウンドが聞こえてもすぐに接続が切断されてしまい、デバイスマネージャーやThunderboltコントロールセンターでディスプレイが表示されなくなり、その後、ケーブルを再度差し込んだりシステムを再起動するなど、さまざまなトラブルシューティングを行っても、結局反応しないというケースが多々ありました。  問題点の分析  アリオンの技術コンサルティングチームの分析により、問題がノートパソコンのSBU(Sideband Use)の電圧が低すぎることに起因していることが判明しました。SBUは、Thunderbolt製品間で初期接続通信に使用され、Thunderbolt製品が通信する際、SBUの電圧レベルが正しいかどうかを判断して正しい接続を確立し、デバイスが正常に動作できるようにします。したがって、一方のデバイスがもう一方のSBU電圧レベルが正しくないと検出すると、接続に失敗してデバイスは正常に動作しなくなります。 以下の図に示すように、2つのThunderbolt製品が接続される瞬間、SBUを介して通信が行われ、SBU信号の高電圧および低電圧レベルが確認されます。電圧値が高すぎたり低すぎると、デバイスの接続に失敗して使用できなくなります。  解決策  アリオンは豊富な経験と専門的な設備を備え、この問題点を解決できるよう、特定のテストフィクスチャとオシロスコープを使用し、SBU検証ソリューションを実行しました。 これにより製品の接続品質を確保し、音声/映像転送ができないことが製品出荷後に判明し、エンドカスタマーから商品を返品されるリスクを事前に回避ですることができます。 Faster、Easier、Better ― 最も信頼できるThunderbolt周辺製品検証コンサルタント アリオンはThunderboltの公式認証試験機関として、システム認証や互換性テストなどの分野で数十年以上の経験があり、専門的且つ経験豊富なベテランエンジニアが迅速かつ正確に問題を特定し、解決策を提供します。 [...]

サーバーの冷却効果が不十分?専門家がおすすめする方法はコレ!

Allion Labs  今年はAI技術に関する話題が絶えず、関連する利用サービスが次々に登場しています。AIのトレンドはすでに明確な方向性があり、AIサーバーの出荷量が急速に増加しています。AIサーバーは非常に高い計算能力を持つ一方で、それに伴って大量の熱エネルギーが発生するため、冷却効果は非常に重要な問題です。AIサーバーだけに限らず、IntelやAMDのCPUスペックも絶えず向上しているため、非AI用途のサーバーでも冷却の問題は軽視できない潜在的な問題となっています。 それでも、現在の液体冷却技術には、高い構築コスト、筐体、レール、水路、データセンターなどの項目で再設計しなければならず、メンテナンススタッフも再訓練が必要になるなど、克服すべき課題がまだたくさんあるため、現在市場に出荷されているサーバーの主流は、依然として空冷方式を採用しているのがほとんどです。 ワンストップのカスタマイズコンサルティングサービスで、サーバーの冷却効果を劇的に改善 サーバーの冷却性能は空冷放熱構造と冷却材によって決まります。冷却性能が不十分な場合、サーバーの温度は上昇し続け、コンピュータルームのエアコン温度を効果的に下げることができなければ、過熱によるサーバーの速度低下や強制シャットダウンなどの保護措置が起動します。 保護措置が有効になると、外部からの影響により利用サービスのパフォーマンスが低下し、ユーザーが反応の遅さを感じたり、さらには強制シャットダウンなどによってサービスが中断してしまうなど、ユーザーエクスペリエンスが低下してしまいます。 サーバーの冷却性能の評価において、アリオンは豊富な経験と専門的な技術チームを備えており、加えてさまざまな冷却構造の構築およびデータ収集をサポートし、色々な冷却材の包括的な分析と評価をお客様に提供することができます。サーバー製品のさまざまなニーズに応じて、アリオンはカスタマイズされたコンサルティングサービスをワンストップで提供し、機構、電気、高周波分野を組み合わせるなど、環境テスト項目をカバーしています。この他にも、サービスプロセス中に、製品のさまざまなシステムインターフェース、コマンド操作、ソフトウェアの更新、ハードウェアの交換といったテストの詳細についても、関連する技術力と実行経験を持っているだけでなく、関連するテストの提案とコンサルティングを提供し、お客様のさまざまなニーズに応えることができます。 事例紹介 プロジェクトの一例を挙げると、アリオンはお客様の冷却材の交換をサポートし、収集したデータを整理してお客様に提供し、お客様はそのデータを通じて冷却モジュールの最適な組み合わせを選択することができました。さまざまな冷却材のデータを収集した結果、CPUの最大温度差は5度に達することが判明し、これにより、さまざまな材料によって冷却性能に及ぼす影響に違いが出ることをお客様にご理解いただけました。 また、下の図で示したプロジェクトのように、冷却構造の選定、微調整、冷却材の選択を行った結果、アリオンはサーバー全体の温度を約9.3度下げ、お客様が要求していた基準を達成することができました。 Faster、Easier、Better ― 最も信頼できるサーバー検証コンサルタント アリオンはIT分野で30年以上のテスト検証経験を積み重ね、数千万もの検証データベースを構築してきました。包括的なスマートテストのアドバイスとその分析により、アリオンは総合的なテストソリューションを提供し、お客様が製品の品質を厳格に管理し、より短時間で、より正確な方法で製品品質を向上させるお手伝いをします。  Faster ー より迅速  アリオンは、多種多様な仕様の大型ウォークインサーモスタットも含め豊富なテスト環境と機器設備が備えています。熱負荷は13KW〜65KWまで、内部のスペースはサーバー1台から48Uラック3台まで対応しており、いずれも自由にお選びいただけます。 [...]

悪魔は細部に宿る!サーバーの品質潜在リスクを特定するには?

Allion Labs  多様化するサーバーの利用シーン デジタル化とデータ需要の拡大に伴いサーバー産業も成長を続け、クラウドコンピューティング、人工知能、ビッグデータ分析、モノのインターネット(IoT)、ブロックチェーンなどの新たなテクノロジーを含め、さまざまな利用サービスが次々にリリースされています。多くの利用サービスが登場する中、純粋なコンピューティングを行うAIサーバー、データを蓄積するストレージサーバー、コンピューティングとストレージを兼ね備えたハイブリッドサーバー、エッジコンピューティングに適したエッジサーバーなど、さまざまな用途のサービスに対応するために、サーバーの仕様も進化し続けています。 潜在リスクを予防し、商品の信用を守り収益損失を軽減 一般的に、アプリケーションサービスプロバイダーは、提供する利用サービスの展開に合わせてサーバーの仕様を選択しますが、導入後の動作パフォーマンスや安定性が当初の計画通りに実行できるかどうかは定かではありません。同時に、温度や振動といった外部環境要因によって、運用中に信頼性の問題が発生する可能性もあり、また予測することもできません。しかし、実際に運用パフォーマンスが低下したり、アプリケーションサービスプラットフォームが不安定になったり、信頼性の問題が発生したりすると、サーバーハードウェアの障害といった潜在リスクが生じ、アプリケーションサービスプロバイダーは即座に信用と収益の失うことになりかねません。 もう一つのケースは、導入・運用を一定期間行った後に問題が発覚し、検査と分析をした結果、それがハードウェアに関連する問題であることが確認された場合です。このとき、当初のシステムプロバイダーを探そうにも、プロジェクトが終了してすでに関連リソースも解散し、他の新しいプロジェクトに割り当てられていることがあります。このためシステムプロバイダーは、問題を解決するためのリソースを見つけるためにさらに多くの時間をかけなければならず、加えてハードウェアにリワークが必要となる可能性もあり、アプリケーションサービスプロバイダーまたは購入者にとっては多大なコストがかかってしまいます。 潜在リスクを防ぐユーザーシナリオシミュレーションテストのご紹介 アリオンはサーバの出荷前に、後に導入されて以降、上記の潜在的なリスクが発生するかどうかをシミュレーションおよび検証できるユーザーシナリオシミュレーションとソリューションを提供し、導入後に実際に問題が発生する確率を効果的に低減することができます。以下に、サーバーのパフォーマンスと安定性を確認するためのユーザーシナリオシミュレーションの例をいくつか紹介します。 1. MySQLデータベースのワークロードシミュレーション 2. MS SQL OLTPのワークロードシミュレーション 3. ファイルサーバーのワークロードシミュレーション 4. 仮想化システムのワークロードシミュレーション [...]

ストレージサーバーの性能不足、SSDの互換性評価が鍵

Allion Labs  クラウドサービスの世代交代で、主要なストレージメディアが変化 テクノロジーの発展に伴いストレージメディアも絶えず進化を続けており、ソリッドステートドライブ(SSD)が新世代ストレージメディアの代表格となっています。 サーバー業界において、初期はSASハードディスク(HDD)が主流でしたが、特に近年はNVMe SSDの台頭により、このタイプのSSDがストレージサーバーに多く導入されるようになりました。こうしたトレンドを受けて、業界は関連するフォームファクターを策定してこれをサポートし、サーバー業界で最も代表的なものはU.2/U.3およびEDSFF E1/E3となっています。NVMe SSDの最大のメリットは標準のPCIeを採用していることで、そのスループットはPCIeの仕様に従い向上し続けています。現在のサーバー業界ではPCIe 4.0 x4が主流で、その理論上のスループットは最大7.88GB/sに達しており、次世代のPCIe 5.0 x4では15.75GB/sに達するとされており、これは他の規格では実現できません。 SSD規格を調達する際の重要なポイント:互換性/ファームウェア/テスト方法 クラウドサービスプロバイダーは、ストレージサーバーの展開時に、その用途を考慮して異なるSSD規格を選択します。たとえば、読み取り集中型のSSDは頻繁な書き込み操作を必要としない用途に適しており、主に大きなブロックや連続したデータモードを扱うワークロードに対応します。一方、書き込み集中型のSSDは書き込み集中型の用途に適しており、ビッグデータ分析、HPC(ハイパフォーマンスコンピューティング)、メインストリームサーバー、ストレージシステムなどの分野で使用されます。ハイブリッド型SSDは、メディアストリーミング、データウェアハウス、ウェブサーバーなど、書き込み・読み取りが混在する用途向きです。 運営業者や調達担当者は、サーバーの用途に応じてより適切な規格のSSDを選択しますが、製品の仕様書を参照して購入すると、以下のような要因から、期待していたようなパフォーマンスが導入後に見られない可能性があります。 [...]

ストレージサーバーのパフォーマンスが低下する主な原因はファン問題なのか?
ストレージサーバーのパフォーマンスが低下する主な原因はファン問題なのか?

Allion Labs    クラウドサービスが普及し、ストレージのニーズは無限に クラウドストレージ、ビデオストリーミング、ソーシャルメディアプラットフォームなどのクラウドサービスプロバイダーは、この10年間世界で最も注目されている新興サービスの一つとなっています。日々増加する大量のデータに対応し、消費者の膨大な需要を満たし続けるには、当然ストレージ容量の拡大は常に向き合わなければならない課題であり、データセンターにおけるストレージサーバーのパフォーマンスが非常に重要になっています。 データ自体の属性に基づいて、データストレージはホットデータとコールドデータに大別され、異なるストレージメディアに保存されます。一般的に、ホットデータはソリッドステートディスク(SSD)に保存され、コールドデータはハードディスク(HDD)に保存されます。また、ホットデータはある一定の時間が過ぎるとコールドデータになるため、コールドデータを保存するストレージサーバーは常に拡大し続けます。 長時間の振動負荷がストレージサーバーのパフォーマンスに影響する可能性あり ハードディスクは、ディスクが回転し磁気ヘッドでデータを読み書きするという特性を利用しているため、ハードディスクを使用するストレージサーバーは振動に非常に敏感です。環境の振動が大きすぎると、データのアクセスパフォーマンスに影響を及ぼし、ひどい場合はハードディスクのヘッドやディスクに損傷を与え、ハードディスクの破損につながる可能性があります。通常、長時間の振動負荷を引き起こす潜在的な要因は、主に以下の3つです。 冷却ファンが生成するノイズ負荷 冷却ファン自体の振動負荷 ハードディスク自体の振動負荷 アリオンは2つの実験を行いました。1つはノイズがハードディスクのスループットに与える影響について、もう1つはストレージサーバーの使用シナリオをシミュレーションする際のハードディスクパフォーマンスを測定するもので、どちらの実験も、ファンがハードディスクのパフォーマンスに影響を与えることを示しています。 サーバーのキーコンポネント/デバイス品質のテストサービス サーバー上のすべての部品/デバイスは厳格な品質管理を受ける必要があり、サーバーの高スペックおよび高パフォーマンス要件を満たすために、徹底的にテストを実施しなければなりません。アリオンはIT分野に深く関わり、30年以上のテストおよび検証の経験を積み重ねており、ファンや振動に関する問題に対して、カスタマイズ可能な包括的なソリューションを提供することができます。   [...]

サーバー用高速ケーブルの品質を検証する方法とは?

Allion Labs  PCIe 5.0の使用環境が徐々に形になりつつある中、潜在リスクが顕在化している? 人工知能やクラウドコンピューティングの急速な発展に伴い、高速データ転送ニーズは増加の一途を辿り、PCI Express(PCIe)はサーバー用途で最も広く使用されている転送技術になっています。特に高性能演算HPC(High Performance Computing)サーバーとAIサーバーでは、ほとんど全てにPCIe 5.0規格が導入され、双方向のデータ転送スループットは128GB/sに達し、これら2種類のサーバーが最大のパフォーマンスを発揮できるようになりました。ただし、PCIe 5.0の周波数が16GHzに達すると、PCB基板は高周波数による信号減衰が大きくなる特性があり、製造メーカーは大きな技術的課題に直面しています。信号減衰をいかに軽減して信号伝達を高速化するかは、業界全体で解決すべき喫緊の課題となっています。これに対し関連メーカーは、より多くの高周波数ケーブルを設計に取り入れてPCIeチャネルの長さを延ばし、すべての高速デバイスを1つのサーバーに統合できるようにしています。 高周波ケーブルの「こんな特性」にはリスクが潜んでいる? 使われる高周波ケーブルの数が増えるにつれて、高周波ケーブルの品質検証がますます重要になっています。高周波ケーブルの品質に影響を与える特性には、挿入損失(Insertion Loss)、反射損失(Return Loss)、クロストーク(Crosstalk)などがあり、これらの特性が良好でなければ、以下の潜在リスクが発生してしまいます。 1. [...]

サーバー信号品質の低下がもたらす潜在リスク

Allion Labs  最近サーバー業界で最も注目されている話題は、ChatGPTとNVIDIAがもたらした生成AI旋風です。AIサーバーも業界関係者から注目を集め始めて購入注文も出ており、AIサーバーの成長を牽引しています。市場調査機関Trend Forceの最新の予測によれば、AIサーバーの出荷数は2023年に前年比年間で38.4%増加し(約120万台)、サーバー出荷数全体の約9%を占める見込みとなっています。さらに、2026年には15%に達し、2022年から2026年におけるAIサーバー出荷数の年間平均成長率が10.8%から22%に上方修正されています。 AIサーバー内部の高速インターフェースにはPCI Express(PCIe)5.0技術が採用されており、双方向のスループットは約128GB/sに達し、大量のデータ転送と計算が必要な各種生成AIアプリケーションをサポートしており、これこそAIサーバーが成功する主な要因の一つでもあります。そのため、PCIeチャネル設計の品質検証は非常に重要であり、電気信号のアイパターン測定がPCIeの最も一般的な検証手法となっていますが、すべてのPCIe信号のアイパターンを全面的に検証するには、非常に時間がかかります。たとえば、8つのPCIe 5.0スロット(x16)を持つAIサーバーの場合、測定しなければならないアイパターンは4608個にも及び、作業完了までに9〜10日かかります。100%測定するには時間がかかるため、業界では検証時間を短縮するために部分的に測定することが多く、その測定カバレッジ率は約15〜25%程度に過ぎません。このような低い測定カバレッジ率では、不適切に設計されたチャネルを検出できないリスクが生じ、データ転送性能の低下や速度低下、深刻な場合にはGPUアクセラレータカードの接続失敗や、システムが再起動する可能性が高まります。 このようなリスクに対処するために、アリオンはPCIe電気検証自動化ソリューション(Allion PCIe Multiport System、以下APMS)を開発しました。これにより、測定の所要時間を高速化してテストサイクルを短縮し、測定装置の生産能力や回転率を向上させることができます。このAPMSは、手動テストに必要な時間を5分の1に短縮でき、前述した9〜10日かかる案件を2日で完了し、全てのpresetモードの全レーンで100%のカバレッジ率を達成することができます。 Faster、Easier、Better ― 最も信頼できるサーバー検証コンサルタント アリオンは完全な環境設備と豊富なプロジェクト経験を備えており、APMSの開発に加えて、以下のPCIeに関するコンサルティングサービスも提供しています。 1. 検証に必要な各種フォームファクタのテスト治具を提供し、お客様のニーズに合わせてカスタマイズ可能な治具を開発します。 [...]