Category Archives: Server関連記事

悪魔は細部に宿る!サーバーの品質潜在リスクを特定するには?

Allion Labs  多様化するサーバーの利用シーン デジタル化とデータ需要の拡大に伴いサーバー産業も成長を続け、クラウドコンピューティング、人工知能、ビッグデータ分析、モノのインターネット(IoT)、ブロックチェーンなどの新たなテクノロジーを含め、さまざまな利用サービスが次々にリリースされています。多くの利用サービスが登場する中、純粋なコンピューティングを行うAIサーバー、データを蓄積するストレージサーバー、コンピューティングとストレージを兼ね備えたハイブリッドサーバー、エッジコンピューティングに適したエッジサーバーなど、さまざまな用途のサービスに対応するために、サーバーの仕様も進化し続けています。 潜在リスクを予防し、商品の信用を守り収益損失を軽減 一般的に、アプリケーションサービスプロバイダーは、提供する利用サービスの展開に合わせてサーバーの仕様を選択しますが、導入後の動作パフォーマンスや安定性が当初の計画通りに実行できるかどうかは定かではありません。同時に、温度や振動といった外部環境要因によって、運用中に信頼性の問題が発生する可能性もあり、また予測することもできません。しかし、実際に運用パフォーマンスが低下したり、アプリケーションサービスプラットフォームが不安定になったり、信頼性の問題が発生したりすると、サーバーハードウェアの障害といった潜在リスクが生じ、アプリケーションサービスプロバイダーは即座に信用と収益の失うことになりかねません。 もう一つのケースは、導入・運用を一定期間行った後に問題が発覚し、検査と分析をした結果、それがハードウェアに関連する問題であることが確認された場合です。このとき、当初のシステムプロバイダーを探そうにも、プロジェクトが終了してすでに関連リソースも解散し、他の新しいプロジェクトに割り当てられていることがあります。このためシステムプロバイダーは、問題を解決するためのリソースを見つけるためにさらに多くの時間をかけなければならず、加えてハードウェアにリワークが必要となる可能性もあり、アプリケーションサービスプロバイダーまたは購入者にとっては多大なコストがかかってしまいます。 潜在リスクを防ぐユーザーシナリオシミュレーションテストのご紹介 アリオンはサーバの出荷前に、後に導入されて以降、上記の潜在的なリスクが発生するかどうかをシミュレーションおよび検証できるユーザーシナリオシミュレーションとソリューションを提供し、導入後に実際に問題が発生する確率を効果的に低減することができます。以下に、サーバーのパフォーマンスと安定性を確認するためのユーザーシナリオシミュレーションの例をいくつか紹介します。 1. MySQLデータベースのワークロードシミュレーション 2. MS SQL OLTPのワークロードシミュレーション 3. ファイルサーバーのワークロードシミュレーション 4. 仮想化システムのワークロードシミュレーション [...]

サーバーのリモート管理問題を回避する方法を分かりやすくご紹介

Allion Labs  サーバーは現代の企業運営の中核であり、大量のデータを保存、処理、管理して、多様なビジネスニーズに対応しています。しかし、サーバーの規模と複雑さが増大するにつれて、これらのサーバーを効果的に管理及びメンテナンスすることがますます困難になっており、日々課題が増加する環境で、サーバーのBMC(Baseboard Management Controller)の機能がますます重要になっています。 BMCの2つの主要な機能:  1. サーバーのリモート管理機能を提供する  現地にいる必要はなく、管理者はBMCを通じてサーバーにアクセスすることができます。サーバーが稼働中でもシャットダウン中でも、このリモート管理機能は時間とコストを節約する上で非常に重要です。管理者は障害のトラブルシューティングやアップグレードのたびにサーバールームに直接赴く必要はなく、BMCを介してほとんどの作業を完了することができます。  2. 温度、電力供給、ファンの速度など、サーバーのハードウェアの状態を監視する  異常を検知するとアラームを発し、管理者に措置を通知して、ハードウェアの故障によるデータの損失やサーバーの停止を防ぎます。このようなアクティブな監視は問題の発生を予防し、サーバーの信頼性を向上させます。 上記からわかるように、BMCの機能が故障したり問題が発生したりすると、企業に与える影響は非常に大きくなります。管理者がBMCを介してサーバーを管理できない場合、管理者がサーバールームに出向いて対応する必要が生じ、時間コストや人件費が大幅に増加し、特にサーバーが離れた場所にある場合はさらに深刻になり、長時間サーバーが停止してしまうと計り知れない損失が発生する恐れがあります。また、BMCがサーバーのハードウェアの健康状態を監視する機能が故障したり情報が不正確になったりすると、管理者は効果的な予防措置を講じることができず、ハードウェアの故障によるデータ損失やサーバーの停止を引き起こし、企業に損失をもたらす可能性があります。 アリオンはサーバーに関わる多くのお客様にサービスを提供しています。ここでは3つの例を挙げてBMCのテストが重要である理由を説明します。 事例共有 [...]

ストレージサーバーの性能不足、SSDの互換性評価が鍵

Allion Labs  クラウドサービスの世代交代で、主要なストレージメディアが変化 テクノロジーの発展に伴いストレージメディアも絶えず進化を続けており、ソリッドステートドライブ(SSD)が新世代ストレージメディアの代表格となっています。 サーバー業界において、初期はSASハードディスク(HDD)が主流でしたが、特に近年はNVMe SSDの台頭により、このタイプのSSDがストレージサーバーに多く導入されるようになりました。こうしたトレンドを受けて、業界は関連するフォームファクターを策定してこれをサポートし、サーバー業界で最も代表的なものはU.2/U.3およびEDSFF E1/E3となっています。NVMe SSDの最大のメリットは標準のPCIeを採用していることで、そのスループットはPCIeの仕様に従い向上し続けています。現在のサーバー業界ではPCIe 4.0 x4が主流で、その理論上のスループットは最大7.88GB/sに達しており、次世代のPCIe 5.0 x4では15.75GB/sに達するとされており、これは他の規格では実現できません。 SSD規格を調達する際の重要なポイント:互換性/ファームウェア/テスト方法 クラウドサービスプロバイダーは、ストレージサーバーの展開時に、その用途を考慮して異なるSSD規格を選択します。たとえば、読み取り集中型のSSDは頻繁な書き込み操作を必要としない用途に適しており、主に大きなブロックや連続したデータモードを扱うワークロードに対応します。一方、書き込み集中型のSSDは書き込み集中型の用途に適しており、ビッグデータ分析、HPC(ハイパフォーマンスコンピューティング)、メインストリームサーバー、ストレージシステムなどの分野で使用されます。ハイブリッド型SSDは、メディアストリーミング、データウェアハウス、ウェブサーバーなど、書き込み・読み取りが混在する用途向きです。 運営業者や調達担当者は、サーバーの用途に応じてより適切な規格のSSDを選択しますが、製品の仕様書を参照して購入すると、以下のような要因から、期待していたようなパフォーマンスが導入後に見られない可能性があります。 [...]

ストレージサーバーのパフォーマンスが低下する主な原因はファン問題なのか?

Allion Labs  クラウドサービスが普及し、ストレージのニーズは無限に クラウドストレージ、ビデオストリーミング、ソーシャルメディアプラットフォームなどのクラウドサービスプロバイダーは、この10年間世界で最も注目されている新興サービスの一つとなっています。日々増加する大量のデータに対応し、消費者の膨大な需要を満たし続けるには、当然ストレージ容量の拡大は常に向き合わなければならない課題であり、データセンターにおけるストレージサーバーのパフォーマンスが非常に重要になっています。 データ自体の属性に基づいて、データストレージはホットデータとコールドデータに大別され、異なるストレージメディアに保存されます。一般的に、ホットデータはソリッドステートディスク(SSD)に保存され、コールドデータはハードディスク(HDD)に保存されます。また、ホットデータはある一定の時間が過ぎるとコールドデータになるため、コールドデータを保存するストレージサーバーは常に拡大し続けます。 長時間の振動負荷がストレージサーバーのパフォーマンスに影響する可能性あり ハードディスクは、ディスクが回転し磁気ヘッドでデータを読み書きするという特性を利用しているため、ハードディスクを使用するストレージサーバーは振動に非常に敏感です。環境の振動が大きすぎると、データのアクセスパフォーマンスに影響を及ぼし、ひどい場合はハードディスクのヘッドやディスクに損傷を与え、ハードディスクの破損につながる可能性があります。通常、長時間の振動負荷を引き起こす潜在的な要因は、主に以下の3つです。 冷却ファンが生成するノイズ負荷 冷却ファン自体の振動負荷 ハードディスク自体の振動負荷 アリオンは2つの実験を行いました。1つはノイズがハードディスクのスループットに与える影響について、もう1つはストレージサーバーの使用シナリオをシミュレーションする際のハードディスクパフォーマンスを測定するもので、どちらの実験も、ファンがハードディスクのパフォーマンスに影響を与えることを示しています。 サーバーのキーコンポネント/デバイス品質のテストサービス サーバー上のすべての部品/デバイスは厳格な品質管理を受ける必要があり、サーバーの高スペックおよび高パフォーマンス要件を満たすために、徹底的にテストを実施しなければなりません。アリオンはIT分野に深く関わり、30年以上のテストおよび検証の経験を積み重ねており、ファンや振動に関する問題に対して、カスタマイズ可能な包括的なソリューションを提供することができます。  ファン  信頼性テスト:長時間の温湿度変動サイクルに、ファンの回転速度と電源サイクルなどの環境シミュレーションを組み合わせ、ファンの信頼性を検証します。検証プロセスでは、定期的にファンを取り出して分解し、各部品の摩耗状況を確認します。 [...]

サーバー用高速ケーブルの品質を検証する方法とは?

Allion Labs  PCIe 5.0の使用環境が徐々に形になりつつある中、潜在リスクが顕在化している? 人工知能やクラウドコンピューティングの急速な発展に伴い、高速データ転送ニーズは増加の一途を辿り、PCI Express(PCIe)はサーバー用途で最も広く使用されている転送技術になっています。特に高性能演算HPC(High Performance Computing)サーバーとAIサーバーでは、ほとんど全てにPCIe 5.0規格が導入され、双方向のデータ転送スループットは128GB/sに達し、これら2種類のサーバーが最大のパフォーマンスを発揮できるようになりました。ただし、PCIe 5.0の周波数が16GHzに達すると、PCB基板は高周波数による信号減衰が大きくなる特性があり、製造メーカーは大きな技術的課題に直面しています。信号減衰をいかに軽減して信号伝達を高速化するかは、業界全体で解決すべき喫緊の課題となっています。これに対し関連メーカーは、より多くの高周波数ケーブルを設計に取り入れてPCIeチャネルの長さを延ばし、すべての高速デバイスを1つのサーバーに統合できるようにしています。 高周波ケーブルの「こんな特性」にはリスクが潜んでいる? 使われる高周波ケーブルの数が増えるにつれて、高周波ケーブルの品質検証がますます重要になっています。高周波ケーブルの品質に影響を与える特性には、挿入損失(Insertion Loss)、反射損失(Return Loss)、クロストーク(Crosstalk)などがあり、これらの特性が良好でなければ、以下の潜在リスクが発生してしまいます。 1. [...]

サーバー信号品質の低下がもたらす潜在リスク

Allion Labs  最近サーバー業界で最も注目されている話題は、ChatGPTとNVIDIAがもたらした生成AI旋風です。AIサーバーも業界関係者から注目を集め始めて購入注文も出ており、AIサーバーの成長を牽引しています。市場調査機関Trend Forceの最新の予測によれば、AIサーバーの出荷数は2023年に前年比年間で38.4%増加し(約120万台)、サーバー出荷数全体の約9%を占める見込みとなっています。さらに、2026年には15%に達し、2022年から2026年におけるAIサーバー出荷数の年間平均成長率が10.8%から22%に上方修正されています。 AIサーバー内部の高速インターフェースにはPCI Express(PCIe)5.0技術が採用されており、双方向のスループットは約128GB/sに達し、大量のデータ転送と計算が必要な各種生成AIアプリケーションをサポートしており、これこそAIサーバーが成功する主な要因の一つでもあります。そのため、PCIeチャネル設計の品質検証は非常に重要であり、電気信号のアイパターン測定がPCIeの最も一般的な検証手法となっていますが、すべてのPCIe信号のアイパターンを全面的に検証するには、非常に時間がかかります。たとえば、8つのPCIe 5.0スロット(x16)を持つAIサーバーの場合、測定しなければならないアイパターンは4608個にも及び、作業完了までに9〜10日かかります。100%測定するには時間がかかるため、業界では検証時間を短縮するために部分的に測定することが多く、その測定カバレッジ率は約15〜25%程度に過ぎません。このような低い測定カバレッジ率では、不適切に設計されたチャネルを検出できないリスクが生じ、データ転送性能の低下や速度低下、深刻な場合にはGPUアクセラレータカードの接続失敗や、システムが再起動する可能性が高まります。 このようなリスクに対処するために、アリオンはPCIe電気検証自動化ソリューション(Allion PCIe Multiport System、以下APMS)を開発しました。これにより、測定の所要時間を高速化してテストサイクルを短縮し、測定装置の生産能力や回転率を向上させることができます。このAPMSは、手動テストに必要な時間を5分の1に短縮でき、前述した9〜10日かかる案件を2日で完了し、全てのpresetモードの全レーンで100%のカバレッジ率を達成することができます。 Faster、Easier、Better ― 最も信頼できるサーバー検証コンサルタント アリオンは完全な環境設備と豊富なプロジェクト経験を備えており、APMSの開発に加えて、以下のPCIeに関するコンサルティングサービスも提供しています。 1. 検証に必要な各種フォームファクタのテスト治具を提供し、お客様のニーズに合わせてカスタマイズ可能な治具を開発します。 [...]

エッジサーバーアプリケーション屋外設計時の課題と潜在リスク

Allion Labs  近年、エッジサーバーテクノロジーはさまざまな分野で急速に発展しており、スマートシティやスマートモビリティでよく使われているエッジAIやエッジコンピューティングサーバーなど、屋外環境でも広く使用されています。これらのエッジサーバーは屋外に設置されるため、防水・防塵性を考慮してファンレス設計が採用されることが多く、また設置場所を考慮して小型に設計されていることが一般的ですが、小型かつファンレス設計であるがゆえに、放熱性や耐久性に問題があります。 屋外環境での最大の課題は温度変化 例えば、熱帯地域では、夏季の高温に加えて太陽の直射日光のせいで、エッジサーバーの温度が60度以上の高温に達する可能性がある一方で、寒帯地域では冬の夜間の気温が-40度以下になることがあります。また、昼夜の温度差が大きい地域や季節によっては、温度差が40度以上に達することもあります。 屋外でのエッジサーバーアプリケーションの潜在的なリスクは次のとおりです。 ファンのない設計であれば、昼間高温になったエッジサーバーが効果的に冷却されない可能性があり、強制シャットダウンを引き起こす可能性がある 夜間の低温のせいで電子コンポーネントの動作しなくなり、エッジサーバーが起動しなくなる可能性がある 長時間にわたる昼夜の温度変化により、エッジサーバーの寿命が短くなる可能性がある 上記の潜在的なリスクによりエッジサーバーの故障が起こると、スマートシティやスマートモビリティが「スマート」に機能しなくなり、さまざまな混乱や交通事故の原因となる可能性があります。 上記の3つの潜在リスクに対処するために、アリオンは評価に関する一連のコンサルティングサービスを提供することができます。 動作モードでの最高温度と最低温度の最大限界値を評価する 損傷して修復不可能な最高温度と最低温度の極限値を評価する 展開された屋外環境での使用シナリオに基づいて混合テスト(高温/低温)をシミュレーションし、正常に動作するか確認する 極限値に基づいて予想保証期間を評価する [...]

輸送用機器のサーバーにおける「脅威」とは?

Allion Labs  高性能サーバー演算の重要性 インフォメーションテクノロジーで強化されたデジタル時代において、より高性能で安定した計算が求められています。こうした需要が増加し続け、テクノロジーも進化を続けることで、サーバーの計算性能は加速度的に向上しています。さらに、サーバーの大きさは縮小し続ける一方で、サーバーのアプリケーションは集中型データセンターからエッジコンピューティング、さらにはエンドプロダクトにまで拡大しています。移動で使う輸送用機器もサーバーの重要なアプリケーションの一つで、航空、海運、陸運、普段の生活から軍事や科学などの特定の用途に至るまで、輸送用機器が移動する際に起こるさまざまな状況に対処するためにサーバーが使われています。車載サーバーを例に挙げれば、交通状況の検知や異常事態を迅速に処理して通知し、障害物の回避や緊急ブレーキをサポートしていますが、いずれも高性能サーバーの計算によって、こうした迅速な処理が実現しています。 3大脅威に対処するために、どのように評価して保護措置を実行すべきか? 輸送用機器のサーバーが故障すると、非常に深刻な影響を引き起こし、個人または多くの人々の生命が脅かされる可能性があります。 輸送用機器のサーバーが故障する最大の潜在的なリスクは、「長時間の高温/低温や、激しい温度変化」と「移動中の振動」です。 長時間の高温または低温は、サーバーの強制シャットダウンを引き起こす可能性がある 激しい温度変化は、電子部品の急激な熱膨張と収縮を引き起こし、故障の原因となる可能性がある 振動が続くと部品の緩みや脱落を引き起こす可能性があり、サーバーの故障につながる 航空機を例にとると、離陸時と着陸時に急激な温度変化が発生し、一定高度の飛行時には極端な低温環境にさらされ、飛行中は常に振動が発生します。 一方、自動車も似たような状況に遭遇する可能性があります。氷雪や砂漠のような過酷な気候で走行することがあり、走行中に振動が継続して発生し、道路状況によっては急激なアップダウンがあるかもしれません。 上述した3つの潜在的なリスクに対し、アリオンは以下のような包括的なコンサルティングサービスを提供します。 動作モードにおける最高温度と最低温度、振動の最大限界値を評価する 損傷後に復元できない最高温度と最低温度、振動限界値を評価する [...]

サーバー高速アドインカードの機能が動作しない背景と原因

Allion Labs  テクノロジーの進化に伴いに、高周波/高速の転送規格も向上し続けており、サーバー産業で広く使用されているPCIe技術もその一つです。現在の製品でサポートされているPCIe 5.0を例にとると、周波数は16GHzに達し、転送速度は32GT/sになります。しかし、高周波によりPCB基板の信号減衰が増加するという特性から、メーカーは製品開発においてより大きな課題に直面しています。こうした信号の伝送距離と減衰の問題を解決するために、ケーブルを使用する設計が増えており、高速コネクタとケーブル応用の多様化が進んでいます。 互換性の問題の下に隠れている潜在的なリスク 高周波の特性に対する注意だけでなく、高速コネクタの量産時において、メカニカルの精度が安定しているかも無視できない重要なポイントです。精度が安定していない場合、他のメーカーのボードやケーブルとの互換性の問題が発生する可能性が非常に高くなります。 簡単な例を挙げると、高速コネクタのサプライヤーが3つあり、それぞれ異なるボードやケーブルと組み合わせる場合、単純にこれだけでサーバーの製造組み立てプロセスで9つの異なる組み合わせが生まれます。そのうちの1つに互換性の問題が発生した場合、その組み合わせで組み立てられたサーバーは、出荷時に以下の潜在的なリスクに直面する可能性があります:  1. 位置ずれ(Misalignment) 両端のサプライヤーが仕様の公差許容範囲の上下限の位置に設計している場合、生産時に各コネクタの公差精度を確実かつ安定して制御できないと、位置ずれの互換性の問題が発生し、それによりボードやケーブルの接続後に機能が失われる可能性があります。  2. ピンの接触面積が小さすぎる  ボードやケーブルの接続後に機能は正常でも、ピンの接触面積が小さすぎるため、信号の反射と減衰が生じ、データ転送速度と安定性に影響を及ぼす可能性があります。 サーバー分野において、高速コネクタをボードに組み合わせる際、両端のピンの位置ずれが発生したせいで、ボードの機能が起動できないという事例が過去に実際にありました。その原因は、異なるサプライヤー間の組み合わせによる互換性の問題でした。大量に出荷され、エンドカスタマーがサーバーを展開し始めた時になって上記の潜在的なリスクが明らかになれば、メーカーはそのロットのサーバーを回収して交換しなければならず、エンドカスタマーのサーバー展開と関連サービス提供のスケジュールを遅延させるだけでなく、会社の評判や製品イメージ、収益に深刻なダメージを受けることになります。 Faster, [...]