Category Archives: Server関連記事

OCP Cloud SSD 1.0aコンプライアンステストとは?

クラウドコンピューティングとクラウドストレージの急速な発展に伴い、ネットワークサービスプロバイダーのサーバーに対するニーズも高まっており、クラウドサービスプロバイダーは、大規模な情報へのアクセスが可能なハードウェア仕様要件を満たすために、さらに多くのデータセンターを作り続ける必要があります。一般的に、データセンターは通常共通のアーキテクチャを持つサーバーを使用するか、比較的大規模なデータセンターの中には、多くの時間を費やしてサーバーの仕様を独自に設計・計画するケースもあります。 OCP (Open Compute Project)とは? これを踏まえて、Facebook(Metaの前身)は2011年4月にデータセンターを設立し、開設と同時にOpen Compute Project(OCP)を立ち上げ、データセンターやサーバーを含む一連のハードウェア設計がオープンソース化しています。その後、Google、Microsoft、Intel、Dellなどの大手企業や、台湾の一部現地サーバーメーカーも相次いで参加し、現在では、国際的なITテクノロジー企業が共同で運営するデータセンターオープンアーキテクチャ技術の開発組織となっています。また日本市場に向けて「オープンコンピュートプロジェクトジャパン」 (Open Compute Project Japan)を設立しました。 Facebookがこのプロジェクトを立ち上げた目的は、データセンターのソフトウェアとハ​​ードウェアの設計方法を公開して、より多くのメーカーと共同でデータセンターを開発・設計・メンテナンスを進めることで、データセンターの効率を向上させ、サーバー全体の電力消費を効果的に削減し、サーバーのパフォーマンスを向上させてエネルギー消費を削減すること、また同時に、大規模データセンターの技術仕様と基準を策定し、クラウドサービス業界内で高効率・省エネ技術が交換できるプラットフォームを提供することでした。 OCPアーキテクチャと関連認証試験についての説明 現在OCPは、主にストレージ、サーバー、ラックと電源、冷却環境、データセンターファシリティ、ハードウェアの管理、ネットワークなどのカテゴリを含む、オープンアーキテクチャテクノロジを開発しています。ストレージコンポーネントについては、OCPにNVMe [...]

サーバー調達品質の復号化 – 安定性要求編

Allion Labs / James Ou 本連載企画ではサーバー調達における品質の三大要件は、品質基盤(仕様要件)、ユーザーエクスペリエンス(性能要件)、メンテナンス費用(安定性要件)等の3つの側面に対応しているかどうかを解説していきたいと思います。前回の仕様要求編でユーザーシナリオから仕様要求、直面する課題とテスト効率できるテストツールを紹介しました。今回では、サーバーの安定性のニーズについて説明します。 サーバーを安定稼働するには、信頼性テスト用のウォークインチャンバー(Walk-in Chamber)が欠かせない 5G、AI、クラウドコンピューティング、クラウドOTT (Over-the-top) などのアプリケーションサービスの台頭により、これらのアプリケーションは、サーバー自体、つまり高速且つ大容量のハードウェアを基礎としています。高速とは、CPUの動作速度、GPUの動作速度、高速ネットワーク伝送速度またはストレージメディアへのアクセス速度等を指し、高容量とは、メモリ容量やストレージメディアの容量をそれぞれ表しています。 これらの高速アプリケーション関連サービスが継続して生まれていることから、サーバーの消費電力も増加の一途を辿っており、以前は2KWほどの電力消費量が一般的だったのが、現在ではサーバー1台あたり10KWを超えています。高速化と高消費電力化に伴う主な問題は、熱エネルギーの発生と速度の不安定性であるため、サーバーの安定性ニーズとして、温度あるいは温湿度の信頼性テストが特に重要視されています。 従来のサーバー信頼性テストはスタンドアロン方式で実施されていましたが、新しいアプリケーションの導入とコンセプトの変更により、アプリケーションレベルからサーバー信頼性テストが求められるようになりました。アプリケーションレベルの信頼性テストと従来のスタンドアロンの信頼性テストは、両方とも動作温度の最高温度と最低温度の設定条件が同じですが、サーバーグループのアーキテクチャと、シミュレーションされたアプリケーションサービスを実行するストレステストソフトウェアが最大の違いです。 アーキテクチャのアプリケーションレベルでのサーバーグループは、通常ラック(Rack)単位で構築され(複数のサーバーが組み込まれた状態で)、ラックの高さも初期の42Uから現在の48Uや、より新しい52Uまでであり、また数量も1から3までとさまざまです。上記の高電力消費とラック数等の条件を組み合わせると、信頼性テストに使用されるウォークインチャンバー(Walk-in Chamber)には、非常に高いしきい値要件が課せられます。まず、冷却能力はラックサーバー全体が生成する総熱量を上回らなければならないこと、次に内部の空間がラック全体に収まる必要があること、最後に、運搬重量はラックサーバー全体の総重量を満たす必要があります。 [...]

サーバーの振動が機械駆動式HDDのパフォーマンスに与える影響

今日ソリッドステートドライブ(SSD)が市場の主流になりつつあり、内蔵ストレージデバイスを選ぶ場合、一般ユーザーは従来の機械駆動式HDD(HDD)を優先して選ばなくなりました。本当にHDDは段階的に淘汰されてしまうのでしょうか? HDDは市場から消えておらず、依然として一定のシェアを占めています。SSDに比べてストレージ容量が大きいだけでなく、価格も比較的安く、サーバーなど多くのストレージスペースを必要とするデバイスの場合、コールドデータを保存するストレージの最初の選択肢です。 ハードディスク(HDD)の構造について このトピックに入る前に、HDDのアーキテクチャについて簡単に紹介しましょう。HDDは、主に磁気ディスク、磁気ヘッド、ランプ、モーター、制御回路基板、SATA/SAS接続インターフェースなどの部品で構成されています。磁気ヘッドは、ディスクの半径方向に沿って水平に移動します。毎分数千回転というディスクの高速回転で、指定された位置にディスク上の磁気ヘッドを位置決めして、データの書き込み/読み取りを行います。 図1:HDDの構造 上記から明らかなように、機械駆動式HDDは、回転するディスクと、データの読み取り&書き込みのために、ディスクにほぼ貼り付けられている磁気ヘッドに依存しています。そのため、HDDの動作中に、外部の振動や移動及び落下などの予期せぬ干渉が加わると、HDDに予期せぬ問題が発生し、最悪の場合ヘッド/ディスクが損傷し、HDDの破損につながります。HDDがサーバー環境に設置されている場合、移動や落下に遭遇する可能性は低くなりますが、発熱が大きいことを考慮し、サーバーには通常、放熱を補助する高効率の冷却ファンが装備されています。高効率ファンの高速回転による筐体の振動は避けられません。ハイエンドのエンタープライズクラスのHDDは主にサーバーで使用され、高い信頼性が謳われるHDDが本当に信頼に足るものかどうか、サーバーの動作中、高周波振動の環境下で、通常の伝送性能を維持できるのでしょうか? 検証事例から実測値を比較してみた アリオンは、サーバー関連コンポーネントの専門的なテストラボとして、関連する問題の検証に対応する検証ノウハウを有しており、実際のアプリケーション環境を通じて、HDDがテストに合格できるかどうかを確認しました。次の図2は、検証を実行する準備が整ったサーバーの概略図です。実際のテストでは、サーバー内のすべてのHDDスロットにHDDが設置され、カスタマイズされたソフトウェアに従いファンの速度が制御されています。ファンの速度をさまざまなパーセンテージに設定した上で、同時にHDDでパフォーマンステストを実行し、テスト結果を記録しました。また、テスト実施前に、他の設備の振動による干渉を避けるため、テスト用HDDを安定したプラットフォームに置いた上でパフォーマンステストを実行し、結果を基準値として収集しました。パフォーマンステストの方法は、書き込みテストを行い、4K/256Kのブロックサイズと一致させることです。さまざまなブランドのHDDの違いを比較するために、メインブランドが製造するエンタープライズクラスのHDDを3つ選び、テストを実施しました。 図2:検証を実行する準備が整ったサーバーの概略図 ファンの速度は、最高速度の半分の速度、即ち50%の速度設定から始まり、その後10%ずつ徐々に高めていき、最終的にファンの最大速度に達しました。異なる速度範囲で、性能が基準値と大きく異なるかどうかを比較します。  A. 256KB のシーケンシャル書き込みの場合  まずは、この3台のHDDの性能を256KBシーケンシャル書き込み時の元データと比較してみましょう。下のグラフ(図3)からわかる通り、256KB のシーケンシャル書き込みの場合、3台の [...]

サーバー調達品質の復号化–品質検証のための3つの要件

Allion Labs / James Ou アリオンは、サーバー業界およびアプリケーションシナリオ関連をテーマとした記事をシリーズで作成し、専門コンサルタントの観点から詳細に分析を加え、メーカーや業界の調達部門、クラウドサービス企業等を支援し、より多くの製品が結びつく市場情報とデータを入手してきました。 品質検証の3大要件:仕様、パフォーマンス、安定性 一般的な企業のコンピュータールームやクラウドサービス会社にとって、サーバー製品は最も重要なハードウェアインフラストラクチャであり、調達部門にとっても非常に複雑で難しい製品でもあります。高い単価に加え、様々なアプリケーションシナリオに基づき、それぞれに適合するハードウェアの仕様を策定する必要があります。更に困難なのは、その仕様やパフォーマンス及び安定性が、出荷受入時或いは量産時のサンプリング検査において、要件を満たしているかどうかを確認することです。 しかしながら、サーバー製品の仕様やパフォーマンス、安定性の検証は、企業の品質管理部門や一般的な外部テストラボでは実行できません。これらの検証は、ハードウェアと電気信号の品質の確認、サーバー運用における様々なシナリオパフォーマンス評価、異なる環境条件下での運用安定性をカバーしており、これらの関連するテスト設備とテスト機能分野はそれぞれ異なります。次に、これら3つの要件を検証するために必要な設備と機能について説明します。 サーバーの品質検証–高いスペックを持つ技術ラボがカギ サーバーはIT業界における様々な高い技術仕様を統合した製品であるため、ハードウェアの電気信号品質を検証する際、テクノロジーの最前線にあるラボにしかそのニーズを満たすことができません。 例えば、サーバーの特徴である高速信号と高スループットのデータ伝送について、業界の最新の技術仕様はPCIe Gen5および800G高速イーサネットであり、スループットはそれぞれ63GB /秒(x16)および112GB/秒です。高速信号ボードの設計上の欠陥がある場合、データ通信の速度が低下したり、消費電力が増加したりすることがあります。更にはシステムがランダムに再起動する可能性もあり、サーバーの動きが遅いあるいはフリーズなどの障害が起こると、ユーザー満足度を低下させるだけでなく、最悪の場合、財産の損失、火事といった様々な過失を引き起こす恐れがあります。 このような高速電気信号を測定するには、50/70GHzオシロスコープと32GbpsのBERTを使用し、且つ様々なフォームファクタのテストフィクスチャを使用する必要があり、技術的なハードルは非常に高くなります。 [...]

受聴品質の知覚的観客的分析

現在の通信ネットワークでは多種多様な音声サービスが提供されており、日常の生活にとって不可欠なものとなっています。そのため、急速に発展する通信システムにおいて、音声品質を如何に確保するかが重要な課題となっており、ユーザーに快適なサービスを提供するためには、音声品質の評価方法が肝心なキーポイントとなっています。 音声品質評価の応用については、ITUワークショップでOPTICOM社から提供された情報(下図)をご参照ください。 音声品質の評価方法には大きく分けて二種類あります: 主観品質評価法 客観品質評価法 従来の主観品質評価法は、複数の被験者を集めて、あらゆる音響信号の断片の音質を判定してもらいます。通常、判定基準は1から5の間の数値で表されます。それぞれの判定基準の点数を全て足して被験個体数で除した結果が平均オピニオン評点(MOS)の値となります。 被験者を集める試験はコストも高く時間もかかりますが、音響心理学モデル(PESQまたはPOLQA)を用いた計算方法でそれらの制限を克服することができます。正しく使用できれば、これらのモデルは人間による試験結果にほぼ一致します。このような試験自動化は、開発の過程において高速な反復検証と効果的な生産ライン検証をもたらします。得られた測定結果は、人間の気質によるばらつきや測定条件の影響を受けないため、客観的な結果に分類され、高い再現性を持ちます。 主観品質評価法は、多くの被験者と時間が必要になり、コストが膨大になります。それに比べ客観品質評価法は機器を使用しているため、そのような問題はありません。 PESQ(Perceptual Evaluation of Speech Quality)は通信システムや音声エンコードに用いられていた前世代のエンドツーエンド音声品質評価の客観的音声品質評価法であり、ITU-R勧告 P.862として標準化されていましたが、その制限性から、国際電気通信連合ITUによりPOLQA(Perceptual Objective [...]

メモリモジュール(Memory DIMM module)に必要な信頼性対策とは?

Allion Labs / Joseph Lin コンピュータの発明以来、メモリはコンピュータプラットフォームにおいて不可欠な役割を果たしてきました。メモリはメインメモリと外部メモリに分けられ、メインメモリとは、中央処理装置(以下CPU)が直接アドレス指定できるストレージスペースです。主な機能は、CPUが処理するデータを一時的に保存し、CPUがデータにアクセスする際に使用されます。外部メモリとは、ハードディスク(HDD)やソリッドステートドライブ(SSD)など、コンピュータでのアクセス速度が遅い記憶媒体を指し、私たちが普段使っているオペレーティングシステムや各種ソフトウェアは、外部メモリに保存されています。 メインメモリは、コンピュータプラットフォームでCPUと外部メモリの間のブリッジの役割を果たしています。コンピュータアーキテクチャにおいて、CPUの計算速度は非常に高速ですが、一方でHDDまたはSSDのストレージ速度は非常に低速です。そのため、CPUと外部ストレージメモリの間に、高速バッファデバイスが必要となります。 CPUがデータを処理する際、まず外部記憶メモリからCPUが処理するデータを取り出してメインメモリに一時的に保存し、その後CPUが処理する際にデータがCPUに高速転送されるため、途中の待機時間が大幅に短縮されます。この様に、メインメモリはコンピュータプラットフォームで非常に重要なブリッジの役割を果たしています。 図1:メインメモリには、CPUと外部メモリの間の重要なブリッジの役目がある 最近のコンピュータプラットフォームでは、メインメモリに高速性と拡張性が求められるため、ほとんどの場合で複数のメモリチップで構成されるDual In-line Memory Module(以下DIMM)などのメモリモジュールの形式がとられています。この記事では、DIMMをメインとしてお話しします。 図2:メインメモリのイメージ DIMMの信頼性検証 [...]

【連載企画 – サーバー検証:設備編】PCIe5.0テスト機器はどう選ばれたのか?

Allion Labs / Eric Chen 近年のクラウドサービスの台頭に伴い、データ量が大幅に増加したことで、データコンピューティングやストレージのニーズが高まり、サーバー業界は顕著な成長を続けています。アプリケーションサービスの分野では、スマート時代の到来により、様々なニーズが生まれてきました。AIの分野では、コンピューティング速度と画像伝送帯域幅に対する需要も日々高まっています。また、5GのコネクテッドカーとIoTの急速な普及も相まって、リアルタイムの応答時間と帯域幅の要件が更に高まっています。新世代アプリケーションのニーズに対応するため、企業はサーバーのストレージを拡張するだけでなく、サーバー自体のデータコンピューティングの応答時間及び伝送速度の仕様も継続的な向上が求められています。 昨今サーバーマザーボードの高速信号伝送インターフェース規格は様々ありますが、中でもPCI Express(PCIe)は最も重要な伝送インターフェース標準仕様であり、その拡張性アプリケーションも増加しています(例:NVMe SSD、CXL等)。そのため、サーバー全体のパフォーマンスを向上させるための最速かつ最も効果的な方法は、更に高いPCIeの標準仕様を採用することです。現在、サーバー業界全体が続々とPCIe 5.0仕様の導入を開始しており、その帯域幅は前世代の2倍となっています。各チャネルが16Gbpsから32Gbpsに変わり、これは、X8では合計256Gbpsとなります。つまり、PCIe5.0x8と100Gbpsまたは200Gbpsのイーサネットとの組み合わせにより、サーバーは、これまで以上に高いスループットを必要とする現在の市場の需要を満たすことができます。                 図1:ラックマウント型サーバーのイメージ PCIe 5.0の信号伝送速度は4.0の2倍であるため、仕様ではチャネルとコネクタの損耗および反射の定義がより厳密になります。また、受信機と送信機のイコライゼーション仕様にも新しい規定があり、データレートが16GT/sから32GT/sに増加することを考慮すると、立ち上がり/立ち下がり時間が速くなり、ユニット間隔(UI)の狭まり、挿入損耗が大きくなります。発生が想定される問題全てに対し、設計およびテストプロセスにおいて特別な注意を払わなければなりません。 それでは、PCIe5.0テストに必要な機器から見てみましょう。 高精度な特定の信号測定のためのビット誤り率テスト(BERT)およびパルスパターン発生器(PPG) [...]