テガラ株式会社 ホーム > 新着情報 > 研究PC関連更新情報

新着情報

研究PC関連更新情報

2019.06.12

【記事】「Metashape」のクラスタ構成での処理速度測定と傾向検証 (前編)new

metashape_report_title.jpg

弊社でも引き合いをいただく事が多いMetashape (旧Photoscan)ですが、実はネットワークを組む事でクラスタ構成でも処理ができるソフトとなります。
以前にはPhotoScanでのGPUなどにおける処理速度の測定を行った事がありますが、ではクラスタ構成にした場合はどのような傾向になるのか...という事を検証してみました。


検証環境について

今回のテストに使用したクラスタ構成は以下の環境となります。
下記システムを4台用意しまして、3台は完全にクラスタノードとして動作させ、
1台はMetashape用のServe兼ストレージサーバー兼ノードとしての検証となります。

クラスタシステム
CPU Intel Core i9 9900K (3.60GHz/TB5.0GHz, 8C/16T)
メモリ 40GB
SSD 1TB S-ATA
GPU Geforce RTX 2080Ti × 1
LAN Onboard(1GbE)
OS Microsoft Windows 10 Professional 64bit
Metashape Ver 1.5.2.7838

また比較用としまして、1台単独で動作させた以下 仕様のマシンでのデータも参考として表示します。

比較用単体システム
CPU Intel Xeon W-2155 (3.30GHz/TB4.50GHz, 10C/20T)
メモリ 256GB
SSD 1TB M.2
GPU Geforce RTX 2080Ti × 2
OS Microsoft Windows 10 Professional 64bit
Metashape Ver 1.5.2.7838


処理内容について

まずは、前回のテストでも利用したメーカー(Agisoft)が公開しているサンプルデータのDoll (Agisoft データダウンロードページ) で、①MatchPhotos ②AlignCameras ③BuildDepthMaps ④BuildDenseCloud ⑤BuildModel ⑥BuildUV ⑦BuildTexture の処理を実施しました。

photoscan_doll.jpg

※なお実施した処理は以下のパラメーターでの実施となります。
Aligen Photos : Highest
Build Dense Cloud : Ultra High
Build Mesh : Arbitray&Ultra High
Build Texture : Generic



処理結果について

以下がサーバーログで ①MatchPhotos~⑦BuildTexture までの一通りのトータル処理時間を計算した結果のグラフとなります。

metashape_report_img1-640x345.jpg

(Y軸=経過時間 : グラフが長いほど処理に時間がかかっている)

クラスタ 1台 (RTX 2080Ti × 1) 20分35秒
クラスタ 2台 (RTX 2080Ti × 2) 18分33秒
クラスタ 3台 (RTX 2080Ti × 3) 17分09秒
クラスタ 3台 + サーバー兼用 1台 (RTX 2080Ti × 4) 16分44秒
比較用単体システム (RTX 2080Ti × 2) 20分03秒


クラスタ1台での処理速度が少し遅いのが目につきますが、クラスタの結果を見た限りでは 台数に応じて速度が速くなっています。ただ、GPUの枚数による差が少なく見え、果たしてクラスタ構成処理の効果があるのか...?という疑問がでてきます。

そこで、上記の処理時間についてログを確認し、Metashapeの各フェーズと思われる部分の実施結果ごとにデータをまとめてみました。この結果が以下のグラフとなります。

metashape_report_img2-1.jpg
#単独システムの場合はログの出方が異なるため、上記のグラフには載せていません。

この分布から判断しますと前半の ①MatchPhotos~④BuildDenseCloud までの処理速度は、ある程度GPUやクラスタ台数のスケールを反映していますが、⑤BuildModel~⑦BuildTexture までについてはクラスタ台数によっての速度はあまり変わらないという結果になりました。
なお実際の検証時には計測中の負荷を確認していたのですが、⑤BuildModel~⑦BuildTexture のあたりの処理はすべて1台のクラスタノードでのみ実施されており、他のクラスタノードでは処理がされていないという状況が確認できました。

 
そしてもう一つ気になる点として、それぞれのフェーズにかかる時間にも注目する必要があります。
今回の計測では⑤BuildModel~⑦BuildTexture の時間が今回テストしたトータル処理時間の50%以上をしめています。

ここで最初に示した ①MatchPhotos~⑦BuildTexture までの一通りの処理時間を計算した結果のグラフを再度確認していただきたいのですが、本来であればGPUを2枚搭載したかなりのハイスペックであるはずの比較用単体システム(紺色のグラフ)ですが、実際には同じくGPU2枚のクラスタシステム2台(水色のグラフ)での処理よりも時間がかかっているという結果が出ていました。この原因を考えた場合に、比較用単体システムとクラスタシステムとの間でのGPU枚数以外のスペック差が、トータル処理時間の50%を占める⑤BuildModel~⑦BuildTexture の処理において、大きく影響しているのではないかと推察されました。

それを前提にスペック比較したところ、CPUにその要因があるように見受けられました。
改めて2つのCPUを比較して見てみます。

クラスタシステム
CPU Intel Core i9 9900K (3.60GHz/TB5.0GHz, 8C/16T)

比較用単体システム
CPU Intel Xeon W-2155 (3.30GHz/TB4.50GHz, 10C/20T)


クラスタ側のTB (Turbo boost)が 5.0GHzで動作するのに対して、単体システム側はTB 4.50GHzでの動作となっています。つまり⑤BuildModel~⑦BuildTexture については、CPUの単独クロックが処理速度に対して特に有効となるという推測が成り立ちます。


では⑤BuildModel~⑦BuildTextureを、今回の例より十分に多いコア数優先の処理 にした場合にどうなるのか...?という疑問が発生します。
この疑問については近日公開いたします"「Metashape」のクラスタ構成での処理速度測定と傾向検証 (後編)"でのオルソ画像処理の一連のバッチ処理の検証結果と共にご報告します。

研究PC関連更新情報

2019.06.06

【新着事例】AI画像検査・解析用ワークステーション例


テグシスWEBサイトに、
「AI画像検査・解析用ワークステーション例」の
事例をアップしました。


pc-6762.jpg

お客様より、AIを利用した画像検査システムの導入を検討しており
汎用PCでは処理能力が足りないため、カスタム提案を希望とご相談頂きました。
試作機でのテスト後、工場へ順次導入が予定されております。

XeonやCore Xシリーズを含めた複数選択肢でのご提案の中、
最終的に単独コアでの高速処理を重視したCore i9をベースにした
構成を採用いただきました。
本事例のCPUのPCI-Eサポートレーン数は16となり、複数枚のGPUを
搭載した場合には、GPU1枚あたり x 8のPCI-E速度となりますが
(*1)
それを差し引いてもGPU2枚挿しによる
負荷分散のほうが有効と考えられたため、
PCI-E速度がx8動作になる点をご了承いただいたうえで、
GPU2枚差しでの構成にて採用いただきました。

*1. CPUに内蔵されているPCI-Eコントローラーによりシステムとして管理できる
PCI-E レーン数の上限が決まります。


【主な仕様】

CPU Core i9 9900K (3.60GHz 8コア ※TB時5.00GHz)
メモリ 64GB (16GBx4))
ストレージ システム:SSD 1TB 高速モデル (M.2) + データ:HDD 2TB (S-ATA)
ビデオ NVIDIA Quadro RTX 6000 48GB x 2台 ※PCI-Eは x 8動作
ネットワーク GigabitLAN x 1
筐体+電源 ミドルタワー筐体 (幅233 x 高さ465 x 奥行 543 mm) + 1000W
OS Windows 10 Professional 64bit
ディスプレイ 21.5型ワイドディスプレイ (DP接続可能)


■ このPC事例に関する詳細、お問い合わせはこちら
研究PC関連更新情報

2019.05.21

Xeon搭載ワークステーション RADICシリーズの仕様を更新しました


radic_img.jpg

計算・実験・解析といった科学技術用途にて最高の性能を求める
研究者・開発者さま向け高性能ワークステーションシリーズ「RADIC」の
各モデルの仕様を更新しました


radic_1cpu_logo.gif
- インテル Xeon W プロセッサシリーズ

50万円で手に入る1CPUの高速ワークステーション。
4~18コアCPUを搭載し、さまざまな計算・解析用途に対応。

NEW !
グラフィックボードで
NVIDIA Quadro RTX 4000/5000/6000/8000 および
NVIDIA TITAN RTX が選択可能となりました。



radic_2cpu_logo.gif
- インテル Xeon スケーラブル・プロセッサーシリーズ

100万円台のご予算で高性能マシンをお探しの方のための
2CPUワークステーション。トータルで高い性能を発揮。

NEW !
CPUをインテル Xeon スケーラブル・プロセッサー 第二世代に更新しました。
また1CPUモデルと同様にグラフィックボードのラインアップも更新しました。



radic_gpgpu_logo.gif
- インテル Xeon スケーラブル・プロセッサーシリーズ

GPGPUによる並列演算に最適な超高速ワークステーション。
CPUも2個搭載し汎用演算にも力を発揮。

NEW !
CPUをインテル Xeon スケーラブル・プロセッサー 第二世代に更新しました。
標準の搭載GPUをTESLA V100 32GBにアップグレードし、
グラフィックボードのラインアップも更新しました。



radic_deeplearning_logo.png
- インテル Xeon W プロセッサシリーズ

GPUを3枚まで搭載可能なディープラーニング向けワークステーション。
CUDA Toolkit をインストールしてお届け。

NEW !
標準の搭載GPUをNVIDIA Geforce RTX 2080Ti×3枚にアップグレードし、
グラフィックボードのラインアップも更新しました。


-----------------------------------------------------------------------------

RADICシリーズのワークステーションは、
WEB上で主要な仕様の構成を変更した場合の金額目安をシミュレーションでき、
またそのままフォームからお問い合わせいただくことができます。

詳細はこちら↓

campaign_bnr_radic_67.png


研究PC関連更新情報

2019.05.16

【新着事例】3GPU+大容量ストレージ搭載のDeep Learning用WS (予算200万)


テグシスWEBサイトに、
「3GPU+大容量ストレージ搭載のDeep Learning用WS (予算200万)」の
事例をアップしました。


pc-6704.jpg

ディープラーニングアルゴリズムをコアとしたシステムの導入を検討中のお客様より、
デスクトップ型、NVIDIA RTX2080相当を3枚搭載したワークステーションで、
システム領域・データ格納領域共にRAIDによる冗長化、延長保証を付加したいと
ご相談をいただきました。

RAIDによる冗長化と、データ領域20TB以上とのご希望がございましたため
システム部はRAID 1のSSD、データ領域はコストパフォーマンス優先でRAID 5、
かつ、大容量(10TB)のSATA HDDを採用した構成をご選択いただきました。

NVIDIA RTX2080Tiを3枚搭載しておりますが、
Geforce系システムに関しても、
「あんしん+」を付加頂き,3年まで保証を延長しております。


【主な仕様】

CPU Xeon Silver 4216 (2.10GHz 16コア) x 2 (合計32コア)
メモリ 96GB ECC REG
ストレージ システム:SSD 240GB x 2 (RAID 1)
データ:HDD 10TB x 4 (RAID 5) 約30TB
※ハードウェアRAIDカード
ビデオ NVIDIA Geforce RTX 2080Ti 11GB x 3
ネットワーク 10GBase-Tx2
筐体+電源 タワー筐体(幅178x高さ462x奥行673mm) + 2200Wリダンダント電源 x 2
※100Vでのご利用の場合は1200Wまで
OS Ubuntu 18.04 LTS


■ このPC事例に関する詳細、お問い合わせはこちら
3GPU+大容量ストレージ搭載のDeep Learning用WS (予算200万)

>>全文を読む

研究PC関連更新情報

2019.05.07

【新着事例】NVLink SLIを利用したDeep Learning用ワークステーション (予算230万)


テグシスWEBサイトに、
「NVLink SLIを利用したDeep Learning用ワークステーション (予算230万)」の
事例をアップしました。


pc-6742.jpg

お客様より、ラックマウントが可能な
Deep Learning (CNNを用いた画像認識)用のマシンについて
230万円の予算内でベストな構成を検討したいとのご相談を頂きました。

ご相談の中で、高解像度の画像を扱うのでGPUメモリを多く積みたいという
ご要望がありましたので、
GPUメモリが現行最大である RTX 8000 (48GB)を
2枚のNVLink SLI 構成にてご提案させていただきました。


【主な仕様】

CPU Core i7 9800X (3.80GHz 8コア)
メモリ 128GB (16GBx8)
ストレージ SSD 1TB (M.2)
ネットワーク GigabitLAN x1
ビデオ NVIDIA Quadro RTX 8000 48GBx2 (NVLink SLI)
筐体+電源 4Uラックマウント筐体 (幅483x高さ177x奥行505mm)
+ マウント用スライドレール + 850W
OS Ubuntu 16.04


なおこちらの構成は後でGPUを追加することはできませんのでご注意ください。
また、RTXシリーズはCUDA 10からの対応となります。
ご利用になられるフレームワークにつきましては、現状の対応状況をご確認ください。



■ このPC事例に関する詳細、お問い合わせはこちら
NVLink SLIを利用したDeep Learning用ワークステーション (予算230万)

ページの先頭へ