複数GPUを用いたDS-CUDAによるP2P機能使用時の性能評価及び最適化

伊藤, 一輝; イトウ, カズキ

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

{"_buckets": {"deposit": "ad1d089b-006b-48f9-ab25-dbf14107ca64"}, "_deposit": {"created_by": 13, "id": "8475", "owners": [13], "pid": {"revision_id": 0, "type": "depid", "value": "8475"}, "status": "published"}, "_oai": {"id": "oai:uec.repo.nii.ac.jp:00008475", "sets": ["173"]}, "author_link": ["23017"], "control_number": "8475", "item_10006_date_granted_11": {"attribute_name": "学位授与年月日", "attribute_value_mlt": [{"subitem_dategranted": "2017-03-24"}]}, "item_10006_degree_grantor_9": {"attribute_name": "学位授与機関", "attribute_value_mlt": [{"subitem_degreegrantor": [{"subitem_degreegrantor_name": "電気通信大学"}]}]}, "item_10006_degree_name_8": {"attribute_name": "学位名", "attribute_value_mlt": [{"subitem_degreename": "修士"}]}, "item_10006_description_10": {"attribute_name": "学位授与年度", "attribute_value_mlt": [{"subitem_description": "2016", "subitem_description_type": "Other"}]}, "item_10006_description_7": {"attribute_name": "抄録", "attribute_value_mlt": [{"subitem_description": "GPUは数値流体シミュレーションやディープラーニングの分野に応用するGPGPUとして多岐に渡る発展を見せ広く普及してきた. GPUは豊富な計算資源を所有しており大規模な並列演算が可能で年々性能が飛躍的に向上している. しかし, 大規模なシミュレーションや数値流体計算問題をアプリケーションプログラムとして実行するには単体のGPUではメモリなどの計算資源が不足する. 通常は並列コンピューティングで用いられるMPIとGPGPUで用いられるCUDAを利用することでGPU間あるいはノード間での通信を行い不足する計算資源を補う. また当研究室で扱っているDS-CUDAはネットワークに接続されたサーバ上のGPUを仮想化するミドルウェアで, クライアント側でソフトを書き換えることなくリモートのGPUの計算資源を用いたGPGPUによって同様の問題を解消することが可能である. しかし, 大規模なデータに対し高並列化のプログラムを実装するとレイテンシが大きくなり通信速度が向上しないという問題が新たに発生する. 対策としてはDS-CUDA APIのdscudaMemcopies()を利用することで, サーバ上のGPU間の通信をPeer to Peer(P2P)で並列に処理することで高速化が可能になっている.\n　そこで本研究では, 3次元Euler方程式からRayleigh-Taylor不安定性の成長シミュレーションを解く数値流体計算用のコードを複数GPUを用いて最適化を行った. さらにDS-CUDAに搭載されているP2P機能を用いてノード間の通信をサーバ側だけで行う通信の最適化を行った. アプリケーションプログラムは最大8つのGPUを用いてNative時, DS-CUDAを利用したInfiniBandネットワーク使用時, DS-CUDAを利用したP2P機能使用時における性能評価を行った. 予備実験では, P2P機能の通信速度を測定し転送データ量やパラメータ数, メモリアクセスの手法を変えることでどのくらいの転送速度が出るか測定した. その結果, 連続領域で4台のノード間におけるP2P機能を使用した場合に最大で約5.08倍の通信時間が高速化されており, 本研究で利用する数値流体計算用のコードを想定した検証では, 8台のノード間において最大で約1.95倍の通信時間高速化が見込まれることを示した.\n　実際のアプリケーションコードでは8GPUにおけるP2P機能使用時に256グリッドサイズにおいてInfiniBandネットワーク使用時と比較して約2.56倍高速化された. また, 通信時間についてはP2P機能使用時512グリッドサイズにおいて同様の比較を行い約72.51%の通信時間を削減した. これらにより, DSCUDA APIのP2P機能はサーバ側におけるノード間GPU通信において転送データ量を大きくすること, 高並列化することが通信時間削減に有効であることを示した.", "subitem_description_type": "Abstract"}]}, "item_10006_text_22": {"attribute_name": "専攻", "attribute_value_mlt": [{"subitem_text_value": "情報理工学研究科"}, {"subitem_text_value": "情報・通信工学専攻"}]}, "item_10006_version_type_18": {"attribute_name": "著者版フラグ", "attribute_value_mlt": [{"subitem_version_resource": "http://purl.org/coar/version/c_ab4af688f83e57aa", "subitem_version_type": "AM"}]}, "item_creator": {"attribute_name": "著者", "attribute_type": "creator", "attribute_value_mlt": [{"creatorNames": [{"creatorName": "伊藤, 一輝", "creatorNameLang": "ja"}, {"creatorName": "イトウ, カズキ", "creatorNameLang": "ja-Kana"}], "nameIdentifiers": [{"nameIdentifier": "23017", "nameIdentifierScheme": "WEKO"}]}]}, "item_files": {"attribute_name": "ファイル情報", "attribute_type": "file", "attribute_value_mlt": [{"accessrole": "open_date", "date": [{"dateType": "Available", "dateValue": "2017-03-14"}], "displaytype": "detail", "download_preview_message": "", "file_order": 0, "filename": "1531009.pdf", "filesize": [{"value": "2.3 MB"}], "format": "application/pdf", "future_date_message": "", "is_thumbnail": false, "licensetype": "license_free", "mimetype": "application/pdf", "size": 2300000.0, "url": {"label": "1531009", "url": "https://uec.repo.nii.ac.jp/record/8475/files/1531009.pdf"}, "version_id": "59361221-a18e-4195-87a8-06c14d5af37a"}, {"accessrole": "open_date", "date": [{"dateType": "Available", "dateValue": "2017-03-14"}], "displaytype": "detail", "download_preview_message": "", "file_order": 1, "filename": "1531009_abstract.pdf", "filesize": [{"value": "152.2 kB"}], "format": "application/pdf", "future_date_message": "", "is_thumbnail": false, "licensetype": "license_free", "mimetype": "application/pdf", "size": 152200.0, "url": {"label": "1531009_abstract", "url": "https://uec.repo.nii.ac.jp/record/8475/files/1531009_abstract.pdf"}, "version_id": "6b372d50-03d7-498a-856a-1e0d2fd60230"}]}, "item_language": {"attribute_name": "言語", "attribute_value_mlt": [{"subitem_language": "jpn"}]}, "item_resource_type": {"attribute_name": "資源タイプ", "attribute_value_mlt": [{"resourcetype": "thesis", "resourceuri": "http://purl.org/coar/resource_type/c_46ec"}]}, "item_title": "複数GPUを用いたDS-CUDAによるP2P機能使用時の性能評価及び最適化", "item_titles": {"attribute_name": "タイトル", "attribute_value_mlt": [{"subitem_title": "複数GPUを用いたDS-CUDAによるP2P機能使用時の性能評価及び最適化", "subitem_title_language": "ja"}]}, "item_type_id": "10006", "owner": "13", "path": ["173"], "permalink_uri": "https://uec.repo.nii.ac.jp/records/8475", "pubdate": {"attribute_name": "PubDate", "attribute_value": "2017-03-14"}, "publish_date": "2017-03-14", "publish_status": "0", "recid": "8475", "relation": {}, "relation_version_is_last": true, "title": ["複数GPUを用いたDS-CUDAによるP2P機能使用時の性能評価及び最適化"], "weko_shared_id": -1}

複数GPUを用いたDS-CUDAによるP2P機能使用時の性能評価及び最適化

https://uec.repo.nii.ac.jp/records/8475

名前 / ファイル	ライセンス	アクション
1531009 (2.3 MB)
1531009_abstract (152.2 kB)

Item type

学位論文 / Thesis or Dissertation(1)

公開日

2017-03-14

タイトル

言語

タイトル

複数GPUを用いたDS-CUDAによるP2P機能使用時の性能評価及び最適化

言語

jpn

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_46ec

資源タイプ

thesis

著者

伊藤, 一輝

WEKO 23017

ja	伊藤, 一輝
ja-Kana	イトウ, カズキ

Search repository

抄録

内容記述タイプ

Abstract

内容記述

GPUは数値流体シミュレーションやディープラーニングの分野に応用するGPGPUとして多岐に渡る発展を見せ広く普及してきた. GPUは豊富な計算資源を所有しており大規模な並列演算が可能で年々性能が飛躍的に向上している. しかし, 大規模なシミュレーションや数値流体計算問題をアプリケーションプログラムとして実行するには単体のGPUではメモリなどの計算資源が不足する. 通常は並列コンピューティングで用いられるMPIとGPGPUで用いられるCUDAを利用することでGPU間あるいはノード間での通信を行い不足する計算資源を補う. また当研究室で扱っているDS-CUDAはネットワークに接続されたサーバ上のGPUを仮想化するミドルウェアで, クライアント側でソフトを書き換えることなくリモートのGPUの計算資源を用いたGPGPUによって同様の問題を解消することが可能である. しかし, 大規模なデータに対し高並列化のプログラムを実装するとレイテンシが大きくなり通信速度が向上しないという問題が新たに発生する. 対策としてはDS-CUDA APIのdscudaMemcopies()を利用することで, サーバ上のGPU間の通信をPeer to Peer(P2P)で並列に処理することで高速化が可能になっている.
　そこで本研究では, 3次元Euler方程式からRayleigh-Taylor不安定性の成長シミュレーションを解く数値流体計算用のコードを複数GPUを用いて最適化を行った. さらにDS-CUDAに搭載されているP2P機能を用いてノード間の通信をサーバ側だけで行う通信の最適化を行った. アプリケーションプログラムは最大8つのGPUを用いてNative時, DS-CUDAを利用したInfiniBandネットワーク使用時, DS-CUDAを利用したP2P機能使用時における性能評価を行った. 予備実験では, P2P機能の通信速度を測定し転送データ量やパラメータ数, メモリアクセスの手法を変えることでどのくらいの転送速度が出るか測定した. その結果, 連続領域で4台のノード間におけるP2P機能を使用した場合に最大で約5.08倍の通信時間が高速化されており, 本研究で利用する数値流体計算用のコードを想定した検証では, 8台のノード間において最大で約1.95倍の通信時間高速化が見込まれることを示した.
　実際のアプリケーションコードでは8GPUにおけるP2P機能使用時に256グリッドサイズにおいてInfiniBandネットワーク使用時と比較して約2.56倍高速化された. また, 通信時間についてはP2P機能使用時512グリッドサイズにおいて同様の比較を行い約72.51%の通信時間を削減した. これらにより, DSCUDA APIのP2P機能はサーバ側におけるノード間GPU通信において転送データ量を大きくすること, 高並列化することが通信時間削減に有効であることを示した.

学位名

修士

学位授与機関

学位授与機関名

電気通信大学

学位授与年度

内容記述タイプ

Other

内容記述

2016

学位授与年月日

2017-03-24

著者版フラグ

出版タイプ

出版タイプResource

http://purl.org/coar/version/c_ab4af688f83e57aa

専攻

情報理工学研究科

専攻

情報・通信工学専攻

戻る

views

See details

	Views

Versions

Ver.1

2023-05-15 09:51:57.130226

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

複数GPUを用いたDS-CUDAによるP2P機能使用時の性能評価及び最適化

× 伊藤, 一輝

Versions

Share

Cite as

エクスポート