Download ePaper

SCSL ã¦ã¼ã¶ã¬ã¤ã ç¬¬2.2ç - æ¥æ¬SGI

SCSL ã¦ã¼ã¶ã¬ã¤ã ç¬¬2.2ç - æ¥æ¬SGI SCSL ã¦ã¼ã¶ã¬ã¤ã ç¬¬2.2ç - æ¥æ¬SGI

from sgi.co.jp More from this publisher

26.12.2014 Views

SGI 科学技術計算ライブラリ SCSL (Scientific Computing Software Library) ユーザガイド第 2.2 版

SGI 科学技術計算ライブラリ

SCSL

(Scientific Computing Software Library)

ユーザガイド

第 2.2 版

第 2.2 版

平成 20 年 7 月 16 日

改訂履歴

版番号日付変更内容

第 2.2 版平成 20 年 7 月 16 日・第 5 章、 PDSLDLT_SOLVEM 、及び

DPSLDU_SOLVEM の仕様変更に伴う引数説明の追

加

・プログラム例において Frank 行列の名称を削除。

また、利用されているテスト行列の定義を追加

第 2.1 版平成 17 年 1 月 26 日・第 5 章、第 5.5.4 節の引数一覧の convtol の説明

を修正

第 2.0 版平成 15 年 6 月 1 日・レイアウト修正

・第 4 章、第 4.3.1 節、及び第 4.3.2 節においてサン

プルプログラムと実行例を追加

第 1.1 版平成 13 年 10 月 29 日・第 5 章、第 5.5 節において、疎行列の反復解法

DIterative ルーチンの説明を追加

・第 6 章において、乱数発生ルーチンについての説

明を追加

・各ライブラリについて、サンプルプログラムを追加

・各ライブラリについて、性能グラフを追加

第 1.0 版平成 13 年 4 月 27 日

新規作成

本マニュアルのお問い合わせは、下記アドレス宛てにお送りください。

tech_doc_lib_qa@sgi.co.jp

よろしくお願いいたします。

- i -

日本 SGI 株式会社

1. はじめに...................................................................................................................................................................................1

1.1. SCSL に含まれるルーチン ....................................................................................................................................1

1.1.1. FFT ライブラリ ....................................................................................................................................................1

1.1.2. BLAS ライブラリ.................................................................................................................................................2

1.1.3. LAPACK ライブラリ...........................................................................................................................................2

1.1.4. 疎行列の直接解法、反復解法 ....................................................................................................................2

1.1.5. 乱数発生ルーチン............................................................................................................................................2

1.2. 精度 ..................................................................................................................................................................................2

1.3. 計算インテンシティ.....................................................................................................................................................3

1.4. コンパイルとリンク......................................................................................................................................................3

1.5. 並列化 .............................................................................................................................................................................4

1.5.1. OMP_NUM_THREADS......................................................................................................................................4

1.5.2. OMP_DYNAMIC..................................................................................................................................................5

1.5.3. MPC_GANG .........................................................................................................................................................5

1.6. 8 バイト整数 ..................................................................................................................................................................6

1.7. C/C++プロトタイプ......................................................................................................................................................6

1.7.1. FFT ライブラリ及び BLAS ライブラリ.........................................................................................................6

1.7.2. LAPACK ライブラリ及び疎行列の直接解法、反復解法 ....................................................................7

1.8. マルチスレッドセーフ.................................................................................................................................................7

1.9. C プログラムからの SCSL の呼び出し.............................................................................................................7

1.9.1. BLAS ライブラリ、FFT ライブラリ、疎行列の直接解法、反復解法 ................................................8

1.9.2. LAPACK ライブラリ........................................................................................................................................ 11

1.10. インストールと使用方法 ........................................................................................................................................ 16

1.10.1. Modules の利用方法 .................................................................................................................................... 16

1.11. ドキュメント ................................................................................................................................................................. 17

1.12. 参考文献 ..................................................................................................................................................................... 18

2. FFT ルーチン ...................................................................................................................................................................... 19

2.1. データ型 ...................................................................................................................................................................... 19

2.2. 関数一覧 ..................................................................................................................................................................... 20

2.3. 注意 ............................................................................................................................................................................... 20

2.4. Real-to-complex FFT............................................................................................................................................ 23

2.4.1. SCFFT のアプリケーションプログラムインターフェース (API) ..................................................... 24

2.4.2. DZFFT のアプリケーションプログラムインターフェース (API)...................................................... 24

2.4.3. 詳細 ..................................................................................................................................................................... 24

2.4.4. データ型 ............................................................................................................................................................. 26

- ii -

日本 SGI 株式会社

2.4.5. 注意 ..................................................................................................................................................................... 26

2.5. Complex-to-real FFT............................................................................................................................................. 27

2.6. 初期化 .......................................................................................................................................................................... 28

2.7. 配列の次元及び寸法 ............................................................................................................................................. 28

2.8. 畳み込みルーチン及び相関ルーチン ............................................................................................................. 29

2.9. サンプルプログラム ................................................................................................................................................ 30

2.9.1. 1 次元 real-to-complex FFT DZFFT .................................................................................................... 30

2.10. FFT ルーチンの性能 .............................................................................................................................................. 33

3. BLAS ルーチン................................................................................................................................................................... 35

3.1. データ型 ...................................................................................................................................................................... 35

3.2. マニュアルページ名 ................................................................................................................................................ 35

3.3. レベル 1....................................................................................................................................................................... 36

3.3.1. 増分引数 ........................................................................................................................................................... 36

3.3.2. FORTRAN での関数の型宣言 .................................................................................................................. 37

3.3.3. サーチ関数 ....................................................................................................................................................... 37

3.3.4. 関数一覧 ........................................................................................................................................................... 37

3.4. レベル 2....................................................................................................................................................................... 38

3.4.1. 多次元配列 ...................................................................................................................................................... 38

3.4.2. 関数一覧 ........................................................................................................................................................... 39

3.5. レベル 3....................................................................................................................................................................... 39

3.5.1. 多次元配列 ...................................................................................................................................................... 39

3.5.2. 関数一覧 ........................................................................................................................................................... 40

3.6. CBLAS ライブラリ .................................................................................................................................................... 40

3.6.1. ヘッダファイル ................................................................................................................................................. 40

3.6.2. 呼び出し名 ........................................................................................................................................................ 41

3.6.3. 配列引数 ........................................................................................................................................................... 41

3.6.4. 複素数データ................................................................................................................................................... 42

3.6.5. インデックスを返すルーチン...................................................................................................................... 43

3.6.6. 複素数を返すルーチン................................................................................................................................ 43

3.6.7. その他 ................................................................................................................................................................ 43

3.7. サンプルプログラム ................................................................................................................................................ 43

3.7.1. 倍精度スカラー・ベクトル乗算及びベクトル同士の和 DASPY ................................................... 44

3.7.2. 倍精度実一般行列同士の積 DGEMM ................................................................................................. 46

3.8. BLAS の性能 ............................................................................................................................................................. 51

4. LAPACK ルーチン............................................................................................................................................................. 52

4.1. SCSL に含まれる LAPACK ルーチン.............................................................................................................. 52

- iii -

日本 SGI 株式会社

4.2. ネーミングスキーム................................................................................................................................................. 53

4.3. サンプルプログラム ................................................................................................................................................ 54

4.3.1. 倍精度実一般行列用連立一次方程式の解法 DGESV................................................................. 54

4.3.2. 倍精度実帯行列用連立一次方程式の解法 DGBSV..................................................................... 56

4.3.3. 倍精度実一般行列の LU 分解 DGETRF と LU 分解を用いた連立一次方程式の解法

DGETRS 60

4.3.4. 全部または指定した範囲の倍精度実対称固有値問題 (dqds アルゴリズム) DSYEVR ... 64

4.4. LAPACK の性能 ....................................................................................................................................................... 71

5. 疎行列の直接解法、反復解法 .................................................................................................................................... 72

5.1. はじめに ...................................................................................................................................................................... 72

5.2. 注意 ............................................................................................................................................................................... 73

5.3. DPSLDLT、ZPSLDLT ルーチン ......................................................................................................................... 73

5.3.1. 関数一覧 ........................................................................................................................................................... 74

5.3.2. 詳細 ..................................................................................................................................................................... 76

5.3.3. 疎行列の格納形式 ........................................................................................................................................ 77

5.3.4. オーダリングの方法 ...................................................................................................................................... 78

5.3.5. 置換ベクトル .................................................................................................................................................... 78

5.3.6. 対角項がゼロになる行列 ........................................................................................................................... 79

5.3.7. メモリの使用量 ................................................................................................................................................ 79

5.3.8. アウトオブコア分解 ........................................................................................................................................ 79

5.3.9. 複数の右辺に対する解 ............................................................................................................................... 79

5.3.10. 各ルーチンの引数の説明 .......................................................................................................................... 80

5.3.11. 環境変数 ........................................................................................................................................................... 81

5.4. DPSLDU、ZPSLDU ルーチン.............................................................................................................................. 81

5.4.1. 関数一覧 ........................................................................................................................................................... 81

5.4.2. 詳細 ..................................................................................................................................................................... 83

5.4.3. 疎行列の格納形式 ........................................................................................................................................ 84

5.4.4. オーダリングの方法 ...................................................................................................................................... 85

5.4.5. 置換ベクトル .................................................................................................................................................... 86

5.4.6. 対角項がゼロになる行列 ........................................................................................................................... 86

5.4.7. メモリの使用量 ................................................................................................................................................ 87

5.4.8. アウトオブコア分解 ........................................................................................................................................ 87

5.4.9. 複数の右辺に対する解 ............................................................................................................................... 87

5.4.10. 各ルーチンの引数の説明 .......................................................................................................................... 87

5.4.11. 環境変数 ........................................................................................................................................................... 88

5.5. DIterative ルーチン ................................................................................................................................................ 88

- iv -

日本 SGI 株式会社

5.5.1. 関数一覧 ........................................................................................................................................................... 89

5.5.2. 詳細 ..................................................................................................................................................................... 89

5.5.3. 疎行列の格納形式 ........................................................................................................................................ 90

5.5.4. 引数 ..................................................................................................................................................................... 92

5.5.5. 環境変数 ........................................................................................................................................................... 93

5.6. サンプルプログラム ................................................................................................................................................ 94

5.6.1. 倍精度実対称疎行列の直接解法 DPSLDLT.................................................................................... 94

5.6.2. 倍精度実疎行列の反復解法 (ヤコビ前処理付 CG 法 ) ................................................................. 98

5.7. スパースソルバーの性能 ...................................................................................................................................103

6. 乱数発生ルーチン ..........................................................................................................................................................104

6.1. Drand64 ルーチン..................................................................................................................................................104

6.1.1. 関数一覧 .........................................................................................................................................................104

6.1.2. 詳細 ...................................................................................................................................................................106

6.1.3. 使用例 ..............................................................................................................................................................107

6.1.4. 例 1 ....................................................................................................................................................................107

6.1.5. 例 2....................................................................................................................................................................108

6.1.6. 例 3 ....................................................................................................................................................................109

6.1.7. 注意 ...................................................................................................................................................................110

- v -

日本 SGI 株式会社

1. はじめに

SGI の科学技術計算ライブラリ SCSL (Scientific Computing Software Library) は、1000 以上にもおよぶ

スカラ、ベクトル、行列などに対する浮動小数点演算 (32 ビットおよび 64 ビット)、整数、論理データに対

する処理をおこなうルーチンを集めたものです。これらは、線形代数方程式、固有値解析、行列演算、

疎行列、高速フーリエ変換 (FFT)、信号処理などの処理を含んでいるので、ユーザはプログラム開発に

労力を割くことなく、適切な SCSL ライブラリを呼ぶだけで望む処理を行うことができます。

これらのルーチンは、FORTRAN の慣習にしたがったデータの格納、引数の受け渡しを採用しており、

FORTRAN から呼び出せるように設計されています。すべての行列要素を、FORTRAN の慣習に従い列

方向を優先して主記憶上の連続した領域に格納していますが、C プログラムから利用することも可能で

す。その際、複素数型データおよび文字列データの引き渡し、行列データの格納形式の相違などについ

て注意を払う必要があります。詳細は、1-9 節の“C プログラムからの SCSL の呼び出し”をご参照くだ

さい。

SCSL に含まれるルーチンの多くはマルチプロセッサシステムのために、計算インテンシティの改善、ソフ

トウェア・パイプライニング、キャッシュ管理、並列プログラミング[1]などの最適化がなされています。

1.1. SCSL に含まれるルーチン

SCSL には、以下のようなルーチンが含まれます。

• FFT ライブラリ (FFT ルーチン及び線形フィルタリングルーチン)

• BLAS ライブラリ

• LAPACK ライブラリ

• 疎行列の直接解法、反復解法

• 64bit のスレッドセーフな乱数ジェネレータ

1.1.1. FFT ライブラリ

FFT サブライブラリは、高速フーリエ変換を行なうためのルーチンより成り立っています。1 次元、2 次元、

3 次元の FFT 及び複数の1 次元データに対する多重 FFT ルーチンが含まれています。

また、畳み込みルーチン及び相関ルーチン等の線形フィルタリングルーチンが含まれています。

1

日本 SGI 株式会社

1.1.2. BLAS ライブラリ

BLAS (Basic Linear Algebra Subprograms) サブライブラリは、線形代数計算における多くの重要なルー

チンを提供します。BLAS には、BLAS1、BLAS2、BLAS3 で表わされる3のレベルの 130 種類を超えるサ

ブプログラム[2] [3] [4] があります。

また、LAPACK サブライブラリは、多くの BLAS ルーチンをカーネルルーチンとして引用しています。

1.1.3. LAPACK ライブラリ

LAPACK ライブラリは、線形代数計算、最小自乗法、固有値問題、特異点問題などの多くの線形代数問

題の数値解析に共通するサブルーチンのライブラリです。これらは、多くのコンピュータの上で高速に動

作するように設計されています。

1.1.4. 疎行列の直接解法、反復解法

疎行列に対する直接解法および反復解法ルーチンを提供します。対称及び非対称行列それぞれについ

て解法ルーチンが用意されています。

1.1.5. 乱数発生ルーチン

64bit スレッドセーフな乱数発生ルーチンを提供します。並列処理において、異なるプロセッサ間で独立

な乱数列を生成するように設計されています。

1.2. 精度

ライブラリには、32 ビット精度と 64 ビット精度のものがあります。これらは、標準的な “S”,“ D”, “C”,

“Z” を用いたライブラリ名の慣例に従っています。

S 単精度実数 (32 ビット) REAL*4, REAL

D 倍精度実数 (64 ビット) REAL*8, DOUBLE PRECISION

C 単精度複素数 (32 ビット) COMPLEX*8, COMPLEX

Z 倍精度複素数 (64 ビット) COMPLEX*16, DOUBLE COMPLEX

2

日本 SGI 株式会社

1.3. 計算インテンシティ

メモリとのデ−タ参照は、これらのルーチンの性能に重要な影響をもたらします。演算回数と参照される

データ量の比率は計算インテンシティ[5][6]と呼ばれ、次式で定義されます。

計算インテンシティ = 演算回数 / 参照されたデータワード数 (1)

数値計算の分野において演算回数は、通常、浮動小数点演算を表わし、また、整数演算が支配的な計

算においては整数演算回数に等しくなります。

この計算インテンシティは、あるメモリシステム上においてそのシステムのメモリバンド幅が明らかになれ

ば、性能予測に活用することが可能です。

演算性能 = 計算インテンシティ × メモリバンド幅 (2)

( 演算回数 / 秒 ) = ( 演算回数 / ワード) X (ワード / 秒 ) (3)

(2), (3) 式では、あるアプリケーションに対して、メモリシステムが提供できるデータ供給量に制限される最

大の性能を与えます。また、ここではシステムの浮動小数点演算能力については触れていませんが、し

ばしば、実際の性能に良い予測を与えます。計算インテンシティを大きくすることにより、どんなメモリシ

ステムにあっても、その実行性能は向上します。

表 1-1 に BLAS のそれぞれのレベルとその計算インテンシティの見積りを合わせて示します。

表 1-1 BLAS の計算インテンシティ

BLAS BLAS 演算回数使用した計算インテンシティ

ルーチンレベルワード数 ( 演算回数 /ワード数 )

DAXPY BLAS1 2N 3N 2/3

DGEMV BLAS2 2N 2 N 2 2

DGEMM BLAS3 2N 3 /3 2N 2 N/3

より高いレベルの BLAS ルーチンを使用することで、より高い性能を発揮することが可能となります。

SCSL では、計算インテンシティが高いルーチンについては並列化による、よりいっそうの高速化が可能

となっています。

1.4. コンパイルとリンク

多くの SCSL ルーチンは並列化されており、シリアル版と並列版の 2 つのライブラリがあります。SCSL の

3

日本 SGI 株式会社

シリアル版をリンクするためには、-lscs をリンク行の末尾に追加します。

% f77 foo.f -lscs

並列版をリンクする場合には、-lscs_mp を使用します。また、並列化コードをリンクする場合には、必ず

-mp フラグを指定して MP ライブラリをリンクしなければなりません。

% f77 -mp bar.f -lscs_mp

SCSL は標準数学ライブラリを使用しているため、SCSL のリンクの後に、libm または libfastm をリンクす

る必要があります。FORTRAN の場合には、libm は自動にリンクされるので指定する必要はありません。

libfastm は、標準数学ライブラリ libm に含まれるルーチンのサブセットであり、高度に最適化されたルー

チンの集まりです。libfastm の最適化ルーチンには、単精度、倍精度の sin, cos, tan, exp, log, powなどが

含まれます。

C/C++で書かれたプログラムである場合は、明示的に –lm もしくは –lfastm をリンクする必要がありま

す。

1.5. 並列化

十分な大きさ ( 計算粒度 ) をもった問題に対し、複数のプロセッサを備えたシステムでは並列化は性能

を向上させます。SCSL ルーチンは、ユーザが指定したプロセッサ数に従って並列処理を行ないます。

SCSL は、並列処理の実行が可能な並列版とシリアル版の2つのバージョンが用意されています。並列

処理を行う場合には、並列版をリンクすることが必要です。

リンク方法につきましては、1.4 節の「コンパイルとリンク」をご参照ください。

1.5.1. OMP_NUM_THREADS

SCSL の並列版を使用する場合、ルーチンで使用するプロセッサ数を指定するためには、環境変数

OMP_NUM_THREADS を指定しなければなりません。csh で、10 プロセッサを使用する場合には、以下

のようにします。

% setenv OMP_NUM_THREDS 10

4

日本 SGI 株式会社

一方、sh を使用している場合には、

$ OMP_NUM_THREDS=10; export OMP_NUM_THREDS

のようにします。

これらの値を設定すると、実行時に使用される最大の CPU 数は、OMP_NUM_THREDS で指定された

値になります。

また、以下に並列処理時に設定すべき環境変数を示します。

1.5.2. OMP_DYNAMIC

IRIX は、標準ではシステムの負荷によってプログラムの使用するプロセッサ数を変更します。環境変数

OMP_DYNAMIC はこの機能を制御します。OMP_DYNAMIC=TRUE (デフォルト) である場合、システムの

負荷を常に監視する必要があり、そのためのオーバーヘッドがかかりますが、システムの CPU 数以上の

プロセスが同時に実行されないようにしてシステムの運用効率を上げます。システムが比較的空いてい

る場合などには、OMP_DYNAMIC=FALSE にすることをお勧めします。

csh で、OMP_DYNAMIC を設定する場合には、以下のようにします。

% setenv OMP_DYNAMIC FALSE

1.5.3. MPC_GANG

環境変数 MPC_GANG は、プロセスのスケジューリングについて、GANG スケジューリングと呼ばれる手

法で実行することを指定します。一般には、GANG スケジューリングは OpenMP や自動並列化機能によ

り並列化されたプログラムの実行の際には非効率となるため、この機能をオフにします。

csh で、MPC_GANG を設定する場合には、以下のようにします。

% setenv MPC_GANG OFF

並列処理時の最大性能は、プロセッサが他の仕事に用いられていない状況でのみ得られます。例えば、

40 プロセッサ構成のシステムで複数のジョブが 30 プロセッサを使用しているような場合、まだ 10 プロセ

ッサは余裕があるため、10 プロセッサを使用するようなジョブを投入することには意味がありますが、こ

のような状況でさらに 40 プロセッサを使用する並列化されたプログラムを投入したところで最大の高速

5

日本 SGI 株式会社

化を得ることはできません。

1.6. 8 バイト整数

-lscs あるいは、-lscs_mp の指定でリンクされる SCSL ライブラリの整数型引数の大きさは 4 バイト (32

ビット) です。SCSL には、整数型引数の大きさを 8 バイト (64 ビット) としたバージョンもあります。この 8

バイト整数データを扱うことが可能なルーチンは、大きな配列データを処理したり、整数型データが 8 バ

イトであったシステムで開発されたコードの移植には便利です。こちらを使用する場合は、-lscs_i8 あるい

は-lscs_i8_mp オプションを指定します。1 本のプログラムでは、4 バイト整数型あるいは 8 バイト整数型の

どちらか一方のバージョンを使用することが可能ですが、両者を混在させることは出来ません。

1.7. C/C++プロトタイプ

1.7.1. FFT ライブラリ及び BLAS ライブラリ

信号処理ルーチンに関する C/C++ 関数プロトタイプは、4 バイト整数を使う場合は、

()で提供され、8 バイト整数を使う場合は、 () で提供されます。

これらのヘッダファイルでは、複素数型である scsl_complex と scsl_zomplex を定義しています。これらの

型は、プロトタイプで使用されます。あるいは、C++プログラムでは、標準クラスライブラリ (STL) の

complexと complex 型を用いた引数を宣言しているかもしれません。しかし、これらの型

が使用された場合、は、 () (もしくは、

()) の前でインクルードする必要があります。一方で、2 つの複素数タイプは同等であると

いう点に注意する必要があります。すなわち、複素数タイプは、( 実数部 , 虚数部 )というようにメモリ上に

連続的に格納された浮動小数点数の対として表現されます。適切なキャストによって、複素数の引数を

持つルーチンに浮動小数点データの配列が渡されます。

しかしながら、キャストは無効化される可能性もあります。ヘッダファイルであると

では直接ユーザ定義の複素数タイプを使用するか、もしくは、複素数引数に関するプロトタ

イプのチェックが完全に行われないように定義されています。もしくは、をインク

ルードする前にシンボル SCSL_VOID_ARGS を定義することによって、全ての複素数引数は、void * と

してプロトタイプされます。シンボル SCSL_VOID_ARGS を定義するためには、コンパイル時に -D コン

パイラオプションを使うか ( 即ち、-DSCSL_VOID_ARGS) 、もしくは、明示的にソースコード内で #define

SCSL_VOID_ARGS を定義します。こう

することにより、コンパイル時にコンパイラからの警告なく複素数型のデータ構造を使用可能にし、上記

で述べた構造が提供されます。すなわち、

6

日本 SGI 株式会社

1. 実部と虚部はメモリ上で連続である必要がある。

2. 連続的な配列要素もメモリ上で連続である必要がある。

コンパイラからの警告なく、標準でない複素数型が利用可能になりますが、コンパイラが型のミスマッチ

を捉えられないという不都合も生じます。

SCSL 標準の複素数型の代わりに、ユーザ定義の複素数型を用いることによって、強制的な型チェック

が可能です。このために、 SCSL_USER_COMPLEX_T=my_comlex と

SCSL_USER_ZOMPLEX_T=my_zomplex を定義します。my_complex と my_zomplex は、ユーザ定義の複素

数型の名前です。これらの複素数型は (もしくは、) ヘッダファイルをインク

ルードする前に定義される必要があります。

1.7.2. LAPACK ライブラリ及び疎行列の直接解法、反復解法

C/C++ 関数プロトタイプは、SCSL の 4 バイト整数については適切に行われます。8 バイト整数のバージョ

ンを使用する時は、int 型の変数は long long 型になり、LAPACK ライブラリを使用の場合は

を、疎行列の直接解法、反復解法を使用する場合はをインクルードし

なければなりません。

1.8. マルチスレッドセーフ

SCSLルーチンは、マルチスレッドセーフです。したがって、SCSLは並列実行領域から呼び出された場合

にも、逐次実行領域から呼び出された場合にも正しく動作します。ここで言う並列実行領域とは、ユーザ

あるいはコンパイラによって定義された複数のスレッドでの処理実行部分です。

また、SCSL では、もし並列版がリンクされたとしても、並列実行領域から SCSL ルーチンが呼び出された

時には、SCSL ルーチンはシーケンシャルに実行されます ( 各スレッドはシーケンシャルに SCSL ルーチ

ンを実行します)。

1.9. C プログラムからの SCSL の呼び出し

SCSL 1.3 からは SCSL の LAPACK を除くライブラリルーチンに対して、ルーチン名、プロトタイプ宣言、C

言語の仕様にはない複素数型を取り扱うためのヘッダーファイルが用意されました。

以下に BLAS ライブラリ、FFT ライブラリ、疎行列の直接解法を C/C++プログラムから呼び出す方法と

LAPACK ライブラリを C/C++プログラムから呼び出す方法を説明します。

7

日本 SGI 株式会社

また、BLAS ライブラリには Basic Linear Algebra Subprograms Technical (BLAST) によって提案された C

インターフェースのライブラリ CBLAS も存在します。これらについては、3.6 節の“CBLAS ライブラリ”で説

明します。

1.9.1. BLAS ライブラリ、FFT ライブラリ、疎行列の直接解法、反復解法

SCSL 1.3 からは SCSL の LAPACK の除くルーチンに対して、ルーチン名、プロトタイプ宣言、C 言語の仕

様にはない複素数型を取り扱うためのヘッダーファイルが用意されました。この変更にともない、使用す

るルーチンに対して次のヘッダーファイルをインクルードする必要があります。

分野 man ページインクルードファイル

BLAS man_intro_blas #include

FFT man_intro_fft #include

疎行列の解法 man_intro_solvers #include

• 呼び出し名

FORTRAN プログラムでは、大文字、小文字の区別はありませんが、C/C++プログラムからの呼び

出し時には、すべて小文字になります。また、man ページの記述にも C/C++からの呼び出し方法が

明記されるようになりました。

( 例 )

FORTRAN: CDOTC ( 大文字、小文字の区別はありません。)

C: cdotc ( 必ず小文字です。)

• 配列データの持ち方の違い

FORTRAN では、列方向優先のデータの持ち方、一方、C では行方向優先のデータの持ち方なので、

その違いに注意してください。

FORTRAN: A(2,2)

A = | 1 3 | -> {1, 2, 3, 4} メモリ上の格納順序

| 2 4 |

C: a[2][2]

a = | 1 2 | -> {1, 2, 3, 4} メモリ上の格納順序

| 3 4 |

8

日本 SGI 株式会社

以上の点に注意して頂ければ、C プログラムからも容易に SCSL のライブラリを呼び出すことが可能で

す。

以下 C プログラムから cdotc を呼び出す方法を示します。

% man cdotc

:

C/C++:

#include

scsl_complex cdotc(int n, scsl_complex *x, int incx,

scsl_complex *y, int incy);

scsl_complex cdotu(int n, scsl_complex *x, int incx,

scsl_complex *y, int incy);

:

CDOTC/ZDOTC の演算内容

n

_

dot

double re;

double im;

} __scsl_zomplex;

scsl_blas.h のヘッダーファイルの中で FORTRAN の複素数型を構造体を用いて定義しているので、実部、

虚部はそれぞれ.re, .im のメンバーとして参照可能です。

プログラム例

% cat excdotc.c

#include

#define N 10

int main(void)

{

int i,n,incx,incy;

scsl_complex x[N],y[N];

scsl_complex cdot;

n=N;

incx=1;

incy=1;

for (i=0;i

実行例

## リンクオプション – lscs を指定してコンパイル

% cc excdotc.c – lscs

## 実行

% ./a.out

dot = 20.000000 0.000000

%

1.9.2. LAPACK ライブラリ

LAPACK のライブラリルーチンを C/C++から呼び出す場合には、次の FORTRAN と C/C++の違いに注意

すれば、C/C++からも利用することが可能です。

• 呼び出し名

FORTRAN プログラムでは、大文字、小文字の区別はありませんが、C/C++プログラムからの呼び

出し名は、小文字名 +_になりますので C から呼び出す場合は呼び出し名の違いに注意してくださ

い。

( 例 )

FORTRAN: SSYEV ( 大文字、小文字の区別はありません。)

C: ssyev_ ( 必ず小文字です。)

• アドレス渡し

FORTRAN プログラムの引数は、アドレス渡しなので、C のプログラム側でも、アドレス渡しを意識し

て記述する必要があります。 SCSL が使用している文字型データは、最初の1 文字で判定している

ので、最初の文字が渡れば十分です。

• 配列データの持ち方の違い

FORTRAN では列方向優先のデータの持ち方、一方、C では行方向優先のデータの持ち方なので、

その違いに注意してください。

FORTRAN: A(2,2)

A = | 1 3 | -> {1, 2, 3, 4} メモリ上の格納順序

| 2 4 |

C: a[2][2]

a = | 1 2 | -> {1, 2, 3, 4} メモリ上の格納順序

| 3 4 |

11

日本 SGI 株式会社

以上 3 点に注意すれば、C プログラムからも容易に SCSL のライブラリを呼び出すことが可能です。この

3 点を確認しながら、同じプログラムを C と FORTRAN で記述した以下の例を参照してください。

C: main.c

FORTRAN: main.f

データの持ち方は、C で a[i][j]を表示すると、下三角行列のように見えますが、FORTRAN 流に見ると上

三角行列となり uplo='u'になることに注意してください。

問題

下記で定義されるテスト行列に対して、実対称行列用固有値ソルバ SSYEV を用いて、行列の固有値を

求めます。C と Fortran でのデータの持ち方の違いをご確認ください。

サイズ N の行列 A=a[i][j] が下記の通りに定義されます。

a[i][j]= a[j][i] = n+1-i, if i >= j.

サイズ 4 の場合の行列は下記の通りです。

プログラム例

C

12

日本 SGI 株式会社

% cat main.c

#include

#define N 10

#define LDA (N)

#define LWORK (3*N-1)

static float a[N][LDA],w[N],work[LWORK];

int main(void)

{

char jobz, uplo;

int i,j;

int n, lda, lwork, info;

jobz='n';

uplo='u';

n=N;

lda=LDA;

lwork=LWORK;

/*

*/

set test matrix

for (j=0;j

*/

printf("eigen value \n");

for (i=0;i

parameter(N=10)

parameter(LDA=N,LWORK=3*N-1)

character*1 jobz, uplo

integer i, j, info

common a(LDA,N),w(N),work(LWORK)

!

! set test matrix

!

do j=1,N

do i=1,j

a(i,j)=N-j+1

enddo

write(*,'(10f8.0)') ((a(i,j),j=1,N),i=1,N)

jobz='n'

uplo='u'

call ssyev( jobz, uplo, N, a, LDA, w, work, LWORK, info );

!

! eigenvalues in ascending order.

!

print *,'eigen value'

write(*,'(10f10.6)') (w(i),i=1,N)

print *,'info = ',info

stop

end

実行例

## リンクオプション -lscs を指定してコンパイル

% f90 main.f – lscs

15

日本 SGI 株式会社

## 実行

% ./ a.out

10. 9. 8. 7. 6. 5. 4. 3. 2. 1.

0. 9. 8. 7. 6. 5. 4. 3. 2. 1.

0. 0. 8. 7. 6. 5. 4. 3. 2. 1.

0. 0. 0. 7. 6. 5. 4. 3. 2. 1.

0. 0. 0. 0. 6. 5. 4. 3. 2. 1.

0. 0. 0. 0. 0. 5. 4. 3. 2. 1.

0. 0. 0. 0. 0. 0. 4. 3. 2. 1.

0. 0. 0. 0. 0. 0. 0. 3. 2. 1.

0. 0. 0. 0. 0. 0. 0. 0. 2. 1.

0. 0. 0. 0. 0. 0. 0. 0. 0. 1.

eigen vector

0.255680 0.273787 0.307980 0.366209 0.465233 0.643104 1.000001 1.873024

5.048917 44.766079

info = 0

%

1.10. インストールと使用方法

SCSL は、modules 環境下 (/opt/scsl/) もしくは、デフォルトのディレクトリ (/ root ファイルシステム) に

インストールされています。modules 環境下では、バージョンの異なる SCSL ソフトウェアをインストールし、

利用することが可能になります。modules を利用するためには、Modules Software をインストールする必

要があります。

1.10.1. Modules の利用方法

modules をシェル及びサブシェル上で利用するためには、次の設定が必要になります。これらの設定

は、.cshrc などのユーザドットファイルに記述しておくことをお勧めします。

C シェルでの利用方法は次の通りです。

% source /opt/modules/modules/init/csh

% module load modules

% module load scsl

異なるバージョンの SCSL がインストールされている場合には、以下の方法により使用する SCSL のバー

ジョンを変更することができます。例えば現在使用している SCSLがバージョン 1.3.0.0 以前のものであり、

16

日本 SGI 株式会社

module コマンドによりバージョン 1.3.0.0 の SCSL を使用するように変更するとします。

% module avail

------- /opt/modulefiles --------

MIPSpro mpt nqe scsl scsl1.3.0.0

-------- /opt/modules/modules/modulefiles --------

modules

% module swap scsl scsl.1.3.0.0

“module avail”コマンドにより、modules 環境下にインストールされているソフトウェアの一覧が表示され

ます。“module swap”コマンドにより、SCSL のバージョンを変更することができます。

1.11. ドキュメント

SCSL のドキュメントは、各ルーチンに対してオンラインマニュアルが用意されています。標準的な UNIX

の man コマンドによりルーチン名を指定することで参照可能です。SGI の公開 Web サイトである (Tech

Pubs Library Search, http://techpubs.engr.sgi.com/library/tpl/cgi-bin/init.cgi) からも利用可能です。ま

た、SCSL を構成する各ライブラリの概要を紹介しているマニュアルページ ( 以下のページ名を指定して

ください。) も利用可能です。

• intro_libscsl: SCSL ライブラリルーチンの概要

• intro_blas1: レベル 1 BLAS ライブラリの概要

• intro_blas2: レベル 2 BLAS ライブラリの概要

• intro_blas3: レベル 3 BLAS ライブラリの概要

• intro_cblas: BLAS ライブラリの C インターフェースについての概要

• intro_fft: FFT ライブラリの概要

• intro_lapack: LAPACK ライブラリの概要

• intro_solvers.3s: 疎行列の直接解法、反復解法ルーチンの概要

出版物としては、SIAM[7] から出されている LAPACK User's Guide があります。LAPACK User's Guide

は、すべての LAPACK ルーチンのマニュアルページ、入門的な内容を含んでいます。また、LAPACK

User's Guide の日本語訳が丸善 [8]より出版されています。

17

日本 SGI 株式会社

1.12. 参考文献

[1] B. R. Rau and C. D. Glaser, Some scheduling techniques and an easily schedleable horizontal

architecture for high performance scientific computing, in: Proceedings of the Fourteenth Annual

Workshop on Microprogramming(1981) 183-198.

[2] Lawson, C. L., Hanson, R. J., Kincaid, D. R., and Krogh, F. T., "Basic Linear Algebra Subprograms for

FORTRAN Usage", ACM Transactions on Mathematical Software, Volume 5, Number 3, September

1979, Pages 308-323.

[3] Dongarra, J. J., Du Croz, J. J., Hammarling, S., and Hanson, R. J., "An Extended Set of FORTRAN

Basic Linear Algebra Sub-programs". Technical Memorandum No. 41 (Revision 3), Mathematics and

Computer Science Division, Argonne National Laboratory, 9700 South Cass Avenue, Argonne, Illinois

60439.

[4] Dongarra, J. J., Du Croz, J. J.,and Hammarling, S., "A Set of Level 3 Basic Linear Algebra

Subprograms". Technical Memorandum No. 88 (Revision 1), Mathematics and Computer Science

Division, Argonne National Laboratory, 9700 South Cass Avenue, Argonne, Illinois 60439.

[5] R. W. Hockney, r・ , n1/2 , s1/2 measurements on the 2 CPU CRAY X-MP, Parallel Computing

2(1985) 1-14.

[6] R. W. Hockney and C. R. Jesshope, Parallel Computers, Adam Hilger, Philadelphia, Second Edition,

106-108, 1981.

[7] E. Anderson et al, LAPACK User's Guide, Society for Industrial and Applied Mathematics (SIAM),

3600 University City Science Center, Philadelphia, Pennsylvania, 19104-2688.

[8] E. Anderson et al, 小国力訳 . LAPACK 利用の手引き, 丸善 (1995)

18

日本 SGI 株式会社

2. FFT ルーチン

FFTライブラリでは、高速フーリエ変換 (FFT)、畳み込みルーチン及び相関ルーチンから構成される信号

処理に関するルーチンを提供します。

2.1. データ型

これらのルーチンでは以下のデータ型が使用されます。

• 単精度実数型 :

FORTRAN の real 型、C/C++ の float 型であり、これらは 32 ビット浮動小数点実数です。これらの

ルーチン名は S で始まります。

• 単精度複素数型 :

FORTRANの complex 型、C/C++の scsl_complex 型 ( で定義されています。) C++ STL

の complex 型 (で定義されています。) であり、これらは 2 つの 32 ビット浮動小

数点実数です。これらのルーチン名は C で始まります。

• 倍精度実数型 :

FORTRAN の double precision 型、 C/C++の double 型であり、これらは 64 ビット浮動小数点実数

です。これらのルーチン名は、D で始まります。

• 倍精度複素数型 :

FORTRAN の double complex 型、C/C++の scsl_zomplex 型 (で定義されています。)、

C++ STL の complex 型 (で定義されています。) であり、これらは 2 つの 64 ビ

ット浮動小数点実数です。これらのルーチン名は Z で始まります。

注意 : 複素数型を定義するために C++の標準クラスライブラリ (STL) を用いる時は、以下の順でインク

ルードする必要があります。

#include

入力データや出力データのデータ型以外でもバージョンにより多少の違いが生じてきます。この場合は、

そのルーチンについて man ページで説明されます。

man(1)コマンドにより、実数、複素数、倍精度及び倍精度複素数での FFT ルーチンの名前で、オンライン

マニュアルページを参照できます。

上記ルーチンの引数である scale, table 及び work は、関数に応じてデータ型が異なります。ルーチン名

が CC, SC 及び CS で始まるルーチンでは、これらの引数は単精度になります。ルーチン名が ZZ, DZ 及

19

日本 SGI 株式会社

び ZD で始まるルーチンでは、これらの引数は倍精度になります。

2.2. 関数一覧

以下はサポートされている FFT ルーチンの一覧です。これらのルーチンはそれぞれ、シングルプロセッ

サ用に非常に最適化されています。2 次元、3 次元及び複数の 1 次元配列に対する処理ルーチンは、並

列化 (マルチスレッド化 ) されています。それぞれのルーチンは、FFT の正変換、逆変換を行います。

以下の一覧では、行は、列に挙げられたルーチンの入力と出力のデータ型を表しています。

• C -> C は、32 ビット複素数の入力と出力であることを表しています。

• Z -> Z は、64 ビット倍精度複素数の入力と出力であることを表しています。

• S -> C は、32 ビット実数の入力と 32 ビット複素数の出力であることを表しています。

• D -> Z は、64 ビット倍精度実数の入力と 64 ビット倍精度複素数の出力であることを表しています。

• C -> S は、32 ビット複素数の入力と 32 ビット実数の出力であることを表しています。

• Z -> D は、64 ビット倍精度複素数の入力と 64 ビット倍精度実数の出力であることを表しています。

表の列は、それぞれの行の FFT ルーチンに関する次元を表しています。 1 次元 (シングル) は、1 次元

FFT の計算を行います。 1 次元 ( 多重 ) は、2 次元行列のそれぞれの列 (**FFTM) もしくは、行

(**FFTMR) に対して 1 次元 FFT の計算を行います。

--------------------------------------------------------------------------

1 次元 1 次元 2 次元 3 次元

(シングル) ( 多重 )

--------------------------------------------------------------------------

C->C CCFFT CCFFTM CCFFTMR CCFFT2D CCFFT3D

Z->Z ZZFFT ZZFFTM ZZFFTMR ZZFFT2D ZZFFT3D

S->C SCFFT SCFFTM SCFFT2D SCFFT3D

D->Z DZFFT DZFFTM DZFFT2D DZFFT3D

C->S CSFFT CSFFTM CSFFT2D CSFFT3D

Z->D ZDFFT ZDFFTM ZDFFT2D ZDFFT3

--------------------------------------------------------------------------

2.3. 注意

FFT ルーチンは、多くの異なるアーキテクチャ上で効率よく実装出来るように設計されています。呼び出

20

日本 SGI 株式会社

し手続きは、それらの実装で共通です。しかしながら、一部については、特定の実装に基いています。

異なる部分としては、例えば、table 配列及び work 配列のサイズがあります。異なるシステム上では、異

なるサイズが必要になるかもしれません。サブルーチン呼び出し部分の変更は必要ではありませんが、

DIMENSION 文での配列サイズの変更や配列を宣言している型の変更をする必要が出てくるかもしれま

せん。以下では、Origin システム上で要求される配列サイズを示しています。ここで使用している NR と

NFR の値については、以下で説明します。

• CCFFT

table: 2n + NF REAL WORDS

work: 2n REAL WORDS

• ZZFFT

table: 2n + NF DBL PREC WORDS

work: 2n DBL PREC WORDS

• CCFFTMR

table: 2n + NF REAL WORDS

work: 2n REAL WORDS

• ZZFFTMR

table: 2n + NF DBL PREC WORDS

work: 2n DBL PREC WORDS

• CCFFT2D

table: (2*n1+NF) + (2*n2+NF) REAL WORDS

work: 2*MAX(n1,n2) REAL WORDS

• ZZFFT2D

table: (2*n1*NF) + (2*n2*NF) DBL PREC WORDS

work: 2*MAX(n1,n2) DBL PREC WORDS

• CCFFT3D

table: (2*n1*NF) + (2*n2+NF) + (2*n3+NF) REAL WORDS

work: 2*MAX(n1,n2,n3) REAL WORDS

• ZZFFT3D

table: (2*n1+NF) + (2*n2+NF) + (2*n3+NF) DBL PREC WORDS

work: 2*MAX(n1,n2,n3) DBL PREC WORDS

• CCFFTM

table: (NF+2*n) + REAL WORDS

work: 2n REAL WORDS

• ZZFFTM

21

日本 SGI 株式会社

table: (NF+2*n) + DBL PREC WORDS

work: 2n DBL PREC WORDS

• SCFFT, CSFFT

table: (n+NFR) REAL WORDS

work: n+2 REAL WORDS

• DZFFT, ZDFFT

table: (n+NFR) DBL PREC WORDS

work: n+2 DBL PREC WORDS

• SCFFT2D, CSFFT2D

table: (n1+NFR) + (2*n2+NF) REAL WORDS

work: n1+4*n2 REAL WORDS

• DZFFT2D, ZDFFT2D

table: (n1+NFR) + (2*n2+NF) DBL PREC WORDS

work: n1+4*n2 DBL PREC WORDS

• SCFFT3D, CSFFT3D

table: (n1+NFR) + (2*n2+NF) + (2*n3+NF) REAL WORDS

work: n1+4*n3 REAL WORDS

• DZFFT3D, ZDFFT3D

table: (n1+NFR) + (2*n2+NF) + (2*n3+NF) DBL PREC WORDS

work: n1+4*n3 DBL PREC WORDS

• SCFFTM, CSFFTM

table: (n+NFR) REAL WORDS

work: n+2 REAL WORDS

• DZFFTM, ZDFFTM

table: (n+NFR) DBL PREC WORDS

work: n+2 DBL PREC WORDS

その他の異なる部分には、isys というパラメータ配列がありますが、これはある実装に特有の情報を与

えます。特定の実装に依存した機能は、この isys 配列に限定されます。任意の実装において、デフォル

トの 0 を用いることができます。

Origin シリーズでの実装では、isys(0)=0 と isys(0)=1 がサポートされています。SCSL のバージョン 1.3 以

前では、isys(0)=0 のみのサポートでした。三角関数などの係数を格納するテーブルの大きさを指定する

際の NFR 値は、isys(0)=0 では NF=30 と NFR=15 となり、isys(0)=1 では NF=NFR=256 となります。

isys(0)=0 の時の NF と NFR の小さな値は、歴史的なものです。それらは、高性能な FFT で要求される全

22

日本 SGI 株式会社

ての要素を格納するには小さすぎるため、isys(0)=0 の時は、table 配列が初期化される時に陰的に余分

なスペースがアロケートされます。メモリリークをさけるため、この余分なスペースは、table 配列が必要

なくなった時には解放されるべきです。CCFFTF 及び CCFFTMF などのルーチンが、このメモリを解放す

るために使用されます。メモリーリークが生じる可能性があるため、isys(0)=0 の使用はさけるべきでしょ

う。

isys(0)=1 では、NF と NFR の値は十分大きいため、余分なメモリが陰的にアロケートされることはなく、ま

たそのため、メモリを解放するために CCFFTF ルーチンなどを呼出す必要はありません。( 仮に呼ばれた

としても、これらのルーチンは何もしないでしょう。)

注 :) isys(0)=1 は、isys が 2 つの要素をもつ整数配列であることを意味しますが、isys(1)は参照されませ

ん。

2.4. Real-to-complex FFT

マニュアルページで示されているように、real-to-complex FFT ルーチンでは、n 個の実数入力 X と n/2+1

個の複素数の出力 Y があります。これは、real-to-complex FFT の特徴です。

フーリエ変換の数学的定義では、n 個の複素数列を用い、それを n 個の複素数列に変換します。CCFFT

や CCFFTM のような complex-to-complex FFT ルーチンは、n 個の複素数入力データを用い n 個の複素

数の出力を得ます。実際、real-to-complex FFT の簡単な計算法の一つとしては、入力データを複素数

配列 x に格納し、CCFFT ルーチンを呼ぶ方法があります。この方法でも SCFFT/SCFFTM ルーチンと同

じ結果が得られます。

real-to-complex FFT ルーチンである SCFFT や SCFFTM はより効率的です。というのは、入力データが

実数であるということを利用すれば、作業領域としてはほぼ半分の領域を確保すれば済むからです。フ

ーリエ変換の理論では、実数の入力データに対しては、最初の n/2+1 の複素数出力値のみ計算するこ

とになります。残りの値は次の簡単な公式によって最初の半分の値から計算されます。

Y k,L = conjg(Y n-k,L ) for n/2 ≦ k ≦ n-1

ここで、conjg(Y)は、Y の複素共役を表しています。実際、多くのアプリケーションでは、複素数出力の残

りの半分は明示的には計算されないし、格納もされません。後述しますが、complex-to-real FFT に対し

ても同様に、複素数データの最初の半分のみを与えます。

FFT の理論によると、実数入力データに関しては、最初の出力データ Y(0)は常に実数となります。それゆ

23

日本 SGI 株式会社

え虚数部は必ず 0 となります。また、n が偶数であれば Y(n/2)もまた実数となり、虚数部として 0 を持ちま

す。

2.4.1. SCFFT のアプリケーションプログラムインターフェース (API)

Fortran:

CALL SCFFT (isign, n, scale, x, y, table, work, isys)

C/C++

#include

int scfft (int isign, int n, float scale, float *x,scsl_complex *y, float *table, float

*work, int *isys);

C++ STL

#include

int scfft (int isign, int n, float scale, float *x,complex *y, float*table, float

*work, int *isys);

2.4.2. DZFFT のアプリケーションプログラムインターフェース (API)

Fortran

CALL DZFFT (isign, n, scale, x, y, table, work, isys)

C/C++

#include

int dzfft (int isign, int n, double scale, float *x,scsl_zomplex *y, double *table, double

*work, int *isys);

C++ STL

#include

int dzfft (int isign, int n, double scale, double *x,complex *y, double *table,

double *work, int *isys);

2.4.3. 詳細

SCFFT/DZFFT ルーチンは、実配列 X の FFT を計算し、結果を複素数配列 Y に格納します。

SCFFT/DZFFT は対応する逆 conplex-to-real 変換を計算します。

FFT アプリケーションにおいて通常そうであるように、配列の添え字は 0 から始まります。これらのルーチ

ンの配列は次の宣言されます。

Fortran

REAL

X(0:n-1)

24

日本 SGI 株式会社

COMPLEX Y(0:n/2)

C/C++

float x[n];

scsl_complex y[n/2+1];

C++ STL

float x[n];

complex y[n/2+1];

出力は、入力の配列を用いて、FFT の公式により次のようになります。

n-1

Y(k) = scale * Sum [ X(j)*w**(isign*j*k) ] for k = 0, ..., n/2

j=0

where:

w =exp(2*pi*i/n),

i =+ sqrt(-1),

pi =3.14159...,

isign =+1 or -1.

もし SCFFT が isign と scale の値について、ある特定の値で呼び出された場合、-isign と 1/(n*scale) で

CSFFT が呼ばれることによって数学的な逆関数が計算されます。実際、もし前進 FFT に関して、SCFFT

関数で isign = +1、scale = 1.0 を使用した場合、isign = -1、scale = 1.0/n で CSFFT を使用することによっ

て逆 FFT を計算することが可能です。

以下の引数の説明で使用されているデータ型の置き換えについては、データ型の節をご参照ください。

本ルーチンで使用される引数は次の通りです。

引数一覧

引数

isign

n

( 入力 ) 整数型

Isign=0: テーブル配列の初期化

Isign=±1: 指数の符合を表す

( 入力 ) 整数型

変換のサイズ

説明

scale ( 入力 )

SCFFT: 単精度実数型

DZFFT: 倍精度実数型

フーリエ変換の後、出力配列の各要素に scale を掛ける

x ( 入力 )

SCFFT: 単精度実数型

DZFFT: 倍精度実数型

25

日本 SGI 株式会社

次元 n の配列

y ( 出力 )

SCFFT: 単精度実数型

DZFFT: 倍精度実数型

次元 n/2+1 の配列

table ( 入力、もしくは出力 )

SCFFT: 単精度実数型

DZFFT: 倍精度実数型

次元 n+NFR の配列。isign=0 の時、出力。isign=±1 の時、table 配列の値は isign=0 によっ

てすでに初期化されているとみなされる

work ( 作業領域 )

SCFFT: 単精度実数型

DZFFT: 倍精度実数型

次元 n+2 の配列

isys ( 入力 )

実装に特化した情報を与える引数。Origin では常に 0

2.4.4. データ型

上記の引数についての説明で使用されている用語について、対応するデータ型を説明いたします。

用語

Fortran

整数型

単精度実数型

倍精度実数型

C/C++

整数型

単精度実数型

倍精度実数型

C++ STL

整数型

単精度実数型

倍精度実数型

データ型

INTEGER (INTEGER*8 for –lscs_i8_[mp])

REAL

DOUBLE PRECISION

int (long long for –lscs_i8_[mp])

float

double

int (long long for –lscs_i8_[mp])

float

double

2.4.5. 注意

232-1 を超える素因子に関する変換は本ライブラリの 8 バイト整数版ではサポートされていません。

作業配列 work に加えて、FFT ルーチンはスタックからスクラッチスペースを動的に割り当てます。割り当

てられた空間の大きさは最大のプロセッサキャッシュサイズよりも多少大きくなります。シングルプロセッ

サでの実行では、デフォルトのスタックサイズは、これらの割り当てが通常問題なく出来る程度に十分大

26

日本 SGI 株式会社

きなサイズとなっています。しかし、並列実行に関しては、スレーブスレッドのスタックサイズがこのスクラ

ッチスペースを持つのに十分大きいということを保証する必要があります。十分なスタックスペースを確

保するのに失敗した場合は、スタックオーバーフローによるコアダンプが生じます。MP ライブラリのスレ

ーブスレッドのスタックサイズは、MP_SLAVE_STACKSIZE 環境変数、もしくは mp_set_slave_stacsize() ラ

イブラリルーチンによってコントロールすることが可能です。スレーブスタックサイズをコントロールするた

めのさらなる情報につきましては、mp(3C), mp(3F), 及び pe_environ(5) の man ページをご参照ください。

pthread アプリケーションに関しては、スレッドのスタックサイズは pthread_create(3P) 関数における

pthread_attr_t に関する引数で提供される多くの属性の一つで決定されます。スタックサイズの属性は

pthread_attr_setstacksize(3P) 呼び出しを使用することで明示的に設定されます。

pthread_attr_setstacksize(3P) 呼び出しは、pthread_attr_init(3P) の man ページで説明されています。

2.5. Complex-to-real FFT

計算結果はマニュアルページの公式で与えられます。

一般的に FFT は複素数列を複素数列に変換しますが、複素数の入力列 X が実数列を変換したものであ

る場合には、出力列 Y は実数になります。この場合、計算作業領域として半分だけ確保すればすみま

す。

フーリエ変換の理論によると、実数列となる出力列 Y に関しては、入力列に対する次の式が適用されま

す。

X k,L = conjg(X n-k,L ) for n/2 ≦ k ≦ n-1

また、実際以下の入力データ

X k,L for k > n/2

は使用されません。なぜなら、最初の半分の入力値から推測できるからです。

このように、complex-to-real ルーチン CSFFTM では、配列は以下の次元と大きさを取ります。

Fortran:

COMPLEX X(0:ldx-1, 0:lot-1)

REAL Y(0:ldy-1, 0:lot-1)

C/C++

scsl_complex x[lot][ldx]

float y[lot][ldy]

C++ STL

27

日本 SGI 株式会社

complex x[lot][ldx]

float y[lot][ldy]

where ldx ≧ n/2 + 1, ldy ≧ n.

それぞれの列で、(n/2) + 1 の複素数入力値と n の実数出力値があります。(n/2) + 1 の入力値のみが適

用されますが、変換のサイズはこの場合 n となります。なぜなら、陰的に、n の長さの列をもつ FFT の公

式が使用されるからです。

X(0, L) は実数 (すなわち虚数部は 0) となります。もし n が偶数ならば、X(n/2, L) もまた実数となります。

CSFFTM と CSFFT ルーチンではこれらの値は実数とみなされます。もし非ゼロ虚数部が与えられれば、

それは無視されます。

2.6. 初期化

table 配列は FFT の計算で使われる三角法のテーブルを格納します。変換に先立って、isign に 0 を指定

してルーチンを呼出すことで table 配列を初期化する必要があります。問題サイズが n で変更がないなら

ば、table 配列は再初期化する必要はありません。

SCFFT と CSFFT は table 配列に関して同じフォーマットを使用するため、どちらのルーチンを用いて初期

化しても構いません。 (CCFFT は異なる table フォーマットを用いることに注意してください。)

2.7. 配列の次元及び寸法

前述の説明や特定のマニュアルページでは、FFT アプリケーションにおいて通常そうであるように、配列

の添字は 0 から始まります。しかしながら、通常の FORTRAN のように、1 から始めたい時でも呼び出し

部分の変更は必要ありません。

--------------------------------------------------------------------

Routine subscripts starting at 0 subscripts starting at 1

--------------------------------------------------------------------

CCFFT COMPLEX X(0:N-1) COMPLEX X(N)

COMPLEX Y(0:N-1)

COMPLEX Y(N)

CCFFT2D COMPLEX X(0:ldx-1, 0:n2-1) REAL X(ldx, n2)

COMPLEX Y(0:ldy-1, 0:n2-1) COMPLEX Y(ldy, n2)

SCFFT REAL X(0:n-1) REAL X(n)

COMPLEX Y(0:n/2) COMPLEX Y(n/2 + 1)

SCFFT2D REAL X(0:ldx-1, 0:n2-1) COMPLEX X(ldx, n2)

COMPLEX Y(0:ldy-1, 0:n2-1) COMPLEX Y(ldy, n2)

28

日本 SGI 株式会社

CCFFTM COMPLEX X(0:ldx-1, 0:lot-1) COMPLEX X(ldx, lot)

COMPLEX Y(0:ldy-1, 0:lot-1) COMPLEX Y(ldy, lot)

CCFFTMR COMPLEX X(0:ldx-1, 0:n-1) COMPLEX X(ldx, n)

COMPLEX Y(0:ldy-1, 0:n-1) COMPLEX Y(ldy, n)

--------------------------------------------------------------------

2.8. 畳み込みルーチン及び相関ルーチン

有限長インパルス応答 FIR (Finite Impulse Response) に関する畳み込みと相関を取り上げます。これら

のルーチンはそれぞれシングルプロセッサで利用するために最適化されています。2 次元の入力列を使

用するルーチンは、並列化 (マルチスレッド化 ) に対応しています。

畳み込みと相関のルーチンは、非常に一般的です。この一般性と最大限の柔軟性を達成するために、1

次元の数列は、3 つのパラメータによって定義されています。2 次元配列のためには、6 つのパラメータが

必要です。この一般性に対する代償は、呼び出し手続きが長くなる点です。

以下の一覧中のそれぞれのルーチンにはマニュアルページが存在します。この一覧表における行では、

ルーチンのデータタイプを示しています。

• C は、32 ビット複素数データであることを示しています。

• Z は、64 ビット倍精度複素数データであることを示しています。

• S は、32ビット実数であることを示しています。

• D は、64 ビット倍精度実数であることを示しています。

表の列は、行で示された畳み込みもしくは相関に関するルーチンの計算の型と次元を示しています。

• 1 次元 FIR は、1 次元信号に対して有限長インパルス応答フィルタを適用します。

• 複数 1 次元 FIR は、複数の 1 次元信号に対して有限長インパルス応答フィルタを適用します。

• 2 次元 FIR は、2 次元信号に対して有限長インパルス応答フィルタを適用します。

• 1 次元 COR は、1 次元数列の相関を計算します。

• 複数 1 次元 COR は、複数の 1 次元数列の相関を計算します。

• 2 次元 COR は 2 次元数列の相関を計算します。

---------------------------------------------

Type 1 次元複数 1 次元 2 次元

---------------------------------------------

C CFIR1D CFIRM1D CFIR2D

29

日本 SGI 株式会社

Z ZFIR1D ZFIRM1D ZFIR2D

S SFIR1D SFIRM1D SFIR2D

D DFIR1D DFIRM1D DFIR2D

---------------------------------------------

C CCOR1D CCORM1D CCOR2D

Z ZCOR1D ZCORM1D ZCOR2D

S SCOR1D SCORM1D SCOR2D

D DCOR1D DCORM1D DCOR2D

---------------------------------------------

2.9. サンプルプログラム

2.9.1. 1 次元 real-to-complex FFT DZFFT

問題

以下に FORTRAN, C/C++において、一次元の波形データ(128 点サンプリング)を dzfft で変換し、結果を

表示

します。

DZFFT 引数一覧

DZFFT (isign,n,scale,x,y,table,work,isys)

isign ( 入力 ) 整数型。

Isign=0: テーブル配列の初期化

Isign=±1: 指数の符合を表す

n

( 入力 ) 整数型。変換のサイズ

scale ( 入力 ) 倍精度実数型。フーリエ変換の後、出力配列の各要素に scale を掛ける

x

( 入力 ) 倍精度実数型。次元 n の配列

y

( 出力 ) 倍精度複素数型。次元 n/2+1 の配列

table ( 入力、もしくは出力 ) 倍精度実数型。次元 n+NFR の配列。isign=0 の時、出力。isign=±

1 の時、table 配列の値は isign=0 によってすでに初期化されているとみなされる

work ( 作業領域 ) 倍精度実数。次元 n+2 の配列

isys ( 入力 ) 実装に特化した情報を与える引数。Origin では常に 0

プログラム例

FORTRAN

C

implicit double precision (a-h,o-z)

parameter (n=128,iterm=n/4)

30

日本 SGI 株式会社

C

integer i,isys

double precision pi,x(0:n-1),table(n+256),work(n+2)

complex*16 y(0:n/2)

波形データの初期化

pi=4.d0*atan(1.d0)

do i=0,n-1

x(i)=cos(2.d0*iterm*i*pi/n)

end do

isys=0

FFTテーブルの初期化

call dzfft(0,n,1.d0,x,y,table,work,isys)

FFT

call dzfft(1,n,1.d0,x,y,table,work,isys)

結果の表示

do i=0,n/2

write(*,*) i,zabs(y(i))

end do

stop

end

C/C++

#include

#define N 128

#define ITERM (N / 4)

int main(void)

{

int i, isys;

double pi, x[N];

double table[N + 256], work[N + 2];

scsl_zomplex y[N / 2 + 1];

31

日本 SGI 株式会社

* 波形データの初期化 */

pi = 4.0 * atan(1.0);

for(i = 0; i < N; i++){

x[i] = cos(2.0 * ITERM * i * pi / N);

}

isys = 0;

/* FFTテーブルの初期化 */

dzfft(0, N, 1.0, x, y, table, work, &isys);

/* FFT */

dzfft(1, N, 1.0, x, y, table, work, &isys);

/* 結果の表示 */

for(i = 0; i < N / 2 + 1; i++){

printf("%d %g\n", i, sqrt(y[i].re * y[i].re + y[i].im * y[i].im));

}

return 0;

32

日本 SGI 株式会社

2.10. FFT ルーチンの性能

Origin3000 400MHzでの一次元複素 FFT ルーチンの性能グラフを示します。

測定に用いたプロセッサのピーク性能は 800MFLOPS です。単精度 / 倍精度、共にピーク性能の 8 割以

上の性能を達成しています。

Complex 1D FFTs

Origin3000/R12000@400MHz

700

600

Double Precision

Single Precision

500

Mflops

400

300

200

100

0

32

64

128

256

512

1024

2048

4096

8192

16384

32768

65536

131072

262144

524288

1048576

Size

33

日本 SGI 株式会社

次に、2 次元 /3 次元 FFT を並列実行した場合の性能グラフを示します。

プロセッサ数に応じた良好なスケーラビリティが得られていることがわかります。

Effective Gflo

12

10

8

6

4

2

0

Multidimensional Fast Fourier Transforms

400 MHz Origin 3000

1 10 100

Number of Processors

4096 x 4096 512 x 512 x 512

34

日本 SGI 株式会社

3. BLAS ルーチン

基本線形代数サブプログラム (BLAS) は、線形代数の数値計算を行う行列の低水準サブプログラム群

です。BLAS は 3 つのレベルから構成されています。レベル1ルーチンは、ベクトル対ベクトルのルーチン

で、一度に1 行もしくは1 列を扱うときに用いられます。レベル 2 ルーチンは、行列対ベクトルのルーチン

で、行列とベクトルの演算に用いられます。レベル 3 ルーチンは、行列対行列のルーチンで、行列と行列

の演算に用いられます。

ベクトルを扱うルーチンは、ストライドパラメータが指定できるので要素が連続している必要はありませ

ん。

3.1. データ型

これらのルーチンでは以下のデータ型が使用されます。

• 単精度 : FORTRAN の real 型、C/C++ の float 型であり、これらは 32 ビット浮動小数点実数です。

これらのルーチン名は S で始まります。

• 単精度複素数 : FORTRAN の complex 型、C/C++の scsl_complex 型 ( で定義されてい

ます。) C++ STL の complex 型 (で定義されています。) であり、これらは 2 つの

32 ビット浮動小数点実数です。これらのルーチン名は C で始まります。

• 倍精度 : FORTRAN の double precision 型、 C/C++の double 型であり、これらは 64 ビット浮動小数

点実数です。これらのルーチン名は、D で始まります。

• 倍精度複素数 : FORTRAN の double complex 型、C/C++の scsl_zomplex 型 (で定義さ

れています。)、C++ STL の complex 型 (で定義されています。) であり、これ

らは 2 つの 64 ビット浮動小数点実数です。これらのルーチン名は Z で始まります。

入力データや出力データのデータ型以外でもバージョンにより多少の違いが生じてきます。この場合は、

そのルーチンの man ページで説明されます。

3.2. マニュアルページ名

man(1) コマンドでは、単精度実数、単精度複素数、倍精度実数、倍精度複素数のいずれのルーチン名

でもオンラインマニュアルを参照できます。

以下の表は、これらのルーチンの命名規則を示しています。

35

日本 SGI 株式会社

実数実数複素数複素数

単精度倍精度単精度倍精度

form: Sname Dname Cname Zname

example: SGEMM DGEMM CGEMM ZGEMM

3.3. レベル 1

レベル 1 BLAS ルーチンとしては、次の 3 つのベクトル対ベクトル演算が利用可能です。

• 内積と種々のベクトルノルム

• 定数倍の計算、ベクトルのコピー、ベクトルの交換及びベクトルの線形結合の計算

• 平面回転変換、修正平面回転変換

また、レベル1 BLAS では、絶対値が最大の要素をサーチするなどのいくつかのサーチ関数も提供され

ています。

3.3.1. 増分引数

ベクトルは、配列名 (x や y) と格納の間隔 ( 増分 ) (incx や incy) によって定義されます。増分は、正の

数のこともあれば負の数であることもあります。ベクトル x が n 個の要素を持つとする場合、対応する実

際の配列引数は、少なくとも 1+(n-1)*|incx|の長さを持ちます。負の増分である場合は、x の最初の要素

は FORTRAN では x(1+(n-1)*|incx|) であり、C/C++ では、x[(n-1)*|incx|] となります。この機能は標準

BLAS に対する拡張であるため、_SCAL, _NRM2, _ASUM 及び I_AMAX の標準仕様では、負の増分に対

してはこれらの振る舞いは定義されていません。

増分引数が 0 である場合は、予測不可能な結果が生じます。

incx: 増分

: 要素

incx

‥‥

incx

‥‥

incx

‥‥

以下の例では、要素数 5、増分 3 の時のベクトルへの要素の格納のされ方を示します。

36

日本 SGI 株式会社

3 3 3 3

1 2 3 4 5 6 7 8 9 10 11 12 13

n = 5

incx = 3

配列の長さ = 1+(n-1)x|incx|

= 1+(5-1)x|3|

= 13

3.3.2. FORTRAN での関数の型宣言

FORTRAN では、外部関数のデータ型を宣言する必要があります。複素数のレベル 1 BLAS 関数のデー

タ型を宣言することは特に重要です。なぜなら、関数名と FORTRAN のデータ型の規則に従うと、デフォ

ルトのデータ型では実数となってしまうためです。

関数名に対応する FORTRAN での型宣言は次のようになります。

型

REAL

COMPLEX

DOUBLE PRECISION

DOUBLE COMPLEX

INTEGER

関数名

SASUM, SCASUM, SCNRM2, SDOT, SNRM2, SSUM

CDOTC, CDOTU, CSUM

DASUM, DZASUM, DDOT, DNRM2, DZNRM2, DSUM

ZDOTC, ZDOTU, ZSUM

ISAMAX, IDAMAX, ICAMAX, IZAMAX, ISAMIN, IDAMIN,

ISMAX, IDMAX, ISMIN, IDMIN

3.3.3. サーチ関数

レベル 1 BLAS では、いくつかのサーチ関数が提供されています。以下にこれらの関数を列挙していま

す。

(アスタリスク [*] のついた関数は、標準のレベル 1 BLAS ルーチンに対する拡張となっています。)

ISAMAX, ICAMAX, ISAMIN*, ISMAX*, ISMIN*

IDAMAX IZAMAX, IDAMIN*, IDMAX*, IDMIN*

3.3.4. 関数一覧

アスタリスク [*] がついた関数は、標準レベル 1 BLAS ルーチンの拡張となっています。詳細につきまし

ては、各ルーチンのマニュアルページをご参照ください。

37

日本 SGI 株式会社

実数

単精度

実数

倍精度

複素数

単精度

複素数

倍精度

説明

SASUM DASUM 実数ベクトル要素の絶対値の合計 (1 ノルム)

SCASUM DZASUM

複素ベクトル要素の絶対値の合計

SAXPBY* DAXPBY* CAXPBY* ZAXPBY* ベクトルの定数倍同士の和

SAXPY DAXPY CAXPY ZAXPY ベクトルの定数倍とベクトルの和

SCOPY DCOPY CCOPY ZCOPY ベクトルを他のベクトルへコピー

SDOT DDOT CDOTU ZDOTU 内積

CDOTC ZDOTC 共役内積

SHAD* DHAD* CHAD* ZHAD* 2 つのベクトルのアダマール積

SNRM2 DNRM2 実数ベクトルのユークリッドノルム (L2 ノルム)

SCNRM2 DZNRM2 複素ベクトルのユークリッドノルム (L2 ノルム)

CSROT* ZDROT* 実平面回転変換の複素ベクトルの対への適用

CROT* ZROT*

SROT DROT 直行平面回転変換

SROTG DROTG CROTG* ZROTG* Givens 回転行列の計算

SROTM DROTM 修正 Givens 回転変換

SROTMG DROTMG

修正 Givens 回転行列の計算

SSCAL DSCAL CSCAL ZSCAL ベクトルの定数倍

CSSCAL ZDSCAL

SSUM* SDUM* CSUM* ZSUM* ベクトル要素の和

SSWAP DSWAP CSWAP ZSWAP ベクトルの交換

ISAMAX IDAMAX ICAMAX IZAMAX 絶対値が最大となる要素のサーチ

ISAMIN* IDAMIN* 絶対値が最小となる要素のサーチ

ISMAX* IDMAX* 最大値となる要素のサーチ

ISMIN* IDMIN* 最小値となる要素のサーチ

3.4. レベル 2

3.4.1. 多次元配列

BLAS ルーチンへの引数として渡される多次元配列は、列方向の順で格納されます。即ち、FORTRAN プ

ログラムで用いられる格納の慣習です。C/C++ のユーザは明示的に列方向で多次元配列に値を格納

する必要があります。一つの方法としては、FORTRAN での宣言を考慮して、配列の次元の順序を逆に

するという方法があります ( 例えば、FORTRAN で x(ldx,n)である場合は、C/C++では x[n][ldx] としま

す)。で使われているプロトタイプのため、コンパイラからの型のミスマッチによるエラーや

警告を避けるために、配列を BLAS ルーチンへの引数として渡す時は、適切な型に対するポインタとして

キャストします。

38

日本 SGI 株式会社

BLAS ルーチンを呼ぶ際に、多次元配列に関して行方向の格納形式を望む C/C++ユーザは、

INTRO_CBLAS(3S) マニュアルページをご参照ください。

3.4.2. 関数一覧

アスタリスク [*] がついた関数は、標準レベル 2 BLAS ルーチンの拡張となっています。詳細につきまし

ては、各ルーチンのマニュアルページをご参照ください。

実数

単精度

実数

倍精度

複素数

単精度

複素数

倍精度

CHBMV ZHBMV 複素エルミート帯行列と複素ベクトルの積

CHEMV ZHEMV 複素エルミート行列と複素ベクトルの積

CHER ZHER 複素エルミート行列のエルミートランク 1 更新

CHER2 ZHER2 複素エルミート行列のエルミートランク 2 更新

CHPMV ZHPMV 圧縮形式での複素エルミート行列と複素ベクトルの積

CHPR ZHPR 圧縮形式での複素エルミート行列のエルミートランク 1 更新

CHPR2 ZHPR2 圧縮形式での複素エルミート行列のエルミートランク 2 更新

SGBMV DGBMV CGBMV ZGBMV 一般帯行列とベクトルの積

SGEMV DGEMV CGEMV ZGEMV 一般行列とベクトルの積

SGER DGER 実一般行列のランク 1 更新

CGERC ZGERC 複素一般行列の共役ランク 1 更新

CGERU ZGERU 複素一般行列の非共役ランク 1 更新

SGESUM* DGESUM* CGESUM* ZGESUM* 行列の定数倍同士の和

SSBMV DSBMV 実対称帯行列と実ベクトルの積

SSPMV DSPMV CSPMV* ZSPMV* 圧縮形式での対称行列とベクトルの積

SSPR DSPR CSPR* ZSPR* 圧縮形式での対称行列の対称ランク 1 更新

SSPR2 DSPR2 圧縮形式での実対称行列の対称ランク 2 更新

SSYMV DSYMV CSYMV ZSYMV 対称行列とベクトルの積

SSYR DSYR CSYR* ZSYR* 対称行列の対称ランク 1 更新

SSYR2 DSYR2 実対称行列の対称ランク 2 更新

STBMV DTBMV CTBMV ZTBMV 三角帯行列とベクトルの積

STBSV DTBSV CTBSV ZTBSV 三角帯行列の求解

STPMV DTPMV CTPMV ZTPMV 圧縮形式での三角行列とベクトルの積

STPSV DTPSV CTPSV ZTPSV 圧縮形式での三角行列の求解

STRMV DTRMV CTRMV ZTRMV 三角行列とベクトルの積

STRSV DTRSV CTRSV ZTRSV 三角行列の求解

説明

3.5. レベル 3

3.5.1. 多次元配列

BLAS ルーチンへの引数として渡される多次元配列は、列方向の順で格納されます。即ち、FORTRAN プ

39

日本 SGI 株式会社

ログラムで用いられる格納の慣習です。C/C++ のユーザは明示に列方向で多次元配列に値を格納す

る必要があります。一つの方法としては、FORTRAN での宣言を考慮して、配列の次元の順序を逆にす

るという方法があります ( 例えば、FORTRAN で x(ldx,n)である場合は、C/C++では x[n][ldx] とします)。

で使われているプロトタイプのため、コンパイラからの型のミスマッチによるエラーや警告を

避けるために、配列を BLAS ルーチンへの引数として渡す時は、適切な型に対するポインタとしてキャス

トします。

BLAS ルーチンを呼ぶ際に、多次元配列に関して行方向の格納形式を望む C/C++ユーザは、次節 3.6

節の“CBLAS ライブラリ”、または、INTRO_CBLAS(3S) マニュアルページをご参照ください。

3.5.2. 関数一覧

アスタリスク [*] がついた関数は、標準レベル 3 BLAS ルーチンの拡張となっています。詳細につきまし

ては、各ルーチンのマニュアルページをご参照ください。

実数

単精度

実数

倍精度

複素数

単精度

複素数

倍精度

SGIMM DGEMM CGEMM ZGEMM 一般行列同士の積

CGEMM3M* ZGEMM3M* 一般行列同士の積

Strassen のアルゴリズムのバリエーションを用いた

DGEMMS*

倍精度行列同士の積

SSYMM DSYMM CSYMM ZSYMM 対称行列と一般行列の積

CHEMM ZHEMM エルミート行列と複素一般行列の積

SSYR2K DSYR2K CSYR2K ZSYR2K 対称行列のランク 2k 更新

CHER2K ZHER2K エルミート行列のランク 2k 更新

SSYRK DSYRK CSYRK ZSYRK 対称行列のランク k 更新

CHERK ZHERK エルミート行列のランク k 更新

STRMM DTRMM CTRMM ZTRMM 三角行列と一般行列の積

STRSM DTRSM CTRSM ZTRSM 三角行列方程式の求解

説明

3.6. CBLAS ライブラリ

SCSL には、BLAS ライブラリに対して 2 つの C/C++インターフェースが存在します。一つは 1.9 節で述べ

た方法によるもので、scsl_blas.h に定義されたインターフェースを使用します。本節ではもう一つのインタ

ーフェース CBLAS ライブラリについて説明します。

3.6.1. ヘッダファイル

CBLAS インターフェースを使用するには、プログラムにおいて cblas.h ファイルをインクルードする必要が

40

日本 SGI 株式会社

あります。

#include

3.6.2. 呼び出し名

FORTRAN 77 インターフェースにおける文字列引数は、CBLAS インターフェースでは列挙型によって定

義されています。以下の一覧をご参照ください。

FORTRAN インターフェース

CBLAS インターフェース

文字型引数値列挙型値

SIDE 'L' CBLAS_SIDE CblasLeft

'R'

CblasRight

UPLO 'U' CBLAS_UPLO CblasUpper

'L'

CblasLower

DIAG 'N' CBLAS_DIAG CblasNonUnit

'U'

CblasUnit

TRANSPOSE 'N' CBLAS_TRANSPOSE CblasNoTrans

'T'

CblasTrans

'C'

CblasConjTrans

CBLAS_ORDER CblasRowMajor

CblasColMajor

上記の表の最後の列挙型にある CBLAS_ORDER は、対応する FORTRAN での引数は存在しません。こ

れは、以下の節で説明しますが、2 次元配列を持つ全てのルーチンに対する引数として使用されます。

3.6.3. 配列引数

配列要素は、メモリ中で連続していることが要求されます。引数として 2 次元配列を持つすべての BLAS

ルーチンは、CBLAS インターフェースにおいては引数が追加されます。引数リストにおける最初の引数

は、列挙型の引数です。

enum CBLAS_ORDER {CblasRowMajor=101, CblasColMajor=102};

CblasRowMajor は、配列の行内の要素がメモリ中で連続になることを示しています。配列の列内

の要素は、定数ストライドだけ離れます。このストライドパラメータは、FORTRAN 77 インターフ

ェースのリーディングディメンジョン (LDA) に等しくなります。

同様に CblasColMajor は、配列の列中の要素がメモリ中で連続になることを示しており、配列の

列中の要素が定数ストライドだけ離れます。

41

日本 SGI 株式会社

CBLAS_ORDER パラメータは、ルーチン内の全ての配列オペランドに対して適用されます。

3.6.4. 複素数データ

標準の BLAS では、複素数引数をもつルーチンで使用するための複素数データ型は定義していません。

代わりに、全ての複素数スカラ値と配列は void * としてプロトタイプされます。これにより、コンパイラか

らの警告が生じることなく、以下で述べる仕様を満たしているあらゆる複素数型のデータ構造を使用する

ことが可能になりますが、コンパイラが型のミスマッチを捉えられないという不都合も生じます。

CBLAS インターフェースで使用されている、あらゆる C/C++の複素数データ型は以下の要求を満たす必

要があります。

1. 実部と虚部はメモリ上で連続である必要がある。

2. 連続的な配列要素もメモリ上で連続である必要がある。

標準の BLAS に対する拡張として、SCSL は複素数引数について強制的な型チェックのサポートを提供し

ています。これを可能にするために、SCSL_NO_VOID_ARGS を CBLAS のヘッダファイルをインクルードす

る前に定義する必要があります ( 例えば、コンパイル時に-DSCSL_NO_VOID_ARGS を指定するか、明示

的に#define SCSL_NO_VOID_ARGS をソースコードに記述します)。この定義によるデフォルトの振る舞

いは、以下のようになります。

• C++の標準クラスライブラリ (STL) の複素数型が使われている C++コードについては、単精度複素

数の引数は complex* としてプロトタイプされ、倍精度複素数の引数は、complex*と

してプロトタイプされます。

• そうでなければ、C/C++の両方に関して、単精度複素数引数は scsl_complex *としてプロトタイプさ

れ、倍精度複素数引数は scsl_zomplex* としてプロトタイプされます。SCSL 複素数型は次のように

定義されています。

typedef struct {float re; float im;} scsl_complex;

typedef struct {double re; double im;} scsl_zomplex;

強制的な型チェックは、ユーザ定義の複素数型を用いているプログラムでも可能です。これを

可能にするために、SCSL_USER_COMPLEX_T=my_complex か SCSL_USER_COMPLEX_T=my_zomplex を

定義します。ここで my_comlex と my_zomplex はユーザ定義の複素数型の名前です。これらの

複素数型は、SCSL_NO_VOID_ARGS と同様に CBLAS ヘッダファイルをインクルードする前に定義

することが必要です。

42

日本 SGI 株式会社

3.6.5. インデックスを返すルーチン

FORTRAN 77 の配列インデックスの慣習に従うと、BLASルーチンは、1≦i≦nの範囲のインデックスを返

します。ここで n は要素数であり、i はインデックスです。このため返り値であるインデックスは直接配列の

インデックスとして使用することが可能です。C インターフェースは、同じ理由により 0≦i

3.7.1. 倍精度スカラー・ベクトル乗算及びベクトル同士の和 DASPY

以下の例では、DAXPY ルーチンによるベクトル同士の和を行い、解析的に正しい結果との比較を行いま

す。

問題

入力となるベクトル X, Y の各要素は次の式により与えます。

x(i)=i, y(i)=n-α*i, where i=1,n, α=2.0

すなわち、DAXPY で行われる演算

C

x(i)=i

y(i)=n-a*i

end do

演算

call daxpy(n,a,x,1,y,1)

正しい解との比較

derr=0.d0

do i=1,n

derr=derr+(y(i)-n)*(y(i)-n)

end do

derr=dsqrt(derr)

write(*,*) derr

stop

end

C/C++

#include

#define N 100

int main(void)

{

int i;

double a, derr;

double x[N], y[N];

/* 初期化 */

a = 2.0;

for(i = 0; i < N; i++){

x[i] = i;

y[i] = N - a * i;

}

/* 演算 */

daxpy(N, a, x, 1, y, 1);

45

日本 SGI 株式会社

}

/* 正しい解との比較 */

derr = 0.0;

for(i = 0; i < N; i++){

derr += (y[i] - N) * (y[i] - N);

}

derr = sqrt(derr);

printf("%g\n", derr);

return 0;

3.7.2. 倍精度実一般行列同士の積 DGEMM

サブルーチン DGEMM では、行列 A, B、および C とスカラー値 α、およびβに対して次の操作をします。

C = j.

46

日本 SGI 株式会社

サイズ 4 の場合の行列は下記の通りです。

DGEMM 引数一覧

DGEMM (TRANSA,TRANSB,M,N,K,ALPHA,A,LDA,B,LDB,BETA,C,LDC)

TRANSA ( 入力 ) 文字型。行列 A を転置するか否かを指定します。

TRANSA=’N’もしくは’n’: op(A)=A

TRANSA=’Y’もしくは’y’: op(A)= T A

TRANSB ( 入力 ) 文字型。行列 B を転置するか否かを指定します。

TRANSA=’N’もしくは’n’: op(B)=B

TRANSA=’Y’もしくは’y’: op(B)= T B

M

( 入力 ) 整数型。行列 op(A) 及び C の行数

N

( 入力 ) 整数型。行列 op(B) 及び C の列数

K

( 入力 ) 整数型。行列 op(A)の列数、及び op(B)の行数

ALPHA ( 入力 ) 倍精度実数型。スカラ値

A ( 入力 ) 倍精度実数型。次元 (LDA,KA) の配列。

TRANSA=’N’だったら KA は K, そうでなければ M

LDA ( 入力 ) 整数型。配列 A の第 1 次元

B ( 入力 ) 倍精度実数型。次元 (LDB,KB)の配列。

TRANSB=’N’だったらKBはN、そうでなければK

LDB ( 入力 ) 整数型。配列 B の第 1 次元

BETA ( 入力 ) 倍精度実数型。スカラ値

C

( 入出力 ) 倍精度実数型。次元 (LDC,N)の配列

LDC ( 入力 ) 実数型。配列 C の第 1 次元

データの格納方法

BLASルーチンへの引数として渡される多次元配列は、列方向の順で格納されます。

47

日本 SGI 株式会社

プログラム例

FORTRAN

implicit double precision (a-h,o-z)

C

parameter (n=10)

parameter (lda=n,ldb=n,ldc=n)

integer i,j

double precision dtmp,alpha,beta

double precision a(lda,n),b(ldb,n),c(ldc,n)

C 初期化

C A: テスト行列 B: テスト行列の逆行列 C: 零行列

alpha=1.d0

beta =0.d0

do j=1,n

do i=1,n

a(i,j)=n+1.d0-max(i,j)

c(i,j)=0.d0

if((i .eq. 1) .and. (j .eq. 1)) then

b(i,j)=1.d0

else if((i .eq. j-1) .or. (i .eq. j+1)) then

b(i,j)=-1.d0

else if(i .eq. j) then

b(i,j)=2.d0

else

b(i,j)=0.d0

end if

end do

C C := A*B

call dgemm('N','N',n,n,n,alpha,a,lda,b,ldb,beta,c,ldc)

C 正しい解との比較

dtmp=0.d0

do j=1,n

do i=1,n

if(i .eq. j) then

dtmp=dtmp+(c(i,j)-1.d0)*(c(i,j)-1.d0)

48

日本 SGI 株式会社

C

else

dtmp=dtmp+c(i,j)*c(i,j)

end if

end do

dtmp=dsqrt(dtmp)

write(*,*) dtmp

stop

end

C/C++

#include

#define N 10

#define LDA N

#define LDB N

#define LDC N

#define MAX(i,j) (((i) > (j)) (i) : (j))

int main(void)

{

int i, j;

double dtmp, alpha, beta;

double a[LDA * N], b[LDB * N], c[LDC *N];

/* 初期化 */

/* A: テスト行列 B: テスト行列の逆行列 C: 零行列 */

alpha = 1.0;

beta = 0.0;

for(j = 0; j < N; j++){

for(i = 0; i < N; i++){

a[j * LDA + i] = N - MAX(i, j);

c[j * LDC + i] = 0.0;

49

日本 SGI 株式会社

if(i == 0 && j == 0){

b[j * LDB + i] = 1.0;

}else if(i == j - 1 || i == j + 1){

b[j * LDB + i] = -1.0;

}else if(i == j){

b[j * LDB + i] = 2.0;

}else{

b[j * LDB + i] = 0.0;

}

/* C := A*B */

dgemm("N", "N", N, N, N, alpha, a, LDA, b, LDB, beta, c, LDC);

/* 正しい解との比較 */

dtmp = 0.0;

for(j = 0; j < N; j++){

for(i = 0; i < N; i++){

if(i == j){

dtmp += (c[j * LDC + i] - 1.0) * (c[j * LDC + i] - 1.0);

}else{

dtmp += c[j * LDC + i] * c[j * LDC + i];

}

dtmp = sqrt(dtmp);

printf("%g\n", dtmp);

}

return 0;

50

日本 SGI 株式会社

3.8. BLAS の性能

以下にLevel 3 BLASの複素行列積 ZGEMMルーチンの並列処理における性能グラフを示します。

理論ピーク性能の8 割以上の性能を維持したまま、プロセッサ数の増加に伴い、ほぼリニアなスケール

で性能が向上しているのがわかります。また、SCSLの提供する3Mカーネルによる複素行列積のルーチ

ンを用いることにより、標準的なZGEMMよりも短時間で解を求めることができます。

Gflops (based o

standard ZGEMM

4000 x 4000 Complex Matrix Multiplication

400 MHz Origin 3000

8

7

6

5

4

3

2

1

0

0 2 4 6 8 10

Number of Processors

Standard ZGEMM "3M" ZGEMM Theoretical Peak

51

日本 SGI 株式会社

4. LAPACK ルーチン

LAPACK は密行列に対する線形代数の問題を解くためのサブルーチンを与えるパブリックドメインのライ

ブラリであり、以下のものを含みます。

• 連立一次方程式

• 線形最小自乗問題

• 固有値問題

• 特異値分解 (SVD)

LAPACK パッケージは、LINPACK や EISPACK パッケージにとって替わるものであり、これらの古いパッ

ケージよりも現在の高性能な計算機をより効率よく利用するために設計さています。また、均衡化や反

復改良、誤差境界の計算法や、線形システムのドライバルーチン、Schur 分解を計算しリオーダリングす

るためのルーチン、そして、固有値問題のための条件数を評価するためのルーチンを含むことによって

機能を拡張しています。

レベル 2, 3 の BLAS コードを用いて計算効率のよいアルゴリズムを使用することで、性能面での最適化

が図られています。ほとんどの BLAS コードは、シングル及びマルチプロセッサ環境上で最適化されてい

るため、LAPACK 自身も最適な性能を提供します。

E. Anderson, Z. Bai, C. Bischof, J. Demmel, J. Dongarra, J. DuCroz, A. Greenbaum, S. Hammarling, A.

McKenney, S. Ostrouchov, and D. Sorensen,らによって LAPACK ユーザガイドで述べられたオリジナル

の FORTRAN プログラムは、1992 年に SIAM より出版されています。

4.1. SCSL に含まれる LAPACK ルーチン

LAPACK3.0 に含まれる全ての実数及び複素数ルーチンがサポートされています。これには、連立一次

方程式、最小自乗問題、固有値問題及び特異値問題に関するドライバルーチンと計算ルーチンを含み

ます。また、基本的な直交変換を行うための補助ルーチンがサポートされています。

科学技術計算ライブラリ中の LAPACK ルーチンについてはオンラインのマニュアルページで説明されて

います。例えば、一般行列のための連立一次方程式を解くためのエキスパートドライバルーチンに対す

る引数の説明を見たいときは、次のコマンドを入力します。

% man sgesvx

サポートされている全ての LAPACK ルーチンに対するユーザインターフェースは、標準の LAPACK イン

ターフェースと厳密に同じです。

SCSL 中で提供されているブロックアルゴリズムに関するチューニングパラメータは、LAPACK ルーチン

52

日本 SGI 株式会社

ILAENV(3) 中のパラメータの集合です。ILAENV(3) は、問題の型や次元に関する情報を受け付ける整

数関数であり、最適なブロックサイズ、ブロックアルゴリズムが使用するべき最少のブロックサイズ、また、

クロスオーバーポイント (ブロック化されていないアルゴリズムを用いる際の基準となる問題サイズ) な

どの一つの整数パラメータを返します。チューニングパラメータは自動的に生成されますが、使用される

値を見つけるために ( 例えば、どの程度の作業空間が必要であるかを知るために) 直接 ILAENV(3S)

ルーチンを呼ぶことになります。

4.2. ネーミングスキーム

各 LAPACK ルーチン名は、その機能のコード名となっています (ただし、標準 FORTRAN 77 の 6 文字名

称の制限に従っています)。全てのドライバ及び計算ルーチンは、XYYZZ や XYYZZZ などの 5 もしくは 6

文字の名前になっています。

それぞれの名前の最初の文字 X は、以下のデータの型を意味します。

S REAL

D DOUBLE PRECISION

C COMPLEX

Z DOUBLE COMPLEX

続く 2 文字 YY は、行列 ( 最も特徴を示していると思われる行列 ) の種類を示しています。これらの 2 文

字で示されるコードは、実及び複素行列のどちらにも適用されますが、ごくわずかに、どちらか一方にの

みしか適用されないものがあります。行列の種類は、次の通りです。

BD 準対角行列

DI 対角行列

GB 一般帯行列

GE 一般行列 ( 非対称 )

GG 一般化問題での一般行列

GT 一般三重対角行列

HB エルミート帯行列 ( 複素のみ)

HE エルミート行列 ( 複素のみ)

HG 一般化問題でのヘッセンベルグ行列

HP 圧縮形式でのエルミート行列 ( 複素のみ)

HS 上三角ヘッセンベルグ行列

OP 圧縮形式での直交行列 ( 実数のみ)

OR 直交行列 ( 実数のみ)

53

日本 SGI 株式会社

PB 正値帯行列 ( 対称もしくはエルミート)

PO 正値行列 ( 対称もしくはエルミート)

PP 圧縮形式での正値行列 ( 対称もしくはエルミート)

PT 正値三重対角行列 ( 対称もしくはエルミート)

SB 対称帯行列 ( 実数のみ)

SP 圧縮形式での対称行列

ST 対称三重対角行列

SY 対称行列

TB 三角帯行列

TG 一般化問題での三角行列

TP 圧縮形式三角行列

TR 三角行列

TZ 台形行列

UN ユニタリ行列 ( 複素のみ)

UP 圧縮形式でのユニタリ行列 ( 複素のみ)

最後の 2 もしくは 3 文字である ZZ もしくは、ZZZ は、どのような計算が行われたかを示します。例えば、

SGETRF は、単精度実数 (Single-precision, real) の一般行列 (GEneral) に対して 3 角分解 (TRiangular

Factorization) が行われたことを示し、CGETRF は、複素一般行列 (Complex GEneral) に対して同様の

分解が行われたことを示しています。

SCSL で利用可能な LAPACK のドライバ及び計算ルーチンの一覧や引数、及び使い方に関する詳細は、

マニュアルページをご参照ください。

4.3. サンプルプログラム

4.3.1. 倍精度実一般行列用連立一次方程式の解法 DGESV

ここでは次のような連立一次方程式を例にとって説明します。

問題

⎡1.0

⎢

1.0

⎢⎣

1.0

3.0

4.0

3.0⎤

⎡ 1.0 ⎤

4.0

⎥ ⎢ ⎥

⎥

∗ x =

⎢

4.0

⎥

3.0⎥⎦

⎢⎣

−1.0⎥⎦

この連立一次方程式に対する解ベクトル x は次の通りです。

54

日本 SGI 株式会社

⎡−

2.0⎤

x =

⎢ ⎥

⎢

− 2.0

⎥

⎢⎣

3.0 ⎥⎦

サブルーチン DGESV の呼び出しに必要な引数は次の通りです。

DGESV 引数一覧

DGESV( N, NRHS, A, LDA, IPIV, B, LDB, INFO )

N ( 入力 ) 整数型。係数行列 A の次数

NRHS ( 入力 ) 整数型。右辺の行列 B の列数

A ( 入出力 ) 単精度実数。係数行列 A を格納する次元 (LDA,N) の配列。出力時は

LU 分解の結果

LDA ( 入力 ) 整数型。配列 A の第 1 次元

IPIV ( 出力 ) 整数型。軸選択用添字を格納する次元 N の配列

B ( 入出力 ) 単精度実数。右辺の行列 B を格納する次元 (LDB,NRHS)の配列。出力

時は INFO=0 の時、(n,nrhs)の解行列 X

LDB ( 入力 ) 整数型。配列 B の第 1 次元

INFO ( 出力 ) 整数型

0: 正常終了

0 以外 : 異常終了

データの格納方法

サブルーチン DGESV は非対称一般行列に対する解法であり、本サブルーチンでの係数行列データの

配列への格納形式は、密行列に対する伝統的な格納形式を使用します。この格納形式では行列 A の行

列要素 a ij を 2 次元配列 A の配列要素 A(i,j) に格納します。

a ij -> A(I,j)

プログラム例は次の通りです。

プログラム例

1: C EXAMPLE LAPACK DGESV

2: INTEGER N, LDA, NRHS, LDB, INFO

3: PARAMETER (N=3,LDA=3,NRHS=1,LDB=3)

4: INTEGER IPIV(N)

5: REAL*8 A(LDA,N), B(LDB,NRHS)

6: C A=( 1.0 3.0 3.0 )

7: C 1.0 3.0 4.0 )

8: C 1.0 4.0 3.0 )

55

日本 SGI 株式会社

9: C B=( 1.0

10: C 4.0

11: C -1.0 )

12: DATA A/1.0,1.0,1.0,3.0,3.0,4.0,3.0,4.0,3.0/

13: DATA B/1.0,4.0,-1.0/

14:

15: CALL DGESV(N,NRHS,A,LDA,IPIV,B,LDB,INFO)

16:

17: WRITE(*,*) 'INFO=',INFO

18: IF (INFO.EQ.0) THEN

19: WRITE(6,630) ((I,B(I,J),I=1,LDB),J=1,NRHS)

20: END IF

21: 630 FORMAT('0',10X,'SOLUTION VECTOR'

22: * /(10X,5('(',I3,')',E16.8)))

23: END

実行例

## リンクオプション –lscs を指定してコンパイル

% f77 dgesv_main.f -lscs

## 実行

% ./a.out

INFO= 0

0 SOLUTION VECTOR

( 1) -0.20000000E+01( 2) -0.20000000E+01( 3) 0.30000000E+01(

4.3.2. 倍精度実帯行列用連立一次方程式の解法 DGBSV

ここでは次のような連立一次方程式を例にとって説明します。

問題

⎡2.0

⎢

4.0

⎢6.0

⎢

⎢0.0

⎢

⎣0.0

−1.0

1.0

2.0

0.0

2.0

1.0

3.0

2.0

0.0

4.0

6.0

1.0

0.0⎤

⎡ 0.0 ⎤

0.0

⎥ ⎢ ⎥

⎥ ⎢

12.0

⎥

0.0⎥

∗ x = ⎢27.0⎥

⎥ ⎢ ⎥

1.0⎥

⎢42.0⎥

5.0⎥

⎦

⎢

⎣35.0⎥

⎦

56

日本 SGI 株式会社

この連立一次方程式に対する解ベクトル x は次の通りです。

⎡1.0⎤

⎢ ⎥

⎢

2.0

⎥

x = ⎢3.0⎥

⎢ ⎥

⎢4.0⎥

⎢

⎣5.0⎥

⎦

DGESV 引数一覧

DGBSV( N, NRHS, A, LDA, IPIV, B, LDB, INFO )

N ( 入力 ) 整数型。係数行列 A の次数

KL ( 入力 ) 整数型。A の帯内の対角下要素の個数 ( 対角下帯幅 )

KU ( 入力 ) 整数型。A の帯内の対角上要素の個数 ( 対角上帯幅 )

NRHS ( 入力 ) 整数型。右辺の個数。行列 B の列数

AB ( 入出力 ) 倍精度実数型。係数行列を帯格納形式で格納する次元 (LDAB,N)の

配列。出力時、三角分解の詳細。

LDAB ( 入力 ) 整数型。配列 AB の第 1 次元

IPIV ( 入力 ) 整数型。

B 右辺の行列 B を格納する次元 (LDB,NRHS)の配列。出力時は INFO=0 の時、

(n,nrhs)の解行列 X

LDB ( 出力 ) 整数型。軸選択用添字を格納する次元 N の配列

INFO ( 出力 ) 整数型

0: 正常終了

0 以外 : 異常終了

データの格納方法

サブルーチン DGBSV は非対称一般帯行列に対する解法であり、本サブルーチンでの係数行列データ

の配列への格納形式は、帯格納形式を使用します。帯格納形式では、下バンド幅を k l 、上バンド幅を k u

とした場合、n 次元の帯行列を h l +h u +1 個の行と n 個の列をもつ 2 次元配列に詰めて格納します。行列の

列はこの配列の対応する列に格納し、行列の対角要素は配列の同一行に格納します。

本ルーチンでは、係数行列を格納する配列を出力時に三角分解の詳細を格納する配列としても使用す

るため、配列の行サイズは、2*h l +h u +1 として、係数行列の要素は、行 h l+1 行 2*h l +h u +1 に格納します。

この格納方法では、max(1,j-k u )≦i≦min(n,j+k l ) に対して行列 A の行列要素 a ij を 2 次元配列 A の配列要

素 AB(h l +k u +1+i-j,j) に格納します。

a ij -> AB(h l +k u +1+i-j,j) ,max(1,j-k u )≦i≦min(n,j+k l )

57

日本 SGI 株式会社

本問題で扱う係数行列は配列 AB に次のように格納されます。

⎡2.0

⎢

4.0

⎢6.0

⎢

⎢0.0

⎢

⎣0.0

帯行列 A

−1.0

0.0 0.0

1.0 2.0 0.0

1.0 1.0 4.0

2.0 3.0 6.0

0.0 2.0 1.0

0.0⎤

0.0

⎥

0.0⎥

⎥

1.0⎥

5.0⎥

⎦

⎡ *

⎢

*

⎢ *

⎢

⎢2.0

⎢4.0

⎢

⎣6.0

配列 AB への帯格納

* * * * ⎤

* * * *

⎥

−1.0

2.0 4.0 1.0⎥

⎥

1.0 1.0 6.0 5.0⎥

1.0 3.0 1.0 * ⎥

⎥

2.0 2.0 * *

⎦

プログラム例は次の通りです。

プログラム例

1: C EXAMPLE LAPACK DGESV

2: INTEGER N, KL, KU, LDAB, NRHS, LDB, INFO

3: PARAMETER (N=5,KL=2,KU=1,LDAB=2*KL+1+KU,NRHS=1,LDB=5)

4: INTEGER IPIV(N)

5: REAL*8 AB(LDAB,N), B(LDB,NRHS)

6: C

7: C AB=( * * * * *

8: C * * * * *

9: C * -1.0 2.0 4.0 1.0

10: C 2.0 1.0 1.0 6.0 5.0

11: C 4.0 1.0 3.0 1.0 *

12: C 6.0 2.0 2.0 * *)

13: C

14: C B=( 0.0

15: C 12.0

16: C 27.0

17: C 42.0

18: C 35.0 )

19:

20: DATA B/0.0,12.0,27.0,42.0,35.0/

21:

22: READ(5,*) ((AB(I,J),I=KL+1,LDAB),J=1,N)

23: WRITE(6,600) N,((I,J,AB(I,J),J=1,N),I=1,LDAB)

58

日本 SGI 株式会社

24:

25: CALL DGBSV(N,KL,KU,NRHS,AB,LDAB,IPIV,B,LDB,INFO)

26:

27: WRITE(*,*) 'INFO=',INFO

28: IF (INFO.EQ.0) THEN

29: WRITE(6,630) ((I,B(I,J),I=1,LDB),J=1,NRHS)

30: END IF

31: 600 FORMAT('1',10X,'** COEFFICIENT ','MATRIX'/12X,'ORDER=',I5/

32: * (10X,5('(',I3,',',I3,')',E16.8)))

33: 630 FORMAT('0',10X,'SOLUTION VECTOR'

34: * /(10X,5('(',I3,')',E16.8)))

35: END

実行例

## リンクオプション –lscs を指定してコンパイル

% f77 dgbsv_main.f -lscs

% cat dgbsv.5.data

0.0 2.0 4.0 6.0 -1.0 1.0 1.0 2.0 2.0 1.0 3.0 2.0 4.0 6.0 1.0 0.0 1.0 5.0 0.0 0.0

## 実行

% ./a.out < dgbsv.5.data

1 ** COEFFICIENT MATRIX

ORDER= 5

( 1, 1) 0.00000000E+00( 1, 2) 0.24209217E+00( 1, 3)

0.19367373E+00( 1, 4) 0.12996486E+00( 1, 5) 0.38286897E+00

( 2, 1) 0.13048633E+00( 2, 2) 0.13023846E+00( 2, 3)

0.10609715E+00( 2, 4) 0.00000000E+00( 2, 5) 0.00000000E+00

( 3, 1) 0.00000000E+00( 3, 2) -0.10000000E+01( 3, 3)

0.20000000E+01( 3, 4) 0.40000000E+01( 3, 5) 0.10000000E+01

( 4, 1) 0.20000000E+01( 4, 2) 0.10000000E+01( 4, 3)

0.10000000E+01( 4, 4) 0.60000000E+01( 4, 5) 0.50000000E+01

( 5, 1) 0.40000000E+01( 5, 2) 0.10000000E+01( 5, 3)

0.30000000E+01( 5, 4) 0.10000000E+01( 5, 5) 0.00000000E+00

( 6, 1) 0.60000000E+01( 6, 2) 0.20000000E+01( 6, 3)

0.20000000E+01( 6, 4) 0.00000000E+00( 6, 5) 0.00000000E+00

INFO= 0

0 SOLUTION VECTOR

59

日本 SGI 株式会社

( 1) 0.10000000E+01( 2) 0.20000000E+01( 3) 0.30000000E+01( 4)

0.40000000E+01( 5) 0.50000000E+01

4.3.3. 倍精度実一般行列の LU 分解 DGETRF と LU 分解を用いた連立一次

方程式の解法 DGETRS

本例題では、LU 分解を使って逆行列を求め、元の行列との積が単位行列になることを確かめます。

問題

係数行列 A は倍精度の乱数発生ルーチンによりデータを与えます。LU 分解を用いた連立一次方程式の

解法ルーチンである DGETRS は、複数個の右辺ベクトルを 2 次元配列 ( 右辺行列 )で与えます。本例題

では、右辺行列が単位行列となるようにデータを与えて、DGETRS を呼び出すことにより、解行列 ( 各右

辺ベクトルに対応する複数の解ベクトルの並び)が係数行列の逆行列となるようにします。

AX=B において B=E の時、

X=A -1 E

X=A -1

DGETRF 引数一覧

DGETRF(M,N,A,LDA,IPIV,INFO )

M ( 入力 ) 整数型。係数行列 A の行数

N ( 入力 ) 整数型。係数行列 A の列数

A ( 入出力 ) 倍精度実数型。係数行列 A を格納する次元 (LDA,N)の配列

LDA ( 入力 ) 整数型。配列 A の第 1 次元

IPIV ( 出力 ) 整数型。軸選択用添え字を格納する次元 N の配列

INFO ( 出力 ) 整数型

0: 正常終了

0 以外 : 異常終了

DGETRS 引数一覧

DGETRS(TRANS,N,NRHS,A,LDA,IPIV,B,LDB,INFO )

TRANS ( 入力 ) 文字型。係数行列 A を転置するか否かを指定します。

’N’ : 転置しない

‘T’: 転置する

N

( 入力 ) 整数型。係数行列 A のオーダー。

NRHS ( 入力 ) 整数型。右辺行列 B の列数

A

( 入力 ) 倍精度実数型。係数行列 A を格納する次元 (LDA,N)の配列

LDA ( 入力 ) 整数型。配列 A の第 1 次元

IPIV ( 出力 ) 整数型。軸選択用添え字を格納する次元 N の配列で、DGETRF からの出力を使

60

日本 SGI 株式会社

B

LDB

INFO

用する

( 入出力 ) 倍精度実数型。次元 (LDB,NRHS)の右辺行列

( 入力 ) 整数型。右辺行列 B の第 1 次元

( 出力 ) 整数型

0: 正常終了

0 以外 : 異常終了

データの格納方法

DGETRF, DGETRS は実一般行列に対するルーチンであり、係数行列 A の各要素の配列への格納方法

は、密行列に対する伝統的な格納形式を使用します。この格納形式では行列 A の行列要素 a ij を2 次元

配列 A の配列要素 A(i,j) に格納します。

a ij -> A(I,j)

プログラム例

以下に、FORTRAN、C/C++での、BLAS ルーチンを使用したサンプルプログラムを示します。

SCSL の LAPACK ルーチンは C/C++のインターフェイスを提供していないので、FORTRAN のインターフ

ェイスを直接呼び出していることに注意してください。

FORTRAN

implicit double precision (a-h,o-z)

C

parameter (n=10)

parameter (lda=n,ldb=n)

integer i,j,info,ipiv(n)

integer*8 seed

double precision dummy

double precision dtmp,alpha,beta

double precision a1(lda,n),a2(lda,n),b(ldb,n)

C 初期化

C A1,A2: 乱数行列 (A1=A2) B: 単位行列

seed = 1

call drand64_set(seed)

do j=1,n

do i=1,n

a1(i,j)=drand64(dummy)

a2(i,j)=a1(i,j)

61

日本 SGI 株式会社

C

if(i .eq. j) then

b(i,j)=1.d0

else

b(i,j)=0.d0

end if

end do

LU 分解

call dgetrf(n,n,a1,lda,ipiv,info)

逆行列の計算

call dgetrs('N',n,n,a1,lda,ipiv,b,ldb,info)

行列積が単位行列になることを確かめる

alpha=1.d0

beta =0.d0

call dgemm('N','N',n,n,n,alpha,a2,lda,b,ldb,beta,a1,lda)

dtmp =0.d0

do j=1,n

do i=1,n

if(i .eq. j) then

dtmp=dtmp+(a1(i,j)-1.d0)*(a1(i,j)-1.d0)

else

dtmp=dtmp+a1(i,j)*a1(i,j)

end if

end do

dtmp=dsqrt(dtmp)

write(*,*) dtmp

stop

end

C/C++

#include

62

日本 SGI 株式会社

#include

#define N 10

#define LDA N

#define LDB N

int main(void)

{

int i, j, n, lda, ldb, info, ipiv[N];

long long seed = 1LL;

double dummy;

double dtmp, alpha, beta;

double a1[LDA * N], a2[LDA * N], b[LDB * N];

/* 初期化 */

/* A1,A2: 乱数行列 (A1=A2) B: 単位行列 */

drand64_set(seed);

for(j = 0; j < N; j++){

for(i = 0; i < N; i++){

a1[j * LDA + i] = drand64(&dummy);

a2[j * LDA + i] = a1[j * LDA + i];

if(i == j){

b[j * LDA + i] = 1.0;

}else{

b[j * LDA + i] = 0.0;

}

n = N;

lda = LDA;

ldb = LDB;

/* LU 分解 */

dgetrf_(&n, &n, a1, &lda, ipiv, &info);

/* 逆行列の計算 */

dgetrs_("N", &n, &n, a1, &lda, ipiv, b, &ldb, &info);

/* 行列積が単位行列になることを確かめる */

alpha = 1.0;

63

日本 SGI 株式会社

eta = 0.0;

dgemm("N", "N", N, N, N, alpha, a2, LDA, b, LDB, beta, a1, LDA);

dtmp = 0.0;

for(j = 0; j < N; j++){

for(i = 0; i < N; i++){

if(i == j){

dtmp += (a1[j * LDA + i] - 1.0) * (a1[j * LDA + i] - 1.0);

}else{

dtmp += a1[j * LDA + i] * a1[j * LDA + i];

}

dtmp = sqrt(dtmp);

printf("%g\n", dtmp);

}

return 0;

4.3.4. 全部または指定した範囲の倍精度実対称固有値問題 (dqds アルゴリ

ズム) DSYEVR

問題

本例題では、対称行列の固有値 / 固有ベクトルを求め、得られた固有値を正しい解と比較します。

テスト行列は、下記で定義される行列を用います。

サイズ N の行列 A=a[i][j] が下記の通りに定義されます。

a[i][j]= a[j][i] = n+1-i, if i >= j.

64

日本 SGI 株式会社

サイズ 4 の場合の行列は下記の通りです。

DSYEVR 引数一覧

DSYEVR(JOBZ,RANGE,UPLO,N,A,LDA,VL,VU,IL,IU,ABSTOL,M,W,Z,LDZ,ISUPPZ,WORK,LWORK,IW

ORK,LIWORK,INFO)

JOBZ

( 入力 ) 文字型。固有ベクトルを計算するか否かを指定

=’N’: 固有値のみ計算

=’V’: 固有値と固有ベクトルを計算

RANGE

( 入力 ) 文字型。計算する固有値の範囲を指定

=’A’: すべての固有値を計算

=’V’: 半開区間 (VL,VU〕の固有値を計算

=’I’: IL 番目から IU 番目の固有値を計算

UPLO

( 入力 ) 文字型。配列に格納する係数行列が上三角部分か下三角部分かを

指定

=’U’: 係数行列 A の上三角部分を格納

=’L’: 係数行列 A の下三角部分を格納

N

( 入力 ) 整数型。係数行列 A のオーダー

A

( 入出力 ) 倍精度実数型。係数行列を格納する次元 (LDA,N)の配列。格納方

法は密行列に対する伝統的な格納形式をとり、格納するのは UPLO で指定し

た当該三角部分となる。出力時内容は保存されない。

LDA

( 入力 ) 整数型。配列 A の第 1 次元

VL

( 入力 ) 倍精度実数型。RANGE=’V’の時、計算する固有値の範囲における下

限を指定。

RANGE=’A’または’I’の時は参照されない。

VU

( 入力 ) 倍精度実数型。RANGE=’V’の時、計算する固有値の範囲における上

限を指定。

RANGE=’A’または’I’の時は参照されない。

IL ( 入力 ) 整数型。RANGE=’I’の時、計算する最小固有値の添え字を指定。

65

日本 SGI 株式会社

RANGE=’A’または’V’の時は参照されない。

IU ( 入力 ) 整数型。RANGE=’I’の時、計算する最大固有値の添え字を指定。

RANGE=’A’または’V’の時は参照されない。

ABSTOL ( 入力 ) 倍精度実数型。固有値に対する絶対許容誤差。詳細については、

LAPACK マニュアルの当該ルーチンの説明箇所を参照ください

M

( 出力 ) 整数型。見つかった固有値の総数

W

( 出力 ) 倍精度実数型。最初の M 個の要素は、見つかった M 個の固有値が昇

順で格納される。次元 N の配列

Z

( 出力 ) 倍精度実数型。計算された固有ベクトルが入る次元 (LDZ,max(1,M))

の配列。Z の第 i 列には W(i)に関係した固有ベクトルが入る

LDZ

( 入力 ) 整数型。配列 Z の第 1 次元

ISUPPZ ( 出力 ) 整数型。配列 Z における非ゼロ要素の添え字が格納される。第 i 番目

の固有ベクトルのうち、ISUPPZ(2*i-1)から ISUPPZ(2*i)の要素のみが非ゼロで

ある。

WORK

( 作業領域 / 出力 ) 倍精度実数型。次元 LWORK の配列。出力時、WORK(1)に

最適な LWORK が返される。

LWORK

( 入力 ) 整数型。配列 WORK の次元。LWORK≧max(1,26+N)

IWORK

( 作業領域 / 出力 ) 整数型。次元 LIWORK の配列。出力時、IWROK(1)に最適な

LIWORK が返される。

LIWORK ( 入力 ) 整数型。配列 IWORK の次元。LIWORK≧max(1,10*N)

INFO

( 出力 ) 整数型

0: 正常終了

< 0: i 番目の引数が適切でない

> 0: 異常終了

データの格納方法

ルーチン DSYVR は対称固有値問題に対するルーチンです。行列の配列への格納方法は、密行列に対

する伝統的な格納形式をとり、格納するのは UPLO で指定した当該三角部分となります。

本例題では、UPLO=’U’ を指定しています。これは、行列 A の上三角部分を配列 A に格納することを指

定しています。以下は N=4 で、UPLO=’U’の時の配列への格納のされ方を示しています。配列の残りの

要素 ( 下三角部分 )は設定する必要はありません。

⎡a11

⎢

a21

⎢a31

⎢

⎣a41

対称行列 A

a12

a13

a22

a23

a32

a33

a42

a43

a14⎤

a24

⎥

a34⎥

⎥

a44⎦

配列 A への格納

a11

a12

a14

* a22

a23

a24

* * a33

a34

* * * a44

66

日本 SGI 株式会社

プログラム例

FORTRAN

C

implicit double precision (a-h,o-z)

parameter (n=10,lda=n,ldz=n)

parameter (nw=(n+16)*n,niw=(n+1)*n)

parameter (eps=1.d-12)

integer i,j,m,n,il,info

integer isuupz(2*n),iwork(niw)

double precision derr,vl,vu

double precision a(lda,n),w(n)

double precision z(ldz,n),work(nw)

初期化

A: テスト行列の上三角部分

vl=0.d0

vu=0.d0

do j=1,n

do i=1,j

a(i,j)=n-j+1.d0

end do

全固有値 / 固有ベクトルの計算

call dsyevr('V','A','U',n,a,lda,vl,vu,

& il,n,eps,m,w,z,ldz,isuppz,work,nw,iwork,niw,info)

固有値が正しい値であるか、確かめる

derr=0.d0

do i=1,n

derr=derr+(w(i)-deigen(n,i))*(w(i)-deigen(n,i))

end do

derr=dsqrt(derr)

write(*,*) derr

stop

end

67

日本 SGI 株式会社

C

テスト行列の固有値関数

double precision function deigen(n,i)

implicit double precision (a-h,o-z)

integer n,i

double precision dpi

dpi =4.d0*atan(1.d0)

deigen=1.d0/(2.d0*(1.d0-cos(dpi*

& (2.d0*(n+1-i)-1.d0)/(2.d0*n+1.d0))))

return

end

C/C++

#include

#define N 10

#define LDA N

#define LDZ N

#define NW ((N + 16) * N)

#define NIW ((N + 1) * N)

#define EPS 1.0e-12

double deigen(int n, int i);

int main(void)

{

int lda, ldz, nw, niw;

int i, j, m, n, il, info;

int isuppz[2 * N], iwork[NIW];

double derr, vl, vu, eps;

double a[LDA * N], w[N];

double z[LDZ * N], work[NW];

68

日本 SGI 株式会社

* 初期化 */

/* A: テスト行列の上三角部分 */

vl = 0.0;

vu = 0.0;

for(j = 0; j < N; j++){

for(i = 0; i < N; i++){

a[j * LDA + i] = N - j;

}

n = N;

lda = LDA;

ldz = LDZ;

nw = NW;

niw = NIW;

eps = EPS;

/* 全固有値 / 固有ベクトルを求める */

dsyevr_("V", "A", "U", &n, a, &lda, &vl, &vu,

&il, &n, &eps, &m, &w, z, &ldz, isuppz,

work, &nw, iwork, &niw, &info);

/* 固有値が正しい値であることを確かめる */

derr = 0.0;

for(i = 0; i < N; i++){

derr += (w[i] - deigen(N, i)) * (w[i] - deigen(N, i));

}

derr = sqrt(derr);

printf("%g\n", derr);

}

return 0;

/* テスト行列の固有値関数 */

double deigen(int n, int i)

{

double dpi;

69

日本 SGI 株式会社

dpi = 4.0 * atan(1.0);

return 1.0/(2.0 * (1.0 -

cos(dpi * (2.0 * (n - i) - 1.0) / (2.0 * n + 1))));

}

70

日本 SGI 株式会社

4.4. LAPACK の性能

以下に LAPACK ルーチン DGETRF(LU 分解 )の並列処理における性能グラフを示します。

プロセッサ数を多くしても、スケーラビリティの高い、良好な並列性能が得られていることがわかります。

Gflops

30

25

20

15

10

5

0

LAPACK DGETRF Routine -- LU

Factorization

400 MHz Origin 3000

1 10 100

Number of Processors

4000 x 4000 system 16000 x 16000 system

71

日本 SGI 株式会社

5. 疎行列の直接解法、反復解法

5.1. はじめに

SCSL 科学技術計算ライブラリは、疎行列に対して2 種類の直接法ルーチンを提供しています。

• DPSLDLT, ZPSLDLT ( 対称線形一次方程式の解法 )

• DPSLDU , ZPSLDU( 非対称線形一次方程式の解法 )

また、疎行列反復解法として Diterative ルーチンを提供しています。

これらのルーチンは、SGI が開発したものであり、SGI のシステムに最適化されています。密行列の線形

方程式に対する直接法ソルバは INTRO_LAPACK(3S) のマニュアルページをご参照ください。

DPSLDLT、ZPSLDLT は、疎行列の対称線形方程式 Ax=b を解きます。ここで、A は n×n の対称行列、b

は次元 n の右辺ベクトル、x は次元 n の解ベクトルです。

これらのソルバは、直接法を用いています。A は次の形式に分解できます。

A = L D L T

ここで、L は対角要素が 1 の下三角行列、D は対角項だけの行列を示しています。

ソルバは、倍精度実数版、倍精度複素数版が用意されており、SCSL の並列化にも対応しています。詳

細は、DPSLDLT(3S)、ZPSLDLT(3S)のマニュアルページをご参照ください。

DPSLDU、ZPSLDU は、非対称の対称線形方程式 Ax=b を解きます。ここで、A は n×n の非ゼロ要素の

位置については対称であるが値は非対称である行列、b は次元 n の右辺ベクトル、x は次元 n の解ベク

トルです。

これらのソルバこれらのソルバは、直接法を用いています。A は次の形式に分解できます。

A = L D U

ここで、L は対角要素が 1 の下三角行列、D は対角項だけの行列、U は対角要素が 1 の上三角行列を

示しています。

72

日本 SGI 株式会社

このソルバは、倍精度実数版、倍精度複素数版が用意されており、SCSL の並列化にも対応しています。

詳細は、DPSLDU(3S)、ZPSLDU(3S)のマニュアルページをご参照ください。

Diterative ルーチンは疎行列線形方程式 Ax=bを反復法で解きます。ここで、A はCSCまたはCSR 形式

で格納されたnXnの入力行列、b は次元 n の右辺ベクトル、x は次元 n の解ベクトルです。

反復ソルバでは4つの前処理付反復法を利用できます。対称行列向けの解法として、共役勾配 (CG) 法

および共役残差 (CR) 法、非対称行列向けの解法として、共役勾配二乗 (CGS) 法およびその変種で収

束の過程がよりスムーズな双共役勾配安定 (BiCGSTAB) 法が含まれます。反復法へ適用する前処理

としては、ヤコビ、対称逐次緩和 (SSOR) 法、パターンによる不完全 LU 分解、値による不完全 LU 分解

が利用できます。不完全 LU 分解は対称行列にのみ適用でき、値による不完全 LU 分解はまだ並列化さ

れていません。

反復ソルバは、現在、倍精度実数版のみをサポートしています。詳細は ITERATIVE(3S)を御覧ください。

5.2. 注意

これらの疎行列に対するルーチンはピボッティングのための枢軸の選択を行いません。

現在、SCSL はリシェイプト配列 (reshaped array) をサポートする予定はありません。

また、これらのルーチンは SGI R8000, R10000, R12000 のシステム向けに最適化されています。

5.3. DPSLDLT、ZPSLDLT ルーチン

ここでは、対称疎行列直接解法 DPSLDLT、ZPSLDLT ルーチンの使用方法に関して説明します。以下で

は倍精度実数版を例に説明しますが、倍精度複素数版も基本的には同じです。倍精度複素数版の場合

には、関数の接頭文字 D をZに、ops と ooclimit を除く引数の DOUBLE PRECISION 型を COMPLREX*16

型 (C/C++では double 型を scsl_zcomplex 型 )に、各々読み替えてください。

なお、環境変数に関しては、DPSLDLT、ZPSLDLT ともに共通です。

DPSLDLT では、対称疎行列に対する並列化対応直接法ソルバを提供し、以下のルーチンより構成され

ています。これらのルーチンの詳細については、本節以降をご参照ください。

DPSLDLT_Destroy, DPSLDLT_ExtractPerm, PSLDDLT_Factor, DPSLDLT_FactorOOC,

73

日本 SGI 株式会社

DPSLDLT_OOCLimit, DPSLDLT_OOCPath, DPSLDLT__Ordering, DPSLDLT_Preprocess,

DPSLDLT_PreprocessZ, DPSLDLT_Solve, DPSLDLTT_SolveM, DPSLDLT_Storage

5.3.1. 関数一覧

以下に、各関数の引数のデータ型を示します。各引数についての説明は、第 5.3.10 節引数の説明を

ご参照ください。

5.3.1.1. FORTRAN

SUBROUTINE DPSLDLT_DESTROY (token)

INTEGER

token

SUBROUTINE DPSLDLT_EXTRACTPERM (token, perm)

INTEGER

token, perm(*)

SUBROUTINE DPSLDLT_FACTOR (token, n, pointers, indices, values)

INTEGER

token, n, pointers(*), indices(*)

DOUBLE PRECISION values(*)

SUBROUTINE DPSLDLT_FACTOROOC (token, n, pointers, indices, values)

INTEGER

token, n, pointers(*), indices(*)

DOUBLE PRECISION values(*)

SUBROUTINE DPSLDLT_OOCLIMIT (token, ooclimit)

INTEGER

token

DOUBLE PRECISION ooclimit

SUBROUTINE DPSLDLT_OOCPATH (token, oocpath, length)

INTEGER

token, length

CHARACTER

oocpath(*)

SUBROUTINE DPSLDLT_ORDERING (token, method)

INTEGER

token, method

SUBROUTINE DPSLDLT_PREPROCESS (token, n, pointes, indices,non_zeros, ops)

INTEGER

token, n, pointers(*), indices(*)

INTEGER*8

non_zeros

DOUBLE PRECISION ops

74

日本 SGI 株式会社

SUBROUTINE DPSLDLT_PREPROCESSZ (token, n, pointers, indices, mask, non_zeros, ops)

INTEGER

INTEGER*8

DOUBLE PRECISION

token, n, pointers(*), indices(*), mask(*)

non_zeros

ops

SUBROUTINE DPSLDLT_SOLVE (token, x, b)

INTEGER

token

DOUBLE PRECISION x(*), b(*)

SUBROUTINE DPSLDT_SOLVEM (token, X, ldx, B, ldb, nrhs)

INTEGER

Token, ldx, ldb, nrhs

DOUBLE PRECISION X(*), B(*)

DOUBLE PRECISION FUNCTION DPSLDLT_STORAGGE(token)

INTEGER

token

5.3.1.2. C/C++

#include

void DPSLDLT_Destroy (int token );

void DPSLDLT_ExtractPerm (int token int perm[];

void DPSLDLT_Factor (int token, int n, int pointers[], intindices[], double values[] );

void DPSLDLT_FactorOOC (int token, int n, int pointers[], intindices[], double values[] );

void DPSLDLT_OOCLimit (int token, double ooclimit );

void DPSLDLT_OOCPath (int token, char oocpath );

void DPSLDLT_Ordering (int token, int method );

void DPSLDLT_Preprocess (int token, int n, int ponters[], int indices[], long long

*non_zeros, double *ops );

void DPSLDLT_PreprocessZ (int token, int n, int pointers[], intindices[], int mask[], long

75

日本 SGI 株式会社

long *non_zeros, double *ops );

void DPSLDLT_Solve (int token, double x[], doublle b[] );

void DPSLDLT_SolveM (int token, double X[], int ldx, double B[], int ldb, int nrhs);

double DPSLDLT_Storage (int token);

5.3.2. 詳細

DPSLDLT は、疎行列の対称線形方程式 Ax=b を解きます。ここで、A は n×n の対称行列、b は次元 n

の右辺ベクトル、x は次元 n の解ベクトルです。

DPSLDLT は、直接法を用いています。A は次の形式に分解できます。

A = L D L T

ここで、L は対角要素が 1 の下三角行列、D は対角項だけの行列を示しています。

このルーチンは、倍精度版だけが用意されており、SCSL の並列化にも対応しています。

このルーチンではピボッティングを行わないことに注意してください。

DPSLDLT ライブラリは、5 つのメインルーチンから構成されています。

• DPSLDLT_Ordering() は、行列の前処理段階で使われる 5 つのオーダリング方法を選択します。

• DPSLDLT_Preprocess() は、行列 A の構造に対して前処理を行います。(L のフィルインを減少させ

るオーダリングや、シンボル分解など)

• DPSLDLT_Factor() は、先に処理した行列 A を L と D に分解します。

• DPSLDLT_Solve() は、右辺 bベクトルに対する解ベクトルxを求めます。

• DPSLDLT_Destroy() は、行列 A の分解に使用したメモリ領域を開放します。(L, D の他に前処理段

階で必要となるデータ構造などを含みます。)

非ゼロ要素の位置は同じで値が異なる行列、すなわち、構造が同じ行列であれば、

DPSLDLT_Preprocess()は一度だけ呼べばよく、それらの行列を L と D に分解するための

DPSLDLT_Factor()は複数回呼び出すことが可能です。同様に、複数の右辺を解くために、

76

日本 SGI 株式会社

DPSLDLT_Factor()を 1 回呼び出した後、DPSLDLT_Solve()を複数回呼び出すことも可能です。また、複

数の右辺を 1 次元の配列にすべて格納して、DPSLDLT_SolveM()を呼び出すことも可能です。

5.3.3. 疎行列の格納形式

疎行列 A は、DPSLDLT に対して、ハーウェルボーイング (Compressed Column Storage の名でも呼ば

れています) 形式の入力でなければなりません。

対象とする行列は、pointers, indices, values の 3 つ配列から構成されています。Indices 配列は、配列 A

の非ゼロ要素の行番号を格納しています。Values 配列は、その位置の非ゼロ要素の値を格納します。

Pointers 配列は、配列 A の各列について最初の非ゼロ要素が何番目の非ゼロ要素かを格納した配列で

す。こうして、i 列目の非ゼロ要素に対する行番号は、indices[pointers[i]]から indices[pointers[i+1]-1]に

格納されています。それに対応する配列 A の非ゼロ要素の値は、 values[pointers[i]]から

values[pointers[i+1]-1]に格納されています。

対称行列 A に対しては、A の下三角あるいは上三角のどちらかを与えれば良く、両方を与える必要はあ

りません。A の同じ列内の要素については順序は問いません。

対称行列に対する例を以下に示します。

1.0

0.0 3.0

2.0 0.0 5.0

0.0 4.0 0.0 6.0

は、FORTRAN では次のように記述されます。

INTEGER pointers(5), indices(6), i

DOUBLE PRECISION values(6)

DATA (pointers(i), i = 1, 5) / 1, 3, 5, 6, 7 /

DATA (indices(i), i = 1, 6) / 1, 3, 2, 4, 3, 4 /

DATA (values(i), i = 1, 6) / 1.0, 2.0, 3.0, 4.0, 5.0, 6.0 /

C の様に 0 から始まる添字で示すと、pointers と indices の配列は、次のようになります。

Int pointers[] = {0, 2, 4, 5, 6}

77

日本 SGI 株式会社

int indices[] = {0, 2, 1, 3, 2, 3}

double values[] = {1.0, 2.0, 3.0, 4.0, 5.0, 6.0}

5.3.4. オーダリングの方法

DPSLDLT_Ordering(token, method) ルーチンは、行列の分解を行う前に前処理に用いるオーダリングの

方法を変更します。このルーチンは DPSLDLT_Preprocess の前に呼び出さなければなりません。現在、5

種類の method の指定ができます。

• Method 0 は前処理のオーダリングを行わない。

• Method 1 フィルインが最小となるようなオーダリング

• Method 2 シングルネスト分析によるオーダリング(デフォルト)

• Method 3 マルチプルネスト分析によるオーダリング( 並列化対応 )

• Method 4 マルチプルネスト分析によるオーダリング( 並列化対応 )

メソッド 4 では、同じ行列構造に対しては前回の結果を学習してもっとも効率的なオーダリングを行

ないます。メソッド 3 と 4 は同じマルチプルネスト分析のアルゴリズムを採用しています。

メソッド 2 はメソッド 1 に比較して、演算量は多くなりますが、はるかに良いオーダリングを行います。メソ

ッド 3 は、特にマルチプロセッサのシステムで有効です。メソッド 3 は、OMP_NUM_THREADS (OpenMP で

使用するプロセッサ数を指定する環境変数 ) 種類の行列のオーダリングの評価を並列に行ない、行列

の分解段階でもっとも浮動小数点演算が減るようなオーダリングを選択します。

メソッド 4 は、同じ非ゼロ要素構造の行列に対して、複数の右辺に対する解を求める場合にだけに使用

します。メソッド 4 は、「学習」ファイルに最大 200 個分の行列の構造と前回の履歴情報を記録します。次

回のメソッド 4 の呼び出しでは、同じ非ゼロ構造の行列に対して、2 * OMP_NUM_THREADS 種類のオー

ダリングを評価して、もっとも浮動小数点演算が少なくなるオーダリングを選択します。こうして、オーダリ

ングの質は計算を続けるにしたがって改良され続けます。

メソッド 3 と 4 は、デフォルトの行列の前処理よりも計算時間を要します。しかし、大規模な系あるいは分

解を繰り返すにしたがい、メソッド 2 に対してソルバ全体で大幅な性能改善 (1.1〜2 倍程度 )が得られま

す。

5.3.5. 置換ベクトル

メソッド 0 を選択しない場合、DPSLDLT は、行列 A に対して行列の分解を行なう前に行の入れ替えを行

ないます。その結果、一般的に行の入れ替えを終えた行列はオリジナルの行列に対してフィルインが減

78

日本 SGI 株式会社

少します。また、token の対応した行の入れ替えを行なった行列を DPSLDLT_ExtractPerm(token, perm)

を呼び出すことで得ることができます。置換ベクトルは、大きさ n の 1 次元の配列 1≦perm(i) ≦n に戻り

ます。 (C コードに対しては 0 ≦perm[i] < n です。 )

perm(i)の k の値は、オリジナルの i 行の値が新しいオーダリングでは k 行になることを表しています。

5.3.6. 対角項がゼロになる行列

先に述べたように、行列の分解では安定性向上のためのピボッティングを行いません。対角項がゼロ、

あるいはゼロに非常に近い場合、DPSLDLT はエラーメッセージを出力し実行を停止します。この場合、

わずかに結果が異なるかも知れませんが、安定性の高いオーダリングを行う DPSLDLT_PreprocessZ()

を使用することが可能です。この場合、DPSLDLT_PreprocessZ()に対して整数型の配列 mask が必要に

なります。もし、mask(i)=0 であれば、DPSLDLT はできるかぎり対角項の|Aii|が最大になるようにオーダリ

ングをします。

5.3.7. メモリの使用量

DPSLDLT_Storage()は、行列のデータ構造に応じて必要とされるメモリの総量の見積りをメガ・バイト単

位で返します。

5.3.8. アウトオブコア分解

分解に必要な 2 種類のメモリ管理方法のルーチンを提供します。 DPSLDLT_Factor()は、分解に必要な

メモリを内部的に確保した後、DPSLDLT_Destroy()が呼ばれるまで確保し続けます。もう一つは、アウト

オブコア分解のルーチンである DPSLDLT_FactorOOC()です。このルーチンでは、メモリの使用量は少な

くて済みますが、残りの必要な領域をディスク上に確保します。DPSLDLT_OOCPath()は、分解ファイル

が作成されるディレクトリを指示し、DPSLDLT_OOCLimit()は、行列の分解に必要とされるメモリ領域の上

限を与えます。より多くのメモリを使用すれば、ディスク I/O は減少して行列分解部分の性能が向上しま

す。インコア分解からアウトオブコア分解へは、DPSLDLT_Factor()を DPSLDLT_FactorOOC()に変更す

るだけです。他のルーチン(DPSLDLT_Solve(), DPSLDLT_Destroy()など)は、アウトオブコア分解ルーチン

と互換性があるように設計されています。DPSLDLT_FactorOOC とそれに続く DPSLDLT_Solve の呼び出

しは並列化されていないことに注意してください。

5.3.9. 複数の右辺に対する解

DPSLDLT は、DPSLDLT_SolveM()を 1 回呼び出すことで、複数の右辺に対する解を求めます。

79

日本 SGI 株式会社

DPSLDLT_SolveM()は、これらの右辺に対する計算を各プロセッサで並列に行ないます。

5.3.10. 各ルーチンの引数の説明

DPSLDLT の各ルーチンは以下の引数をとります。

引数

説明

token

( 入力 ) DPSLDLT は同時に複数の行列を扱うことができます。Token は、行列の選

択に使用します。DPSLDLT_Factor()に渡される token は、同じ token で、以前に

DPSLDLT_Preprocess()で呼び出されていなければなりません。同様に、

DPSLDLT_Solve()に渡される token は、以前に DPSLDLT_Factor()で呼び出されてい

なければなりません。

method ( 入力 ) オーダリングの選択を行なう整数型変数 0 ≦ method ≦ 4

n ( 入力 ) 行列 A の行と列の数。N ≧ 0

pointers ( 入力 ) pointers と indices 配列は、疎行列 A の非ゼロ要素の構造をハーウェルボー

indices, イング(Compressed Column Storage の名前でも呼ばれています) 形式で格納しま

values

す。Pointers 配列は n+1 個の整数型で、pointers[i]は行列 A の i 列目の最初の非ゼ

ロ要素の順番を与えます。Indices 配列は、A の非ゼロ要素の行番号を格納します。

Values 配列は、配列 A の非ゼロ要素の値を格納します。

non_zeros ( 出力 ) 下三角行列 L の非ゼロ要素の個数。

ops

( 出力 ) 行列 A の分解に必要な浮動小数点演算回数

mask

( 入力 ) DPSLDLT_PreprocessZ()で使用される次元 n の整数型配列。Mask(i)=0 であ

れば、ピボッティングのゼロ割りを避けるようにオーダリングされる。

b

( 入力 ) DPSLDLT_Solve の呼び出しの右辺ベクトルを格納する。

x

( 出力 ) DPSLDLT_Solve の呼び出しの解ベクトルを格納する。

nrhs ( 入力 ) DPSLDLT_SolveM()の呼び出しで、解くべき右辺ベクトルの組数。

B

( 入力 ) DPSLDLT_SolveM()の右辺行列。列方向優先の格納形式で、各次元は n でな

ければならない。

X

( 出力 ) DPSLDLT_SolveM()の呼び出した後、解を格納する配列。列方向優先の格納

形式で、各次元は n でなければならない。

oocpath ( 入力 ) 文字型の配列あるいは変数。アウトオブコアの行列分解ファイルを格納する

場所を指定する。もし、ストライプ(RAID 0 など)されたファイルシステムが指定されて

いるのであれば、アウトオブコアのソルバの性能が向上します。デフォルトは

/usr/tmp です。

length

( 入力 ) oocpath の文字列の文字数

occlimit ( 入力 ) 倍精度型変数。DPSLDLT_FactorOOC の呼び出しで使用されるメモリ量を M

バイト単位で指定する。行列を直接格納する配列以外に大量の作業領域が必要な

ことに注意してください。デフォルト値は 64M バイトです。

perm

( 出力 ) n 次元の整数型配列。行列 A の置換ベクトルを格納する。

ldb

( 入力 ) 行列 B のリーディングディメンジョン。ldb ≧ n

ldx

( 入力 ) 行列 X のリーディングディメンジョン。ldx ≧ n

80

日本 SGI 株式会社

5.3.11. 環境変数

メソッド 3 とメソッド 4 のオーダリングに影響する環境変数は 2 つあります。SPARSE_NUM_ORDERS は、

オーダリングの評価を行なう種類を、デフォルト値 (メソッド 3 では OMP_NUM_THREADS、メソッド 4 では

(2*OMP_NUM_THREADS))と異なる数に設定する場合に使用します。SPARSE_FEEDBACK_FILE は、「学

習」ファイルが作成されるパスとファイル名を指定します。デフォルトでは「学習」ファイルは

$HOME/.sparseFeedback に作成されます。このファイルは 5K バイト以下の大きさです。

環境変数 OMP_NUM_THREADS は、行列の分解を行なう時に使用するプロセッサ数を指定します。アウト

オブコアのソルバは並列化に対応していません。環境変数 PSLDLT_VERBOSE を設定することにより、

行列の分解過程のさまざまな情報を出力します。

5.4. DPSLDU、ZPSLDU ルーチン

ここでは、非対称疎行列直接解法 DPSLDU、ZPSLDU ルーチンの使用方法に関して説明します。以下で

は倍精度実数版を例に説明しますが、倍精度複素数版も基本的には同じです。倍精度複素数版の場合

には、関数の接頭文字 D をZに、ops と ooclimit を除く引数の DOUBLE PRECISION 型を COMPLREX*16

型 (C/C++では double 型を scsl_zcomplex 型 )に、各々読み替えてください。

なお、環境変数に関しては DPSLDU、ZPSLDU ともに共通です。

DPSLDU ルーチンでは、以下の非対称疎行列に対する並列化対応直接法ソルバを提供します。これら

のルーチンの詳細については、本節以降をご参照ください。

DPSLDU_Destroy, DPSLDU_ExtractPerm, PSLDDLT_Factor, DPSLDU_FactorOOC,

DPSLDU_OOCLimit, DPSLDU_OOCPath, DPSLDU__Ordering, DPSLDU_Preprocess,

DPSLDU_PreprocessZ, DPSLDU_Solve, DPSLDUT_SolveM, DPSLDU_Storage

5.4.1. 関数一覧

以下に、各関数の引数のデータ型を示します。各引数についての説明は、第 5.3.10 節引数の説明を

ご参照ください。

5.4.1.1. FORTRAN

SUBROUTINE DPSLDU_DESTROY (token)

INTEGER

token

SUBROUTINE DPSLDU_EXTRACTPERM (token, perm)

81

日本 SGI 株式会社

INTEGER token

perm(*)

SUBROUTINE DPSLDU_FACTOR (token, n, pointers, indices, values)

INTEGER

token, n, pointers(*), indices(*)

DOUBLE PRECISION values(*)

SUBROUTINE DPSLDU_FACTOROOC (token, n, pointers, indices, values)

INTEGER

token, n, pointers(*), indices(*)

DOUBLE PRECISION values(*)

SUBROUTINE DPSLDU_OOCLIMIT (token, ooclimit)

INTEGER

token

DOUBLE PRECISION ooclimit

SUBROUTINE DPSLDU_OOCPATH (token, oocpath, length)

INTEGER

token, length

CHARACTER

oocpath(*)

SUBROUTINE DPSLDU_ORDERING (token, method)

INTEGER

token, method

SUBROUTINE DPSLDU_PREPROCESS (token, n, pointes, indices,non_zeros, ops)

INTEGER

token, n, pointers(*), indices(*)

INTEGER*8

non_zeros

DOUBLE PRECISION ops

SUBROUTINE DPSLDU_PREPROCESSZ (token, n, pointers, indices, mask,non_zeros, ops)

INTEGER

token, n, pointers(*), indices(*), mask(*)

INTEGER*8

non_zeros

DOUBLE PRECISION ops

SUBROUTINE DPSLDU_SOLVE (token, x, b)

INTEGER

token

DOUBLE PRECISION x(*), b(*)

SUBROUTINE DPSLDU_SOLVEM (token, X, ldx, B, ldb, nrhs)

INTEGER

token, ldx, ldb, nrhs

DOUBLE PRECISION X(*), B(*)

DOUBLE PRECISION FUNCTION DPSLDU_STORAGGE(token)

INTEGER

token

82

日本 SGI 株式会社

5.4.1.2. C/C++

#include

void DPSLDU_Destroy (int token );

void DPSLDU_ExtractPerm (int token int perm[];

void DPSLDU_Factor (int token, int n, int pointers[], intindices[], double values[] );

void DPSLDU_FactorOOC (int token, int n, int pointers[], int indices[], double values[] );

void DPSLDU_OOCLimit (int token, double ooclimit );

void DPSLDU_OOCPath (int token, char oocpath );

void DPSLDU_Ordering (int token, int method );

void DPSLDU_Preprocess (int token, int n, int ponters[], int indices[], long long

*non_zeros, double *ops );

void DPSLDU_PreprocessZ (int token, int n, int pointers[], int indices[], int mask[], long

long *non_zeros, double *ops );

void DPSLDU_Solve (int token, double x[], doublle b[] );

void DPSLDU_SolveM (int token, double X[], int ldx, double B[], int ldb, int nrhs);

double DPSLDU_Storage (int token);

5.4.2. 詳細

DPSLDU は、疎行列の非対称線形方程式 Ax=b を解きます。ここで、A は n×n の非対称行列、b は次元

n の右辺ベクトル、x は次元 n の解ベクトルです。

DPSLDU は、直接法を用いています。A は次の形式に分解できます。

A = L D U

83

日本 SGI 株式会社

ここで、L は対角要素が 1 の下三角行列、D は対角項だけの行列、U は対角要素が 1 の上三角行列を

示しています。

このルーチンは、倍精度版だけが用意されており、SCSL の並列化にも対応しています。

このルーチンではピボッティングを行わないことに注意してください。

DPSLDU ライブラリは、5 つのメインルーチンから構成されています。

• DPSLDU_Ordering() は、行列の前処理段階で使われる 5 つのオーダリング方法を選択します。

• DPSLDU_Preprocess() は、行列 A の構造に対して前処理を行います。(L のフィルインを減少させる

オーダリングや、シンボル分解など)

• DPSLDU_Factor() は、先に処理した行列 A を L と D と U に分解します。

• DPSLDU_Solve() は、右辺 b ベクトルに対する解ベクトル x を求めます。

• DPSLDU_Destroy() は、行列 A の分解に使用したメモリ領域を開放します。(L, D,U の他に前処理段

階で必要となるデータ構造などを含みます。)

非ゼロ要素の位置は同じで値が異なる行列、すなわち、構造が同じ行列であれば、

DPSLDLT_Preprocess()は一度だけ呼べばよく、それらの行列を L と D に分解するための

DPSLDLT_Factor()は複数回呼び出すことが可能です。同様に、複数の右辺を解くために、

DPSLDU_Factor()を 1 回呼び出した後、DPSLDU_Solve()を複数回呼び出すことも可能です。また、複数

の右辺を 1 次元の配列にすべて格納して、DPSLDU_SolveM()を呼び出すことも可能です。

5.4.3. 疎行列の格納形式

疎行列 A は、DPSLDU に対して、ハーウェルボーイング(Compressed Column Storage の名でも呼ばれ

ています) 形式の入力でなければなりません。

対象とする行列は、pointers, indices, values の 3 つ配列から構成されています。indices 配列は、配列 A

の非ゼロ要素の行番号を格納しています。values 配列は、その位置の非ゼロ要素の値を格納します。

pointers 配列は、配列 A の各列について最初の非ゼロ要素が何番目の非ゼロ要素かを格納した配列で

す。こうして、i 列目の非ゼロ要素に対する行番号は、indices[pointers[i]]から indices[pointers[i+1]-1]に

格納されています。それに対応する配列 A の非ゼロ要素の値は、 values[pointers[i]]から

values[pointers[i+1]-1]に格納されています。

行列 A に対して、同一列内の非ゼロ要素は、行番号が大きくなる順番に格納されていなければなりませ

ん。

84

日本 SGI 株式会社

非対称行列に対する例を以下に示します。

1.0 0.0 5.0 0.0

0.0 3.0 0.0 8.0

2.0 0.0 7.0 0.0

0.0 4.0 0.0 9.0

は、FORTRAN では次のように記述されます。

INTEGER pointers(5), indices(8), i

DOUBLE PRECISION values(8)

DATA (pointers(i), i = 1, 5) / 1, 3, 5, 7, 9 /

DATA (indices(i), i = 1, 8) / 1, 3, 2, 4, 1, 3, 2, 4 /

DATA (values(i), i = 1, 8) / 1.0, 2.0, 3.0, 4.0, 5.0, 7.0, 8.0, 9.0 /

C の様に 0 から始まる添字で示すと、pointers と indices の配列は、次のようになります。

int pointers[] = {0, 2, 4, 6, 8}

int indices[] = {0, 2, 1, 3, 0, 2, 1, 3}

double values[] = {1.0, 2.0, 3.0, 4.0, 5.0, 7.0, 8.0, 9.0}

5.4.4. オーダリングの方法

DPSLDU_Ordering(token, method) ルーチンは、行列の分解を行う前に前処理に用いるオーダリングの

方法を変更します。このルーチンは DPSLDU_Preprocess の前に呼び出さなければなりません。現在、5

種類の method の指定ができます。

• Method 0 は前処理のオーダリングを行わない。

• Method 1 フィルインが最小となるようなオーダリング

• Method 2 シングルネスト分析によるオーダリング(デフォルト)

• Method 3 マルチプルネスト分析によるオーダリング( 並列化対応 )

• Method 4 マルチプルネスト分析によるオーダリング( 並列化対応 )

メソッド 4 では、同じ行列構造に対しては前回の結果を学習してもっとも効率的なオーダリングを行

ないます。メソッド 3 と 4 は同じマルチプルネスト分析のアルゴリズムを採用しています。

85

日本 SGI 株式会社

メソッド 2 はメソッド 1 に比較して、演算量は多くなりますが、はるかに良いオーダリングを行ないます。メ

ソッド 3 は、特にマルチプロセッサのシステムで有効です。

メソッド 3 は、OMP_NUM_THREADS(OpenMP で使用するプロセッサ数を指定する環境変数 )

種類の行列のオーダリングの評価を並列に行ない、行列の分解段階でもっとも浮動小数点演算が減る

ようなオーダリングを選択します。

メソッド 4 は、同じ非ゼロ要素構造の行列に対して、複数の右辺に対する解を求める場合にだけに使用

します。メソッド 4 は、「学習」ファイルに最大 200 個分の行列の構造と前回の履歴情報を記録します。次

回のメソッド 4 の呼び出しでは、同じ非ゼロ構造の行列に対して、2 * OMP_NUM_THREADS 種類のオー

ダリングを評価して、もっとも浮動小数点演算が少なくなるオーダリングを選択します。こうして、オーダリ

ングの質は計算を続けるにしたがって改良され続けます。

メソッド 3 と 4 は、デフォルトの行列の前処理よりも計算時間を要します。しかし、大規模な系あるいは分

解を繰り返すにしたがい、メソッド 2 に対してソルバ全体で大幅な性能改善 (1.1〜2 倍程度 )が得られま

す。

5.4.5. 置換ベクトル

メソッド 0 を選択しない場合、DPSLDU は、行列 A に対して行列の分解を行なう前に行の入れ替えを行な

います。その結果、一般的に行の入れ替えを終えた行列はオリジナルの行列に対してフィルインが減少

します。また、token の対応した行の入れ替えを行なった行列を DPSLDU_ExtractPerm(token, perm)を呼

び出すことで得ることができます。置換ベクトルは、大きさ n の 1 次元の配列 1≦perm(i)≦n に戻ります。

(C コードに対しては 0≦perm[i]

5.4.7. メモリの使用量

DPSLDU_Storage()は、行列のデータ構造に応じて必要とされるメモリの総量の見積りを M バイト単位で

返します。

5.4.8. アウトオブコア分解

分解に必要な 2 種類のメモリ管理方法のルーチンを提供します。 DPSLDU_Factor()は、分解に必要なメ

モリを内部的に確保した後、DPSLDU_Destroy()が呼ばれるまで確保し続けます。もう一つは、アウトオブ

コア分解のルーチンである DPSLDU_FactorOOC() です。このルーチンでは、メモリの使用量は少なくて

済みますが、残りの必要な領域をディスク上に確保します。DPSLDU_OOCPath()は、分解ファイルが作

成されるディレクトリを指示し、DPSLDU_OOCLimit()は、行列の分解に必要とされるメモリ領域の上限を

与えます。より多くのメモリを使用すれば、ディスク I/O は減少して行列分解部分の性能が向上します。

インコア分解からアウトオブコア分解へは、DPSLDU_Factor()を DPSLDU_FactorOOC()に変更するだけ

です。他のルーチン(DPSLDU_Solve(), DPSLDU_Destroy()など)は、アウトオブコア分解ルーチンと互換性

があるように設計されています。DPSLDU_FactorOOC とそれに続く DPSLDU_Solve の呼び出しは並列化

されていないことに注意してください。

5.4.9. 複数の右辺に対する解

DPSLDU は、DPSLDU_SolveM()を 1 回呼び出すことで、複数の右辺に対する解を求めます。

DPSLDU_SolveM()は、これらの右辺に対する計算を各プロセッサで並列に行ないます。

5.4.10. 各ルーチンの引数の説明

DPSLDU の各ルーチンは以下の引数をとります。

引数

説明

token

( 入力 ) DPSLDU は同時に複数の行列を扱うことができます。token は、行列の選択

に使用します。DPSLDU_Factor()に渡される token は、同じ token で以前に

DPSLDU_Preprocess()で呼び出されていなければなりません。同様に、

DPSLDU_Solve()に渡される token は、以前に DPSLDU_Factor()で呼び出されていな

ければなりません。

method ( 入力 ) オーダリングの選択を行なう整数型変数 0 ≦ method ≦ 4

n ( 入力 ) 行列 A の行と列の数。n ≧ 0

pointers ( 入力 ) pointers と indices 配列は、疎行列 A の非ゼロ要素の構造をハーウェルボー

indices

イング(Compressed Column Storage の名前でも呼ばれています) 形式で格納しま

values

す。pointers 配列は n+1 個の整数型で、pointers[i]は行列 A の i 列目の最初の非ゼ

ロ要素の順番を与えます。indices 配列は、A の非ゼロ要素の行番号を格納します。

values 配列は、配列 A の非ゼロ要素の値を格納します。

87

日本 SGI 株式会社

non_zeros ( 出力 ) 非ゼロ要素の個数。

ops

( 出力 ) 行列 A の分解に必要な浮動小数点演算回数

mask

( 入力 ) DPSLDU_PreprocessZ()で使用される次元 n の整数型配列。mask(i)=0 であれ

ば、ピボッティングのゼロ割りを避けるようにオーダリングされる。

b

( 入力 ) DPSLDU_Solve の呼び出しの右辺ベクトルを格納する。

x

( 出力 ) DPSLDU_Solve の呼び出しの解ベクトルを格納する。

nrhs ( 入力 ) DPSLDU_SolveM()の呼び出しで、解くべき右辺ベクトルの組数。

B

( 入力 ) DPSLDU_SolveM()の右辺行列。列方向優先の格納形式で、各次元は n でな

ければならない。

X

( 出力 ) DPSLDU_SolveM()の呼び出した後、解を格納する配列。列方向優先の格納

形式で、各次元は n でなければならない。

oocpath ( 入力 ) 文字型の配列あるいは変数。アウトオブコアの行列分解ファイルを格納する

場所を指定する。もし、ストライプ(RAID 0 など)されたファイルシステムが指定されて

いるのであれば、アウトオブコアのソルバの性能が向上します。デフォルトは

/usr/tmp です。

length

( 入力 ) oocpath の文字列の文字数

occlimit ( 入力 ) 倍精度型変数。DPSLDU_FactorOOC の呼び出しで使用されるメモリ量を M バ

イト単位で指定する。行列を直接格納する配列以外に大量の作業領域が必要なこと

に注意してください。デフォルト値は 64M バイトです。

perm

( 出力 ) n 次元の整数型配列。行列 A の置換ベクトルを格納する。

ldb

( 入力 ) 行列 B のリーディングディメンジョン。ldb ≧ n

ldx

( 入力 ) 行列 X のリーディングディメンジョン。ldx ≧ n

5.4.11. 環境変数

メソッド 3 とメソッド 4 のオーダリングに影響する環境変数は 2 つあります。SPARSE_NUM_ORDERS は、

オーダリングの評価を行なう種類を、デフォルト値 (メソッド 3 では OMP_NUM_THREADS、メソッド 4 では

(2*OMP_NUM_THREADS)) と異なる数に設定する場合に使用します。SPARSE_FEEDBACK_FILE は、

「学習」ファイルが作成されるパスとファイル名を指定します。デフォルトでは「学習」ファイルは

$HOME/.sparseFeedback に作成されます。このファイルは 5K バイト以下の大きさです。

環境変数 OMP_NUM_THREADS は、行列の分解を行なう時に使用するプロセッサ数を指定します。アウト

オブコアのソルバは並列化に対応していません。環境変数 PSLDU_VERBOSE を設定することにより、行

列の分解過程のさまざまな情報を出力します。

5.5. DIterative ルーチン

Diterative ルーチンでは、以下の疎行列に対する並列化対応反復法ソルバを提供します。これらのルー

チンの詳細については、本節以降をご参照ください。

88

日本 SGI 株式会社

• DIterative

• DIterative_DropTol

• DIterative_DropStorage

5.5.1. 関数一覧

Diterative の各ルーチンは以下の引数をとります。引数の詳細に関しては、第 5.5.4 節引数の説明をご

参照ください。

5.5.1.1. FORTRAN

SUBROUTINE DITERATIVE (n, pointers, indices, values, storage, x, b, method, precond,

maxiters, convtol, iters, finalres)

INTEGER

n, storage, method, precond, maxiters, iters

INTEGER

pointers(*), indices(*)

DOUBLE

PRECISION values(*), x(*), b(*)

DOUBLE PRECISION convtol, finalres

SUBROUTINE DITERATIVE_DROPTOL (DropTolerance)

DOUBLE PRECISION DropTolerance

SUBROUTINE DITERATIVE_DROPSTORAGE (Storage_Multiplier)

DOUBLE PRECISION Storage_Multiplier

5.5.1.2. C/C++

#include

void DIterative (int n, int pointers[], int indices[], double values[], int storage, double x[], double b[], int

method, int precond, int maxiters, double convtol, int *iters, double *finalres)

void DIterative_DropTol (double drop_tolerance );

void DIterative_DropStorage (double storage_multiplier );

5.5.2. 詳細

Diterative ルーチンは、疎な線形方程式 Ax=bを解くために反復法を用います。解法は4つの前処理付

89

日本 SGI 株式会社

反復法の中から選択できます。対称行列向けには共役勾配 (CG) 法、共役残差法、非対称行列向けに

は共役勾配二乗 (CGS) 法およびその変種で収束過程がよりスムーズな双共役勾配安定 (BiCGSTAB)

法が利用できます。

前処理としては、ヤコビ、対称逐次緩和 (SSOR) 法、no-fill ILU として知られる、パターンによる不完全

LU 分解、スレッシュホールド ILU として知られる、値による不完全 LU 分解の4つの方法が利用できます。

不完全 LU 分解による前処理は対称行列にのみ適用できます。現在、値による不完全 LU 分解の並列化

はされていません。

値による不完全 LU 分解のパラメータの設定のために以下の2つのルーチンがあります。

• DIterative_DropTol() は不完全 LU 分解の drop tolerance を設定します。

• DIterative_DropStorage() は不完全 LU 分解の要素を格納するメモリの容量を設定します。

5.5.3. 疎行列の格納形式

疎行列 A は DIterative ルーチンに対して、列圧縮格納形式 (ハーウェルボーイングの名でも呼ばれてい

ます)、または行圧縮格納形式で入力しなければなりません。

5.5.3.1. 列圧縮格納形式

対象とする行列は、pointers, indices, values の 3 つ配列から構成されています。列圧縮格納形式では

indices 配列は、行列 A の非ゼロ要素の行番号を格納しています。values 配列は、その位置の非ゼロ要

素の値を格納します。pointers 配列は、配列 A の各列について最初の非ゼロ要素が何番目の非ゼロ要

素かを格納した配列です。こうして、i 列目の非ゼロ要素に対する行番号は、indices[pointers[i]から

indices[pointers[i+1]-1]に格納されています。それに対応する行列 A の非ゼロ要素の値は、

values[pointers[i]]から values[pointers[i+1]-1]に格納されています。

対称行列 A に対しては、A の下三角あるいは上三角のどちらかを与えれば良く、両方を与える必要はあ

りません。A の同じ列内の要素については順序は問いません。

対称行列に対する例を以下に示します。

1.0

0.0 3.0

2.0 0.0 5.0

0.0 4.0 0.0 6.0

90

日本 SGI 株式会社

は、FORTRAN では次のように記述されます。

INTEGER pointers(5), indices(6), i

DOUBLE PRECISION values(6)

DATA (pointers(i), i = 1, 5) / 1, 3, 5, 6, 7 /

DATA (indices(i), i = 1, 6) / 1, 3, 2, 4, 3, 4 /

DATA (values(i), i = 1, 6) / 1.0, 2.0, 3.0, 4.0, 5.0, 6.0 /

C の様に 0 から始まる添字で示すと、pointers と indices の配列は、次のようになります。

int pointers[] = {0, 2, 4, 5, 6}

int indices[] = {0, 2, 1, 3, 2, 3}

double values[] = {1.0, 2.0, 3.0, 4.0, 5.0, 6.0}

5.5.3.2. 行圧縮格納形式

行圧縮格納形式では、indices 配列は、行列 A の非ゼロ要素の列番号を格納しています。values 配列は、

その位置の非ゼロ要素の値を格納します。pointers 配列は、行列 A の各行について最初の非ゼロ要素

の場所を格納した配列です。こうして、i 行目の非ゼロ要素に対する列番号は、indices[pointers[i]から

indices[pointers[i+1]-1]に格納されています。それに対応する列 A の非ゼロ要素の値は、

values[pointers[i]]から values[pointers[i+1]-1]に格納されています。

上記例と同じ対称行列に対する例を示します。

1.0

0.0 3.0

2.0 0.0 5.0

0.0 4.0 0.0 6.0

行圧縮格納形式を用いると、FORTRAN では次のように記述されます。

INTEGER pointers(5), indices(6), i

DOUBLE PRECISION values(6)

DATA (pointers(i), i = 1, 5) / 1, 2, 3, 5, 7 /

DATA (indices(i), i = 1, 6) / 1, 2, 1, 3, 2, 4 /

DATA (values(i), i = 1, 6) / 1.0, 3.0, 2.0, 5.0, 4.0, 6.0 /

C 言語で用いられる、0からはじまるインデックスで表すと pointers と indeices 配列は次のようになりま

91

日本 SGI 株式会社

す。

int pointers[] = {0, 1, 2, 4, 6}

int indices[] = {0, 1, 0, 2, 1, 3}

double values[] = {1.0, 3.0, 2.0, 5.0, 4.0, 6.0}

5.5.4. 引数

DIterative ルーチンは以下の引数をとります。

引数

n

pointers

indices

values

説明

( 入力 ) 行列 Aの行と列の数を示す整数。 n>=0

( 入力 ) 配列 pointers と indices は疎行列 Aの 0 を含まない構造を行圧縮格納形式、

または列圧縮格納形式で持ちます。

列圧縮格納形式では、pointers 配列は n+1 個の整数を持ち、pointers[i]は疎行列 A

の i 行目の非零要素の、配列 indices での最初の位置を示します。配列 indices は行

列 Aの非零要素の行のインデックスを持ちます。values 配列は行列 Aの非零要素の

値を持ちます。

storage

( 入力 ) 行列データが行圧縮格納形式と列圧縮格納形式のどちらであるかを示しま

す。storage=0 であれば、列圧縮格納形式とみなします。storage=1 であれば、行圧

縮格納形式とみなします。

x

( 入力 / 出力 )ベクトルxの初期値と最終的に得られた解になります。

b

( 入力 ) 右辺ベクトルb

method ( 入力 ) 使用する反復解法を指定する整数。

method=0: 共役勾配 (CG) 法

method=1: 共役残差 (CR) 法

method=10: 共役勾配二乗 (CGS) 法

method=11: 双共役勾配安定 (BiCGSTAB) 法

precond ( 入力 ) 反復法で使用される前処理を指定する整数。0

成分の値と storage_multiplier との積の値よりも多くの非零成分を含む場合、

drop_tolerance の値が自動的に引き上げられます。

5.5.5. 環境変数

以下の環境変数は様々なランタイム時の動作特性を制御します。

• ITERATIVE_VERBOSE は実行時のステップ毎の情報を表示します。

• ITERATIVE_DUMP は行列を”ppcr.mat”ファイルへ圧縮列格納 (ハーウェルボーイング) 形式で表示

します。

• ITERATIVE_RCM は行列のオーダリングを制御します。ディフォルトでは行列へのオーダリングは適

用されません。設定されるべき値は以下の通りです。

0: 行列のオーダリングは適用されません。(RCM に何も設定しない場合と同じです。)

1: 末端ノードのみを探索する、トリミングされた Cuthill-McKee リオーダリングが適用されます。

-1: 逆 Cuthill-McKee リオーダリングが適用されます。

環境変数 OMP_NUM_THREADS は反復法を行うときに使用するプロセッサ数を指定します。環境変数

ITREATIVE_VERBOSE をセットすると DITERATIVE ルーチンに行列分解に関する情報を出力させること

ができます。

93

日本 SGI 株式会社

5.6. サンプルプログラム

以下に FORTRAN, C/C++における、スパースソルバーのサンプルプログラムを示します。

5.6.1. 倍精度実対称疎行列の直接解法 DPSLDLT

問題

下記で定義されるテスト行列を用いて、対称行列直接法スパースソルバーの実行例を示します。実行例

では、下記で定義される逆行列 ( 対称三重対角行列 )の逆行列を求め、元の行列になることを確かめま

す。オーダリングは入れ子分析法 (デフォルト)を用います。

サイズ N の行列 A=a[i][j] が下記の通りに定義されます。

a[i][j]= a[j][i] = n+1-i, if i >= j.

サイズ 4 の場合の行列は下記の通りです。

データの格納方法については、第 5.3.3 節疎行列の格納形式をご参照ください。関数の引数についての

詳細は第 5.3.10 節の各ルーチンの引数の説明をご参照ください。

94

日本 SGI 株式会社

プログラム例

FORTRAN

C

implicit double precision (a-h,o-z)

parameter (n=10)

parameter (method=2)

integer*8 non_zeros

integer i,j,k,info

integer iptr(n+1),idx(2*n)

double precision val(2*n)

double precision dtmp,ops

double precision b(n,n),x(n,n)

逆行列の初期化

k=1

do j=1,n

iptr(j)=k

do i=max(1,j-1),j

if(i .eq. j) then

if(i .eq. 1) then

val(k)=1.d0

else

val(k)=2.d0

end if

else

val(k)=-1.d0

end if

idx(k)=i

k =k+1

end do

iptr(j)=k

RHSを単位行列に初期化

do j=1,n

do i=1,n

95

日本 SGI 株式会社

C

x(i,j)=0.d0

if(i .eq. j) then

b(i,j)=1.d0

else

b(i,j)=0.d0

end if

end do

L D L^T 分解

call DPSLDLT_Ordering(1,method)

call DPSLDLT_Preprocess(1,n,iptr,idx,non_zeros,ops)

call DPSLDLT_Factor(1,n,iptr,idx,val)

call DPSLDLT_SolveM(1,x,b,n)

call DPSLDLT_Destroy(1)

逆行列が元の行列になることを確かめる

dtmp=0.d0

do j=1,n

do i=1,n

dtmp=dtmp+

&

(x(i,j)-(n+1.d0-max(i,j)))*(x(i,j)-(n+1.d0- max(i,j)))

end do

dtmp=dsqrt(dtmp)

write(*,*) dtmp

stop

end

C/C++

#include

#define N 10

#define METHOD 2

96

日本 SGI 株式会社

#define MAX(i,j) (((i) > (j)) (i) : (j))

int main(void)

{

long long non_zeros;

int i,j,k,info;

int iptr[N + 1], idx[2 * N];

double val[2 * N];

double dtmp, ops;

double b[N * N], x[N * N];

/* 逆行列を初期化 */

k = 0;

for(j = 0; j < N; j++){

iptr[j] = k;

for(i = MAX(0, j - 1); i

[j * N + i] = 0.0;

}

/* L D L^T 分解 */

DPSLDLT_Ordering(1,METHOD);

DPSLDLT_Preprocess(1,N,iptr,idx,&non_zeros,&ops);

DPSLDLT_Factor(1,N,iptr,idx,val);

DPSLDLT_SolveM(1,x,b,N);

DPSLDLT_Destroy(1);

/* 逆行列が元の行列になることを確かめる */

dtmp = 0.0;

for(j = 0; j < N; j++){

for(i = 0; i < N; i++){

dtmp += (x[j * N + i] - (N - MAX(i, j))) *

(x[j * N + i] - (N - MAX(i, j)));

}

dtmp=sqrt(dtmp);

printf("%g\n", dtmp);

}

return 0;

5.6.2. 倍精度実疎行列の反復解法 (ヤコビ前処理付 CG 法 )

問題

反復法スパースソルバで、下記で定義されるテスト行列の逆行列を係数行列とする連立一次方程式を

解き、正しい解と比較します。反復法はヤコビ前処理付 CG 法を用いる。行列データは列圧縮格納形式と

なります。

データの格納方法については、第 5.5.3 節疎行列の格納形式をご参照ください。関数の引数についての

詳細は第 5.5.4 節の各ルーチンの引数の説明をご参照ください。

98

日本 SGI 株式会社

サイズ N の行列 A=a[i][j] が下記の通りに定義されます。

a[i][j]= a[j][i] = n+1-i, if i >= j.

サイズ 4 の場合の行列は下記の通りです。

プログラム例

FORTRAN

C

implicit double precision (a-h,o-z)

parameter (n=10,maxiter=2*n)

parameter (mstorage=0)

parameter (imethod=0,iprecond=0)

parameter (deps=1.d-12)

integer i,j,k,iter

integer iptr(n+1),idx(2*n)

double precision val(2*n),b(n),x(n)

double precision dtmp,res

テスト行列の逆行列の初期化

99

日本 SGI 株式会社

C

k=1

do j=1,n

iptr(j)=k

do i=max(1,j-1),j

if(i .eq. j) then

if(i .eq. 1) then

val(k)=1.d0

else

val(k)=2.d0

end if

else

val(k)=-1.d0

end if

idx(k)=i

k =k+1

end do

iptr(j)=k

RHSの初期化

do i=1,n

x(i)=0.d0

b(i)=0.d0

end do

b(1)=1.d0

ヤコビ前処理付 CG 法

call diterative(n,iptr,idx,val,mstorage,x,b,

& imethod,iprecond,maxiter,deps,iter,res)

正しい解が得られていることを確かめる

dtmp=0.d0

do i=1,n

dtmp=dtmp+(x(i)-n+i-1)*(x(i)-n+i-1)

end do

dtmp=dsqrt(dtmp)

write(*,*) dtmp

100

日本 SGI 株式会社

stop

end

C/C++

#include

#define N 10

#define MAXITER (2 * N)

#define MSTORAGE 0 /* CCS */

#define IMETHOD 0 /* CG */

#define IPRECOND 0 /* Jacobi */

#define DEPS 1.e-12

#define MAX(i, j) (((i) > (j)) (i) : (j))

int main(void)

{

int i, j, k, iter;

int iptr[N + 1], idx[2 * N];

double val[2 * N], b[N], x[N];

double dtmp, res;

/* テスト行列の逆行列の初期化 */

k = 0;

for(j = 0; j < N; j++){

iptr[j] = k;

for(i = MAX(0, j - 1); i

idx[k] = i;

k++;

}

iptr[j] = k;

/* RHSの初期化 */

for(i = 0; i < N; i++){

x[i] = b[i] = 0.0;

}

b[0] = 1.0;

/* ヤコビ前処理付 CG 法 */

DIterative(N, iptr, idx, val, MSTORAGE, x, b,

IMETHOD, IPRECOND, MAXITER, DEPS, &iter, &res);

/* 正しい解が得られていることを確かめる */

dtmp = 0.0;

for(i = 0; i < N; i++){

dtmp += (x[i] - N + i) * (x[i] - N + i);

}

dtmp = sqrt(dtmp);

printf("%g\n", dtmp);

}

return 0;

102

日本 SGI 株式会社

5.7. スパースソルバーの性能

以下に、対称疎行列に対する直接法スパースソルバーDPSLDLT の並列処理性能のグラフを示します。

一般にスパースソルバーは、密行列に対するソルバーとは異なり、プロセッサの性能を引き出すことが

難しいのですが、DPSLDLT では理論ピーク性能の 7 割近くの性能が得られています。プロセッサ数の増

加と共に、リニアに近い性能向上がみられ、良好なスケーラビリティであることがわかります。

Seconds

PSLDLT Sparse Solver -- 400 MHz

Origin 3000

1.75 million DOF, 41.8 million nonzeros

400

300

200

100

0

0 2 4 6 8 10

Number of Processors

5

4

3

2

1

0

Gflops

Total Solution Time

Factorization Speed

103

日本 SGI 株式会社

6. 乱数発生ルーチン

SCSL では 64bit のスレッドセーフな乱数発生ルーチン Drand64 を提供します。このルーチンは SCSL の

並列化にも対応しています。詳細は Drand64(3S)のマニュアルページをご参照ください。

6.1. Drand64 ルーチン

Drand64 ルーチンでは、以下の並列化対応 64bit 乱数発生ルーチンを提供します。これらのルーチンの

詳細については、本節以降をご参照ください。

• srand64

• drand64

• drand64_advance

• drand64_get

• drand64_getv

• drand64_maxthreads

• drand64_set

• drand64_setv

• drand64_thread

6.1.1. 関数一覧

以下に、各関数が扱うデータの型を示します。

6.1.1.1. FORTRAN

REAL FUNCTION SRAND64 (harvest)

REAL

harvest

DOUBLE PRECISION FUNCTION DRAND64 (harvest)

DOUBLE PRECISION harvest

SUBROUTINE DRAND64_ADVANCE (count)

INTEGER*8

count

SUBROUTINE DRAND64_GET (seed, count, thread)

INTEGER*8

seed, count

104

日本 SGI 株式会社

INTEGER

thread

SUBROUTINE DRAND64_GETV (state, count)

INTEGER*8

state(*), count(*)

INTEGER FUNCTION DRAND64_MAXTHREADS ()

SUBROUTINE DRAND64_SET (seed)

INTEGER*8

seed

SUBROUTINE DRAND64_SETV (state, count)

INTEGER*8 state(*) count(*)

INTEGER FUNCTION DRAND64_THREAD (thread)

INTEGER

thread

6.1.1.2. C/C++

#include

float srand64 (float *harvest);

double drand64 (double *harvest);

void drand64_advance (long long count);

void drand64_get (long long *seed, long long *count, int thread);

void drand64_getv (long long state[], long long count[]);

int drand64_maxthreads (void);

void drand64_set (long long seed);

void drand64_setv (long long state[], long long count[]);

int drand64_thread (int thread);

105

日本 SGI 株式会社

6.1.2. 詳細

これらのルーチンは、以下の式で示される線形合同法を基にした 64bit のスレッドセーフな並列化乱数ジ

ェネレータです。

Y(n+1)=(a X(n) + c) mod 2^64

パラメータ a, c は Knuth, The Art of Computer Programming, Vol. 2, Addison Wesley 1981, page 102. か

ら

a = 6364136223846793005

c = 1

を用いています。

乱数の生成をスレッド間で分割することによって安全性を保ちます。そのため、各スレッドであらかじめ

設定した値からスタートする、それぞれ独立した乱数を生成します。最大で drand_64_maxthreads()ルー

チンの返す値までの乱数生成の並列処理がサポートされます。

関数

srand64

drand64

drand64_advance

drand64_get

drand64_getv

drand64_maxthreads

drand64_set

drand64_setv

drand64_thread()

詳細

この関数は区間 [0,1)の範囲の単精度の乱数を返します。引数が与えられれ

ば、引数にも同じ値を

返します。

この関数は区間 [0,1)の範囲の倍精度の乱数を返します。引数が与えられれ

ば、引数にも同じ値を

返します。

srand64()あるいは drand64()が count 回呼ばれたかのように呼び出し元のス

レッドの内部状態

のテーブルを変化させます。

3 番目の引数のスレッドごとの invocation count と同様に drand64 と srand64

のスタートポイントを得ます。

drand64 と srand64 の内部状態を得ます。引数は rand64_setv の引数に与え

られる seed と invocation counts の配列です。これらのテーブルは最低で

drand64_maxthreads()の返す値の数だけのエントリーが必要です。

この関数は乱数を並列に生成することのできるストリームの最大数を返しま

す。drand64_getv(), drand64_setv() 関数で用いられる内部状態テーブルはこの

関数の返す値の数だけのエントリーを持ちます。

drand64()と srand64()のスタートポイントをセットします。デフォルトで-1です。

drand64 と srand64 の内部状態をセットします。引数は、drand64_getv で返され

た seed と

invocation counts の配列です。これらのテーブルは最低で

drand64_maxthreads()の返す値の数だけのエントリーが必要です。

この関数を呼んだ直後から、srand64(), drand64() 関数は、drand64_thread()の

引数で与えた数で識別されるスレッドから呼ばれたかの如く動作します。

106

日本 SGI 株式会社

この関数はそれまでに乱数列を生成していたスレッドの識別番号を返します。

6.1.3. 使用例

以下に、drand64()の使用例を示します。

6.1.4. 例 1

問題

単一のシードによって乱数を初期化し、各スレッドから乱数を並列に生成します。

プログラム例

Fortran 77

EXTERNAL SRAND64

REAL SRAND64

INTEGER*8 SEED

REAL S1, DUMMY

SEED = 1

CALL DRAND64_SET(SEED)

C Each thread gets a different random number

C$OMP PARALLEL PRIVATE(S1, DUMMY)

S1 = SRAND64(DUMMY)

C$OMP END PARALLEL

C/C++

#include

float s1, dummy;

long long seed = 1LL;

drand64_set(seed);

/* Each thread gets a different random number */

#pragma omp parallel private(s1, dummy)

{

s1 = srand64(&dummy);

107

日本 SGI 株式会社

}

6.1.5. 例 2

問題

乱数生成の内部状態テーブルをセーブ後、各スレッドで11 個の乱数を生成します。そして、内部状態テ

ーブルを元にもどし、drand_advance() 関数で 10 個の乱数の生成をスキップします。そして、次に生成され

る乱数が、先ほど生成した 11 番目の乱数と同じになります。

プログラム例

Fortran 90

INTEGER(KIND=8), DIMENSION(:), ALLOCATABLE :: STATE, COUNT

EXTERNAL DRAND64_MAXTHREADS, OMP_GET_THREAD_NUM

EXTERNAL DRAND64

INTEGER :: I, TABLE_SIZE, DRAND64_MAXTHREADS

INTEGER :: OMP_GET_THREAD_NUM

REAL(KIND=8) :: D1, DUMMY, DRAND64

TABLE_SIZE = DRAND64_MAXTHREADS()

ALLOCATE(STATE(TABLE_SIZE))

ALLOCATE(COUNT(TABLE_SIZE))

CALL DRAND64_GETV(STATE, COUNT)

!$OMP PARALLEL PRIVATE(I, D1, DUMMY)

DO I = 1, 11

D1 = DRAND64(DUMMY)

END DO

PRINT *, OMP_GET_THREAD_NUM(), D1

!$OMP END PARALLEL

CALL DRAND64_SETV(STATE, COUNT)

!$OMP PARALLEL PRIVATE(D1, DUMMY)

DRAND64_ADVANCE(10_8)

D1 = DRAND64(DUMMY)

PRINT *, OMP_GET_THREAD_NUM(), D1

!$OMP END PARALLEL

108

日本 SGI 株式会社

C/C++

#include

ong long *state, *count;

int i, table_size;

double d1, dummy;

table_size = drand64_maxthreads();

state = (long long *) malloc(table_size * sizeof(long long));

count = (long long *) malloc(table_size * sizeof(long long));

drand64_getv(state, count);

#pragma omp parallel private(i, d1, dummy)

{

for (i = 0; i < 11; i++)

d1 = drand64(&dummy);

printf("%d, %g0, omp_get_thread_num(), d1);

}

drand64_setv(state, count);

#pragma omp parallel private(d1, dummy)

{

drand64_advance(10LL);

d1 = drand64(&dummy);

printf("%d, %g0, omp_get_thread_num(), d1);

}

6.1.6. 例 3

単一のスレッドのみを用い、11 本の独立な乱数のストリームを生成します。

Fortran 77

EXTERNAL DRAND64_THREAD, SRAND64

INTEGER DRAND64_THREAD

REAL SRAND64

INTEGER I, J, OLDID

REAL STREAM(1000,10), DUMMY

109

日本 SGI 株式会社

DO J = 1, 10

OLDID = DRAND64_THREAD(J-1)

DO I = 1, 1000

STREAM(I, J) = SRAND64(DUMMY)

END DO

C RESTORE ORIGINAL BASE THREAD

OLDID = DRAND64_THREAD(0)

C/C++

#include

int i, j, oldid;

float stream[10][1000], dummy;

for (i = 0; i < 10; i++) {

oldid = drand64_thread(i);

for (j = 0; j < 1000; j++)

stream[i][j] = srand64(&dummy);

}

/* restore original base thread */

oldid = drand64_thread(0);

6.1.7. 注意

drand64_thread() 関数が並列処理を行う領域で使用される場合には、注意が必要です。もし、複数のスレ

ッドが drand64_thread() 関数で設定される同じスレッド識別番号を設定してしまうと、スレッドの安全性は

失われてしまい、異なるスレッドが独立した乱数列を生成することが保証されません。個々のスレッド上

の乱数列における統計的な乱数性も失われることがあります。

110

日本 SGI 株式会社

SCSL ã¦ã¼ã¶ã¬ã¤ã ç¬¬2.2ç - æ¥æ¬SGI

SCSL ã¦ã¼ã¶ã¬ã¤ã ç¬¬2.2ç - æ¥æ¬SGI ... View more SCSL ã¦ã¼ã¶ã¬ã¤ã ç¬¬2.2ç - æ¥æ¬SGI

Delete template?

Save as template ?

SCSL ã¦ã¼ã¶ã¬ã¤ã ç¬¬2.2ç - æ¥æ¬SGI

SCSL ã¦ã¼ã¶ã¬ã¤ã ç¬¬2.2ç - æ¥æ¬SGI SCSL ã¦ã¼ã¶ã¬ã¤ã ç¬¬2.2ç - æ¥æ¬SGI