目次

前のトピックへ

27.2. pdb — Python デバッガ

次のトピックへ

27.5. hotshot — ハイパフォーマンス・ロギング・プロファイラ

このページ

27.4. Python プロファイラ

Copyright © 1994, by InfoSeek Corporation, all rights reserved.

執筆者 James Roskind [1]

Permission to use, copy, modify, and distribute this Python software and its associated documentation for any purpose (subject to the restriction in the following sentence) without fee is hereby granted, provided that the above copyright notice appears in all copies, and that both that copyright notice and this permission notice appear in supporting documentation, and that the name of InfoSeek not be used in advertising or publicity pertaining to distribution of the software without specific, written prior permission. This permission is explicitly restricted to the copying and modification of the software to remain in Python, compiled Python, or other languages (such as C) wherein the modified or derived code is exclusively imported into a Python module.

INFOSEEK CORPORATION DISCLAIMS ALL WARRANTIES WITH REGARD TO THIS SOFTWARE, INCLUDING ALL IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS. IN NO EVENT SHALL INFOSEEK CORPORATION BE LIABLE FOR ANY SPECIAL, INDIRECT OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES WHATSOEVER RESULTING FROM LOSS OF USE, DATA OR PROFITS, WHETHER IN AN ACTION OF CONTRACT, NEGLIGENCE OR OTHER TORTIOUS ACTION, ARISING OUT OF OR IN CONNECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE.

27.4.1. プロファイラとは

プロファイラ とは、プログラム実行時の様々な状態を得ることにより、その実行効率を調べるためのプログラムです。ここで解説するのは、 cProfile, profile, pstats モジュールが提供するプロファイラ機能についてです。 このプロファイラはどの Python プログラムに対しても 決定論的プロファイリング をおこないます。また、プロファイルの結果 検証をす早くおこなえるよう、レポート生成用のツールも提供されています。

Python 標準ライブラリは3つの異なるプロファイラを提供します。

  1. cProfile はほとんどのユーザーに推奨されるモジュールです。 C言語で書かれた拡張モジュールで、少ないオーバーヘッドにより長く実行されるプログラムのプロファイルに向きます。 Brett Rosen と Ted Czotter が提供した lsprof に基づいています。

    バージョン 2.5 で追加.

  2. profile はピュア Python モジュールで、 cProfile モジュールはこのモジュールのインタフェースを真似ています。 対象プログラムに相当のオーバーヘッドが生じます。 もしプロファイラに何らかの拡張をしたいのであれば、こちらのモジュールを拡張する方が簡単でしょう。 Copyright © 1994, by InfoSeek Corporation.

    バージョン 2.4 で変更: .. Now also reports the time spent in calls to built-in functions and methods. ビルトイン関数やメソッドで使われた時間も報告するようになりました。

  3. hotshot は実験的な C モジュールで、後処理時間を長くする代わりにプロファイル中のオーバーヘッドを 極力小さくしていました。 このモジュールはもうメンテナンスされておらず、将来のバージョンのPythonからは外されるかもしれません。

    バージョン 2.5 で変更: 以前より意味のある結果が得られているはずです。かつては時間計測の中核部分に致命的なバグがありました.

profilecProfile の両モジュールは同じインタフェースを提供しているので、ほぼ取り替え可能です。 cProfile はずっと小さなオーバーヘッドで動きますが、まだ新しく、全てのシステムで使えるとは限らないでしょう。 cProfile は実際には _lsprof 内部モジュールに被せられた互換性レイヤです。 hotshot モジュールは特別な使い道のために取っておいてあります。

27.4.2. インスタント・ユーザ・マニュアル

この節は “マニュアルなんか読みたくない人”のために書かれています。ここではきわめて簡単な概要説明とアプリケーションのプロファイリングを手っ とり早くおこなう方法だけを解説します。

main エントリにある関数 foo() をプロファイルしたいとき、モジュールに次の内容を追加します。

import cProfile
cProfile.run('foo()')

(お使いのシステムで cProfile が使えないときは代わりに profile を使って下さい)

このように書くことで foo() を実行すると同時に一連の情報(プロファイル)が表示されます。この方法はインタプリタ上で作業をしている場合、 最も便利なやり方です。プロファイルの結果をファイルに残し、後で検証したいときは、 run() の2番目の引数にファイル名を指定します。

import cProfile
cProfile.run('foo()', 'fooprof')

ファイル cProfile.py を使って、別のスクリプトをプロファイルすることも可能です。次のように実行します。

python -m cProfile myscript.py

cProfile.py はオプションとしてコマンドライン引数を2つ受け取ります。

cProfile.py [-o output_file] [-s sort_order]

-s は標準出力(つまり、 -o が与えられなかった場合)にのみ有効です。利用可能なソートの値は、 Stats のドキュメントをご覧ください。

プロファイル内容を確認するときは、 pstats モジュールのメソッドを使用します。統計データの読み込みは次のようにします。

import pstats
p = pstats.Stats('fooprof')

Stats クラス(上記コードはこのクラスのインスタンスを生成するだけの内容です)は p に読み込まれたデータを操作したり、表示するための各種メソッドを備えています。先に cProfile.run() を実行し たとき表示された内容と同じものは、3つのメソッド・コールにより実現できます。

p.strip_dirs().sort_stats(-1).print_stats()

最初のメソッドはモジュール名からファイル名の前に付いているパス部分を取り除きます。2番目のメソッドはエントリをモジュール名/行番号/名前にもと づいてソートします。3番目のメソッドで全ての統計情報を出力します。次のようなソート・メソッドも使えます。

p.sort_stats('name')
p.print_stats()

最初の行ではリストを関数名でソートしています。2号目で情報を出力しています。さらに次の内容も試してください。

p.sort_stats('cumulative').print_stats(10)

このようにすると、関数が消費した累計時間でソートされ、さらにその上位10 件だけを表示します。どのアルゴリズムが時間を多く消費しているのか知りた いときは、この方法が役に立つはずです。

ループで多くの時間を消費している関数はどれか調べたいときは、次のようにします。

p.sort_stats('time').print_stats(10)

上記は関数の実行で消費した時間でソートされ、上位10個の関数の情報が表示されます。

次の内容も試してください。

p.sort_stats('file').print_stats('__init__')

このようにするとファイル名でソートされ、そのうちクラスの初期化メソッド (メソッド名 __init__)に関する統計情報だけが表示されます。

p.sort_stats('time', 'cum').print_stats(.5, 'init')

上記は情報を時間 (time) をプライマリ・キー、累計時間 (cumulative time) をセカンダリ・キーにしてソートした後でさらに条件を絞って統計情報を出力します。 .5 は上位 50% だけの選択を意味し、さらにその中から文字列 init を含むものだけが表示されます。

どの関数がどの関数を呼び出しているのかを知りたければ、次のようにします (p は最後に実行したときの状態でソートされています)。

p.print_callers(.5, 'init')

このようにすると、各関数ごとの呼出し側関数の一覧が得られます。

さらに詳しい機能を知りたければマニュアルを読むか、次の関数の実行結果から内容を推察してください。

p.print_callees()
p.add('fooprof')

スクリプトとして起動した場合、 pstats モジュールはプロファイルのダンプを読み込み、分析するための統計ブラウザとして動きます。シンプル な行指向のインタフェース(cmd を使って実装)とヘルプ機能を備えています。

27.4.3. 決定論的プロファイリングとは

決定論的プロファイリング とは、すべての 関数呼出し, 関数からのリターン, 例外発生 をモニターし、正確なタイミングを 記録することで、イベント間の時間、つまりどの時間にユーザ・コードが実行されているのかを計測するやり方です。もう一方の 統計学的プロファイリング (このモジュールでこの方法は採用していません)とは、有効なインストラクション・ポインタからランダムにサンプリングをおこない、プログラム のどこで時間が使われているかを推定する方法です。後者の方法は、オーバヘッドが少いものの、プログラムのどこで多くの時間が使われているか、その相対 的な示唆に留まります。

Python の場合、実行中必ずインタプリタが動作するため、決定論的プロファイリングをおこなうにあたり、計測用のコードは必須ではありません。Python は自動的に各イベントに フック (オプションとしてコールバック)を提供します。Python インタプリタの特性として、大きなオーバーヘッドを伴う傾向がありますが、一般的なアプリケーションに決定論的プロファイリングを用 いると、プロセスのオーバーヘッドは少くて済む傾向があります。結果的に決定論的プロファイリングは少ないコストで、Python プログラムの実行時間に 関する統計を得られる方法となっているのです。

呼出し回数はコード中のバグ発見にも使用できます(とんでもない数の呼出しがおこなわれている部分)。インライン拡張の対象とすべき部分を見つけるた めにも使えます(呼出し頻度の高い部分)。内部時間の統計は、注意深く最適化すべき”ホット・ループ”の発見にも役立ちます。累積時間の統計は、アルゴ リズム選択に関連した高レベルのエラー検知に役立ちます。なお、このプロファイラは再帰的なアルゴリズム実装の累計時間を計ることが可能で、通常のルー プを使った実装と直接比較することもできるようになっています。

27.4.4. リファレンス・マニュアル – profilecProfile

プロファイラのプライマリ・エントリ・ポイントはグローバル関数 profile.run() (または cProfile.run()) です。通常、プロファイル情報の作成に使われます。情報は pstats.Stats クラスのメソッドを使って整形や出力をお こないます。以下はすべての標準エントリポイントと関数の解説です。さらにいくつかのコードの詳細を知りたければ、「プロファイラの拡張」を読んでく ださい。派生クラスを使ってプロファイラを”改善”する方法やモジュールのソースコードの読み方が述べられています。

cProfile.run(command[, filename])

この関数はオプション引数として exec 文に渡すファイル名を指定できます。このルーチンは必ず最初の引数の exec を試み、実行結果からプロファイル情報を収集しようとします。ファイル名が指定されていないときは、各行の標準名(standard name)文字列(ファイル名/行数/関数名)でソートされた、簡単なレポートが表示されます。以下はその出力例です。

      2706 function calls (2004 primitive calls) in 4.504 CPU seconds

Ordered by: standard name

ncalls  tottime  percall  cumtime  percall filename:lineno(function)
     2    0.006    0.003    0.953    0.477 pobject.py:75(save_objects)
  43/3    0.533    0.012    0.749    0.250 pobject.py:99(evaluate)
 ...

最初の行は2706回の関数呼出しがあったことを示しています。このうち2004回は プリミティブ なものです。 プリミティブ な呼 び出しとは、再帰によるものではない関数呼出しを指します。次の行 Ordered by: standard name は、一番右側の欄の文字列を使ってソートされたことを意味します。各カラムの見出しの意味は次の通りです。

ncalls
呼出し回数
tottime
この関数が消費した時間の合計(サブ関数呼出しの時間は除く)
percall
tottimencalls で割った値
cumtime
サブ関数を含む関数の(実行開始から終了までの)消費時間の合計。この項目は再帰的な関数においても正確に計測されます。
percall
cumtime をプリミティブな呼び出し回数で割った値
filename:lineno(function)
その関数のファイル名、行番号、関数名

(43/3 など)最初の欄に2つの数字が表示されている場合、最初の値は呼出し回数、2番目はプリミティブな呼び出しの回数を表しています。関数が再 帰していない場合はどちらの回数も同じになるため、1つの数値しか表示されません。

cProfile.runctx(command, globals, locals[, filename])

この関数は run() に似ていますが、 command 文字列用にグローバル辞書とローカル辞書の引数を追加しています。

プロファイラ・データの分析は Stats クラスを使っておこないます。

ノート

Stats クラスは pstats モジュールで定義されています。

class pstats.Stats(filename[, stream=sys.stdout[, ...]])

このコンストラクタは filename で指定した(単一または複数の)ファイルから”統計情報オブジェクト”のインスタンスを生成します。 Stats オブジェクトはレポートを出力するメソッドを通じて操作します。また別の出力ストリームをキーワード引数 stream で指定できます。

上記コンストラクタで指定するファイルは、使用する Stats に対応したバージョンの profile または cProfile で作成されたものでなければなりません。将来のバージョンのプロファイラとの互換性は 保証されておらず 、 他のプロファイラとの互換性もないことに注意してください。

複数のファイルを指定した場合、同一の関数の統計情報はすべて合算され、複数のプロセスで構成される全体をひとつのレポートで検証することが可能になります。既存の Stats オブジェクトに別のファイルの情報を追加するときは、 add() メソッドを使用します。

バージョン 2.5 で変更: stream 引数が追加されました.

27.4.4.1. Stats クラス

Stats には次のメソッドがあります。

Stats.strip_dirs()

このメソッドは Stats にファイル名の前に付いているすべてのパス情報を取り除かせるためのものです。出力の幅を80文字以内に収めたいときに 重宝します。このメソッドはオブジェクトを変更するため、取り除いたパス情報は失われます。パス情報除去の操作後、オブジェクトが保持するデータエント リは、オブジェクトの初期化、ロード直後と同じように”ランダムに”並んでいます。 strip_dirs() を実行した結果、2つの関数名が区別できな い(両者が同じファイルの同じ行番号で同じ関数名となった)場合、一つのエントリに合算されされます。

Stats.add(filename[, ...])

Stats クラスのこのメソッドは、既存のプロファイリング・オブジェクトに情報を追加します。引数は対応するバージョンの profile.run() または cProfile.run() によって生成されたファイルの名前でなくてはな りません。関数の名前が区別できない(ファイル名、行番号、関数名が同じ)場合、一つの関数の統計情報として合算されます。

Stats.dump_stats(filename)

Stats オブジェクトに読み込まれたデータを、ファイル名 filename のファイルに保存します。ファイルが存在しない場合 新たに作成され、すでに存在する場合には上書きされます。このメソッドは profile.Profile クラスおよび cProfile.Profile クラスの同名のメソッドと等価です。

バージョン 2.3 で追加.

Stats.sort_stats(key[, ...])

このメソッドは Stats オブジェクトを指定した基準に従ってソートします。引数には通常ソートのキーにしたい項目を示す文字列を指定します (例: 'time''name' など)。

2つ以上のキーが指定された場合、2つ目以降のキーは、それ以前のキーで同等となったデータエントリの再ソートに使われます。たとえば sort_stats('name', 'file') とした場合、まずすべてのエントリが関 数名でソートされた後、同じ関数名で複数のエントリがあればファイル名でソートされるのです。

キー名には他のキーと判別可能である限り綴りを省略して名前を指定できます。現バージョンで定義されているキー名は以下の通りです。

正式名 内容
'calls' 呼び出し回数
'cumulative' 累積時間
'file' ファイル名
'module' モジュール名
'pcalls' プリミティブな呼び出しの回数
'line' 行番号
'name' 関数名
'nfl' 関数名/ファイル名/行番号
'stdname' 標準名
'time' 内部時間

すべての統計情報のソート結果は降順(最も多く時間を消費したものが一番上に来る)となることに注意してください。ただし、関数名、ファイル名、行数 に関しては昇順(アルファベット順)になります。 'nfl''stdname' はやや異なる点があります。標準名(standard name)とは表示欄の名前なのですが、埋め込まれた行番号の文字コード順でソートされます。 たとえば、(ファイル名が同じで)3、20、40という行番号のエントリがあった場合、20、30、40 の順に表示されます。一方 'nfl' は行番号を数値として比較します。結果的に、 sort_stats('nfl')sort_stats('name', 'file', 'line') と指定した場合と同じになります。

後方互換性のため、数値を引数に使った -1, 0, 1, 2 の形式もサポートしています。それぞれ 'stdname', 'calls', 'time', 'cumulative' として処理されます。引数をこの旧スタイルで指定した場合、最初のキー(数値キー)だけが使われ、複数のキーを指定しても2番目以降は無視されます。

Stats.reverse_order()

Stats クラスのこのメソッドは、オブジェクト内の情報のリストを逆順にソートします。 デフォルトでは選択したキーに応じて昇順、降順が適切に選ばれることに注意してください。

Stats.print_stats([restriction, ...])

Stats クラスのこのメソッドは、 profile.run() の項で述べたプロファイルのレポートを出力します。

出力するデータの順序はオブジェクトに対し最後におこなった sort_stats() による操作にもとづいたものになります (add()strip_dirs() による制限にも支配されます)。

引数は一覧に大きな制限を加えることになります。初期段階でリストはプロファイルした関数の完全な情報を持っています。制限の指定は(行数を指定する)整 数、(行のパーセンテージを指定する) 0.0 から 1.0 までの割合を指定する小数、(出力する standard name にマッチする)正規表現のいずれかを使っておこないます。正規表現は Python 1.5b1 で導入された re モジュールで使える Perl スタイルのものです。複数の制限は指定された場合、それは指定の順に適用されます。たとえば次のようになります。

print_stats(.1, 'foo:')

上記の場合まず出力するリストは全体の10%に制限され、さらにファイル名の一部に文字列 .*foo: を持つ関数だけが出力されます。

print_stats('foo:', .1)

こちらの例の場合、リストはまずファイル名に .*foo: を持つ関数だけに制限され、その中の最初の 10% だけが出力されます。

Stats.print_callers([restriction, ...])

Stats クラスのこのメソッドは、プロファイルのデータベースの中から何らかの関数呼び出しをおこなった関数すべてを出力します。出力の順序は print_stats() によって与えられるものと同じです。出力を制限する引数も同じです。各呼出し側関数についてそれぞれ一行ずつ表示されます。 フォーマットは統計を作り出したプロファイラごとに微妙に異なります。

  • profile を使った場合、呼出し側関数の後にパーレンで囲まれて表示される数値は 呼出しが何回おこなわれたかを示すものです。続いてパーレンなしで表示される数値は、便宜上右側の関数が消費した累積時間を繰り返したものです。
  • cProfile を使った場合、各呼出し側関数は3つの数字の後に来ます。その3つとは、呼出しが何回おこなわれたか、 呼出しの結果現在の関数内で費やされた合計時間および累積時間です。
Stats.print_callees([restriction, ...])

Stats クラスのこのメソッドは指定した関数から呼出された関数のリストを出力します。呼出し側、呼出される側の方向は逆ですが、引数と出力の 順序に関しては print_callers() と同じです。

27.4.5. 制限事項

制限はタイミング情報の正確さに関するものです。決定論的プロファイラの正確さに関する根本的問題です。最も明白な制限は、(一般に)”クロック”は .001 秒の精度しかないということです。これ以上の精度で計測することはできません。仮に充分な精度が得られたとしても、”エラー”が計測の平 均値に影響を及ぼすことがあります。最初のエラーを取り除いたとしても、それがまた別のエラーを引き起こす原因となります。

もうひとつの問題として、イベントを検知してからプロファイラがその時刻を実際に 取得 するまでに “いくらかの時間がかかる” ことです。プロ ファイラが時刻を取得する(そしてその値を保存する)までの間に、ユーザコードがもう一度処理を実行したときにも、同様の遅延が発生します。結果的に多 く呼び出される関数または多数の関数から呼び出される関数の情報にはこの種のエラーが蓄積する傾向にあります。

この種のエラーによる遅延の蓄積は一般にクロックの精度を越える(1クロック以下のタイミング)ところで起きていますが、一方でこの時間を累計*可 能*ということが大きな意味を持っています。

この問題はオーバーヘッドの小さい cProfile よりも profile においてより重要です。そのため、 profile はプラットフォームごとに(平均値から)予想されるエラーによる遅延を補正する機能を備えてい ます。プロファイラに補正を施すと(少くとも形式的には)正確さが増しますが、ときには数値が負の値になってしまうこともあります(呼出し回数が少く、確 率の神があなたに意地悪をしたとき :-) )。プロファイルの結果に負の値が出力されても 驚かないでください 。これは補正をおこなった場合にのみ 現れることで、実際の計測結果は補正をおこなわない場合より、より正確なはずだからです。

27.4.6. キャリブレーション(補正)

profile のプロファイラは time 関数呼出しおよびその値を保存する ためのオーバーヘッドを補正するために、各イベントハンドリング時間から定数を引きます。デフォルトでこの定数の値は 0 です。以下の手順で、プラット フォームに合った、より適切な定数が得られます(前節「制限事項」の説明を参照)。

import profile
pr = profile.Profile()
for i in range(5):
    print pr.calibrate(10000)

メソッドは引数として与えられた数だけ Python の呼出しをおこないます。呼出しは直接、プロファイラを使って呼出しの両方が実施され、それぞれの時間 が計測されます。その結果、プロファイラのイベントに隠されたオーバーヘッドが計算され、その値は浮動小数として返されます。たとえば、800 MHz の Pentium で Windows 2000 を使用、Python の time.clock() をタイマとして使った場合、値はおよそ 12.5e-6 となります。

この手順で使用しているオブジェクトはほぼ一定の結果を返します。 非常に 早いコンピュータを使う場合、もしくはタイマの性能が貧弱な場合は一 定の結果を得るために引数に 100000 や 1000000 といった大きな値を指定する必要があるかもしれません。

一定の結果が得られたら、それを使う方法には3通りあります。 [2]

import profile

# 1. 算出した補正値 (your_computed_bias) をこれ以降生成する
#    Profile インスタンスに適用する。
profile.Profile.bias = your_computed_bias

# 2. 特定の Profile インスタンスに補正値を適用する。
pr = profile.Profile()
pr.bias = your_computed_bias

# 3. インスタンスのコンストラクタに補正値を指定する。
pr = profile.Profile(bias=your_computed_bias)

方法を選択したら、補正値は小さめに設定した方が良いでしょう。プロファイルの結果に負の値が表われる”確率が少なく”なるはずです。

27.4.7. 拡張 — プロファイラの改善

profile モジュールおよび cProfile モジュールの Profile クラスはプロファイラの機 能を拡張するため、派生クラスの作成を前提に書かれています。しかしその方法を説明するには、 Profile の内部動作について詳細な解説が必要と なるため、ここでは述べません。もし拡張をおこないたいのであれば、使用するモジュールのソースを注意深く読む必要があります。

プロファイラが時刻を取得する方法を変更したいだけなら(たとえば、通常の時間(wall-clock)を使いたいとか、プロセスの経過時間を使いたい場合)、時 刻取得用の関数を Profile クラスのコンストラクタに指定することができます。

pr = profile.Profile(your_time_func)

この結果生成されるプロファイラは時刻取得に your_time_func() を呼び出すようになります。

profile.Profile

your_time_func() は単一の数値、あるいはその合計が(os.times() と同じように)累計時間を示すリストを返 すようになっていなければなりません。関数が1つの数値、あるいは長さ2の数値のリストを返すようになっていれば、非常に高速に処理が可能になります。

選択する時刻取得関数によって、プロファイラクラスを補正する必要があることに注意してください。多くのマシンにおいて、プロファイル時のオーバヘッ ドを少なくする方法として、タイマはロング整数を返すのが最善です。 os.times() は浮動小数のタプルを返すので おすすめできま せん)。タイマをより正確なものに置き換えたいならば、派生クラスでそのディスパッチ・メソッドを適切なタイマ呼出しと適切な補正をおこなうように書き 直す必要があります。

cProfile.Profile

your_time_func() は単一の数値を返さなければなりません。もしこれが整数を返す関数ならば、2番目の引数に時間単位当たりの実際の持続 時間を指定してクラスのコンスタラクタを呼び出すことができます。たとえば、 your_integer_time_func() が1000分の1秒単位で計測した時間を返すとすると、 Profile インスタンスを次のように生成することができます。

pr = profile.Profile(your_integer_time_func, 0.001)

cProfile.Profile クラスはキャリブレーションができないので、自前のタイマ関数は注意を払って使う必要があり、またそれは可能な限り 速くなければなりません。自前のタイマ関数で最高の結果を得るには、 _lsprof 内部モジュールの C ソースファイルにハードコードする 必要があるかもしれません。

Footnotes

[1]アップデートと LaTeX への変換は Guido van Rossum によるもの。さらに Python 2.5 の新しい cProfile モジュールの文書を統合するアップデートは Armin Rigo による。
[2]Python 2.2 より前のバージョンではプロファイラのソースコードに補正値として埋め込まれた定数を直接編集する必要がありました。今でも同じことは可 能ですが、その方法は説明しません。なぜなら、もうソースを編集する必要がないからです。