社会人MBA-技術者編

November 20, 2007

Wekaを起動する(ROC曲線とlift chart)補足1

今回は、「Wekaを起動するシリーズ」の補足である(が重要かも、これまでのシリーズは本ブログ記事の下「Labels」の「データマイニング」をクリックすると御覧になれます)。


「lift chartとROC曲線」・・・意味はわからなくとも、「習うより慣れろ」でとにかく上のグラフが描画できればいいのである。ファイルはwekaがインストールされた時にインストールされているweather.arffを使用し決定木分析(J48)を行う。

Classify:choose:trees:J48でとりあえずStart、分析を行なう。

下図の部分を右クリックして、Visualize threshold curve→yes(この分析の場合はゴルフplayする=yes)を選択する(図中"1")。すると図中"2"のグラフが描画される



これがROC曲線である。例では、データ数が少ないため、本記事の最初のグラフのようにならないが、データ数が多くなれば、曲線が描けてくる。

また、"2"での赤い四角の囲みでX軸、Y軸を操作すれば、lift chartも描くことができる。

つまり:
ROC曲線・・・X軸:False Positive Rate、Y軸:True Positive Rate
lift chart・・・X軸:Instance number、Y軸:True Positive Rate
となる。

このグラフは見難いので、Excelで描画するには:
①"2"で"Save"をクリックし、一旦arff形式で保存する。
②Preprocessで①で保存したファイルをオープンし、それをcsvとして保存する。
手間はかかるが種々の加工がしやすいのでお薦めである。

さて、これはなぜ描画するのか?
例えば、複数の分析、決定木、ニューラル、Ibkなどを実施して、分析の精度以外に比較するときに用いる、また、単独の分析であっても、種々の条件を変更し分析を繰り返し、満足するモデルを構築する、などである。

より最適な例としては、ROC曲線が左上にあるほど、「泥棒が入ったときは100%に近づけた確率で検知システムを作動欲しいし、同時に誤報はできるだけ避けたい」であり、同様に、lift chartでは「何かのキャンペーンで何人にDMを送れば、何人の人が反応してくれるだろうか(最小のDM数で最大の効果を得たいなど)」を把握する測定系である。

Confusion Matrixの概念を理解すれば、更なる助けになります。

参照になるサイト
決定木分析について
wekaの使い方の最後のほうにConfusion Matrixの説明があります。


(「Wekaを起動する(ROC曲線とlift chart)補足1」了)
適宜補足していきます。

*ブログ中の図はクリックすれば、拡大されます。
*本ブログ記事の下「Labels」の「データマイニング」をクリックすると、データマイニングに関する記事が一括掲載されます。

Labels: