タイトルの通り、数式を全く使わないデータマイニングの入門書。モビルスーツをクラスタ分析にかけて「GMとザクは、同じやられキャラセグメント」などといった説明が入ります。大変噛み砕いた説明がされているので、「自分で計算はしないし、ツールが吐き出してくる分析の意味さえ解ればいいや」という(私のような)人にはよい取っ掛かりになると思います。ただし、数式というのは決まり事さえ理解してしまえば言葉よりもずっとわかりやすいもので、この本においても、数式を使わないことで逆に説明が迂遠になってしまっている部分や、説明自体を諦めてしまっているところも見受けられます。そのあたりは別な手段で知識を得る必要があるでしょう。
構成としては、まず最初にデータマイニングの定義や活用シーンの解説、次にデータマイニングで使用される各種統計処理の説明、最後に監視社会におけるデータマイニングの役割、という流れになっています。
最終章で触れられている監視社会のくだりは、フーコーが比喩として使ったはずのパノプティコンがリアルな意味で実現しつつあるということに、改めて気味の悪さを感じました。もちろん単純に、何時何処で何をしているのかを完全に把握されるということ自体が確かに気持ち悪いですが、個人的には「お前はこういう属性で、こういう行動をしてきたのだから、こういうものが欲しいんだろ?」という、押し付けがましい提案が、今後増え続けるだろうことが耐えられません。今現在でもそういうアプローチは世の中にあふれてますが、いやなんですよ、そういうの。統計的に把握した事実と、各要素が持つそれぞれの特徴を、くれぐれも混同しないようにしたいものです。
話がそれましたが、以下備忘録的要約。
- 従来の統計分析とデータマイニングの違いは、対象とする情報の質と量である。手続きは従来と同様の手法を用いる。
- 従来の分析は、高コストの少ない情報から、いかに多くの情報を得るかという技法だった。
- データマイニングによって導かれた法則が、役に立つかどうか、またなぜそうなるかは、分析者が判断することである。
- 分析によって導かれた法則は、本当に汎用性がある法則か、常に検証する必要がある(交差妥当化)。
- 回帰分析
- 最尤性を満たすために最小二乗法を用いる。
- 最もらしい回帰直線を引き、予測を行う。
- 説明変数が複数の場合を重回帰分析という。
- 分散(二乗値の和)が大きいと精度が下がる。
- 決定木
- 属性により分岐する木。分類に用いる。
- 過学習に注意。精度が変わらないのであれば、階層は少なくシンプルなほうがよい。(オッカムの剃刀)
- クラスタ分析
- 属性により分類(教師なし)
- k-means(k-平均)法の場合。最初に分類数を決定→その数だけ適当に中心点を打つ→各要素を一番近い中心点で分類する→分類された集合の中で中心点を計算→再度最も近い中心点で分類しなおす→中心点が動かなくなるまで繰り返し…
- 自己組織化マップ
- 多次元情報を二次元に圧縮する方法。
- 情報薄いです。。
- 連関規則
- これを見つけることを『バスケット分析』といったりもする。
- 情報薄いです。。
- ニューラルネット
- ニューロンの模倣。
- なんかオブジェクト指向っぽい。

コメント