問題の提起:必要な実験の回数

着地ねこの実験では、着地ねこの性能計るため繰返し実験して、足から着地した回数を前実験回数で割って成功率を求める。求めた着地ねこの成功率を基に、いろいろなデザインの着地ねこの性能を比較し、胴の大きさや足の大きさ、形などのデザインパラメーターの効果を研究することができる。
着地ねこ
10回実験すると0.1置きの成功率が得られる。10回の実験で、例えば成功率0.5と0.6のように0.1しか違わない実験結果が得られえたとき、2つの実験の成功率が違うと言えるでしょうか?
ここでは、統計学の助けを借りて、例として成功率が0.1違えば性能が違っていると言えるためには実験を何回行えばいいかという課題について研究する。

関連資料

参考とした情報

  • M.J.Moroney:「Facts from Figures」,1976,PENGIN BOOKS、P221-224
    日本語の書籍もあるはずですが適切なものを見つけていません。

サイト内関連リンク

サイト内関連書類リンク


問題の整理

実験の意味

実験で成功率を求めることは、多数の玉が入っている箱の中から成功と失敗のマークのついた玉を取り出すことと同じだと考える。実験条件を決めるとその実験の成功率、すなわち箱の中の成功の玉の存在割合、が決まる。玉の数は多いので成功の玉がでる確率は玉を取っていっても変わらない。玉を1個とり出すことが実験を一回やることと同じである。
箱の中から何個か取り出してみて、もともとの箱にあった玉の割合(成功率)がいくらなのか推定しようと言うわけである。
確率を示す玉の集まり
図1 1回の実験=玉を1個取り出す
(青=成功;赤=失敗)

取り出す玉の数によって確からしさはどう変わるか=二項分布

 
箱の中にある成功の玉の割合がわかっていても、箱からN個玉を取り出したとき成功の玉の数を具体的に予測することはできない。しかし、成功の玉の割合Pの箱から、N個の玉を取り出したとき成功の玉がn個あるという場合がどのくらいの割合で実現するか(出現率=確率)は二項分布という関数で計算できる。
成功率0.8の箱から玉を10個取り出す場合をExcelを使って計算しグラフにした(図2)。横軸は取り出した玉のなかで成功の玉の割合(実際は成功の玉の数で計算するが、グラフを較べやすくするために割合に換算してある)であり、縦軸はその出現率を示している。
同じように、玉を20個取り出すときを図3に、玉を50個取り出すときを図4に示す。計算では成功の玉が0の場合から計算できるが、グラフに示していない範囲(出現率が0.3未満)の出現率は非常に低く、グラフでは現れないため示していない。
図2、図3、図4を比較するとどの図も成功割合0.8で出現率が最大になっている。しかし、分布の巾は取り出す個数を増やすにつれて明らかに狭くなっている。
求めたい値は0.8であるが、玉を取り出して調べた成功率が0.7から0.9の間にある割合はN=10のとき57%、N=20で74%であるがN=50になると92%になる。すなわち50個取り出して計算した成功率がほんとうの値より0.1以上異なる割合は8%しかないのに対し、10個では43%もあるということになる。
このようにどのくらいの確からしさで成功率を求めようとするかによって取り出す玉の数(=実験回数)を決めることになる。

実験回数を決める考え方

このように取り出す玉の数Nが小さいと正しい成功率が得られない。Nを大きくするとだんだん正しい成功率に近づくが、では一体Nをいくらにすればいいのか?
成功率を計る目的はいろいろな条件で実験したデータを比較するためである。どのくらいの差をどの程度の確からしさで比較するかによってNの数を決めればいい。
二項分布p=0.8、N=10のグラフ
図2 10個の玉を取り出すときの確率分布

二項分布p=0.8、N=20のグラフ
図3 20個の玉を取り出すときの確率分布

二項分布p=0.8、N=50のグラフ
図4 50個の玉を取り出すときの確率分布

具体例による計算

確からしさの基準=標準偏差

データの広がりを示す指標に標準偏差σ(シグマ)であらわす)がある。データの出現頻度分布を示す関数としてよく用いられる正規分布の標準偏差には次のような性質がある(図5):
  • 平均値から±1標準偏差の間にデータの68%が存在する
  • 平均値から±2標準偏差の間にデータの95%が存在する
  • 平均値から±3標準偏差の間にデータの99.7%が存在する
2つの値が同じ集団から取れたサンプルかどうかを調べるとき、2つの値の差を標準偏差と比較して:
  • ±1標準偏差以上であれば違う可能性がありそうだ
  • ±2標準偏差以上であればほぼ間違いなく違う
  • ±3標準偏差以上であれば間違いなく違う
と判断する。
正規分布
図5 正規分布曲線

計算戦略=条件の設定

問題を次のように定義する。
N回の実験を行って得た成功率を比較して2つの成功率が0.1以上違っているときその2つの実験の成功率は違う可能性がありそうだと言えるために必要なNを求める。
すなわち、判別する差を0.1とし、確からしさを±1標準偏差で判断しようと考えた。

成功率の差の標準偏差

 
同じ実験条件で得られる成功率の確率分布は二項分布に従う。したがって成功率の差の標準偏差は(1)式で与えられる。(1)式で計算した標準偏差と判別限界0.1とを比較し、0.1が標準偏差より大きければその差は違う可能性があると判断する。

p=成功確率;q=p-1;n=サンプル数
(1)式の左辺を0.1に置き換えて、pを変えながらNを求めると図6が得られる。p=0.5のときNga最大の50をとり、それより低くても高くてもNは小さくなる。
着地ねこの実験では、50回の実験から成功率を求め、成功率の差が0.1以上あれば性能に差があったと判断できる。
図6 成功率と必要な実験回数

補足:統計的な意味での判断の基準

ここでは差が有意であるかないかについて、1標準偏差を使っている。この基準はやや甘いと言わざるを得ない。一般的には2標準偏差が判断基準に使われる場合が多い。2標準偏差分離れていれば間違った判断をする可能性は5%以下であり、日常的にはまずないと思っていいと考えられるためである。
逆にいうと測定した成功率が0.2以上離れていれば大手を振って性能に違いがあるといっていい。

初版:2007.5.7