独立でも同分布でもない確率変数の和に対する考察2

独立でも同分布でもない確率変数の和に対する数値実験なんて話を去年の8月にしていました．
ここで話題にしていた問題は，後で解けたのですが，そのことを報告しないまま過ぎてしまいました．

昨日きっかけがあってこの問題のことをふっと思い出して，懐かしくなったので書いておきます．

まず，問題（再掲）

$X_{j}$ は標準正規分布N(0,1)に従うとして，

$\displaystyle A_{1}=0\\ A_{k}= \frac{1}{k^2}\sum_{s=1}^{k-1}sX_{s}^{2}\\ B_{n,k}= \frac{1}{(n - k + 1)^2} \sum_{t = k+1}^{n}(n- t + 1)X_{t}^{2}\\ B_{n,n} = 0$

としたときの，

$Z_{n}= \frac{1}{\sqrt{n}}\sum_{k = 1}^{n}A_{k}X_{k}B_{k}$

の極限分布を求めよ．

東大数理を確率論・統計で受験する人は多分解くべき問題なんだと思います．

数値実験で，なんか正規分布っぽいねーってことだけが分かっていました．

で，いろんな本をぱらぱら見てたら，こんな定理があることが分かりました．

Martingale Central Limit Theorem

マルチンゲール中心極限定理，というやつなんですが，

要は，

普通の中心極限定理→独立，同分布の確率変数列　ならば　その確率変数の和は確率変数の期待値と分散の正規分布に従う

の

独立・同分布の確率変数列をマルチンゲールな確率変数列まで拡張できる，という話．

というわけで，先日の記事で

ある程度の条件を満たせば，独立でも同分布でもなくても，中心極限定理みたいなのを満たす気がしてきた．
しかも，正規分布に収束する何か．

と数値実験の結果から予言していたわけですが，それが当たった形になります．

では，ここで問題となるのは，

1.マルチンゲールとは何か

2.問題の確率変数列はマルチンゲール中心極限定理が適用できるのか

の2つです．

というわけで，以下これについてお話します．

1.マルチンゲールとは何か

マルチンゲールの定義は，例えば本なりwikipediaなり見てくれればいいんですが，

標語的に言えば「公正な賭け」です．

もう少し言うと，

n回目までのギャンブルが終わった段階で，n+1回目のギャンブルをしたとしたら，

n回目まで終わった段階での，n+1回目のギャンブルで儲けられそうな金　＝ n回目までの儲け金

となる物をマルチンゲールと言います．

wikipediaの定義と合わせると， $F_{n}$ というのがn回目までのギャンブルの情報です．

$E(X_{n+1}|F_{n}) = X_{n}$ であれば，確率変数列 $X_{t}$ はマルチンゲールであるとは，

$X_{t}(t = 1 \cdots n)$ までがnon-randomな変数だと見て，その時に $X_{n+1}$ の期待値を取ったら $X_{n}$ となっていること．

これがマルチンゲールの定義です．

2.問題の確率変数列はマルチンゲール中心極限定理が適用できるのか

マルチンゲール中心極限定理をもう少しきちんと述べます．

$S_{n,k}$ という確率変数列があって， $k$ についてマルチンゲールだとし， $E (S_{n,k}-S_{n,k-1})$ \rightarrow_{n} 0]だとする．

このとき， $E((S_{n,k}-S_{n,k-1})^2) = \sigma$ とおくと， $S_{n,k}$ は， $N(0,\sigma)$ に分布収束する．

さて，あとはこの定義に整合するか考えます．

問題において， $Z_{n,k} = \sum_{k=1}^{n} \frac{A_{t}X_{k}B_{n,t}}{\sqrt{n}}$ とおきます．

そうすると， $Z_{n,k-1}$ まで与えられたときに， $Z_{n,k}$ の状況を考えて，これがマルチンゲールかどうか判断すればよいわけです．

一般に，確率変数列 $X_{n}$ がマルチンゲールかどうかの判定は $E(X_{n} - X_{n-1} | F_{n-1}) = 0$ であればマルチンゲールで，そうでなければ違う，と行えばよかったわけです．

さて，この問題のとき， $Z_{n,k}-Z_{n,k-1} = A_{k}X_{k}B_{n,k}$ なので，

$E(A_{k}X_{k}B_{n,k} | F_{k-1}) = 0$ であってほしいわけです．

さて，ここで疑問なのは $F_{k-1}$ の実体です．

$k-1$ 回目までで何がわかっているのか考えます．実は，ここがこの問題のミソです．

nを固定したときの1回目...だとわかりにくいので，

2回目の試行で，non-random（すでに振られたサイコロ）となってしまう確率変数が，一見全部のように見えます．

ですが，実は，non-randomとなる確率変数は $X_{1}^2,X_{2},X_{3}^2 \cdots X_{n}^2$ です．

何を言おうとしているかというと， $X_{2}$ 以外は，元の確率変数の2乗したものしかわかりません．

ということで， $F_{k}$ に入っている情報は， $X_{1}, \cdots X_{k -1}, X_{k}^2 \cdots X_{n}^2$ です．

$E(A_{k}X_{k}B_{n,k} | F_{k-1})$ について考えると，このとき， $A_{k}, B_{n,k}$ は各種 $X_{t}^2$ で生成されているのですでにnon-randomとなっています．
つまり， $A_{k}, B_{n,k}, X_{k}^2$ についてわかってしまっているのですが， $X_{k}^2$ のもととなる $X_{k}$ 分だけランダムネスが残っています．

元を正すと $X_{k}$ は正規分布でした．なので，プラスマイナス等確率で出ます．

結局，（何か係数）*(同じ絶対値の+か-か当確率で出る確率変数)*(また何か別の係数)の期待値を求めることになって，これの期待値は0です．

ということで，この問題は，マルチンゲール中心極限定理の条件を満たすことになります．

あとはゴリゴリ計算するだけです． $E (\frac{(A_{k}X_{k}B_{n,k})^2}{n})$ の和を求めることがゴールとなります．

で，結局確かN(0, 3/2 - log 2)とかに収束するはずです．

実際に理論値と実験値のグラフを当時比べたりして，とても近いことを確認していたのですが，データがどこかいってしまった，かつ実験値のほうが計算にとても時間がかかるので，グラフは省略させてもらいます．

長くなりましたが，こんな感じでもとまります．

ちなみに，マルチンゲール中心極限定理を知らなくても確か出てきて，なにかきめうちで分布を持ってきて，それに2次平均収束をすることを言えば確か出てきたはず．どう解いたのか忘れちゃったけど．

豆知識ですが，極限分布を求める問題は2年に1回出ます．で，この問題は2年前の問題です．なので，今年は多分出るんじゃないかな．
大体の問題を計算機にかけて解いていたので，そのプログラムならあります，興味があれば連絡を笑．

- - - -

さて，結局ここの院試は落ちてしまいました．
今は情報と数学のあいのこのような専攻にいます．学科の大学院にそのまま進んだ形になります．

純粋数学を志して，そういう大学院を受けたわけですが，結局のところ，筆記試験は通ったものの，面接でこの世のものとは思えないほどぼこぼこにされ，落ちました．

あー純粋数学は向いてなかったんだなーって心の底から思った瞬間でした．

結局，院試の過程で，こうやって計算機にかけて数学の問題を考えるのが楽しかったのをよく覚えています．

組んだプログラムは（今からすれば）たいしたことはないんだけど，なんというか，今研究している原点になっている感じはちょっとする．ちなみに今もたいしたことはあんまりしてない．

この問題を考えていたときに，当時確率過程を習っていた先生のところに頻繁に行っては，
「実験結果としてこういうのが出たんだけど，なんか定理ないのか」とか，
「解けたから見てくれ」とか言いに行っていました．

最後，この先生に数理の院試に落ちたことを報告したのですが，
「数学の研究は，別にどこでもできる．どこに行っても立派に一流の研究をしてくれ．」
といわれました．
なんというか，心に残っていて，そういう意味でも，この問題はとても思い出深い．

結果を持っていくたびに「面白い」といってくれたことがとてもうれしくて，もうすでに純粋数学のことは忘れかけているのですが，
あれから人から「面白い」といわれるように研究や発表をしています．
最後ちょっといい話．