E検定取得に向けた学習内容① ~応用数学

E検定取得に向けた学習内容① ~応用数学

「ラビットチャレンジ」
でE検定取得に向けた勉強を行うことにしました。

E検定は、AI関連の資格で、国内では比較的難しいものの一つです。しばらく前から気になっていて、ただ前提研修が高すぎてハードルが高かったのですが、月額3000円からのe-learningコースで受験資格を取得できると見つけて、申し込んでみました。
とりあえず良い機会なので、統計基礎や機械学習をもう一度、基礎固めやっていこうと思います。(検定が3ヶ月後くらい。。)

学んだことを、メモの箇条書きで書いていきます。

<線形代数学>

行列の基礎、久しぶりに触れた。
普段、応用的なことばかり触れていて、基礎的な内容について触れる機会が中々ないので、改めて学べた感。
・連立方程式を行列で表すとどうなるか
・逆行列≒逆数のような行列、単位行列≒1のような行列
・逆行列が存在する条件=ベクトル同士が同じ方向を向いていない&0の要素を持たない=(a:b≠c:d)
・行列式 ad-bc≒平行四辺形の面積
・同じ行ベクトルが含まれていると、行列式はゼロ
・1つのベクトルがλ倍→行列式はλ倍
・ある成分だけ違う行列→ある成分だけ異なる行列式の足し合わせとして表現できる
・行を入れ替えると行列式の符号は入れ替わる
・3次元の行列式の求め方→3面それぞれで足し算すると考えると、2次元の行列式を3回足すのと同じ

<確率・統計>

・固有値、固有ベクトル:あるベクトルをかけるとき、ベクトルが定数のように振る舞うベクトルを固有ベクトルと呼び、その定数を固有値と呼ぶ
・Ax=λx
 (A-λI)x=0
 |A-λI|=0(行列式が0)
 |A-λI|の行列式を解くことで、固有値が先に求まり、固有ベクトルは後で求まる(基本的には次元数分になる)
・固有値分解→行列の特徴をつかむのに便利&行列の累乗など計算する際に、A=VλV^-1などと表せて、V^-1*Vは単位行列になるので計算が楽。
・固有値分解の具体例
・特異値分解→固有値ベクトルの正方行列以外のためのもの。ベクトルの逆行列をかけたものは正方行列になり、その固有値分解をして出てくる固有値は、元のベクトルの固有値の二乗であるとの考え方から、固有値を求める。

<統計学1>

・A ⊃ B:AもBも集合、A ∋ B:Bは要素
・和集合、共通部分(積集合は別の意味)
・A ⋃(カップ) B、A ∩(キャップ) B
・絶対補、相対補(差集合)

<確率>

・頻度確率(客観確率):全数調査などに基づき、客観的かつ確実に確率を論じることができる点が良い。
・ベイズ確率(主観確率):信念の度合い。全数調査などができず、頻度確率ができない場合にも、確率で論じることができる点が良い。
・頻度確率、ベイズ確率のどちらが良い、優れている、というわけではない。
・P(A∩B)=P(A)P(B|A)
・条件付確率P(A|B) = P(A∩B)/P(B)
・独立な事象の場合、P(B|A)=P(B)
・ベイズ則:P(A)P(B|A)=P(B)P(A|B)
・P(A∩B)は、P(A,B)と書くこともある。

<統計学2>

・記述統計:集団の性質を要約し記述する(母集団の全件調査)
・推計統計:集団から一部を取り出し、元の集団(母集団)の性質を予測する(母集団のうち一部を標本として調査する)
・今回機械学習で扱うのは、主に記述統計
・確率変数:事象と結びつけられた数値
・確率分布:事象の発生する確率の分布
・期待値=すべての事象について、確率変数×確率を足し合わせる(事象が連続値の場合、積分で求める)

・分散Var(f)=E((f(x)-E(f))^2)=E(f(x)^2-E(f)^2
・データの各値が期待値からどれだけずれているかを知るのに便利。
・共分散Cov(f,g)=E(((f(x)-E(f))(g(y)-E(g)))=E(fg)-E(f)E(g)
・2つの値の関連性を知るのに便利。
・正の値をとれば似た傾向、負の値をとれば逆の傾向
・まったく関係ない場合は、共分散は0に近づく。
・標準偏差σは、分散のルートをとったもの(単位を元に戻すため)
・様々な確率分布
・ベルヌーイ分布→コイントスのイメージ(裏表が出る割合が違う場合も扱える)
 P(x|μ)=μ^x(a-μ)^(1-x) ←μは平均の値
・マルチヌーイ(カテゴリカル)分布→さいころを転がすイメージ
・二項分布→ベルヌーイ分布の多試行版
 nCx*λ^x(a-λ)^(n-x) 山状の形(要素の値が中央付近の確率が高くなる)
・ガウス分布→釣鐘型の連続分布(真の分布が分からなくとも、サンプルが多ければ正規分布に近づくと仮定を置いて考える考え方)
 二項分布の試行回数を無限に大きくすると…という考え方からも生まれた?
・様々な用語
・母数:母集団を特徴づけるパラメータ(平均など)
・点推定:母数(平均値など)を1つの値に推定すること、区間推定:母数(平均値など)が存在する範囲を推定すること
・推定量:パラメータを推定するために利用する数値の計算方法や計算式のこと、推定値:実際に求まった値
 推定量/推定値は、ハットを付けて表す。(θにハットがついていればθの推定量/推定値など)
・標本平均:母集団から取り出した標本の平均値。
・サンプル数が大きいほど母集団の値に近づくことを一致性と呼ぶ
・サンプル数がいくらであっても、期待値は母集団の値と同様であることを不遍性と呼ぶ
・標本分散:母集団から取り出した標本の分散値。
・一致性は満たすが…不遍性は満たさない(∵少数のサンプルの場合のほうがばらつき具合が小さくなるため)
・不偏性を満たすように、n/n-1をかけることで、標本分散を修正することが知られている。
・n/n-1をかけるのは、例えば3つ要素がある場合に2つの値を情報与えられた場合に、もう1つは自動的に決まる、つまり1つの要素はほかの要素に紐づいているからと考えることができる

<情報科学>

・情報の変化率に着目する
・「情報の変化のわかりやすさは、増加の比率に影響を受ける」という考え方
・自己情報量:変化量に着目、エントロピーの考え方→情報の珍しさ
 I(x)=-log(P(x))=log(W(x)) P:確率、W:事象の数 PとWは逆数の関係。log(W(x))は∫(1/w)dw。
 事象Wの数を2でlogを計算するのは、例えば0/1スイッチだけで情報を伝えるときに必要なスイッチの数を推定するなどの考え方から。
・シャノンエントロピー:自己情報量(情報の珍しさ)の期待値
 誤差関数の代わりに用いたり、シャノンエントロピーが最大になる部分になるのではないかと予想することなどができる。
・カルバック・ライブラー ダイバージェンス:同じ事象・確率変数における異なる確率分布P,Qの違いを表す
 D_KL(P||Q)=Ex~P(Q(x))-I(P(x)) Ex~P:Pによる平均、I(Q(x)):想定していた情報の珍しさ、I(P(x)):実際の情報の珍しさ
 =Ex~P(-log(Q(x))-(-log(P(x)))=Ex~Plog(P(x)/Q(x))
 以前想定していたQ(x)と比べて、新たにわかったP(x)がどのくらい確率(情報の珍しさ)が異なるか
・交差エントロピー:Qに関する事故情報量をPに関する平均をとる、考え方から生まれたと言われている
・昔のモールス信号のやり取りの中で、暗号表による信号の圧縮を行っていた。
 事前に暗号表のようなもの(情報の分布):Qを送り、それに基づいて連絡を取り合うが、
 実際には想定していたQとはずれている情報の分布:Pに基づいて情報連携がされることがあった。
 そのため、Pの分布で平均をとる考え方があった。
・H(P,Q)=-Ex~PlogQ(x)=-ΣP(x)logQ(x) P:真の確率分布、Q:推定した確率分布
・交差エントロピー誤差をわかりやすく説明する→https://qiita.com/kenta1984/items/59a9ef1788e6934fd962