ロジスティック回帰【機械学習アウトプット第５回】

ロジスティック回帰とは

回帰と名前がついているが、実際には（2値）分類問題。どのクラスに所属するかの確率を計算することで分類する。

単回帰・重回帰分析と基本構造は同じで、

$n$ 次元の説明変数： $\boldsymbol{x} = [x_0= 1, x_1, x_2, ... x_n]$
目的変数： $\boldsymbol{y} = [y_1, y_2, ... y_n]　(y_i = [0, 1])$
パラメータ： $\boldsymbol{w} = [w_0, w_1, w_2, ... w_n]$
予測値： $\boldsymbol{\hat y} = f(\boldsymbol{w^{T}x})　(0 ≦ \hat {y}_{i} ≦ 1)$

を用いて、 $\boldsymbol{y}$ と $\boldsymbol{\hat y}$ の誤差を最小化するような $\boldsymbol{w}$ を求めることが目的である。なお、 $x_0=1$ としたのはバイアスを表している。

ただし、予測値 $\boldsymbol{\hat y}$ を0から1の確率値に収めるために、関数 $f$ を噛ませている点に注意。

そして、この $f$ は、

$f(x) = \dfrac{1}{1 + e^{-x}}$

で表される、シグモイド関数と呼ばれるやつである。

なぜシグモイド関数が用いられるか

「オッズ」という概念がある。競馬とかでオッズ○倍とかいう時のオッズである。オッズは単に勝敗の比率のことで、勝利確率を $p$ とすると、

$\dfrac{p}{1-p}　(p:1-p)$

で表される。

これにlogをとった、

$logit = log \dfrac{p}{1-p}$

を考える（ちなみにlogをとる理由は、勝ちと負けの尺度を揃えるためなどの理屈がある）。

すると、入力 $p$ の範囲は $0 ≦ p ≦ 1$ 、出力logitの範囲は実数全体であるから、 logitの逆関数を考えると、実数全体を確率値0から1に収めることができ、都合が良い。

その逆関数がシグモイド関数、