最小自乗法ともいいます。
点の集まりから、近似直線(曲線)を引くための手法です。
全ての点(Xi,Yi)と近似直線との差の合計が最小になるようになるように直線を引きます。
今回は簡単にするため、f(X)= aX + b の直線の場合で説明します。
X = Xiのとき、直線上のY座標は
Yi = f(Xi) = aXi + b
より、点と近似直線との差は
Yi – f(Xi)
= Yi – (aXi + b)
となります。
この差の合計が一番小さい時にもっとも点の集まりを直線で近似できていることとなりますが、
そのままこの差の総和を計算すると差の値がプラスの時とマイナスの時があるため、例えば下図
のように、正の差と負の差が同じようにある場合、差の合計が小さくなってしまうため、差を2乗してから合計した値が最小になるようにします。
よって、差の2乗の合計は
∑(Yi – (aXi + b))2
= ∑ (a2Xi2 + 2aXib + b2 – 2aXiYi – 2bYi + Yi2)・・・式①
となり、この総和の値が最小となるaとbを求めれば近似直線を求められることとなります。
この式を良くみると、aとbの二次関数でできているため、この二次関数が最小となる値を求めればよい。
二次関数が最小となるのは微分した値 = 0 の場合であるから、式①をaとbで偏微分した値が
0(ゼロ)となる値を求めればよい。
式①をaとbでそれぞれ偏微分すると
∂/∂a = 2a∑Xi2 + 2b∑Xi – 2∑XiYi= 0
∂/∂b = 2a∑Xi + 2b∑1 – 2∑Yi = 0
となり、未知数がaとbで式が2本あることから、aとbの連立法的式を解くことで未知数a,bを求めることができます。
連立方程式を行列で表すと
となり、行列を解くと未知数a,bが求まり、近似直線を求めることができます。
ちなみに、二次式(aX2 + bX + c)で近似すると
三次式(aX3 + bX2 + cX + d)で近似すると
と規則的に変化するため、n次式近似のプログラムも簡単に作ることができます。
ただし、行列の部分を二次元配列と考えると、近似する次数(n)が上がって行くと、配列の先頭に値が追加されていくのは、扱いにくいので、n次式近似のプログラムを作る場合は、近似式を
y = a + bx + cx2 + dx3 ・・・
として、行列の表現は
として、n次式で近似した最小二乗法を求めます。
この計算をエクセルで行ったものはExcelによる最小二乗近似からダウンロードできます。
逆行列を求めるプログラムにはガウスの消去法などが用いられます。
ここで、注意点!
三次式(a+bX+cX2+dX3)の近似を例にとってみると、近似処理をする過程でXに関する計算式はX~X6まで計算されます。
ここで、例えばXの値の範囲が
0.01~1000
だったとすると、Xに関する計算では
0.000000000001~1000000000000000000
までの計算がされます。
逆行列の計算ではこれらの値に関して足し算や掛け算がなされる訳ですからコンピュータの
計算誤差(桁落ち、情報落ちなど?)が発生する場合があります。
これを防ぐために、最小二乗法のプログラムでは近似式をそのまま使うのではなく、Xの値から
Xの平均値(Xb)を引いた計算式
a + b(X-Xb) + c(X-Xb)2 + d(X-Xb)3
で処理を行うのが一般的です。
コメント
「となり、行列を解くと未知数a,bが求まり、近似直線を求めることができます。」
の上の図の最後の行の-1は不要ではないでしょうか?
ご指摘ありがとうございます。
おっしゃる通り、間違ってました。
記事も修正しました。
[…] 6/2 最小二乗法 […]
[…] 6/2 最小二乗法 […]