標準偏差のよくある誤解

標準偏差の説明としては、

   標準偏差はデータのバラツキを表す

というのが多いでしょうか?

その性質からデータの誤差などの指標としても用いられる事が多くあります。

例えば、下図のように上のグラフに比べて下のグラフの方がノイズが多く、上のグラフでは、標準偏差が0.2、下のグラフでは標準偏差が0.58となり、確かに標準偏差は誤差を良く表しているように思います。(右側のグラフはデータのヒストグラムです)

標準偏差のよくある誤解

それでは、下図のように高周波のノイズ(細かいギザギザ)は少ないが、全体的にデータに傾きのある

データ1

標準偏差のよくある誤解

                   データ1

全体的な傾きは無いが、細かいギザギザのあるデータ2

標準偏差のよくある誤解

                   データ2

データ1データ2のどちらの方がノイズが大きいでしょうか?

と聞かれると、データ2の方がノイズが大きい!と答える人が多いのではないでしょうか?

しかしながら、標準偏差を計算してみると

データ1がσ=0.87

データ2がσ=0.51

となります。

標準偏差のよくある誤解

標準偏差のよくある誤解

なんで???

ここで、改めて標準偏差の式を見てみると

標準偏差

というように、標準偏差は全データの平均値からのズレ量の2乗の平均の平方根を取ったものが標準偏差になっています。

データ1とデータ2はどちらも平均値が0のデータなのですが、データ1の方が全体的に傾いている分だけ、平均値からのズレ量が大きくなってしまうことから標準偏差の値も大きくなってしまいます。

と、マジマジ言われると、当たり前のように聞こえると思いますが、

標準偏差はバラつきを表す ≒ 誤差を表す ≒ ノイズレベルが分かる

という認識だけでいると、標準偏差を計算すればデータの(高周波な)誤差(だけ)が分かる!

と思っている人も少なくないはず?

ある意味、

標準偏差は低周波な誤差も含めてノイズレベルを表している

わけですが、データ全体の傾きやユレなど影響も受けるということをお忘れなく。

使える数学へ戻る