2016年12月22日木曜日

四分位数と箱ひげ図 summary boxplot

ざっくりいうと、四分位数はデータを小さい順に並べて4等分し、区切りの数を小さい方から第1四分位数、第2四分位数、第3四分位数といいます。第2四分位数は中央値ともいいます。
厳密な定義は種々あるようですが、教科書では次のようになっていました。

①中央値・・・データを小さい順に並べたときに、中央に来る値。偶数個の場合は中央2個の平均
②第1四分位数・・・下半分の中央値。全体のデータの個数が奇数の場合は中央の値は上半分にも下半分にも含まれない。
③第2四分位数・・・中央値
④第3四分位数・・・略

Rの四分位数の定義はこれとは若干違うようです。
> x=rnorm(100)
> summary(x)
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
-2.43200 -0.63320  0.05018  0.02139  0.63870  3.19800 
> boxplot(x)


 
summary で最大値、最小値、四分位数、平均がわかります。

boxplot で箱ひげ図を書いてくれます。箱ひげ図の中に小さな〇が見えますが、これは外れ値といって、第1四分位数ー(第3四分位数ー第1四分位数)*1.5 より小さいものと、第3四分位数+(第3四分位数ー第1四分位数)*1.5 より大きいものです。

0 件のコメント:

コメントを投稿