ぱたへね

はてなダイアリーはrustの色分けができないのでこっちに来た

箱ひげ図(box plot)

5数要約(5 number summary)

5数要約とは、データの分布状況を5つの量にまとめたものです。5つの量とは、小さい順に最小値、下側四分位置、中央値、上側四分位です。英語では、the sample minimum (smallest observation)、the lower quartile or first quartile、the median (middle value)、the upper quartile or third quartile、the sample maximum (largest observation)の5つです。

中央値は全データのmedianです。下側四分位置は最小値と中央値間のmedian、同じく上側四分位は最大値と中央値間のmedianです。

箱ひげ図

下側四分位置と上側四分位置の間を箱で表現しまます。

上側四分位から下側四分位置を引いた値を、IQR(interquartile range) とします。下側四分位置からIRQの1.5倍を引いたものを下側内堀、上側四分位置にIRQの1.5倍を足したものを上側内堀とします。下側内堀と上側内堀の中の最小値と最大値を、箱ひげ図のひげとして表現します。

pyplotで箱ひげ図を書く。

pyplotを使うと箱ひげ図を簡単に書くことができます。元データは、例題で学ぶ統計的方法 15ページから。


# python3
__author__ = 'natu'
from pylab import *

data = [7.4, 7.7, 8,6, 8.1, 8.6, 8.3, 8.3, 7.3, 8.7, 8.5,
        7.3, 8.4, 8.5, 8.6, 8.6, 8.8, 7.7, 8.6, 8.2, 11.9,
        7.6, 8.3, 7.8, 8.8, 9.4, 8.6, 8.6, 7.9, 8.5,
        8.2, 8.7, 8.8, 8.2, 8.4, 7.9, 8.7, 7.5, 8.1,
        6.7, 8.6, 7.6, 8.6, 9.5, 7.6, 7.8, 8.7, 8.5]

# xlimで使う最大値と最小値を求める。
data.sort()
min = data[0]
max = data[-1]

figure()
boxplot(data,0,'rs',0)
xlim(min-1.0,max+1.0)

savefig('boxplot.png')
show()