箱形图(英文:Box-plot)是一种用作显示一组数据分散情况的统计图,于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、下四分位数及上四分位数。
箱型图由一个长方形(即所谓的箱子)和两根从长方形延伸出的线组成,两根线的末端一般以一根短线结尾,它们有时候也被称为胡须或天线。位于长方形里边的线表示分布的中位数,也就是说这根线两边各存在50%的数。长方形的两端各代表下四分位数及上四分位数,也就是说,长方形内也包含了50%的数。下四分位数和上四分位数之间的距离被称为四分位间距(interquartile range),简称IQR。 根据John Tukey对天线末端位置的定义,它们距离各自箱型边界的距离不超过1.5倍IQR,当最大值或最小值在这个范围内时,则取最大值或者最小值。也就是为什么通常两根线长短不一的原因。如果在这个范围之外存在数值,被成为离群值(Outlier),它们将被单独表示出来。这种表达方法也是ggplot里boxplot默认的方法。 此外也可以选择带缺口的箱型图(notched box plot),它对基本的图形进行扩展,标示出1.58 * IQR / sqrt(n)位置,大约是所有数值95%的区间。 通过观察箱型图,人们可以迅速地了解数据的大致分布,比如50%数据分布的位置,大多数数据集中的范围,从中位线位置看出数据分布的对称性等。
References
Box Plot: Display of Distribution