统计图表描述之箱式图

了解箱式图之前首先对一个基本概念要有所了解。那就是四分位数。

四分位差(quartile deviation),通常用符号Q来表示,指在一个次数分配中,中间50%的次数的距离的一半。在一组数据中,它的值等于P25到P75距离的二分之一。这个差异量数能够反映出数据分布中中间50%数据的散布情况。

由于P25之下占有总次数的四分之一,故P25称为第一四分位Q1,中数或P50称为第二四分位(Q2),P75称为第三四分位(Q3).四分位差就是第三四分位与第一四分位之差的一半。


箱式图(Boxplot),包含多个基本统计量,以集中展现成组数据分布的形状、中心和分散特征的一类统计图。较适合于多组数据之间的对比,同时也是分析离群值(outliers)的有效工具。(发明人John Tukey,1977)

  • 简单箱式图:

分别以四分位数(Q3,Q1)为箱型方框的上、下边,以最大值(max)、最小值(min)为线的上、下端,同时标出中位数(median)的位置。如下图:

123

其中(2)呈对称分布特点;(1)分布呈左偏;(3)分布呈右偏。通过箱式图中数据点的位置关系可以反映数据分布的对称性。

此外,还有考虑离群值的箱式图,如下图:

456

20181203

留下评论