观点丨什么是统计学？ - 学术研究

统计学（statistics）是应用数学的一个分支，主要通过利用概率论建立数学模型，收集所观察系统的数据，进行量化的分析、总结，并进而进行推断和预测，为相关决策提供依据和参考。它被广泛的应用在各门学科之上，从物理和社会科学到人文科学，甚至被用来工商业及政府的情报决策之上。

统计学主要又分为描述统计学和推断统计学。给定一组数据，统计学可以摘要并且描述这份数据，这个用法称作为描述统计学。另外，观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型，以之来推论研究中的步骤及母体，这种用法被称做推论统计学。这两种用法都可以被称作为应用统计学。另外也有一个叫做数理统计学的学科专门用来讨论这门科目背后的理论基础。

起源

统计学的英文statistics最早是源于现代拉丁文statisticum collegium (国会)以及意大利文 statista (国民或政治家)。德文Statistik，最早是由Gottfried Achenwall(1749)所使用，代表对国家的资料进行分析的学问，也就是“研究国家的科学”。在十九世纪统计学在广泛的数据以及资料中探究其意义，并且由John Sinclair引进到英语世界。

统计学是一门很古老的科学，一般认为其学理研究始于古希腊的亚里斯多德时代，迄今已有两千三百多年的历史。它起源于研究社会经济问题，在两千多年的发展过程中，统计学至少经历了“城邦政情”，“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科，确切地说它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础，但是它不属于统计学的范畴，而属于数学的范畴。

统计学的创立时期

德国的斯勒兹曾说过：“统计是动态的历史，历史是静态的统计。”可见统计学的产生与发展是和生产的发展、社会的进步紧密相联的。

统计学的萌芽产生在欧洲。17世纪中叶至18世纪中叶是统计学的创立时期。在这一时期，统计学理论初步形成了一定的学术派别，主要有国势学派和政治算术学派。

1、国势学派
国势学派又称记述学派，产生于17世纪的德国。由于该学派主要以文字记述国家的显著事项，故称记述学派。其主要代表人物是海尔曼·康令和阿亨华尔。康令第一个在德国黑尔姆斯太特大学以“国势学”为题讲授政治活动家应具备的知识。阿亨华尔在格丁根大学开设“国家学”课程，其主要著作是《近代欧洲各国国势学纲要》，书中讲述“一国或多数国家的显著事项”，主要用对比分析的方法研究了解国家组织、领土、人口、资源财富和国情国力，比较了各国实力的强弱，为德国的君主政体服务。因在外文中“国势”与“统计”词义相通，后来正式命名为“统计学”。该学派在进行国势比较分析中，偏重事物性质的解释，而不注重数量对比和数量计算，但却为统计学的发展奠定了经济理论基础。但随着资本主义市场经济的发展，对事物量的计算和分析显得越来越重要，该学派后来发生了分裂，分化为图表学派和比较学派。

2、政治算术学派
政治算术学派产生于17世纪中叶的英国，创始人是威廉·配第（1623-1687），其代表作是他于1676年完成的《政治算术》一书。这里的“政治”是指政治经济学，“算术”是指统计方法。在这部书中，他利用实际资料，运用数字、重量和尺度等统计方法对英国、法国和荷兰三国的国情国力，作了系统的数量对比分析，从而为统计学的形成和发展奠定了方法论基础。因此马克思说：“威廉·佩第——政治经济学之父，在某种程度上也是统计学的创始人。”

政治算术学派的另一个代表人物是约翰·格朗特（1620-1674）。他以1604年伦敦教会每周一次发表的“死亡公报”为研究资料，在 1662年发表了《关于死亡公报的自然和政治观察》的论著。书中分析了60年来伦敦居民死亡的原因及人口变动的关系，首次提出通过大量观察，可以发现新生儿性别比例具有稳定性和不同死因的比例等人口规律；并且第一次编制了“生命表”，对死亡率与人口寿命作了分析，从而引起了普遍的关注。他的研究清楚地表明了统计学作为国家管理工具的重要作用。

要点

1、准确度和误差

准确度：指分析结果接近真值的程度，用平均值的误差表示。

误差：

表示测定值与真值的差异。平均值的误差就是平均值与真值的误差，可用绝对误差（E）和相对误差（RE）两者来表示。
绝对误差表示测定值与真值之差：E=1/n（x1+x2+...+xn)- T（T为真值）
相对误差表示误差在真值中所占的比例：RE=E/T*100%
平均值的误差越小，分析结果越接近真值，其准确度越高；反之，平均值的误差越大，分析结果的准确度越差。

2、精确度和偏差

精确度：

指一组平行测定结果之间相互接近的程度，用各种偏差来表示。

（1）绝对偏差和相对偏差

绝对偏差：单次测定值与平均值之差称为绝对偏差

相对偏差：绝对偏差在平均值中所占的百分比。

（2）平均偏差和相对平均偏差

平均偏差：单次测定结果的绝对偏差的平均值称为平均偏差。

相对平均偏差：平均偏差占平均值的百分比。

（3）标准偏差和相对标准偏差

标准偏差：单次测定结果与平均值的差方和与n-1的商取算术平方根称为标准偏差，用S表示，用来衡量一组测定值的精密度。其中差方和均根的目的，一是避免各次分析结果的偏差相互抵消，二是突出大的偏差，更好地反映各次分析结果的分散程度；三是描述各次测定值的平均分散程度。标准偏差越小，表示平行测定结果的随机误差越小，分散度越小和精密度越高。
相对标准偏差：标准偏差在平均值所占的百分比，用来比较在不同情况下测定结果的精密度，在生物统计学上有时也称变异系数，用来比较变异的大小。

（4）平均值的标准偏差，也称标准误，是标准偏差处以n的算术平方根，用来衡量n组平行测定结果的平均值的精密度，即n组平均值的标准偏差。

3、随机误差和系统误差

随机误差：是由某些难以控制的、无法避免的、不确定的随机因素或在目前技术水平下尚未掌握的原因造成的误差。随机误差的大小是可变的，重复测定时有大有小，有正有负，但小误差出现的机会多，大误差出现的机会少，大小相等的正负误差出现的机会相等。无穷多次测定的结果不存在随机误差，称为总体平均值。随机误差决定了分析结果的精密度，用样本平均值与总体平均值之差表示。

系统误差：是由分析方法不理想，分析仪器不精确，分析试剂不纯或分析主观偏见等造成的误差，用总体平均值与真值之差表示。

准确度是指测定值接近真值的程度，决定于平均值的误差（包括随机误差和系统误差），而精确度是指一组平行测定的结果间相互接近的程度，只决定于随机误差的大小。于是准确度（平均值的误差）=精密度（随机误差）+系统误差。