频率 (统计学)
此条目可参照英语维基百科相应条目来扩充。 |
统计学里,一事件的频率,可以表示为,是在实验中观测到事件的次数与总实验次数的比值[1]。例如在掷骰子100次的随机实验中,有16次掷出6点,则在该实验中,“掷出6点”事件的频率为0.16。
事件的频数(或次数),即为实验中观测到事件的次数[1][2]。
实务上,常会将各事件的频率用图表或是表格方式表示。
种类
累计频率(cumulative frequency)是事件经排序后,在特定点以下之事件的频率总和。[3]。
可以将所有事件的频率 绘出,即为频率分布(frequency distribution)。
频率分布
频率分布(frequency distribution)可以呈现一个分为各互斥分组资料的情形,以及各组的数量。这是呈现未组织资料(例如选举结果、某区域的的人口收入、毕业生助学贷款金额)的方式。呈现频率分布的图表有直方图、条形图、折线图及圆饼图。频率分布可以用在量化和质化的资料。
建构频率分布
- 决定分组组数。若统计的是量化的资料,需要决定分组的组数。组数太多或是太少会无法呈现资料的特性,也有可能很难依该组数来进行分组和分析。理想的分组组数可以参考: (log是以10为基底),或是依直方图的“方根公式” ,其中n是资料的总数(若是像人口资料的统计,用后者会分太多组)。不过这些公式只是作为参,还是需要依实际情形作调整。
- 用资料最大值和最小值计算资料全距(全距=最大值 – 最小值)。全距会用来决定每一组的宽度。
- 决定每一组的宽度,以h来表示,公式为 (假设每一组的宽度都相同)。
一般来说每一组的宽度会相同。所有的组总和需要从数据中的最小值到最大值都包括在内。在频率分布上一般会倾向使用相同的组宽,不过有些时候使用不同的组宽(例如使用对数区问),才能完整的看到数据的资讯,避免有许多区间没有资料,或是只有极少量资料的情形[4]。
- 决定第一组的下限。一般会小于或等于最小值。
- 每观测一个资料,就在其对应的分组加上一个记号,直到所有的资料都记录完为止。
- 依需求计算频率、相对频率、累计频率等资讯。
以下是一些常用来呈现频率分布的图表[5]:
直方图
直方图是用相邻的长方形呈现频率分布情形的图表,每一个长方形对应某一区间内的事件,其长方形的高度会对应此区间内的频率密度(频率除以区间宽度),因此长方形面积即对应其频率。直方图的总面积即为资料的笔数。也可以用直方图显示标准化后的相对频率,可以呈现各分类下的比例,总面积对应1。一般来说会将分类划分为数个连续不重叠的区间,各区间多半是等宽度的[6]。绘图时会将直方图的各长方形绘成是相邻的,以表示其原始变数的连续性[7]。
条形图
条形图(bar chart、bar graph)是用长方形的长度表示变量的统计图表。长方形长条可以水平放置,也可以垂直放置。
频率分布表
频率分布表是用表格表示抽样中一个或是多个变数的情形。表格的每一横行是某个特殊分组或是区间出现的频率或是次数,这个表可以总结抽样中的统计分布。
以下是一个单变数的频率表,会列出问卷每一种回应的频率。
排名 | 同意程度 | 频数 | 频率 |
---|---|---|---|
1 | 强烈同意 | 22 | 0.216 |
2 | 有些同意 | 30 | 0.294 |
3 | 不确定 | 20 | 0.196 |
4 | 有些不同意 | 15 | 0.147 |
5 | 强烈不同意 | 15 | 0.147 |
以下是班上学生的身高的频率表
身高范围 | 学生人数 | 累计数量 |
---|---|---|
小于 5.0 英尺 | 25 | 25 |
5.0-5.5 英尺 | 35 | 60 |
5.5-6.0 英尺 | 20 | 80 |
6.0-6.5 英尺 | 20 | 100 |
联合频率分布
此章节需要扩充。 |
诠释
在频率论(Frequentist probability)诠释的概率下,会假设随着样本数量的一直增加,特定事件出现的比率最终会接近一个定值,称为有限相对频率(limiting relative frequency)[8][9]。
此一诠释和贝氏几率的结论相反。频率学派(frequentist)一词最早是由Maurice Kendall在1949年开始使用,和Bayesian相对(Maurice称为是非频率学派,non-frequentists)[10][11]。他观察到
- 3....我们可以大致区分两种主要的态度。一种将概率视为是“理性信念的程度”,或是其他类似的概念...另一种将概率定义成某事件发生的频率,或是在整体中的相对比例(p. 101)
- ...
- 12. 可能会有人认为,频率学派和非频率学派(若我这样称呼那些人的话)的差异主要是因为个自声称涵盖领域的不同(p. 104)
- ...
- 我断言不是这样的 ... 我认为,频率学派和非频率学派本质上的差异是,前者为了避免任何观点问题,用客观的特性(可能是真的,也可能是假想的)来定义概率,而后者就不然
应用
处理和操作表格化的事件频率资讯,比处理原始资料会简单多了。有简单的算法可以根据表格计算中位数、平均、标准差等。
假说检定可以用来评估二个频率分布的差异和类似性。评估包括量测集中趋势,像是平均数及中位数,也会评估离散程度,像是标准差和方差。
若频率分布的平均和中位数有显著差异,会称为频率分布具有偏度,另一种说法则是非对称。频率分布的峰度是量测在频率分布两侧的量在总量中的比例。若其分布比正态分布要分散,则称为高狭峰(leptokurtic),反之,则为低狭峰(platykurtic)。
相关条目
参考资料
- ^ 1.0 1.1 茆诗松,程依明,濮晓龙.概率论与数理统计教程 [M]. 3版.北京:高等教育出版社, 2019 (2022): 13-14. 978-7-04-051148-2.
- ^ 频数 [DB/OL] [2024] // 陈至立.辞海. 7版网络版.上海:上海辞书出版社, 2020.
- ^ Kenney, J. F.; Keeping, E. S. Mathematics of Statistics, Part 1 3rd. Princeton, NJ: Van Nostrand Reinhold. 1962: 17–19.
- ^ Manikandan, S. Frequency distribution. Journal of Pharmacology & Pharmacotherapeutics. 1 January 2011, 2 (1): 54–55. ISSN 0976-500X. PMC 3117575 . PMID 21701652. doi:10.4103/0976-500X.77120 .
- ^ Carlson, K. and Winquist, J. (2014) An Introduction to Statistics. SAGE Publications, Inc. Chapter 1: Introduction to Statistics and Frequency Distributions
- ^ Howitt, D. and Cramer, D. (2008) Statistics in Psychology. Prentice Hall
- ^ Charles Stangor (2011) "Research Methods For The Behavioral Sciences". Wadsworth, Cengage Learning. ISBN 9780840031976.
- ^ von Mises, Richard (1939) Probability, Statistics, and Truth (in German) (English translation, 1981: Dover Publications; 2 Revised edition. ISBN 0486242145) (p.14)
- ^ The Frequency theory Chapter 5; discussed in Donald Gilles, Philosophical theories of probability (2000), Psychology Press. ISBN 9780415182751 , p. 88.
- ^ Earliest Known Uses of Some of the Words of Probability & Statistics
- ^ Kendall, Maurice George. On the Reconciliation of Theories of Probability. Biometrika (Biometrika Trust). 1949, 36 (1/2): 101–116. JSTOR 2332534. doi:10.1093/biomet/36.1-2.101.