F-score

本条目存在以下问题，请协助改善本条目或在讨论页针对议题发表看法。

此条目包含过多行话或专业术语，可能需要简化或提出进一步解释。 (2020年7月4日)
请在讨论页中发表对于本议题的看法，并移除或解释本条目中的行话。

此条目需要编修，以确保文法、用词、语气、格式、标点等使用恰当。 (2020年7月4日)
请按照校对指引，帮助编辑这个条目。（帮助、讨论）

此条目可参照英语维基百科相应条目来扩充。 (2020年7月4日)
若您熟悉来源语言和主题，请协助参考外语维基百科扩充条目。请勿直接提交机械翻译，也不要翻译不可靠、低品质内容。依版权协议，译文需在编辑摘要注明来源，或于讨论页顶部标记{{Translated page}}标签。

此条目需要补充更多来源。 (2020年7月4日)
请协助补充多方面可靠来源以改善这篇条目，无法查证的内容可能会因为异议提出而被移除。
致使用者：请搜索一下条目的标题（来源搜索："F-score" — 网页、新闻、书籍、学术、图像），以检查网络上是否存在该主题的更多可靠来源（判定指引）。

此条目的引用需要清理，使其符合格式。 (2020年7月4日)
参考文献应符合正确的引用、脚注及外部链接格式。

此条目已列出参考文献，但因为没有文内引注而使来源仍然不明。 (2022年4月24日)
请加上合适的文内引注来改善这篇条目。

F值，亦被称做F-measure，是一种量测算法的精确度常用的指标，经常用来判断算法的精确度。目前在辨识、侦测相关的算法中经常会分别提到精确率（precision）和召回率（recall），F-score能同时考虑这两个数值，平衡地反映这个算法的精确度。

定义

一般式

F_{\beta }=(1+\beta ^{2})\cdot {\frac {\mathrm {precision} \cdot \mathrm {recall} }{(\beta ^{2}\cdot \mathrm {precision} )+\mathrm {recall} }}

$\beta$ 是使用者自行定义的参数，由一般式可见F-score能同时考虑precision和recall这两种数值。分子为precision和recall相乘，根据这个式子，只要precision或recall趋近于0，F-score就会趋近于0，代表着这个算法的精确度非常低。一个好的算法，最好能够平衡recall和precision，且尽量让两种指标都很高。所以有一套判断方式可以同时考虑recall和precision。当 $\beta \rightarrow 0$ 时，F-score退化为precision；当 $\beta \rightarrow \infty$ 时，F-score退化为recall。

Precision和Recall权重一样时

一般上来说，提到F-score且没有特别的定义时，是指 $\beta =1$ 时的F-score，亦有写作F1-score。代表使用者同样的注重precision和recall的这两个指标。其分数可以说是precision和recall的调和平均，式子如下：

F_{1}={\frac {2}{\mathrm {recall} ^{-1}+\mathrm {precision} ^{-1}}}=2{\frac {\mathrm {precision} \cdot \mathrm {recall} }{\mathrm {precision} +\mathrm {recall} }}

F-score最理想的数值是趋近于1，做法是让precision和recall都有很高的值。若两者皆为1，使得 $2\cdot {\frac {1}{2}}=1$ ，则F-score = 1 （100%），代表该算法有着最佳的精确度。

F-score的组成元素

TP, FN, FP, TN

量测常见的4种情况

前面的true/false修饰后面的positive/negative，后面的positive/negative是我们的方法的判断。

TP（true positive，真阳性）：我们的方法判断为真，这个判断是对的。即事实上为真，而且被我们的方法判断为真的情形。
FN（false negative，假阴性）：我们的方法判断为不真，这个判断是错的。即事实上为真，却被我们的方法判断为不真的情形。
FP（false positive，假阳性）：我们的方法判断为真，这个判断是错的。即事实上不为真，却被我们的方法误判为真的情形。
TN（true negative，真阴性）：我们的方法判断为不真，这个判断是对的。即事实上不为真，而且被我们的方法判断成不为真的情形。

以抓犯人为例，TP是有罪而且被抓到的情形，FN是有罪但没被抓到的情形，FP是无罪但被误抓的情形，TN是无罪且未被误逮的情形

混淆矩阵
	判断为真	判断不为真
事实上为真	TP	FN
事实上不为真	FP	TN

Precision和Recall

$precision={\frac {TP}{TP+FP}}=+P\;\;$ (positive prediction rate)

Precision的分母为两种判断为真的情形的总和（范恩图中完整绿色的部分）

解释：当辨识结果为FP的代价很高时，F-score应该着重此指标，亦即precision要很高。

例子：辨识电邮信箱里的垃圾邮件时，如果某封被误判成垃圾邮件（即FP）时，使用者可能就此错过重要的通知。

$recall={\frac {TP}{TP+FN}}$

Recall的分母为事实上为真的情形的总和（范恩图中完整紫色的部分）

解释：当辨识结果为FN的代价很高时，F-score应该着重此指标，亦即recall要很高。

举例：一个传染病诊断辨识系统中，如果某个传染病患者被误判成阴性（即FN），当地的社区的居民就落入被传染的高风险之中。

举例：真正犯罪的人当中，有多少比例的罪犯被抓到。或，一张照片当中，有多少人脸被侦测到。

Precision和Recall的异同

它们的分子皆为TP。
F-score的recall和precision之间存在着权衡的关系，可通过 β 调整更重视的部分。

以警察抓犯人的故事为例：

一位警察很厉害，抓了很多犯人，但是这些犯人当中，只有少部分真正有罪，其他都是被冤枉的。

recall 高，因为该抓与不该抓的犯人都被抓到了。
precision 低，因为很多都是没犯罪的人。

“宁可错抓一百，也不可放过一个”

recall 高，但 precision 低。

一个警察非常严谨，只逮捕真正有犯罪的人，不抓实在是没办法肯定的犯人。

precision 高，因为通常被抓到人的都是有罪的。
recall 低，因为不小心放掉一大群犯人。

“宁可错放一百，也不可冤枉一个”

precision 高，但 recall 低。

应用

F-score经常用于评估资讯检索的结果，如：

图像检索
机器学习模型

性质

F-score 是等于取回物品集和相关物品集的Dice系数

参考

国立台湾大学电信工程学研究所丁建均教授. 高等數位訊號處理. [2020-07-01]. （原始内容存档于2020-05-08）.
F度量（F-measure）. 国家教育研究院双语词汇数据库. [2020-07-01]. （原始内容存档于2020-07-03）.

检索自“https://zh.wikipedia.org/w/index.php?title=F-score&oldid=83172312”