Skip to content Skip to footer

ROC 曲线和 AUC:直观的方法和实施指南

image-20231224222953818

介绍

ROC曲线是二战期间的一个概念,旨在评估雷达系统(接收器)区分敌方物体和信号噪声的能力¹。这一历史渊源导致了首字母缩略词受试者工作特征 (ROC) 曲线。随着时间的流逝,ROC 曲线越来越受欢迎²,成为分析分类器性能的最广泛工具之一。

本文旨在提供一种直观且非技术性的ROC曲线方法。它进一步介绍了与之相关的最关键指标之一——曲线下面积 (AUC)。最后一部分深入探讨了使用 Python 实现 ROC 和 AUC 的细节。

一、逐步建设中华民国

ROC 曲线是与基于概率模型的分类器相关的概念。例如,您可以考虑与本文中相同的分类器,该分类器基于逻辑回归模型,旨在预测患者是否患有糖尿病。如果您不熟悉分类器、决策阈值或概率模型的概念,或者想要复习一下,本文还介绍了必要的基础知识。

此分类器的决策阈值将表示为“d”,这意味着如果模型返回受测患者患有糖尿病的概率“p”,并且“p”高于或等于“d”,则这是阳性测试,并且将假定患者确实患有糖尿病。相反,如果“p”<“d”,则检测结果为阴性,假定患者没有糖尿病。

考虑决策阈值 d 为 0.5 的情况。

image-20231224223013276

使用测试数据集,将决策阈值设置为此值会导致 38 名患者被确定为阳性,其中 13 名患者实际上是阴性(导致假阳性结果)。此外,116 名患者被归类为阴性,其中 28 名实际上是阳性病例(导致假阴性结果)。这些结果总结在以下混淆矩阵中:

image-20231224223025869

然后,您可以对 d = 0.3 和 d = 0.7 重复该过程,从而产生两个不同的混淆矩阵:)

image-20231224223039883

由于比较完全混淆矩阵可能具有挑战性,因此可以使用性能指标,例如误报率和真阳性率。对于三个决策阈值,“误报率”和“真阳性率”值如下所示:

image-20231224223053152

通过使用“误报率”和“真阳性率”列,您可以在与每个决策阈值相对应的 2D 图形上绘制点

image-20231224223104956

您可以对 100、1000 甚至更多决策阈值重复此过程。下面是 1000 个决策阈值(范围为 0 到 1)的真阳性率与假阳性率的关系图。

image-20231224223116829

在绘制大量决策阈值的真阳性率与假阳性率时,通过连接图表上的点会出现一条曲线。此结果曲线称为 ROC 曲线。它通常使用“1 — 特异性”和“灵敏度”作为轴标签进行可视化。此外,随机分类器的 ROC 曲线通常用作比较点。

image-20231224223129240

据观察,随机数的 ROC 曲线对应于单位平方的对角线。它将图形的原点(模型不生成正样本(以决策阈值 1 实现)连接到模型仅生成正样本且真阳性率和假阳性率均为 100%(决策阈值为 0 时实现)的点。

二、关键质量指标:AUC

一个好的分类模型往往会表现出较高的真阳性率和较低的假阳性率,从而导致点集中在图表的左上角。

image-20231224223140956

因此,相对较好的模型的 ROC 曲线往往会接近左上角,而性能较差的模型往往会靠近对角线,如果模型的性能比随机分类器差,甚至会跌破对角线。

image-20231224223150705

这反过来又导致曲线下面积 (AUC) 的增加,使其成为分类器的常用整体质量指标。AUC 也是一个有用的指标,用于比较给定分类任务中不同模型的性能。

对于我们用作示例的模型,AUC 等于 0.77

image-20231224223201792

但是,需要注意的是,一旦设置了决策阈值,分类器的性能仅对应于 ROC 曲线上的一个点。一个有趣的观察结果是,两个不同的模型可以有不同的 ROC 曲线,但具有相同的 AUC,从而提供了对真阳性率和假阳性率之间不同平衡点的访问。

image-20231224223215847

因此,虽然 ROC 和 AUC 的比较无疑有助于模型选择、超参数微调、特征准备等,但重要的是要记住,定义决策阈值仍然至关重要。有必要对模型的性能进行全面分析,并考虑其预期使用的环境,以确定一个决策阈值,该阈值在特定用例的误报率 (FPR) 和真阳性率 (TPR) 之间提供最佳权衡。

从数学的角度来看,AUC 可以解释为模型对随机正样本的排名高于随机负样本³的概率。与此定义一致,理想分类器的 AUC 为 1,即单位平方的面积,而随机分类器的 ROC 不是 0 而是 0.5。模型的 AUC 可以低于 0.5,如果它始终预测错误的结果,它甚至会为 0。幸运的是,有时可以将一个糟糕的模型变成一个好的模型,但只需扭转其预测即可。

三、实施

Python 提供了多个库,使 ROC 曲线的实现和 AUC 的计算变得简单明了。一个流行的选择是 Scikit-Learn⁴。

首先,您需要建立一个模型并计算每个测试患者的阳性概率。下面是代码的精简版本,用于重构到目前为止讨论的分类模型。数据可以从 Kaggle⁵ 获取,有关此代码的更深入解释,可以参考本文。

import warnings
from sklearn.model_selection import train_test_split
import pandas as pd
from sklearn.linear_model import LogisticRegression
warnings.filterwarnings(&quot;ignore&quot;)

# Preparing the data
df = pd.read_csv(&quot;diabetes.csv&quot;)
Xtrain, X_test, y_train, y_test = train_test_split(df[df.columns[:-1]], df[df.columns[-1:]], test_size=0.2, random_state=50)

# Creating and fitting a logitic regression model
model = LogisticRegression(random_state=50, solver=&#039;lbfgs&#039;, max_iter=1000).fit(Xtrain, y_train)

# Predicting probabilities
y_proba = model.predict_proba(X_test)[:,1]

接下来,可以使用预测的概率向量在 2 行代码中获得 ROC 曲线。此外,该图会自动包含随机分类器的 AUC 和 ROC 曲线。

from sklearn.metrics import RocCurveDisplay
RocCurveDisplay.from_predictions(y_test, y_proba, plot_chance_level= True)

image-20231224223255110

AUC 值也可以从预测的概率向量中获取并保存为变量。

from sklearn.metrics import roc_auc_score
roc_auc = roc_auc_score(y_test, y_proba)
roc_auc

0.774

绘制 ROC 曲线的另一种类似解决方案使用特征和标签向量以及模型。

from sklearn.metrics import RocCurveDisplay
RocCurveDisplay.from_estimator(model, X_test, y_test,plot_chance_level=True)

另一种选择涉及使用假阳性率和真阳性率的向量。这些向量可以使用 metrics.roc_curve 函数获得。

from sklearn import metrics
fpr, tpr, thresholds = metrics.roc_curve(y_test, y_proba, pos_label=1)

再说一次,下面的代码将计算 AUC 并显示 ROC 曲线。

roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc, estimator_name=&#039;ROC curve&#039;)
display.plot()

在这种情况下,值得注意的是,在绘制图形时,AUC 参数是可选的。

以模型和数据集为例,您可能会观察到曲线呈现“步骤”。这一特征是样本量相对较小的结果。较大的样品将产生更平滑的曲线。有多种方法可以将曲线拟合到实验 ROC,其中双正态模型是最常用的⁶。但是,本主题超出了本文的范围

结论

本文为二元分类模型评估中 ROC 曲线和 AUC 这两个基本概念的实现提供了一种直观的方法和实用的解决方案。通过提供构建 ROC 曲线的详细分步指南,本文为模型评估提供了实用的见解,并介绍了 AUC 作为模型质量的有意义的度量。重要的是,本文强调了与决策阈值的相互作用,强调仅依靠 ROC 和 AUC 可能不足以进行模型评估,并强调在开发概率分类模型时需要深思熟虑地考虑决策阈值。