Comparación de curvas de precisión-recuperación
Comando: | Estadísticas ![]() ![]() ![]() ![]() |
Descripción
Una curva de precisión-recuperación es un gráfico de la precisión (valor predictivo positivo, eje y) frente a la recuperación (sensibilidad, eje x) para diferentes umbrales. Es una alternativa a la curva ROC (Saito y Rehmsmeier, 2015).
Si MedCalc compara las curvas de precisión-recuperación, se construyen las curvas de precisión-recuperación de dos variables dependientes o independientes. 'Variables dependientes' significa que los datos de ambas variables provienen de los mismos casos (sujetos, muestras, pacientes, etc.) y, por lo tanto, están emparejados.
MedCalc genera las curvas de precisión-recuperación a partir de los datos brutos (no de una tabla de sensibilidad-PPV) y calcula la diferencia entre las áreas bajo las dos curvas, junto con el 95% BC, un intervalo de confianza bootstrap para esta diferencia.
Cómo ingresar datos para una curva de recuperación de precisión
Para crear las curvas de precisión-recuperación, se deben contar con las dos mediciones de interés (es decir, los parámetros que se desean estudiar) y un diagnóstico independiente que clasifique a los sujetos de estudio en dos grupos distintos: uno con enfermedad y otro sin enfermedad. Este último diagnóstico debe ser independiente de las mediciones de interés.
En la hoja de cálculo, cree una columna 'Clasificación' y dos columnas para las variables de interés, por ejemplo, Parámetro 1 y Parámetro 2. Para cada sujeto de estudio, introduzca un código de clasificación: 1 para los casos con enfermedad y 0 para los casos sanos o normales. En las columnas Parámetro 1 y Parámetro 2, introduzca las mediciones de interés para cada caso en la misma fila (pueden ser mediciones, grados, etc.; si los datos son categóricos, codifíquelos con valores numéricos).
Entrada requerida
- Variables : seleccione las dos variables de interés.
- Variable de clasificación : seleccione una variable dicotómica que indique el diagnóstico (0=negativo, 1=positivo).
Si sus datos están codificados de manera diferente, puede utilizar la herramienta Definir estado para recodificar sus datos.
Es importante identificar correctamente los casos positivos.
- Filtro : (opcionalmente) un filtro para incluir solo un subgrupo seleccionado de casos (por ejemplo, EDAD>21, SEXO='Masculino').
- Opciones:
- Los datos provienen de los mismos sujetos (datos pareados) : seleccione esta opción si las dos variables contienen datos provenientes de los mismos sujetos. Si los dos conjuntos de datos provienen de sujetos diferentes, no existe un diseño pareado y debe desmarcarse esta opción. Es importante hacer esta distinción, ya que la potencia estadística de la prueba varía según el modelo de muestras apareadas o independientes.
- Intervalo de confianza bootstrap: seleccione esta opción para calcular un intervalo de confianza de la diferencia entre el área bajo las curvas de precisión-recuperación (AUPRC) utilizando la técnica bootstrap.
- Avanzado: haga clic en este botón para especificar los parámetros del bootstrap: el número de réplicas y la semilla del generador de números aleatorios.
- Gráfico:
- Opción para marcar puntos correspondientes a valores de criterio.
Resultados - Muestras apareadas
Primero MedCalc informa las siguientes estadísticas para cada variable:
- Los tamaños de muestra en los grupos positivos y negativos.
- El área bajo la curva de precisión-recuperación (AUPRC), calculada mediante interpolación no lineal (Davis y Goadrich, 2006).
- F⁻máx .: La puntuación F⁻ mide la precisión de una prueba y es la media armónica de la precisión y la recuperación. Se calcula en cada nivel de medición y F⁻máx . es la puntuación F⁻máx. máxima en todos los niveles.
$$ F_1 = 2 \times \frac{Recall \times Precision}{Recall + Precision } $$
- Criterio asociado: el criterio (nivel de medición) en el que se alcanzó F 1 max.
- El intervalo de confianza del 95% para AUPRC, que se calcula de la siguiente manera (Boyd et al, 2013; método Logit):
$$ CI(AUPRC) = \left[ \frac{e^{\mu_\eta - 1.96 \tau}}{1+ e^{\mu_\eta - 1.96 \tau}} \; ; \; \frac{e^{\mu_\eta + 1.96 \tau}}{1+ e^{\mu_\eta + 1.96 \tau}} \right] $$
dónde
$$ \mu_\eta = logit(AUPRC) = \ln \left (\frac {AUPRC} {1-AUPRC} \right) $$ $$\tau = \frac{1}{\sqrt{n*AUPRC*(1-AUPRC)}} $$
Véase también una nota sobre los valores de criterio.
Resultados - Muestras independientes
El informe de muestras independientes es algo diferente, pero esencialmente contiene las mismas estadísticas:
Comparación de las dos curvas de precisión-recuperación
MedCalc informa:
- La diferencia entre las dos áreas bajo la curva de precisión-recuperación (AUPRC).
- El intervalo de confianza bootstrap del 95% BC para esta diferencia, si se seleccionó la opción correspondiente. Si el intervalo de confianza no incluye 0, se puede concluir que las dos áreas son significativamente diferentes (P<0,05).
Gráfico
Cuando se seleccionó la opción para marcar puntos correspondientes a valores de criterio en el gráfico, al hacer clic en un marcador, se proporcionará el criterio correspondiente (para positividad) junto con la recuperación (sensibilidad), la precisión (valor predictivo positivo) y la puntuación F 1.
Literatura
- Boyd K, Eng KH, Page CD (2013) Area under the Precision-Recall Curve: Point Estimates and Confidence Intervals. In: Blockeel H, Kersting K, Nijssen S, Železný F (eds) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2013. Lecture Notes in Computer Science, vol 8190. Springer, Berlin, Heidelberg.
- Davis J, Goadrich M (2006) The relationship between precision-recall and ROC curves. Proceedings of the 23rd International Conference on Machine Learning, Pittsburgh, PA, 2006.
- Efron B (1987) Better Bootstrap Confidence Intervals. Journal of the American Statistical Association 82:171-185.
- Efron B, Tibshirani RJ (1993) An introduction to the Bootstrap. Chapman & Hall/CRC.
- Saito T, Rehmsmeier M (2015) The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. Plos One 10:e0118432.