Un test con una fiabilidad del 30%

Estos días, todos hemos oído que el gobierno español había comprado, a cierta empresa china, \(640\,000\) test rápidos de detección del coronavirus cuya fiabilidad era sólo de un \(30\%\), por lo que habían tenido que devolverlos.

¿Un \(30\%\) de fiabilidad? ¿Qué quiere decir eso? Porque, claro, a todos se nos ocurre un test muy sencillito, muy barato, e incluso reutilizable, que no hace falta comprar en China y que, en principio, da la impresión de que va a tener una fiabilidad del \(50\%\): echarlo a cara o cruz con una moneda. La única dificultad del método es encontrar una moneda en la que sea fácil saber qué es cara y qué es cruz; en las actuales, no siempre se puede (de ahí proviene el bien conocido dicho «con Franco tirábamos a cara o cruz mejor»).

Por mucho que el gobierno chino haya dicho que esa empresa no tenía licencia para vender esos tests, y que seguramente su calidad no sería muy buena, y que nos han engañado (también a los ingleses: mal de muchos, consuelo de tontos), algo significativo debería haber en esos tests con un \(30\%\) de fiabilidad para que no sean peores que el puro azar. Lo contrario sería inconcebible.

Es más, uno tiende a pensar que si el susodicho test que te responde «sí» o «no» acierta un \(30\%\) de las veces, bastaría con quedarnos con lo contrario de lo que ha respondido el test y así acertaríamos un \(70\%\) de las veces. ¡Milagro! (De hecho, como los tests con una fiabilidad del \(1\%\) deben ser tan malos que prácticamente los regalan, aplicando el mismo método podríamos conseguir acertar el \(99\%\) de las veces casi gratis.)

El lector, si no lo tenía claro antes, ya se habrá convencido de que las cosas no pueden ser tan tontas, y que hay que razonar mejor. La clave está en que, cuando se habla de tantos por ciento, hay que saber de qué, es decir, qué hay en el numerador y qué hay en el denominador. ¿Cuáles son éstos en el caso del \(30\%\) de fiabilidad del que estamos hablando?

Antes de proseguir he de confesar que casi me da vergüenza escribir esto, en un tema en el que mis conocimientos son casi nulos, y teniendo en cuenta que personas mucho más versadas que yo pueden leerme (les pido disculpas por mi osadía). Las reflexiones anteriores no eran recursos pedagógicos, sino fruto de mi estupefacción ante la noticia de la fiabilidad del \(30\%\), lo cual me hizo ponerme a buscar qué quería decir eso.

No vamos a entrar en ningún momento en las descripciones biológicas o médicas de en qué consiste el test, en cómo se realiza, en por qué funciona mejor o peor, si es más caro o más barato, más lento o más rápido, más o menos invasivo… Sólo veremos los pocos conceptos matemáticos que hay detrás, todos ellos realmente elementales.

Tests de diagnóstico de enfermedades

Supongamos que nos encontramos ante una enfermedad en la que hay exclusivamente dos tipos de individuos, enfermos y sanos. Si la población es \(N\), habrá \(E\) enfermos y \(S\) sanos, con \(N=E+S\).

Y que disponemos de un test que, al aplicarlo a un individuo cualquiera, nos va a decir si está enfermo o sano. Pero el test no es perfecto, no va a acertar siempre. El test está diseñado para buscar enfermos, así que decimos que el test ha dado positivo si dice que el individuo está enfermo, y negativo si dice que está sano.

Cuando a un individuo le aplicamos el test, hay cuatro posibilidades:

  1. Que esté enfermo y el test lo señale como tal.
  2. Que esté sano y el test lo señale como tal.
  3. Que esté enfermo pero el test lo señale como sano (falso negativo).
  4. Que esté sano pero el test lo señale como enfermo (falso positivo).

El test falla en el tercer y en el cuarto caso, pero lo que habitualmente se suele considerar más problemático son los falsos negativos, pues el sistema sanitario se despreocupa de ellos, lo cual puede ser grave, tanto para ellos mismos como para los contagiados que puedan generar (a los falsos positivos se les hace seguimiento o incluso se les intenta curar innecesariamente, y es fácil que pruebas posteriores descubran el error).

Si hacemos el test a toda la población (lo mismo daría si no fuese a todos), el número de individuos en cada uno de los compartimentos se distribuye como sigue:

Aquí hay muchas posibilidades de hacer cocientes (y, si se multiplica por \(100\), obtendremos tantos por ciento, claro). Por ejemplo, las proporciones de enfermos (que también se denomina prevalencia de la enfermedad) y de sanos, serían, respectivamente,

$$ \frac{E}{N} = \frac{V_{+} + F_{-}}{N} \qquad\mbox{y}\qquad \frac{S}{N} = \frac{F_{+} + V_{-}}{N}. $$

Como ya hemos comentado, el test puede fallar por dos cosas distintas, por dar falsos positivos o por dar falsos negativos. Respectivamente, las probabilidades de ambos tipos de fallos son

$$ \frac{F_{+}}{V_{+} + F_{+}} \qquad\mbox{y}\qquad \frac{F_{-}}{F_{-} + V_{-}}.$$

Hay cuatro indicadores de la calidad del test que tienen nombre propio, y son los siguientes:

  1. Sensibilidad \(= V_{+}/E = V_{+}/(V_{+}+F_{-})\).
  2. Especificidad \(= V_{-}/S = V_{-}/(F_{+}+V_{-})\).
  3. Valor predictivo positivo \(= V_{+}/(V_{+}+F_{+})\).
  4. Valor predictivo negativo \(= V_{-}/(V_{-}+F_{-})\).

Los más importantes son los dos primeros. (Por supuesto, hay más indicadores pero, para lo que aquí pretendemos, éstos son más que suficientes.)

El primero, la sensibilidad, es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la probabilidad de que un individuo enfermo obtenga, en el test, un resultado positivo. Es, por tanto, la capacidad del test para detectar la enfermedad. (Digamos que, por ejemplo, detecta a los individuos que están «poquito enfermos», con poca carga viral.)

El segundo, la especificidad, es la probabilidad de clasificar correctamente a un individuo sano, es decir, la probabilidad de que un individuo sano obtenga, en el test, un resultado negativo. Es, por tanto, la capacidad del test para detectar la ausencia de enfermedad. (Digamos que, por ejemplo, el test no detecta como supuestos enfermos a los infectados por un virus que no es el que interesa.)

Lo más útil sería disponer de tests que sean, a la vez, muy sensibles y muy específicos, pero eso, a menudo, no existe (o es muy caro o muy lento). Tendremos que decidir, en cada caso y para cada enfermedad, si nos interesa más un test sensible o uno específico, porque no siempre los tests disponibles tienen un alto valor de esos dos indicadores.

El caso es que, como vemos, no hay ningún indicador llamado fiabilidad, que es la palabra que normalmente han utilizado en los medios de comunicación al referirse a los tests para el coronavirus. Realmente, cuando hablaban de fiabilidad se estaba usando el significado usual de la palabra, no un término técnico. A lo que se refieren es a la sensibilidad. Según he podido encontrar, la especificidad de los tests disponibles siempre era muy alta, del \(90\%\) o incluso del \(100\%\), con lo cual los medios no se preocupaban en destacarla (todos pensamos que lo normal es que las cosas que compramos funcionen bien, luego nadie se va a molestar en mencionarlo).

Unos ejemplos

Supongamos una población de \(N=2000\) personas, con \(E=630\) enfermos y \(S=1370\) sanos (los números están elegidos para que los tantos por ciento que vamos a aplicar nos proporcionen números enteros), y a la que vamos a pasar un test para intentar saber quiénes están enfermos y quiénes no.

Por supuesto, hay que pensar que los indicadores que miden la calidad del test (sensibilidad y especificidad) han sido evaluados previamente sobre una población que represente adecuadamente aquélla en la que se va a utilizar en la vida real. Si, por ejemplo, el fabricante ha hecho trampa y ha probado el test sólo con enfermos hospitalizados, con una carga viral muy alta, nos estará diciendo que sus tests tienen una sensibilidad mucho mayor de la que realmente vamos a obtener si se aplica a la población general.

Si tenemos un test con una sensibilidad del \(30\%\), y se lo aplicamos a toda la población habrá \(V_{+} = 0.3\cdot 630 = 189\) verdaderos positivos; el resto de los enfermos serán \(F_{-} = 630-189 = 441\) falsos negativos, en consecuencia, muchísimos enfermos se quedan sin detectar. Sin saber la especificidad no podemos conocer \(V_{-}\) ni \(F_{+}\); vamos a suponer que es del \(90\%\). Entonces, habrá \(V_{-} = 0.9 \cdot 1370 = 1233\) verdaderos negativos y \(F_{+} = 1370-1233=137\) falsos positivos.

Una vez entendido de qué estamos hablando, si intentamos «decidir» quién está enfermo usando el expeditivo método de lanzar una moneda, habremos obtenido \(V_{+} = F_{-} = 315\) y \(V_{-} = F_{+} = 685\). Es verdad que habrá menos falsos negativos, pero a costa de aumentar muchísimo los falsos positivos.

También hemos leído en los periódicos que, para que un test destinado a detectar coronavirus tuviese una fiabilidad aceptable, ésta debería ser de, al menos, un \(70\%\); por supuesto, de nuevo se refieren a la sensibilidad.

Incluso con una sensibilidad del \(80\%\), al aplicar ese test tendríamos \(V_{+} = 0.8\cdot 630 = 504\) verdaderos positivos y \(F_{-} = 126\) falsos negativos. Sigue siendo un número bastante mayor que lo que uno desearía, y esa es la razón de que, si una persona tiene síntomas de la enfermedad pero el test le da negativo, sea razonable repetírselo un par de días más tarde para intentar asegurar el diagnóstico (en ese par de días, y si la persona realmente está enferma, se puede esperar que la carga viral haya aumentado y al test le resulte más fácil detectar el positivo).

Sobre Juan Luis Varona 31 Artículos
Matemático, alfareño nacido en Tudela. Profesor en la Universidad de La Rioja (Logroño)

Sé el primero en comentar

Dejar una contestacion

Tu dirección de correo electrónico no será publicada.


*