
Análisis de supervivencia una aplicación para el Covid-19
Actualmente, el covid-19 es el tema más importante en economía y la vida social de millones de personas en el mundo. Hay muchos documentos que tratan de explicar la situación y se han utilizado modelos complejos de aprendizaje automático o estadísticas, para tratar de producir un pronóstico sobre la evolución de la infección y así poder planificar la posible solución para el aislamiento social. El análisis de supervivencia puede brindar ideas para tratar comprender el tema más mencionado en el mundo “el COVID_19”.
Hay diferentes formas para comenzar el análisis. En este caso, una revisión descriptiva nos permitirá entender el fenómeno y vislumbrar el panorama de la pandemia. Para luego, mirar un escenario de modelación.
En este punto, se puede partir desde una visión positiva, y revisar los datos acerca de las personas que se han recuperado del covid_19. Por ejemplo, en el Gráfico 1, se representa datos comparativos de distintos países, en donde la tendencia de recuperación ha aumentado rápidamente, un escenario que se puede denominar como positivo. En este caso, la situación en China (líneas verdes) mostró un comportamiento sorprendente, porque a pesar de que no sabían del peligroso virus que enfrentaban (Covid-19), la tasa de recuperación es explosiva, pasando en menos de 30 días, de 0 a alrededor de 60 mil personas recuperadas. Otros países, que tienen un aumento importante en la tasa de recuperación son Alemania y España.
Gráfico 1. Recuperados Covid_19
Fuente: www.kaggle.com, Cálculos propios
El análisis de la tendencia de recuperación del Covid, es un solo hecho que brinda información, pero no es suficiente para comprender el fenómeno. Por lo tanto, se hace necesario agregar otros datos como: confirmados (casos positivos), muertes y recuperados. En el Gráfico 2, la comparación de estas variables ofrece datos interesantes como, por ejemplo: Primero, la infección se disparó significativamente en unos pocos días, la tendencia es enorme y nadie en el mundo sabe cuándo será la caída de la infección (aunque, se afirma en muchos casos, que la curva se aplano), algunas personas especulan sobre reducción de la infección, pero solo se especula, pues no es algo claro. En segundo lugar, la tasa de recuperación muestra una tendencia que ha sido positiva en todo el mundo, demostrando que el virus es superado por muchos de los pacientes. Tercero, las muertes aumentaron ligeramente en algunos países como Italia, España y Estados Unidos. Sin embargo, pese al alto nivel de contagios, la tasa de recuperación es mayor a la tasa de decesos, lo que brinda una luz de esperanza al mundo.
Gráfico 2. Comparación casos Confirmados-Recuperados y muertes
Fuente: www.kaggle.com, Cálculos propios
Análisis supervivencia y estadístico de Hazard
La estadística tiene muchas metodologías para ayudar a comprender el problema y descubrir los hechos en medio de los datos. En este caso, el uso de herramientas como la probabilidad de supervivencia proporciona respuestas para explicar la situación. Entonces, podemos comenzar con la definición de probabilidad de supervivencia: en confiabilidad, la probabilidad de supervivencia es la proporción de unidades que sobreviven más allá de un tiempo específico. Estas estimaciones de probabilidades de supervivencia se denominan con frecuencia estimaciones de fiabilidad.
La función de supervivencia, convencionalmente denotada por S, es la probabilidad de que el evento (digamos, muerte) aún no haya ocurrido:
S (t) = Pr (T> t)
Tasa de Hazard, se considera que una herramienta como la función de Hazard (tasa de peligro), es la tasa instantánea de falla en un momento dado.
La función de Hazard h(t), es la tasa de eventos (muerte) en el tiempo t, condicionada a la supervivencia hasta t (es decir, T≥t):
h (t) = p (t) / S (t)
En otras palabras, estas funciones nos van a permitir encontrar un momento en el tiempo, donde es mayor la probabilidad de fallo o muerte.
Por consiguiente, retomando el tema, en el Gráfico 3, se proporciona la comparación de cuatro países: Italia, Colombia, China, EE. UU. Estos países tuvieron un rol particular en la expansión de la pandemia en el mundo, por ejemplo: Italia fue la más afectada en Europa con una enorme tasa de muertes, China es el país donde comienza la pandemia, EE. UU. es el foco actual de la pandemia. Por su parte, Colombia es el país de referencia en el análisis.
En el período de enero a abril, los cuatro países han tenido algunas situaciones diferentes en el desarrollo del virus Covid-19. Mientras que, la pandemia creció en estos países, la probabilidad de supervivencia cambió, pero no dramáticamente. Por un lado, solo en Italia la probabilidad de supervivencia se desplomó al 87%, el 24 de abril, este punto fue la mayor caída de todos.
Por otro lado, China y EE. UU, han mostrado una probabilidad de supervivencia superior al 94%. Por su parte, en Colombia en el momento más bajo, la probabilidad de supervivencia ha estado alrededor del 95%.
Es importante puntualizar, que este análisis no ha realizado una segmentación por rangos de edad, esta situación probablemente oculta el hecho de menores probabilidades de supervivencia en algunos rangos de edad particular (los mayores). Sin embargo, el análisis ilustra que la probabilidad de supervivencia es mucho más alta de lo que la gente cree o parece en las noticias.
Gráfico 3. Probabilidad de supervivencia en el tiempo
Fuente: www.kaggle.com, Cálculos propios
Otra opción, que permite hacer un contraste en esta corta investigación es el uso de metodologías de Kaplan-Meier Filter. El estimador de Kaplan-Meier (K-M), también conocido como estimador de límite de producto, es una estadística no paramétrica utilizada para estimar la función de supervivencia a partir de datos de por vida.
En este ejercicio, la metodología del estimador K-M solo se usará para estimar el caso de Colombia, la idea es comparar el resultado del modelo de supervivencia. La aplicación del estimador K-M consiste en tomar los datos de casos de muertes en Colombia debido a Covid-19 y usar estos datos en funciones del estimador K-M para mostrar los resultados.
Gráfico 4. Análisis del estimador K-M
Fuente: www.kaggle.com, Cálculos propios
En el Gráfico 4, se muestra la situación en Colombia a causa de Covid-19. El día más alto de riesgo fue 78 días de pandemia y la probabilidad de muerte hasta ahora era de alrededor del 11%. En general, este tipo de análisis toma una foto del fenómeno en un momento específico en el tiempo, y es por esta razón, que las autoridades deben continuar con la revisión de la expansión de esta enfermedad.
En síntesis, los dos análisis tasa de Hazard y el filtro de K-M, muestran resultados cercanos con tasas de supervivencia de alrededor del 90%-95%, siendo el método de K-M el método que muestra el escenario más negativo.