Este ejercicio se deberá enviar por correo antes de las 11 PM del 5 de junio de 2020. Se debe entregar individualmente.

Este ejercicio tiene un valor de un punto adicional al promedio de los tres examenes parciales.

Notas: No se considera para el promedio final si se realiza un examen de reposición o examen final. En caso de encontrar respuestas iguales para dos alumnos, se eliminará el ejercicio a ambos.

Objetivos

Objetivo General. Manejo, manipulación y análisis de la base de datos de COVID 19 del Valle de México.

Liga: Base

Objetivo particular. En el Valle de México existen hospitales públicos de tres sectores (IMSS, ISSSTE SSA) que desde el inicio de la epidemia en México han ofrecido sus servicios para atender a pacientes. El objetivo es analizar si hay alguna diferencia entre los hospitales de estos sectores en cuanto a la tasa de fallecidos por hospital. Esta última la definiremos en este trabajo como: total de personas fallecidas hospitalizadas entre el total de personas hospitalizadas en cada uno de los hospitales, desde el inicio de la epidemia en México y hasta el 15 de mayo de 2020.

Consideraciones

Preparación de la base de datos

  1. Descargar la base de datos de la página de la CDMX después del 1 de junio de 2020. Favor de indicar la hora y día cuando se descarga la base de datos.
  2. Dado que hay un retraso en el registro de casos confirmados y fallecidos de un par de días -además se dice que la enfermedad podría durar alrededor de 14 días- sólo considerar los casos cuya fecha de inicio de síntomas (fecha_inicio_sintomas) es a lo más el 15 de mayo de 2020. Para el 1 de junio se esperaría que ya se tuviera un resultado en cuanto a la condición de vivo o muerto en la mayoría de los casos.
  3. Sólo se considerarán los casos confirmados (resultado_definitivo==“SARS-CoV-2”) y que fueron hospitalizados (tipo_paciente==“HOSPITALIZADO”).
  4. Para cada hospital (unidad_medica) de los sectores IMSS, ISSSTE SSA (sector), calcular la tasa de fallecidos por hospital. En el caso de un fallecimiento se incluye la fecha de defunción (fecha_defuncion) en la base de datos.
  5. Para eliminar la posibilidad de que un hospital apenas esté iniciando a dar servicio a pacientes COVID o lo haya dado de forma irregular (por ejemplo, algunas clínicas locales), sólo consideraremos hospitales que una vez realizados los filtros anteriores tengan más de 10 pacientes que hayan sido hospitalizados.

Análisis

Hasta este punto deberá tener una base de datos a nivel hospital con al menos dos variables: tasa de fallecidos por hospital y sector al que corresponde el hospital.

  1. Para cada sector, genere un boxplot de las tasas de fallecidos por hospital.
  2. Realice la(s) prueba(s) necesarias para identificar si la tasa de fallecidos difiere por sector, en caso afirmativo, indique cuales sectores son los que difieren. Para este inciso use \(\alpha=.1\). Deberá incluir los argumentos que demuestren que los supuestos necesarios para realizar las pruebas y generar las conclusiones se satisfacen.

Consideraciones metodológicas. Es importante mencionar que los datos usados en este ejercicio no se obtuvieron a partir de un diseño de experimento aleatorizado, por lo que las conclusiones obtenidas deben ser revisadas con un grupo de expertos. Es posible que otros análisis sean necesarios, aunque escapan al alcance y objetivos de este ejercicio. Por ejemplo, aun cuando se encuentren diferencias por tipo de sector, es necesario analizar si pudieran existir características en la fecha para la aceptación de pacientes, infraestructura y tipo de pacientes que recibe cada hospital (algunos hospitales empezaron a recibir pacientes graves hasta que llegaron ventiladores, algunos sólo reciben pacientes no tan graves, algunos fueron designados como hospitales COVID desde un inicio y otros apenas se reconvirtieron, etc).

Tips en R
  1. La función as.Date(Datos$fecha_inicio_sintomas,“%Y-%m-%d”) nos ayuda a definir en R una columna de tipo fecha, así es posible filtrar fácilmente este tipo de datos.
  2. Los que no han fallecido no tienen incluida una fecha de defunción. Es probable que estos casos se puedan reconocer en la base de datos con la instrucción fecha_defuncion=="" o como casos pérdidos.
  3. La base de datos en formato csv es posible importarla a R con el comando read.csv(“nombre.csv”, header=TRUE, sep=“,”).