Datasets utilizados

  • owid-covid-data.csv: Obtenido de Our World in Data. Incluye datos por día y país relacionados con casos y muertes por coid-19, incluyéndose los datos nuevos para ese día así como el total acumulado, los datos abolutos y relativos por millón de habitantes y datos suavizdos para la representación gráfica.
    Además incluye datos para indicadores económicos, demográficos y de salud.
  • vaccine.csv: Obtenido en el siguiente link . Incluye resultados de una encuesta sobre la opinión que tiene la población de los países del muendo sobre la seguridad, efectividad e importancia de la vacunación.
  • medical_doctors_per_1000_people.csv : Obtenido en The World Bank. Incluye datos por país y año sobre el número de médicos por 1000 habitantes.
  • countries.csv Obtenido en el siguiente link Contiene información sobre los distintos países, sus códigos de identificación y los continentes y regiones a los que pertenecen.

Scripts Utilizados

  • Script Principal : main.py

    Este script es el punto de entrada del programa y el único que debemos ejecutar (ejecutandolo como un script de python). Aquí se implementa el menú con el que seleccionamos la utilidad que queremos usar y los parámetros y opciones con los que queremos ejecutarla , se genera el ejecutable de spark (execute.py) con el código necesario para ejecutar en spark la funcionalidad deseada y se ejecuta.

  • Scripts de funciones

    Cada fichero implementa una clase de datos, asociada a uno o varios datasets, de los que toma sus datos para crear dataframes e incluye varias funciones para manipularlos, ya sea extrayendo datos o combinando dataframes. Algunas de estas funciones hacen uso de las funciones implementadas en los scripts auxiliares, sobre todo para representar gráficamente los datos. Todas las funciones de una clase, salvo su constructor, devuelven un dataframe con el resultado de la operación o consulta realizada. Estos ficheros son:
    • covidData.py: Toma datos del dataset owid-covid-data.csv e implementa todas las funciones relacionadas con datos relativos a número de casos y muertes por Covid-19 en distintos países y continentes.
    • processData.py Toma datos del dataset owid-covid-data.csv e implementa funciones que permiten obtener valores y datos para los distintos indicadores que aparecen como columnas del dataframe. Estas funciones se usan para las funcionalidades de obtención y graficación de datos económicos, demográficos y de salud.
    • vaccines.py Toma datos del dataset vaccine.csv e implementa funciones que obtienen los resultados de las encuestas incluidas en el dataset por paíeses y criterio
    • physiciansData Toma datos de los datasets medical_doctors_per_1000_people.csv y countries.csv, los cuales combina e implementa funciones que permiten obtener datos sobre el número de médicos por 1000 habitantes por países y continentes y en distintos años.
    • machineLearning.py Toma datos de los tres datasets principales de la aplicación (owid-covid-data.csv, medical_doctors_per_1000_people.csv y vaccine.csv) para aplicar técnicas de machine Learning (concretamente algoritmos de Clustering) y representar gráficamente los resultados obtenidos. Las funciones de graficación de clústeres, al ser exclusivas para las funciones de clustering, aparecen en el mismo script.
  • Scripts Auxiliares

    • covidData_graphs.py implementa una serie de funciones genéricas de elaboración de gráficas de distinto tipo que hacen uso de la biblioteca matplotlib.
    • utils.py Funciones variadas para manipular fechas, asociar nombres a identificadores…