1 of 22

Taller “Introducción a las técnicas de análisis de datos cuantitativos en Ciencias Químicas, Farmacéuticas y Veterinarias”

Karina Cáceres Fernández

karina.caceres97@unae.edu.py

2 of 22

Análisis cuantitativo

Cuantificar fenómenos

Relacionar variables

Predecir resultados

Técnicas estadísticas

Estadística descriptiva

Estadística inferencial

(Peña, 2014). Fundamentos de la estadística

3 of 22

  • Dnda. Karina Cáceres Fernández

Importancia en Ciencias de la salud

Evidencia basada en datos: decisiones médicas y políticas de salud, respaldadas por datos empíricos.

Control de variables que pueden influir en los resultados de salud, esencial en estudios donde múltiples factores pueden afectar el resultado.

Replicabilidad y validación

Innovación en tratamientos y tecnologías

(Torales et al., 2024). Manual de Metodología de la Investigación

4 of 22

  • Dnda. Karina Cáceres Fernández

Epidemiología: en un estudio sobre la eficacia de las vacunas, el análisis cuantitativo puede utilizarse para evaluar la reducción del riesgo de enfermedad entre los vacunados en comparación con los no vacunados, utilizando cálculos de riesgo relativo y efectividad de la vacuna.

Investigación clínica: en ensayos clínicos, se utilizan técnicas como el análisis de varianza (ANOVA) para comparar los resultados de diferentes grupos de tratamiento, ayudando a determinar si un nuevo medicamento es más efectivo que los tratamientos existentes.

Salud Pública: los modelos predictivos se aplican en programas de salud pública para predecir brotes de enfermedades basándose en datos históricos y tendencias actuales, facilitando respuestas más efectivas a problemas de salud pública.

5 of 22

  • Dnda. Karina Cáceres Fernández

ASPECTO

ESTADÍSTICA DESCRIPTIVA

ESTADÍSTICA INFERENCIAL

PROPÓSITO

Resumir y describir datos

Hacer inferencias sobre poblaciones a partir de muestras

DATOS UTILIZADOS

Datos observados y recopilados

Muestras de datos

OBJETIVO PRINCIPAL

Resumir, organizar y visualizar datos

Estimar parámetros poblacionales y probar hipótesis

RESULTADOS TÍPICOS

Medidas de tendencia central, dispersión y gráficos

Estimaciones de parámetros, intervalos de confianza y pruebas de hipótesis

POBLACIÓN VS. MUESTRA

Se aplica a toda la población de datos

Se aplica a una muestra de la población

TAMAÑO DE MUESTRA

No es necesario un tamaño de muestra específico

El tamaño de la muestra es crítico para la precisión

EJEMPLO PRÁCTICO

Calcular el promedio de las calificaciones en una clase

Estimar el promedio de calificaciones en una población a partir de una muestra

RIESGO DE ERROR

Menos propenso a errores debido a que trabaja con datos completos

Puede haber error de muestreo y otros errores debido a la extrapolación de resultados de la muestra a la población

EJEMPLO DE RESULTADO

El promedio de las edades en un grupo es de 35 años.

Con un 95% de confianza, estimamos que el promedio de edades en la población es de 33 a 37 años.

6 of 22

  • Dnda. Karina Cáceres Fernández

Pasos para el recuento y tratamiento de mis datos

1° Debo conocer las variables que voy a analizar:

    • Nominales: Si sus valores no se pueden ordenar. Ejemplo; Sexo, Grupo Sanguíneo, presencia/ausencia de un microorganismo, Fumar (Sí/No), clasificación de un tipo de virus.

    • Ordinales: Si sus valores se pueden ordenar o jerarquizar. Ejemplo; Estadio de una enfermedad (cáncer), Intensidad del dolor,

Variables cualitativas:

    • Discretas: toman únicamente valores enteros; corresponden en general a contar el número de veces que ocurre un suceso. Por ejemplo, número de casos nuevos de una enfermedad, la edad, número de medicamentos que toma, número de células observadas en el microscopio.

    • Continuas: toman valores en un intervalo; corresponden a medir magnitudes continuas. Por ejemplo, estatura, temperatura corporal, peso, presión arterial, nivel de glucosa en sangre, dosis de medicamento administrado, tiempo de cocción o hervor de una planta medicinal.

Variables cuantitativas:

7 of 22

  • Dnda. Karina Cáceres Fernández

Una variable es una característica observable que varía entre los diferentes individuos de una población. La información que disponemos de cada individuo es resumida en variables

  • En los individuos de una población, de uno a otro es variable:

    • El grupo sanguíneo
      • {A, B, AB, O} 🡨 Var. Cualitativa Nominal

    • Clasificación de tumores (TNM)
      • {T1, T2, T3, T4} 🡨 Var. Cualitativa Ordinal

    • Número de veces que consume un medicamento al día
      • {1, 2,3,...} 🡨 Var. Numérica discreta

    • Frecuencia Cardiaca por minuto
      • {85, 70, 62...} 🡨 Var. Numérica continua

8 of 22

  • Dnda. Karina Cáceres Fernández

Pasos para el recuento y tratamiento de mis datos

2° Una vez identificado los tipos de variables, debo realizar una limpieza inicial de los datos, desde la transformación, codificación y normalización, si lo requiere:

1- Limpieza de datos

Verificar exactitud y consistencias de los datos recolectados.

Corregir errores o incoherencias.

2- Tratamiento de valores faltantes

Imputación (sustitución de valores no informados).

Uso de modelos estadísticos que permitan datos faltantes.

Análisis de sensibilidad.

3- Outliers

Valores que difieren del resto de los datos.

Valores muy extremos que quedan fuera de la normalidad (edad, presión arterial).

4- Transformación y normalización de datos

Estandarización de diferentes escalas a una común.

Codificación de variables cualitativas para someter a técnicas estadísticas.

Normalizar utilizando valores logarítmicos para reducir el impacto de valores extremos y homogeneizar el comportamiento de la variable.

9 of 22

  • Dnda. Karina Cáceres Fernández

Unificar a años

Imputar al valor más representativo de la población en estudio

Calcular rango o utilizar uno establecido por un Organismo oficial

Codificar datos

10 of 22

  • Dnda. Karina Cáceres Fernández

Estadística Descriptiva

3° Debo distribuir las frecuencias de las variables en estudio. Para ello, las puedo representar en una tabla describiendo:

    • Número de veces que aparece un determinado valor de una variable, clase o categoría.

Frecuencia absoluta(fi)

    • Es la proporción que representan los datos de un valor, variable o categoría en relación con el total de datos.

Frecuencia relativa(fr)

    • Es la frecuencia relativa representada en porcentajes.

Frecuencia porcentual

11 of 22

Se indican las clases o atributos y sus frecuencias observadas. Cuando los atributos no corresponden a una escala ordinal (por ejemplo, alto, medio, bajo), conviene ordenarlos por su frecuencia de aparición.

  • Dnda. Karina Cáceres Fernández

Distribución de frecuencias. Variable cualitativa

RVS (Virus Sincitial Respiratorio); RV (Rhinovirus); CoV (Coronovirus); ADV (Adenovirus); MPV (Metapnuemovirus); PIV (Parainfluenza virus).

12 of 22

Cuando el número de valores distintos que toma una variable discreta sea grande o cuando ésta sea continua, conviene agrupar los datos en clases. Por ejemplo, la edad

  • Dnda. Karina Cáceres Fernández

Distribución de frecuencias. Variable Cuantitativa discreta

13 of 22

  • Dnda. Karina Cáceres Fernández

Distribución de frecuencias. Variable Cuantitativa continua

PESO

Fi

Fr

29-46

5

0.03

47-64

80

0,47

65-82

45

0,26

83-100

25

0,15

101-120

15

0,09

TOTAL

170

1

Tabla 2. Peso de pacientes que ingresaron a consultar en un Hospital Público en el mes de junio del año 2024. 

Se agrupan los datos por intervalo cuando existen gran variedad de categorías o clases para la variable en estudio.

14 of 22

  • Dnda. Karina Cáceres Fernández

Tratamiento de datos por intervalos (Datos agrupados)

Necesitamos saber:

Rango (R): diferencia en entre el valor máximo y el valor mínimo que presenta una variable.

Intervalo de clase (I): cada intervalo representará a una clase dentro de la variable en estudio. Ejemplo: cantidad de personas que pesen entre 45-50 Kg.

Tamaño del intervalo o Amplitud (C): Es la cantidad de números que componen al intervalo.

15 of 22

  • Dnda. Karina Cáceres Fernández

Peso de pacientes atendidos en un Hospital público durante el año 2024.

Debo agrupar los datos y necesito hallar el Rango

¿Cuál es el mínimo y el máximo?

¿Cuál es la frecuencia total?

N= 40

16 of 22

  • Dnda. Karina Cáceres Fernández

Rango: Valor máximo – Valor mínimo R= 134 - 42 = 92

Número de intervalos: K = 1 + 3.3 log 40 = 6,29 (fórmula de Sturges) redondeo a 6

Cantidad de Intervalos de clase a armar es I=6 Intervalos de clase

Amplitud (C)= Rango/Intervalos de clase C=R/I

Ancho de intervalo de clase (amplitud)=C C= 92 / 6 = 15,33 C=15 Amplitud

Los pesos se distribuirán en 6 intervalos con un tamaño de 15 datos por cada intervalo de clase

Tratamiento de datos por intervalos (Datos agrupados)

PESO

Fi

Fr

42-57

2

0,1

58-73

5

0,1

74-89

15

0,4

90-105

9

0,2

106-121

6

0,2

122-134

3

0,1

TOTAL

40

1,0

17 of 22

  • Dnda. Karina Cáceres Fernández

Estadística Descriptiva. Medidas de Tendencia Central

Sirven para resumir y entender el comportamiento de los datos.

Media: es el promedio aritmético y es útil para datos simétricamente distribuidos sin outliers. Edad promedio de la población de estudio.

Mediana: divide un conjunto de datos en dos partes iguales y es menos susceptible a los outliers que la media. Es útil en distribuciones sesgadas.

Moda: es el valor que aparece con mayor frecuencia en un conjunto de datos. Tipo más común de medicamento consumido.

18 of 22

  • Dnda. Karina Cáceres Fernández

Estadística Descriptiva. Medidas de Dispersión

Sirven para entender la distribución de los datos y evaluar que tan confiables son sus medidas de tendencia central

Varianza y Desvío estándar: cuantifican la dispersión de los datos respecto a la media. Cuán alejados están los datos respecto de esta.

Coeficientes de asimetría: indica la dirección de la distribución de los datos respecto de la media. Si el coeficiente es negativo de la media, desciende hacia la izquierda de la media y si es positivo de la media, desciende a la derecha de la media .

Curtosis: indica qué tan heterogénea es la distribución de los datos de acuerdo con la forma de la curva.

CA (+)

CA (-)

> 0

= 0

< 0

19 of 22

  • Dnda. Karina Cáceres Fernández

Estadística Inferencial.

Se basa en la teoría de las probabilidades y trabaja con los datos que le proporciona la estadística descriptiva haciendo estimaciones, predicción y correlaciones entre variables de una población a partir de datos de una muestra de la población.

Es fundamental en las Ciencias de la Salud para:

(Torales et al., 2024). Manual de Metodología de la Investigación

Estimar parámetros desconocidos de la población.

Estimar la prevalencia de perros con leishmaniasis en la población a partir de una muestra.

Evaluación de vacunas mediante el análisis de valores de anticuerpos de una muestra de personas vacunadas.

Probar hipótesis

Evaluar parámetros de la población para comprobar relación o efectividad de intervenciones o tratamientos.

Compara el aumento de peso de cerdos alimentados con la nueva dieta y con una dieta estándar.

Evaluar la efectividad de dos antibióticos frente a una bacteria.

20 of 22

  • Dnda. Karina Cáceres Fernández

Análisis paramétricos

Normalidad: Los datos deben tener una distribución simétrica (CS = media).

Homocedasticidad: Las varianzas de los grupos o variables que se comparan deben ser similares.

Independencia: Las observaciones deben ser independientes entre sí.

Aleatoriedad: Los datos obtenidos no siguen un patrón predecible.

Correlación de Pearson

Regresión lineal

Prueba t

Análisis de Varianza Unidireccional (ANOVA)

Análisis no paramétricos

Son útiles cuando no se cumplen las características de un análisis paramétrico.

Son útiles para el análisis de variables nominales y ordinales.

Son más robustos en presencia de outliers que pueden distorsionar el análisis paramétrico.

Prueba de Chi-cuadrado

Prueba de Wilcoxon Signed-Rank.

Prueba de Kruskal-Wallis.

Correlación de Spearman.

21 of 22

  • Dnda. Karina Cáceres Fernández

Softwares estadísticos utilizados Ciencias de la Salud.

JAMOVI

    • Análisis descriptivo, pruebas de hipótesis, regresión, ANOVA.

SPSS – SAS - Stata

Análisis descriptivo, pruebas de hipótesis, regresión, ANOVA, análisis de supervivencia, análisis de datos longitudinales.

EpiInfo - EpiDat

    • Análisis descriptivo, pruebas de hipótesis, análisis de datos epidemiológicos, gestión de bases de datos de salud.

Lenguaje R

    • Análisis descriptivo, pruebas de hipótesis, regresión, ANOVA, análisis de supervivencia, análisis de datos longitudinales, análisis de big data, machine learning.

22 of 22

  • Dnda. Karina Cáceres Fernández

Practiquemos un poco…

¡Muchas gracias!