Taller “Introducción a las técnicas de análisis de datos cuantitativos en Ciencias Químicas, Farmacéuticas y Veterinarias”
Análisis cuantitativo
Cuantificar fenómenos
Relacionar variables
Predecir resultados
Técnicas estadísticas
Estadística descriptiva
Estadística inferencial
(Peña, 2014). Fundamentos de la estadística
Importancia en Ciencias de la salud
Evidencia basada en datos: decisiones médicas y políticas de salud, respaldadas por datos empíricos.
Control de variables que pueden influir en los resultados de salud, esencial en estudios donde múltiples factores pueden afectar el resultado.
Replicabilidad y validación
Innovación en tratamientos y tecnologías
(Torales et al., 2024). Manual de Metodología de la Investigación
Epidemiología: en un estudio sobre la eficacia de las vacunas, el análisis cuantitativo puede utilizarse para evaluar la reducción del riesgo de enfermedad entre los vacunados en comparación con los no vacunados, utilizando cálculos de riesgo relativo y efectividad de la vacuna.
Investigación clínica: en ensayos clínicos, se utilizan técnicas como el análisis de varianza (ANOVA) para comparar los resultados de diferentes grupos de tratamiento, ayudando a determinar si un nuevo medicamento es más efectivo que los tratamientos existentes.
Salud Pública: los modelos predictivos se aplican en programas de salud pública para predecir brotes de enfermedades basándose en datos históricos y tendencias actuales, facilitando respuestas más efectivas a problemas de salud pública.
ASPECTO | ESTADÍSTICA DESCRIPTIVA | ESTADÍSTICA INFERENCIAL |
PROPÓSITO | Resumir y describir datos | Hacer inferencias sobre poblaciones a partir de muestras |
DATOS UTILIZADOS | Datos observados y recopilados | Muestras de datos |
OBJETIVO PRINCIPAL | Resumir, organizar y visualizar datos | Estimar parámetros poblacionales y probar hipótesis |
RESULTADOS TÍPICOS | Medidas de tendencia central, dispersión y gráficos | Estimaciones de parámetros, intervalos de confianza y pruebas de hipótesis |
POBLACIÓN VS. MUESTRA | Se aplica a toda la población de datos | Se aplica a una muestra de la población |
TAMAÑO DE MUESTRA | No es necesario un tamaño de muestra específico | El tamaño de la muestra es crítico para la precisión |
EJEMPLO PRÁCTICO | Calcular el promedio de las calificaciones en una clase | Estimar el promedio de calificaciones en una población a partir de una muestra |
RIESGO DE ERROR | Menos propenso a errores debido a que trabaja con datos completos | Puede haber error de muestreo y otros errores debido a la extrapolación de resultados de la muestra a la población |
EJEMPLO DE RESULTADO | El promedio de las edades en un grupo es de 35 años. | Con un 95% de confianza, estimamos que el promedio de edades en la población es de 33 a 37 años. |
Pasos para el recuento y tratamiento de mis datos
1° Debo conocer las variables que voy a analizar:
Variables cualitativas:
Variables cuantitativas:
Una variable es una característica observable que varía entre los diferentes individuos de una población. La información que disponemos de cada individuo es resumida en variables
Pasos para el recuento y tratamiento de mis datos
2° Una vez identificado los tipos de variables, debo realizar una limpieza inicial de los datos, desde la transformación, codificación y normalización, si lo requiere:
1- Limpieza de datos
Verificar exactitud y consistencias de los datos recolectados.
Corregir errores o incoherencias.
2- Tratamiento de valores faltantes
Imputación (sustitución de valores no informados).
Uso de modelos estadísticos que permitan datos faltantes.
Análisis de sensibilidad.
3- Outliers
Valores que difieren del resto de los datos.
Valores muy extremos que quedan fuera de la normalidad (edad, presión arterial).
4- Transformación y normalización de datos
Estandarización de diferentes escalas a una común.
Codificación de variables cualitativas para someter a técnicas estadísticas.
Normalizar utilizando valores logarítmicos para reducir el impacto de valores extremos y homogeneizar el comportamiento de la variable.
Unificar a años
Imputar al valor más representativo de la población en estudio
Calcular rango o utilizar uno establecido por un Organismo oficial
Codificar datos
Estadística Descriptiva
3° Debo distribuir las frecuencias de las variables en estudio. Para ello, las puedo representar en una tabla describiendo:
Frecuencia absoluta(fi)
Frecuencia relativa(fr)
Frecuencia porcentual
Se indican las clases o atributos y sus frecuencias observadas. Cuando los atributos no corresponden a una escala ordinal (por ejemplo, alto, medio, bajo), conviene ordenarlos por su frecuencia de aparición.
Distribución de frecuencias. Variable cualitativa
RVS (Virus Sincitial Respiratorio); RV (Rhinovirus); CoV (Coronovirus); ADV (Adenovirus); MPV (Metapnuemovirus); PIV (Parainfluenza virus).
Cuando el número de valores distintos que toma una variable discreta sea grande o cuando ésta sea continua, conviene agrupar los datos en clases. Por ejemplo, la edad
Distribución de frecuencias. Variable Cuantitativa discreta
Distribución de frecuencias. Variable Cuantitativa continua
PESO | Fi | Fr |
29-46 | 5 | 0.03 |
47-64 | 80 | 0,47 |
65-82 | 45 | 0,26 |
83-100 | 25 | 0,15 |
101-120 | 15 | 0,09 |
TOTAL | 170 | 1 |
Tabla 2. Peso de pacientes que ingresaron a consultar en un Hospital Público en el mes de junio del año 2024.
Se agrupan los datos por intervalo cuando existen gran variedad de categorías o clases para la variable en estudio.
Tratamiento de datos por intervalos (Datos agrupados)
Necesitamos saber:
Rango (R): diferencia en entre el valor máximo y el valor mínimo que presenta una variable.
Intervalo de clase (I): cada intervalo representará a una clase dentro de la variable en estudio. Ejemplo: cantidad de personas que pesen entre 45-50 Kg.
Tamaño del intervalo o Amplitud (C): Es la cantidad de números que componen al intervalo.
Peso de pacientes atendidos en un Hospital público durante el año 2024.
Debo agrupar los datos y necesito hallar el Rango
¿Cuál es el mínimo y el máximo?
¿Cuál es la frecuencia total?
N= 40
Rango: Valor máximo – Valor mínimo R= 134 - 42 = 92
Número de intervalos: K = 1 + 3.3 log 40 = 6,29 (fórmula de Sturges) redondeo a 6
Cantidad de Intervalos de clase a armar es I=6 Intervalos de clase
Amplitud (C)= Rango/Intervalos de clase C=R/I
Ancho de intervalo de clase (amplitud)=C C= 92 / 6 = 15,33 C=15 Amplitud
Los pesos se distribuirán en 6 intervalos con un tamaño de 15 datos por cada intervalo de clase
Tratamiento de datos por intervalos (Datos agrupados)
PESO | Fi | Fr |
42-57 | 2 | 0,1 |
58-73 | 5 | 0,1 |
74-89 | 15 | 0,4 |
90-105 | 9 | 0,2 |
106-121 | 6 | 0,2 |
122-134 | 3 | 0,1 |
TOTAL | 40 | 1,0 |
Estadística Descriptiva. Medidas de Tendencia Central
Sirven para resumir y entender el comportamiento de los datos.
Media: es el promedio aritmético y es útil para datos simétricamente distribuidos sin outliers. Edad promedio de la población de estudio.
Mediana: divide un conjunto de datos en dos partes iguales y es menos susceptible a los outliers que la media. Es útil en distribuciones sesgadas.
Moda: es el valor que aparece con mayor frecuencia en un conjunto de datos. Tipo más común de medicamento consumido.
Estadística Descriptiva. Medidas de Dispersión
Sirven para entender la distribución de los datos y evaluar que tan confiables son sus medidas de tendencia central
Varianza y Desvío estándar: cuantifican la dispersión de los datos respecto a la media. Cuán alejados están los datos respecto de esta.
Coeficientes de asimetría: indica la dirección de la distribución de los datos respecto de la media. Si el coeficiente es negativo de la media, desciende hacia la izquierda de la media y si es positivo de la media, desciende a la derecha de la media .
Curtosis: indica qué tan heterogénea es la distribución de los datos de acuerdo con la forma de la curva.
CA (+)
CA (-)
> 0
= 0
< 0
Estadística Inferencial.
Se basa en la teoría de las probabilidades y trabaja con los datos que le proporciona la estadística descriptiva haciendo estimaciones, predicción y correlaciones entre variables de una población a partir de datos de una muestra de la población.
Es fundamental en las Ciencias de la Salud para:
(Torales et al., 2024). Manual de Metodología de la Investigación
Estimar parámetros desconocidos de la población.
Estimar la prevalencia de perros con leishmaniasis en la población a partir de una muestra.
Evaluación de vacunas mediante el análisis de valores de anticuerpos de una muestra de personas vacunadas.
Probar hipótesis
Evaluar parámetros de la población para comprobar relación o efectividad de intervenciones o tratamientos.
Compara el aumento de peso de cerdos alimentados con la nueva dieta y con una dieta estándar.
Evaluar la efectividad de dos antibióticos frente a una bacteria.
Análisis paramétricos
Normalidad: Los datos deben tener una distribución simétrica (CS = media).
Homocedasticidad: Las varianzas de los grupos o variables que se comparan deben ser similares.
Independencia: Las observaciones deben ser independientes entre sí.
Aleatoriedad: Los datos obtenidos no siguen un patrón predecible.
Correlación de Pearson
Regresión lineal
Prueba t
Análisis de Varianza Unidireccional (ANOVA)
Análisis no paramétricos
Son útiles cuando no se cumplen las características de un análisis paramétrico.
Son útiles para el análisis de variables nominales y ordinales.
Son más robustos en presencia de outliers que pueden distorsionar el análisis paramétrico.
Prueba de Chi-cuadrado
Prueba de Wilcoxon Signed-Rank.
Prueba de Kruskal-Wallis.
Correlación de Spearman.
Softwares estadísticos utilizados Ciencias de la Salud.
JAMOVI
SPSS – SAS - Stata
Análisis descriptivo, pruebas de hipótesis, regresión, ANOVA, análisis de supervivencia, análisis de datos longitudinales.
EpiInfo - EpiDat
Lenguaje R
Practiquemos un poco…
¡Muchas gracias!