1
Estadística
Introducción
¿Qué es la estadística?
Es una Ciencia que explica y provee de herramientas para trabajar con datos, ha experimentado un gran desarrollo a lo largo de los últimos años.
¿En qué áreas se aplica la estadística?
Actualmente se aplica en todas las áreas del saber, por ejemplo en Sociología, Educación, Psicología, Administración, Economía, Medicina, Ciencias Políticas, entre otras.
Ejemplos de su aplicación son:
1) En Administración de Empresas: la estadística se utiliza para evaluar un producto antes de comercializarlo.
2) En Economía: para medir la evolución de los precios mediante números índice o para estudiar los hábitos de los consumidores a través de encuestas de presupuestos familiares.
2
Estadística
Introducción
Ejemplos de su aplicación son:
3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una votación mediante sondeos y así orientar las estrategias de los candidatos.
4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de actualidad.
5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del comportamiento humano (por ejemplo los test que se aplican a los candidatos para un cargo en una empresa).
6) En Medicina: uno entre muchos usos de la estadística, es para determinar el estado de salud de la población.
En general en las Ciencias Sociales, la estadística se emplea para medir las relaciones entre variables y hacer predicciones sobre ellas.
3
Estadística
Introducción
Etapas de un estudio estadístico
Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado método científico cuyas etapas son:
4
Estadística
Introducción
Esquema de las etapas de un estudio estadístico
AREA DE INTERES
DATOS
Tema de Investigación
ORGANIZAR Y RESUMIR
ESTADÍSTICA DESCRIPTIVA (Tablas, Gráficos, Medidas Descriptivas, etc.)
INTERPRETACIÓN
INFERENCIA ESTADÍSTICA
¿Población o Muestra?
CONCLUSIONES
Población
Muestra
Probabilidad
INFORMACIÓN
5
Estadística
Introducción
Ejemplos de algunos problemas a estudiar
1) Se quiere estudiar si en cierto colectivo existe discriminación salarial debida al sexo de la persona empleada.
2) Se quiere determinar el perfil de los trabajadores en términos de condiciones económicas y sociales en diferentes comunidades.
3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a vestuario, alimentación, ocio y vivienda.
4) Se quiere determinar las tallas estándar en vestuario para mujeres españolas.
5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de distintas empresas del país.
6) Se quiere determinar el perfil sociodemográfico de los estudiantes de una Universidad.
7) Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una Universidad, y si éste tiene alguna relación con su edad u otras características.
6
Muestra: 60 trabajadores de empresas de comunicación
Unidad de análisis: Trabajador de empresa de comunicación
Variables: sexo, edad, salario, Nº de horas de trabajo, etc.
Población:
“Las personas que trabajan en empresas de comunicación”
Estadística
Muestra
Resumen de algunos conceptos planteados en la Introducción
7
TIPOS DE VARIABLES
Variables Cuantitativas
Variable: corresponde a la característica de la Unidad de Análisis
Intervalo
DISCRETA
Variables Cualitativas
CONTINUA
Toma valores enteros
Ejemplos: Número de Hijos, Número de empleados de una empresa, Número de asignaturas aprobadas en un semestre, etc.
Toma cualquier valor dentro de un intervalo
Ejemplos: Peso; Estatura; Temperatura, etc.
Unidad de Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura
ORDINAL
NOMINAL
Característica o cualidad cuyas categorías no tienen un orden preestablecido.
Ejemplos: Sexo, Deporte Favorito, etc.
Característica o cualidad cuyas categorías tienen un orden preestablecido.
Ejemplos: Calificación (S, N, A); Grado de Interés por un tema, etc.
Estadística
8
Frecuencia: desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se presenta una característica.
DISCRETA
CONTINUA
ORDINAL
NOMINAL
TIPO FRECUENCIA
Frecuencia Absoluta (F)
Frecuencia Relativa (f)
Frecuencia Absoluta Acumulada (FAA)
Frecuencia Relativa Acumulada (fra)
DISCRETA
CONTINUA
NOMINAL
ORDINAL
Variable Cuantitativa
Variable Cualitativa
Variable Cuantitativa
Variable Cualitativa
Estadística
9
Variables
- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (cualitativa nominal)
- Nº de Empleados: se refiere al número de empleados en las líneas de producción. (cuantitativa discreta)
- Superficie: se refiere a los metros cuadrados (unidad de medida) disponibles para las áreas de producción. (cuantitativa continua)
- Calificación: calificación realizada por una institución pública sobre cumplimiento de ciertos estándares (Muy Bien, Bien, Regular, Mal). (cualitativa ordinal)
Problema de Investigación: Se quiere establecer el perfil de las industrias de conserva en función de algunas características.
Unidad de Análisis: Industria de Conserva
Población: Industrias de Conservas del país
Datos
EJEMPLO
Estadística
10
EJEMPLO
TABLAS DE FRECUENCIA
(1)
(2)
(3)
(4)
Problema de Investigación: Se quiere establecer el perfil de las industrias de conserva en función de algunas características.
Unidad de Análisis: Industria de Conserva
Población: Industrias de Conservas del país
Estadística
11
Elementos de una tabla de frecuencia cuando la variable es continua (x)
[LI1 ; LS1 [
[LI2 ; LS2 [
[LIk ; LSk]
aj = (LSj – LIj))
cj = (LIj) + LSj )/2
Estadística
12
Ejercicio: confección de una tabla de frecuencia para una variable continua
Los datos corresponden a la edad de los hijos de los trabajadores de una empresa
Datos ordenados de menor a mayor
Realice la siguiente actividad
Diagrama de Tallo y Hoja: permite organizar los datos de una variable medida sobre un conjunto de individuos. Su utilidad viene dada cuando no contamos con herramientas automáticas para ordenar los datos.
Estadística
13
TIPOS DE GRÁFICOS
1. Gráfico de Sectores Circulares (de Torta)
Estadística
14
TIPOS DE GRÁFICOS
2. Gráfico de Barras
Estadística
15
Histograma
- Permite la representación de la frecuencia de una variable Cuantitativa.
TIPOS DE GRÁFICOS
3. Histograma
Nº
edad
Histograma
Distribución de los hijos de trabajadores de la empresa de acuerdo a edad
Ejemplo
En el gráfico se puede observar el número de hijos , de menor edad (7-8 años), las de mayor edad (13-14 años); y además que la mayoría de hijos de los trabajadores están entre los 10 y 12 años.
Estadística
16
TIPOS DE GRÁFICOS
5. Polígono de Frecuencia
edad
Nº
Distribución de los hijos de trabajadores de la empresa de acuerdo a edad
Estadística
17
TIPOS DE GRÁFICOS
6. Otros
Estadística
18
OBSERVACIONES
* El Tipo de Gráfico seleccionado va a depender de la variable en estudio.
* El Gráfico debe contener un Título General y la identificación de cada eje (variable en estudio y frecuencia).
* En ocasiones resulta más ilustrativo un gráfico que una tabla de frecuencia.
* Al igual que las tablas, los gráficos deben ser auto-explicativos.
Variables Cuantitativas
NOTACION
Estadística
19
MEDIDAS DE TENDENCIA CENTRAL
Media Aritmética o Promedio
Mediana
Datos Cuantitativos
Datos Cuantitativos ordenados de menor a mayor
Si n es par
Si n es impar
Moda
Datos
Cualitativos y Cuantitativos
Estadística
20
Percentiles, Deciles o Cuartiles
El Decil va de 1 a 10
El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.
Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n datos están ordenados de Menor a Mayor
Estadística
El Percentil va de 1 a 100
El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.
El Cuartil va de 1 a 4
El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64.
21
MEDIDAS DE DISPERSIÓN
Rango
Varianza
Datos Cuantitativos
Coeficiente de Variación
Comparación entre Variables
Se refiere al comportamiento de las variables cuantitativas en un grupo. Por ejemplo: Si se tiene un conjunto de personas a las que se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál presenta mayor variación?
Desviación Típica o Estándar
Estadística
22
Estadística
Otras medidas o Coeficientes
Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias es la simetría y el apuntamiento o kurtosis.
Coeficiente de Asimetría
Si CA=0 si la distribución es simétrica alrededor de la media.
Si CA<0 si la distribución es asimétrica a la izquierda
Si CA>0 si la distribución es asimétrica a la derecha
Coeficiente de Apuntamiento
- Si CAp=0 la distribución se dice normal (similar a la distribución normal de Gauss) y recibe el nombre de mesocúrtica.
- Si CAp>0, la distribución es más puntiaguda que la anterior y se llama leptocúrtica, (mayor concentración de los datos en torno a la media).
- Si CAp<0 la distribución es más plana y se llama platicúrtica.
23
Estadística
Otras medidas o Coeficientes
Ejemplos Histogramas con distinta asimetría y apuntamiento
24
Estadística
Otras medidas o Coeficientes
Ejemplos
Media | 3,9 |
Mediana | 4 |
Moda | 4 |
Desviación estándar | 1,67 |
Varianza de la muestra | 2,78 |
kurtosis | -0,43 |
Coeficiente de asimetría | -0,02 |
Rango | 6 |
Mínimo | 1 |
Máximo | 7 |
Cuenta | 30 |
1 | 4 | 4 |
1 | 4 | 4 |
1 | 4 | 5 |
2 | 4 | 5 |
2 | 4 | 6 |
2 | 4 | 6 |
2 | 4 | 6 |
3 | 4 | 6 |
3 | 4 | 7 |
4 | 4 | 7 |
Datos
Histograma
Medidas descriptivas
25
Estadística
Media, Desviación típica, Coeficientes de Asimetría y Apuntamiento para datos Agrupados (tabla de frecuencias)
f1
f2
fk
n1
n2
nk
Tabla de frecuencia (para variable cuantitativa)
1) La Media para datos agrupados es igual a la suma de los productos de las marcas de clase por sus frecuencias relativas, de la forma:
Sea cj la marca de clase (o centro de clase) y fj la frecuencia relativa de la clase j, donde j=1, 2,…, k.
2) La Desviación típica para datos agrupados esta dada por:
3) El Coeficiente de Asimetría para datos agrupados esta dado por:
4) El Coeficiente de apuntamiento para datos agrupados esta dada por:
26
Estadística
Descripción de 2 variables cualitativas
Distribución conjunta
Tabla 1 |
| Actividad |
|
Transporte | Estudia | Pensionado | Trabaja |
Autobus | 5 | 7 | 0 |
Bicicleta | 3 | 3 | 2 |
Caminar | 2 | 5 | 2 |
Coche | 5 | 4 | 5 |
Metro | 6 | 7 | 4 |
Transporte | Nº | % |
Autobus | 12 | 20,0 |
Bicicleta | 8 | 13,3 |
Caminar | 9 | 15,0 |
Coche | 14 | 23,3 |
Metro | 17 | 28,3 |
TOTAL | 60 | 100 |
Actividad | Nº | % |
Estudia | 21 | 35,0 |
Pensionado | 26 | 43,3 |
Trabaja | 13 | 21,7 |
TOTAL | 60 | 100 |
Problema
Interesa estudiar cual es el principal medio de transporte preferido por un grupo de personas a la hora de dirigirse al centro comercial.
Para esto se consultó a cada persona sobre la actividad a la que se dedicaba y el medio de transporte preferido.
27
Estadística
Descripción de 2 variables cualitativas
Distribución conjunta
Nº de personas
Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)
Tabla 2 |
| Actividad |
|
|
Transporte | Estudia | Pensionado | Trabaja | TOTAL |
Autobus | 5 | 7 | 0 | 12 |
Bicicleta | 3 | 3 | 2 | 8 |
Caminar | 2 | 5 | 2 | 9 |
Coche | 5 | 4 | 5 | 14 |
Metro | 6 | 7 | 4 | 17 |
TOTAL | 21 | 26 | 13 | 60 |
28
Estadística
Descripción de 2 variables cualitativas
Distribución conjunta
Nº de personas y % respecto de tipo de Transporte
Tabla 3 |
| Actividad |
|
|
Transporte | Estudia | Pensionado | Trabaja | TOTAL |
Autobus | 5 | 7 | 0 | 12 |
% | 41,7 | 58,3 | 0 | 100 |
Bicicleta | 3 | 3 | 2 | 8 |
% | 37,5 | 37,5 | 25 | 100 |
Caminar | 2 | 5 | 2 | 9 |
% | 22,2 | 55,6 | 22,2 | 100 |
Coche | 5 | 4 | 5 | 14 |
% | 35,7 | 28,6 | 35,7 | 100 |
Metro | 6 | 7 | 4 | 17 |
% | 35,3 | 41,2 | 23,5 | 100 |
TOTAL | 21 | 26 | 13 | 60 |
% | 35 | 43,3 | 21,7 | 100 |
29
Estadística
Descripción de 2 variables cualitativas
Distribución conjunta
Nº de personas y % respecto de tipo de Actividad
Tabla 4 |
| Actividad |
|
|
Transporte | Estudia | Pensionado | Trabaja | TOTAL |
Autobus | 5 | 7 | 0 | 12 |
% | 23,8 | 26,9 | 0 | 20 |
Bicicleta | 3 | 3 | 2 | 8 |
% | 14,3 | 11,5 | 15,4 | 13,3 |
Caminar | 2 | 5 | 2 | 9 |
% | 9,5 | 19,2 | 15,4 | 15 |
Coche | 5 | 4 | 5 | 14 |
% | 23,8 | 15,4 | 38,5 | 23,3 |
Metro | 6 | 7 | 4 | 17 |
% | 28,6 | 26,9 | 30,8 | 28,3 |
TOTAL | 21 | 26 | 13 | 60 |
% | 100 | 100 | 100 | 100 |
30
MEDIDAS DE ASOCIACIÓN LINEAL
Datos
Cuantitativos
Covarianza:
Recordemos que: Hasta ahora hemos estudiado las medidas tendencia central (Media, Mediana, Moda) y dispersión (Varianza y Desviación Estándar) para una Variable Cuantitativa (x).
Es una medida de Variabilidad Conjunta entre dos variables (x1 , x2) o bien (x , y)
Si Cov(x,y) es positiva: la asociación entre x e y es directamente proporcional, es decir que cuando x aumenta y también aumenta; y viceversa.
Si Cov(x,y) es negativa: la asociación entre x e y es inversamente proporcional, es decir que cuando x aumenta y disminuye; y viceversa.
Si Cov(x,y) es cero: no existe asociación entre x e y.
Estadística
31
MEDIDAS DE ASOCIACIÓN LINEAL
Datos
Cuantitativos
Coeficiente de Correlación de Pearson (r): Mide el grado de Asociación Lineal entre dos variables Cuantitativas
Se refiere al grado de asociación entre dos variables (x1 , x2) o bien (x , y)
Si r es positivo: la asociación entre x e y es directamente proporcional, es decir que cuando x aumenta y también aumenta; y viceversa. Si r=1: la asociación lineal es perfecta.
Si r es negativo: la asociación entre x e y es inversamente proporcional, es decir que cuando x aumenta y disminuye; y viceversa. Si r=-1: la asociación lineal es perfecta.
Si r es cero: no existe asociación entre x e y.
Correlación:
Estadística
32
r=1
r=-1
EJEMPLO : Representación gráfica de las variables x e y
Estadística
33
Objetivo 2
Estudiar si los valores de una variable pueden ser utilizados para predecir el valor de la otra
REGRESION LINEAL SIMPLE
Datos Cuantitativos
Determinar si existe relación entre las variables x e y: Coeficiente de Correlación
Objetivo 1
Determinar si dos variables están asociadas y en qué sentido se da la asociación.
Estudiar la dependencia de una variable respecto de la otra: Modelo de Regresión
Términos
Variable Respuesta (=variable dependiente)
Variable Explicativa (=variable Independiente)
Relación Lineal (modelo lineal)
Parámetros (intercepto y pendiente)
Intercepto (respuesta media)
Pendiente (efecto de la variable explicativa sobre la respuesta)
Error (residuo)
Estadística
34
REGRESION LINEAL SIMPLE
Datos Cuantitativos
Notación
Variable Respuesta: y
Variable Explicativa: x
Modelo de Regresión Lineal Simple: yi=α+βxi+ei
Intercepto: α
Pendiente: β
Error: e
Modelo Estimado
(recta de regresión)
Método de Estimación: Mínimos Cuadrados
Residuos o Errores
Estadística
35
REGRESION LINEAL SIMPLE
DATOS
MODELO DE REGRESIÓN LINEAL SIMPLE
yi=α+βxi+ei
MODELO ESTIMADO
ESTIMADORES
ERRORES
Estadística
36
REGRESION LINEAL SIMPLE
EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.
Estadística
37
REGRESION LINEAL SIMPLE
EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.
Interpretación de los resultados
- Existe asociación o dependencia entre la Talla del niño y la edad (r=0,88); a medida que la edad aumenta la talla aumenta.
Estadística
38
REGRESION LINEAL SIMPLE
EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.
De acuerdo al coeficiente de determinación, el modelo ajustado a los datos es adecuado (R2 cercano a 1)
Estadística
39
TIPOS DE GRÁFICOS
5. Diagrama de Caja
Estadística
Edad de las personas que se realizaron angioplastía entre 1980 y 2000