1 of 39

1

Estadística

Introducción

¿Qué es la estadística?

Es una Ciencia que explica y provee de herramientas para trabajar con datos, ha experimentado un gran desarrollo a lo largo de los últimos años.

¿En qué áreas se aplica la estadística?

Actualmente se aplica en todas las áreas del saber, por ejemplo en Sociología, Educación, Psicología, Administración, Economía, Medicina, Ciencias Políticas, entre otras.

Ejemplos de su aplicación son:

1) En Administración de Empresas: la estadística se utiliza para evaluar un producto antes de comercializarlo.

2) En Economía: para medir la evolución de los precios mediante números índice o para estudiar los hábitos de los consumidores a través de encuestas de presupuestos familiares.

2 of 39

2

Estadística

Introducción

Ejemplos de su aplicación son:

3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una votación mediante sondeos y así orientar las estrategias de los candidatos.

4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de actualidad.

5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del comportamiento humano (por ejemplo los test que se aplican a los candidatos para un cargo en una empresa).

6) En Medicina: uno entre muchos usos de la estadística, es para determinar el estado de salud de la población.

En general en las Ciencias Sociales, la estadística se emplea para medir las relaciones entre variables y hacer predicciones sobre ellas.

3 of 39

3

Estadística

Introducción

Etapas de un estudio estadístico

Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado método científico cuyas etapas son:

  • Planteamiento del problema: consiste en definir el objetivo de la investigación y precisar el universo o población.

  • Recogida de la información: consiste en recolectar los datos necesarios relacionados al problema de investigación.

  • Análisis descriptivo: consiste en resumir los datos disponibles para extraer la información relevante en el estudio.

  • Inferencia estadística: consiste en suponer un modelo para toda la población partiendo de los datos analizados para obtener conclusiones generales.

  • Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos han permitido interpretar los datos y llegar a conclusiones sobre la población

4 of 39

4

Estadística

Introducción

Esquema de las etapas de un estudio estadístico

AREA DE INTERES

DATOS

Tema de Investigación

  • Antecedentes Previos
  • Objetivos
  • Preguntas de Investigación
  • Posibles Hipótesis
  • Unidad de Análisis
  • Población
  • Variables

ORGANIZAR Y RESUMIR

ESTADÍSTICA DESCRIPTIVA (Tablas, Gráficos, Medidas Descriptivas, etc.)

INTERPRETACIÓN

INFERENCIA ESTADÍSTICA

¿Población o Muestra?

CONCLUSIONES

Población

Muestra

Probabilidad

INFORMACIÓN

5 of 39

5

Estadística

Introducción

Ejemplos de algunos problemas a estudiar

1) Se quiere estudiar si en cierto colectivo existe discriminación salarial debida al sexo de la persona empleada.

2) Se quiere determinar el perfil de los trabajadores en términos de condiciones económicas y sociales en diferentes comunidades.

3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a vestuario, alimentación, ocio y vivienda.

4) Se quiere determinar las tallas estándar en vestuario para mujeres españolas.

5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de distintas empresas del país.

6) Se quiere determinar el perfil sociodemográfico de los estudiantes de una Universidad.

7) Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una Universidad, y si éste tiene alguna relación con su edad u otras características.

6 of 39

6

  • VARIABLE: es lo que se va a medir y representa una característica de la UNIDAD DE ANÁLISIS.
  • ¿QUIÉNES VAN A SER MEDIDOS?: Los sujetos u objetos o Unidades de Análisis de una Población o una Muestra
  • POBLACIÓN : Es el total de unidades de análisis que son tema de estudio.

Muestra: 60 trabajadores de empresas de comunicación

Unidad de análisis: Trabajador de empresa de comunicación

Variables: sexo, edad, salario, Nº de horas de trabajo, etc.

Población:

Las personas que trabajan en empresas de comunicación

Estadística

  • MUESTRA: Es un conjunto de unidades de análisis provenientes de una población.

Muestra

Resumen de algunos conceptos planteados en la Introducción

7 of 39

7

TIPOS DE VARIABLES

Variables Cuantitativas

Variable: corresponde a la característica de la Unidad de Análisis

Intervalo

DISCRETA

Variables Cualitativas

CONTINUA

Toma valores enteros

Ejemplos: Número de Hijos, Número de empleados de una empresa, Número de asignaturas aprobadas en un semestre, etc.

Toma cualquier valor dentro de un intervalo

Ejemplos: Peso; Estatura; Temperatura, etc.

Unidad de Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura

ORDINAL

NOMINAL

Característica o cualidad cuyas categorías no tienen un orden preestablecido.

Ejemplos: Sexo, Deporte Favorito, etc.

Característica o cualidad cuyas categorías tienen un orden preestablecido.

Ejemplos: Calificación (S, N, A); Grado de Interés por un tema, etc.

Estadística

8 of 39

8

Frecuencia: desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se presenta una característica.

DISCRETA

CONTINUA

ORDINAL

NOMINAL

TIPO FRECUENCIA

Frecuencia Absoluta (F)

Frecuencia Relativa (f)

Frecuencia Absoluta Acumulada (FAA)

Frecuencia Relativa Acumulada (fra)

DISCRETA

CONTINUA

NOMINAL

ORDINAL

Variable Cuantitativa

Variable Cualitativa

Variable Cuantitativa

Variable Cualitativa

Estadística

9 of 39

9

Variables

- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (cualitativa nominal)

- Nº de Empleados: se refiere al número de empleados en las líneas de producción. (cuantitativa discreta)

- Superficie: se refiere a los metros cuadrados (unidad de medida) disponibles para las áreas de producción. (cuantitativa continua)

- Calificación: calificación realizada por una institución pública sobre cumplimiento de ciertos estándares (Muy Bien, Bien, Regular, Mal). (cualitativa ordinal)

Problema de Investigación: Se quiere establecer el perfil de las industrias de conserva en función de algunas características.

Unidad de Análisis: Industria de Conserva

Población: Industrias de Conservas del país

Datos

EJEMPLO

Estadística

10 of 39

10

EJEMPLO

TABLAS DE FRECUENCIA

(1)

(2)

(3)

(4)

Problema de Investigación: Se quiere establecer el perfil de las industrias de conserva en función de algunas características.

Unidad de Análisis: Industria de Conserva

Población: Industrias de Conservas del país

Estadística

11 of 39

11

Elementos de una tabla de frecuencia cuando la variable es continua (x)

[LI1 ; LS1 [

[LI2 ; LS2 [

[LIk ; LSk]

aj = (LSj – LIj))

cj = (LIj) + LSj )/2

Estadística

12 of 39

12

Ejercicio: confección de una tabla de frecuencia para una variable continua

Los datos corresponden a la edad de los hijos de los trabajadores de una empresa

Datos ordenados de menor a mayor

  • Construya un Diagrama de Tallo y Hoja
  • ¿Cuál es la variable?; ¿Cuál es la Unidad de análisis?; ¿Cuánto vale n?; ¿Cuál es el rango de la variable?.
  • Sobre una Tabla de frecuencia: ¿Cuántos intervalos podría construir?; ¿Cuál es la amplitud de cada intervalo?; ¿Cuántas medidas de frecuencia puede obtener para cada intervalo?.
  • Construir tabla de frecuencia para la variable: Intervalos, centro de clase, amplitud, frecuencias.

Realice la siguiente actividad

Diagrama de Tallo y Hoja: permite organizar los datos de una variable medida sobre un conjunto de individuos. Su utilidad viene dada cuando no contamos con herramientas automáticas para ordenar los datos.

Estadística

13 of 39

13

TIPOS DE GRÁFICOS

1. Gráfico de Sectores Circulares (de Torta)

Estadística

14 of 39

14

TIPOS DE GRÁFICOS

2. Gráfico de Barras

  • Este tipo de gráfico se utiliza generalmente para representar la frecuencia de las categorías de una variable cualitativa.
  • Cuando una variable es cuantitativa se puede utilizar este tipo de gráfico sólo si la variable se ha transformada en categorías.
  • Hay distintas versiones de estos gráficos (por ejemplo en Excel), y en algunos casos son muy útiles para describir el comportamiento de una variable en distintos grupos.

Estadística

15 of 39

15

Histograma

- Permite la representación de la frecuencia de una variable Cuantitativa.

  • El eje x se refiere a la variable.
  • El eje y se refiere a la frecuencia (Nº , %).
  • Cada barra representa la frecuencia de la variable en la población en estudio (o la muestra).
  • El histograma se puede construir desde los datos de la tabla de frecuencia de la variable en estudio.

TIPOS DE GRÁFICOS

3. Histograma

edad

Histograma

Distribución de los hijos de trabajadores de la empresa de acuerdo a edad

Ejemplo

En el gráfico se puede observar el número de hijos , de menor edad (7-8 años), las de mayor edad (13-14 años); y además que la mayoría de hijos de los trabajadores están entre los 10 y 12 años.

Estadística

16 of 39

16

TIPOS DE GRÁFICOS

5. Polígono de Frecuencia

edad

Distribución de los hijos de trabajadores de la empresa de acuerdo a edad

  • Esta representación se basa en el Histograma.
  • Sólo es útil para variables cuantitativas.
  • El eje x se refiere a la variable.
  • El eje y se refiere a la frecuencia (Nº , %).
  • Los puntos que permiten la unión de las líneas representa el centro de clase (o marca de clase).

Estadística

17 of 39

17

TIPOS DE GRÁFICOS

6. Otros

Estadística

18 of 39

18

OBSERVACIONES

* El Tipo de Gráfico seleccionado va a depender de la variable en estudio.

* El Gráfico debe contener un Título General y la identificación de cada eje (variable en estudio y frecuencia).

* En ocasiones resulta más ilustrativo un gráfico que una tabla de frecuencia.

* Al igual que las tablas, los gráficos deben ser auto-explicativos.

Variables Cuantitativas

NOTACION

Estadística

19 of 39

19

MEDIDAS DE TENDENCIA CENTRAL

  • Media Aritmética (Promedio)
  • Mediana
  • Moda

Media Aritmética o Promedio

Mediana

Datos Cuantitativos

Datos Cuantitativos ordenados de menor a mayor

Si n es par

Si n es impar

Moda

Datos

Cualitativos y Cuantitativos

Estadística

20 of 39

20

Percentiles, Deciles o Cuartiles

  • Percentil (ejemplo: 25, 50, 75)
  • Decil (ejemplo: 4, 5, 8)
  • Cuartil (ejemplo: 1, 2, 3)

El Decil va de 1 a 10

El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos

Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.

Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.

Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n datos están ordenados de Menor a Mayor

Estadística

El Percentil va de 1 a 100

El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos

Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.

Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.

El Cuartil va de 1 a 4

El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos

Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.

Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64.

21 of 39

21

MEDIDAS DE DISPERSIÓN

  • Rango
  • Varianza
  • Desviación Estándar

Rango

Varianza

Datos Cuantitativos

Coeficiente de Variación

Comparación entre Variables

Se refiere al comportamiento de las variables cuantitativas en un grupo. Por ejemplo: Si se tiene un conjunto de personas a las que se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál presenta mayor variación?

Desviación Típica o Estándar

Estadística

22 of 39

22

Estadística

Otras medidas o Coeficientes

  • Asimetría
  • Kurtosis o Apuntamiento

Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias es la simetría y el apuntamiento o kurtosis.

Coeficiente de Asimetría

Si CA=0 si la distribución es simétrica alrededor de la media.

Si CA<0 si la distribución es asimétrica a la izquierda

Si CA>0 si la distribución es asimétrica a la derecha

Coeficiente de Apuntamiento

- Si CAp=0 la distribución se dice normal (similar a la distribución normal de Gauss) y recibe el nombre de mesocúrtica.

- Si CAp>0, la distribución es más puntiaguda que la anterior y se llama leptocúrtica, (mayor concentración de los datos en torno a la media).

- Si CAp<0 la distribución es más plana y se llama platicúrtica.

23 of 39

23

Estadística

Otras medidas o Coeficientes

  • Asimetría
  • Kurtosis o Apuntamiento

Ejemplos Histogramas con distinta asimetría y apuntamiento

24 of 39

24

Estadística

Otras medidas o Coeficientes

  • Asimetría
  • Kurtosis o Apuntamiento

Ejemplos

Media

3,9

Mediana

4

Moda

4

Desviación estándar

1,67

Varianza de la muestra

2,78

kurtosis

-0,43

Coeficiente de asimetría

-0,02

Rango

6

Mínimo

1

Máximo

7

Cuenta

30

1

4

4

1

4

4

1

4

5

2

4

5

2

4

6

2

4

6

2

4

6

3

4

6

3

4

7

4

4

7

Datos

Histograma

Medidas descriptivas

25 of 39

25

Estadística

Media, Desviación típica, Coeficientes de Asimetría y Apuntamiento para datos Agrupados (tabla de frecuencias)

f1

f2

fk

n1

n2

nk

Tabla de frecuencia (para variable cuantitativa)

1) La Media para datos agrupados es igual a la suma de los productos de las marcas de clase por sus frecuencias relativas, de la forma:

Sea cj la marca de clase (o centro de clase) y fj la frecuencia relativa de la clase j, donde j=1, 2,…, k.

2) La Desviación típica para datos agrupados esta dada por:

3) El Coeficiente de Asimetría para datos agrupados esta dado por:

4) El Coeficiente de apuntamiento para datos agrupados esta dada por:

26 of 39

26

Estadística

Descripción de 2 variables cualitativas

Distribución conjunta

Tabla 1

 

Actividad

 

Transporte

Estudia

Pensionado

Trabaja

Autobus

5

7

0

Bicicleta

3

3

2

Caminar

2

5

2

Coche

5

4

5

Metro

6

7

4

Transporte

%

Autobus

12

20,0

Bicicleta

8

13,3

Caminar

9

15,0

Coche

14

23,3

Metro

17

28,3

TOTAL

60

100

Actividad

%

Estudia

21

35,0

Pensionado

26

43,3

Trabaja

13

21,7

TOTAL

60

100

Problema

Interesa estudiar cual es el principal medio de transporte preferido por un grupo de personas a la hora de dirigirse al centro comercial.

Para esto se consultó a cada persona sobre la actividad a la que se dedicaba y el medio de transporte preferido.

27 of 39

27

Estadística

Descripción de 2 variables cualitativas

Distribución conjunta

Nº de personas

Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)

Tabla 2

 

Actividad

 

 

Transporte

Estudia

Pensionado

Trabaja

TOTAL

Autobus

5

7

0

12

Bicicleta

3

3

2

8

Caminar

2

5

2

9

Coche

5

4

5

14

Metro

6

7

4

17

TOTAL

21

26

13

60

28 of 39

28

Estadística

Descripción de 2 variables cualitativas

Distribución conjunta

Nº de personas y % respecto de tipo de Transporte

Tabla 3

 

Actividad

 

 

Transporte

Estudia

Pensionado

Trabaja

TOTAL

Autobus

5

7

0

12

%

41,7

58,3

0

100

Bicicleta

3

3

2

8

%

37,5

37,5

25

100

Caminar

2

5

2

9

%

22,2

55,6

22,2

100

Coche

5

4

5

14

%

35,7

28,6

35,7

100

Metro

6

7

4

17

%

35,3

41,2

23,5

100

TOTAL

21

26

13

60

%

35

43,3

21,7

100

29 of 39

29

Estadística

Descripción de 2 variables cualitativas

Distribución conjunta

Nº de personas y % respecto de tipo de Actividad

Tabla 4

 

Actividad

 

 

Transporte

Estudia

Pensionado

Trabaja

TOTAL

Autobus

5

7

0

12

%

23,8

26,9

0

20

Bicicleta

3

3

2

8

%

14,3

11,5

15,4

13,3

Caminar

2

5

2

9

%

9,5

19,2

15,4

15

Coche

5

4

5

14

%

23,8

15,4

38,5

23,3

Metro

6

7

4

17

%

28,6

26,9

30,8

28,3

TOTAL

21

26

13

60

%

100

100

100

100

30 of 39

30

MEDIDAS DE ASOCIACIÓN LINEAL

  • Covarianza
  • Correlación

Datos

Cuantitativos

Covarianza:

Recordemos que: Hasta ahora hemos estudiado las medidas tendencia central (Media, Mediana, Moda) y dispersión (Varianza y Desviación Estándar) para una Variable Cuantitativa (x).

Es una medida de Variabilidad Conjunta entre dos variables (x1 , x2) o bien (x , y)

Si Cov(x,y) es positiva: la asociación entre x e y es directamente proporcional, es decir que cuando x aumenta y también aumenta; y viceversa.

Si Cov(x,y) es negativa: la asociación entre x e y es inversamente proporcional, es decir que cuando x aumenta y disminuye; y viceversa.

Si Cov(x,y) es cero: no existe asociación entre x e y.

Estadística

31 of 39

31

MEDIDAS DE ASOCIACIÓN LINEAL

  • Covarianza
  • Correlación

Datos

Cuantitativos

Coeficiente de Correlación de Pearson (r): Mide el grado de Asociación Lineal entre dos variables Cuantitativas

Se refiere al grado de asociación entre dos variables (x1 , x2) o bien (x , y)

Si r es positivo: la asociación entre x e y es directamente proporcional, es decir que cuando x aumenta y también aumenta; y viceversa. Si r=1: la asociación lineal es perfecta.

Si r es negativo: la asociación entre x e y es inversamente proporcional, es decir que cuando x aumenta y disminuye; y viceversa. Si r=-1: la asociación lineal es perfecta.

Si r es cero: no existe asociación entre x e y.

Correlación:

Estadística

32 of 39

32

r=1

r=-1

EJEMPLO : Representación gráfica de las variables x e y

Estadística

33 of 39

33

Objetivo 2

Estudiar si los valores de una variable pueden ser utilizados para predecir el valor de la otra 

REGRESION LINEAL SIMPLE

Datos Cuantitativos

Determinar si existe relación entre las variables x e y: Coeficiente de Correlación

Objetivo 1

Determinar si dos variables están asociadas y en qué sentido se da la asociación.

Estudiar la dependencia de una variable respecto de la otra: Modelo de Regresión

Términos

Variable Respuesta (=variable dependiente)

Variable Explicativa (=variable Independiente)

Relación Lineal (modelo lineal)

Parámetros (intercepto y pendiente)

Intercepto (respuesta media)

Pendiente (efecto de la variable explicativa sobre la respuesta)

Error (residuo)

Estadística

34 of 39

34

REGRESION LINEAL SIMPLE

Datos Cuantitativos

Notación

Variable Respuesta: y

Variable Explicativa: x

Modelo de Regresión Lineal Simple: yi=α+βxi+ei

Intercepto: α

Pendiente: β

Error: e

Modelo Estimado

(recta de regresión)

Método de Estimación: Mínimos Cuadrados

Residuos o Errores

Estadística

35 of 39

35

REGRESION LINEAL SIMPLE

DATOS

MODELO DE REGRESIÓN LINEAL SIMPLE

yi=α+βxi+ei

MODELO ESTIMADO

ESTIMADORES

ERRORES

Estadística

36 of 39

36

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple

Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.

Estadística

37 of 39

37

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple

Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.

Interpretación de los resultados

- Existe asociación o dependencia entre la Talla del niño y la edad (r=0,88); a medida que la edad aumenta la talla aumenta.

  • Desde los resultados del modelo de regresión lineal simple, se tiene que la talla media de un niño es de 53,64 cm. Cuando la edad del niño (meses) aumenta en una unidad la talla se incrementa en 2,44 cm.

Estadística

38 of 39

38

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple

Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.

De acuerdo al coeficiente de determinación, el modelo ajustado a los datos es adecuado (R2 cercano a 1)

Estadística

39 of 39

39

TIPOS DE GRÁFICOS

5. Diagrama de Caja

  • Permite identificar gráficamente la mediana, los cuartiles 1 y 3 (percentiles 25 y 75), mínimo y máximo de una variable.
  • Sólo es útil para variables cuantitativas.
  • El eje x permite identificar la poblacion en estudio.
  • El eje y representa los valores de la variable en estudio.

Estadística

Edad de las personas que se realizaron angioplastía entre 1980 y 2000