Estadística descriptiva

La estadística es la ciencia que recoge, organiza, resume, representa, analiza, generaliza y predice resultados de las observaciones de fenómenos aleatorios.

Se divide en dos:

Estadística descriptivaen la que se estudian las técnicas necesarias para la organización,
presentación y resumen de los datos obtenidos.

Estadística inferencial - en la que se estudian las bases lógicas y las técnicas mediante
las cuales pueden establecerse conclusiones sobre la población a estudio a partir de los
resultados obtenidos en una muestra.

A continuación se definen algunos conceptos generales que se utilizan en estadística

Población - es el conjunto de todos los elementos que cumplen ciertas propiedades y entre
los cuales se desea estudiar un determinado fenómeno.
Ejemplos:
Lo habitantes de la ciudad de Monterrey el 20 de julio de 2019
Las personas infectadas con el virus de inmunodeficiencia humana en Brasil al día de
hoy.

Muestra es un subconjunto de la población seleccionado mediante un mecanismo más o
menos explícito. En general, rara vez se dispone de los recursos necesarios para estudiar a
toda la población y, en consecuencia, suelen emplearse muestras obtenidas a partir de
estas poblaciones.
Ejemplos:
El 10% de los habitantes de la ciudad de Monterrey el 20 d julio de 2019 seleccionados mediante
llamadas telefónicas aleatorias.
Todas las personas que acuden a un hospital de Río de Janeiro durante el presente año para realizarse un test del virus de inmunodeficiencia humana y que resultan ser positivas.

Variables - son propiedades o cualidades que presentan los elementos de una población.


  • Variables cualitativas son aquellas que no pueden medirse numéricamente y pueden ser:
    • Nominales, en las que no pueden ordenarse las diferentes categorías.
    • Ordinales, en las que pueden ordenarse las categorías, pero no puede establecerse la distancia relativa entre las mismas.
  • Variables cuantitativas son aquellas que tienen una interpretación numérica, se subdividen en:
    • Discretas, sólo pueden tomar unos valores concretos dentro de un intervalo.
    • Continuas, pueden tomar cualquier valor dentro de un intervalo.
Para profundizar en el tema de variables revisa el tema Escalas de medición


Estadístico es cualquier operación realizada sobre los valores de una variable.

Parámetro es un valor de la población sobre el que se desea realizar inferencias a partir de estadísticos obtenidos de la muestra, que en este caso se denominan estimadores. Por convención, los parámetros poblacionales se denotan con letras del alfabeto griego, mientras que los estimadores muestrales se denotan con letras de nuestro alfabeto.

Ejemplos de estadísticos:
La media de los valores de colesterol de una muestra.
El valor más alto de colesterol de una muestra.
La suma de los valores de colesterol de una muestra elevados al cuadrado.

Así, por ejemplo, la media del colesterol en una población, que se denotaría por μ, es un parámetro que se estima a partir de la media de los valores de colesterol en una muestra obtenida de esa  población, que se representaría alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

Medidas de tendencia central
Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una
determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué
valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven
tanto para resumir los resultados observados como para realizar inferencias acerca de los
parámetros poblacionales correspondientes. A continuación se describen los principales
estimadores de la tendencia central de una variable.

  • Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, podríamos calcular la media aritmética con la siguiente fórmula:


La media es la medida de tendencia central más utilizada y de más fácil interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.


  • Mediana 

La mediana es el valor que tiene por encima el 50% de los datos de la muestra, y por debajo, el otro 50%. Para calcular la mediana, es necesario ordenar todos los valores de la muestra de menor a mayor. Si el tamaño muestral n es impar, la mediana viene dada por el valor (n + 1)/2. Si es par, la mediana viene dada por la media aritmética de los valores (n/2) y (n/2 +1). El valor resultante de esta operación, corresponde a la posición en la que se encuentra la mediana, cuando los datos están ordenados.

Ejemplo:
Ordenamos los siguientes niveles de colesterol HDL obtenidos en una muestra:
47.4, 42.1, 34.8, 52.3, 45.7, 39.2, 50.6, 44.5, 37.7, 41.8 mg/dl

  1. 34.8
  2. 37.7
  3. 39.2
  4. 41.8
  5. 42.1
  6. 44.5
  7. 45.7
  8. 47.4
  9. 50.6
  10. 52.3
Nuestra n es 10, que corresponde a un número par, por lo tanto:
Me = 10/2 = 5
Me = 10/2 + 1 = 6
Esto significa que debemos calcular la media aritmética de los valores 5 y 6
x = 42.1 + 44.5/2 = 43.3 mg/dl

  • Moda

Se llama moda de una distribución de frecuencias, y representamos por Mo, al valor de la variable estadística que presenta mayor frecuencia. Es por tanto, el valor que más se repite.
Evidentemente este parámetro no es tan representativo como la media, pero es útil en muchas ocasiones. Por ejemplo cuando la moda se destaca preferentemente, además de que es el único valor central que puede calcularse en las series nominales.

Para ver con mayor detalle cómo calcular las medidas de tendencia central revisa el siguiente video https://youtu.be/fOuRqk1nzgY

Medidas de dispersión
Las medidas de dispersión indican el grado de variabilidad de los datos y se complementan con las medidas de tendencia central en la descripción de una muestra. En este apartado se presentan las principales medidas de dispersión.

  • Varianza
La varianza muestral, denotada por s2, se define como la suma de los cuadrados de las diferencias
entre cada valor de la muestra y su media, dividida por el tamaño muestral menos 1,




Como puede apreciarse, cuanto más dispersos estén los datos, mayores serán los cuadrados de las desviaciones y mayor será la varianza s2. Note que las desviaciones de cada valor respecto de la media se elevan al cuadrado para evitar que se compensen las desviaciones positivas (valores superiores a la media) con las negativas (valores inferiores a la media). Cabe destacar también que, en la fórmula de la varianza muestral, el denominador es n – 1 en lugar de n.


La varianza muestral es difícil de interpretar como medida de dispersión, ya que sus unidades
son las de la variable original al cuadrado. 

  • Desviación estándar

La medida de dispersión más utilizada es la desviación típica o desviación estándar s, que se define como la raíz cuadrada de la varianza 
y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que la media, la desviación típica está influenciada por valores muy extremos (gran desviación respecto de la media), que inflarían la estimación resultante, no siendo un buen reflejo de la dispersión global de los datos.

Para ver con mayor detalle la información que nos proporciona la media y la desviación estándar, revisa el siguiente video https://youtu.be/hLmsEFNaOgY
Para ver paso a paso https://youtu.be/oZRaDwnpXkYcómo calcular las medidas de dispersión revisa el siguiente video 

No hay comentarios.:

Publicar un comentario

Escalas de Medición