El vocablo “estadística” (con minúscula) se utiliza para denominar cualquier colección sistemática de datos, por ejemplo: natalidad o mortalidad en un país o provincia, resultados periódicos en cierto deporte, cifras de producción de una empresa, pasajeros transportados durante un período, enfermos recuperados con ciertos medicamentos. Las estadísticas son tan antiguas como las sociedades humanas, pero la Estadística como ciencia (con mayúscula) surge en el siglo XVI paralelo al desarrollo de las probabilidades.
La Estadística como ciencia puede definirse como un conjunto de principios y métodos que se han desarrollado para analizar datos numéricos, utilizando las probabilidades; sus métodos se clasifican en:
La Estadística es una disciplina que se ocupa del manejo de datos empíricos para extraer de ellos información comprensible y relevante. La estadística resulta en muchos casos inseparable de un proyecto de investigación. Es la ciencia que provee los métodos que permiten recoger, organizar, resumir, presentar y analizar información relativa a un conjunto de datos con el fin de obtener conclusiones válidas sobre ellos.
La Estadística como ciencia puede definirse como un conjunto de principios y métodos que se han desarrollado para analizar datos numéricos, utilizando las probabilidades; sus métodos se clasifican en:
- Métodos descriptivos (Estadística Descriptiva): Describen el comportamiento de los datos estadísticos, se ocupan de la recolección, organización, reducción, tabulación y presentación de la información. Se refiere a la descripción numérica de un grupo particular. Ninguna conclusión puede ir más allá del grupo descrito.
- Inferencia estadística (Estadística Inferencial): Estudia y concluye sobre un fenómeno basándose en el análisis e investigación de una parte del mismo, por lo que constituye una poderosa herramienta para la investigación científica. Es el estudio que se realiza con una parte de la población que se desea estudiar, con el fin de obtener conclusiones y resultados, que dentro de ciertos márgenes de aceptación sean válidas a toda la población de la cual fue elegida la muestra. Ej. Si en una zona geográfica determinada se observa estadísticamente que cada cinco años llueve torrencialmente durante el mes de marzo, puede inferirse que en tal oportunidad ocurrirá probablemente lo mismo.
La Estadística es una disciplina que se ocupa del manejo de datos empíricos para extraer de ellos información comprensible y relevante. La estadística resulta en muchos casos inseparable de un proyecto de investigación. Es la ciencia que provee los métodos que permiten recoger, organizar, resumir, presentar y analizar información relativa a un conjunto de datos con el fin de obtener conclusiones válidas sobre ellos.
¿Qué sucede en las Ciencias Sociales?
Todo depende del modo en que se han obtenido los datos.. Una entrevista o una observación directa pueden brindar muchos datos,existen también datos objetivos como el INE (índice de necesidades insatisfechas) o el número de muertes, pero también subjetivos, puede haber mentiras, omisión en las respuestas, etc. ¿Entonces para qué sirve? para describir los datos, conocer datos de una población a partir de una muestra y relacionarlos. Entonces, el contenido principal de la estadística son los datos, ¿cómo son esos datos? ¿cómo los obtendremos? Lo iremos aprendiendo a lo largo de este curso.
Población y Muestra
La Población es la cantidad total de individuos o elementos que representan el objeto de interés (seres
vivos o inanimados), el Tamaño de la población estará dado por la cantidad de elementos que abarca la población. En casi todos los textos se representa con el símbolo “N”.
La muestra es cualquier subconjunto de la población tomado para su estudio por un proceso denominado muestreo , el tamaño de la muestra, es la cantidad de elementos contenidos en la muestra, en casi todos los textos se representa por el símbolo "n".
Variables, valores, escalas
Nos preguntábamos en la primera clase, cómo definir una variable, podríamos definirla pensando que justamente la palabra "varianble", tiene que ver con que hay algo que varía, algo que cambia y eso que se modifica es una característica que vamos a utilizar en la investigación. Las variables, adquieren determinados valores. Por ejemplo, la variable "sexo", toma los valores "hombre" y "mujer"; la variable "edad", puede adquirir múltiples valores que se representan con números. El conjunto de valores que puede tomar una variable se llama escala. Definir las variables es una parte muy importante del proceso de investigación, si se hace una definición incorrecta o se mide mal, todo lo que se haga después estará mal. A veces, no hace falta definirlas con precisión, como el sexo, pero hay otras que no resultan tan obvias, por ejemplo el "estado civil".
Cantidades o tasas
Razón: Cociente entre dos cantidades, por ejemplo “la razón de niñas a niños es de 3 a 2”, significa que hay dos niños cada 3 niñas
Tasa: Es un cociente que refleja cantidad por unidad por ejemplo un automovil se desplaza a 45 km/hora, o la tasa de robos de un barrio es de 3 cada 1000 hogares ( la unidad es 1000 hogares)
Porcentaje: Proporción total, numero entre 0 y 100 , por ejemplo el 35% de la población está a favor , significa que si hay 5000 habitantes,17.500 están a favor. La poporción es de 0,35
Variación porcentual: Es el aumento o reducción relativaal valor inicial, por ejemplo si decimos que una ciudad paso de 50 a 60 accidentes por año y otra pasó de 500 a 510, ambas tuvieron un aumento de 10 accidentes, pero la variación porcentual fue de 20% en un caso y 2% en el otro.
Cantidades o tasas
Razón: Cociente entre dos cantidades, por ejemplo “la razón de niñas a niños es de 3 a 2”, significa que hay dos niños cada 3 niñas
Tasa: Es un cociente que refleja cantidad por unidad por ejemplo un automovil se desplaza a 45 km/hora, o la tasa de robos de un barrio es de 3 cada 1000 hogares ( la unidad es 1000 hogares)
Porcentaje: Proporción total, numero entre 0 y 100 , por ejemplo el 35% de la población está a favor , significa que si hay 5000 habitantes,17.500 están a favor. La poporción es de 0,35
Variación porcentual: Es el aumento o reducción relativaal valor inicial, por ejemplo si decimos que una ciudad paso de 50 a 60 accidentes por año y otra pasó de 500 a 510, ambas tuvieron un aumento de 10 accidentes, pero la variación porcentual fue de 20% en un caso y 2% en el otro.
Muestreo
Existen dos métodos para seleccionar muestras a partir de poblaciones: el muestreo no aleatorio y el muestreo aleatorio que incorpora el azar como recurso en el proceso de selección.
Muestreo aleatorio simple
Denominado también muestreo equiprobabilístico, porque si se selecciona una muestra de tamaño n de una población de N unidades, cada elemento tiene una probabilidad de inclusión igual y conocida de n/N. El tamaño “N” se delimita espacialmente. Es el más simple y rápido de realizar además y existe software para realizarlo. Precisa un marco muestral o listado de todas las unidades muestrales.
Muestreo sistemático
Para determinar una muestra de tamaño “n” conseguimos una lista de “N” elementos, definimos un intervalo de salto k=N/n y elegimos un número aleatorio entre 1 y k con el que comenzamos la selección de la muestra. El tamaño “N” se delimita temporalmente. No es necesario tener un marco muestral el investigador propone su delimitación.
Muestreo aleatorio estratificado
La idea es producir grupos heterogéneos entre sí respecto de la variable de estudio pero homogéneos dentro de cada grupo, así aseguramos la representación de cada estrato en la muestra. Asegurar la representación de cada estrato en la muestra. Se debe conocer la distribución de la variable utilizada para la estratificación.
Muestreo por conglomerados
Consiste en la identificación de conglomerados o clústers donde cada grupo presenta toda la variabilidad observada en la población, es lo opuesto al muestreo estratificado, porque los conglomerados son homogéneos entre sí pero sus elementos son heterogéneos. Es muy eficiente cuando las unidades están muy dispersas. Hace falta conocer la variabilidad de los elementos que conforman cada conglomerado.
Existen dos métodos para seleccionar muestras a partir de poblaciones: el muestreo no aleatorio y el muestreo aleatorio que incorpora el azar como recurso en el proceso de selección.
Muestreo aleatorio simple
Denominado también muestreo equiprobabilístico, porque si se selecciona una muestra de tamaño n de una población de N unidades, cada elemento tiene una probabilidad de inclusión igual y conocida de n/N. El tamaño “N” se delimita espacialmente. Es el más simple y rápido de realizar además y existe software para realizarlo. Precisa un marco muestral o listado de todas las unidades muestrales.
Muestreo sistemático
Para determinar una muestra de tamaño “n” conseguimos una lista de “N” elementos, definimos un intervalo de salto k=N/n y elegimos un número aleatorio entre 1 y k con el que comenzamos la selección de la muestra. El tamaño “N” se delimita temporalmente. No es necesario tener un marco muestral el investigador propone su delimitación.
Muestreo aleatorio estratificado
La idea es producir grupos heterogéneos entre sí respecto de la variable de estudio pero homogéneos dentro de cada grupo, así aseguramos la representación de cada estrato en la muestra. Asegurar la representación de cada estrato en la muestra. Se debe conocer la distribución de la variable utilizada para la estratificación.
Muestreo por conglomerados
Consiste en la identificación de conglomerados o clústers donde cada grupo presenta toda la variabilidad observada en la población, es lo opuesto al muestreo estratificado, porque los conglomerados son homogéneos entre sí pero sus elementos son heterogéneos. Es muy eficiente cuando las unidades están muy dispersas. Hace falta conocer la variabilidad de los elementos que conforman cada conglomerado.
Sesgo
Es un favoritismo de alguna etapa del proceso de recolección de datos beneficiando algunos resultados, perjudicando otros y desviando las conclusiones en direcciones equivocadas.El sesgo puede deberse a la selección de la muestra: por conveniencia del investigados, por gustos personales, por respuestas voluntarias, o también pueden ser por el tipo de respuestas o la forma de preguntar. Por último también existe sesgo cuando no se tienen en cuenta las preguntas que no han sido respondidas o ignoran a cierto grupo de personas cuando se realiza la investigación (subcubrimiento)
Datos y variables
Las variables como vimos antes son características que pueden tomar valores diferentes de una unidad muestral a otra, como la edad de las personas,la cantidad de habitantes de una ciudad, etc. Los datos son los valores observados o medidos de las variables para los individuos de una muestra. Por si solos, los datos no dicen mucho, es necesario saber a que variables corresponden.
- Los datos numéricos, son valores de variables numéricas, también llamadas cuantitativas como la altura, la edad. Las variables cuantitativas, a su vez se pueden clasificar en variables discretas, que son aquellas que toman valores determinados, predefinidos. Generalmente, representan valores enteros, posibles de ser contados, por ejemplo número de hijos. Las variabes continuas, son aquellas que pueden tomar cualquier valor, representan observaciones susceptibles de medición.
- Los datos categóricos, corresponden a variables categóricas como el sexo, la nacionalidad, etc., también se las conoce como variables cualitativas o atributos. Para analizar las variables categóricas es necesario utilizar cantidades, proporciones y porcentajes.
Mediciones válidas
Una medición correcta depende de el proceso de transformación de conceptos en variables, y el uso de instrumentos adecuados para medirlas. Muchas veces es simple decidir el instrumento de medición, por ejemplo la altura o el peso, otras requieren utilizar datos estadísticos previos como el caso de las muertes por accidentes de tránsito, o las tasas de desocupación, que pueden calcularse mediante encuestas, pero en algunos casos,resulta más dificil, como por ejemplo si se pretende medir la inteligencia, el miedo, etc.
Para realizar mediciones válidas se recurre a proporciones y razones, en la proporción se considera el número total de individuos, en cambio en la razón, se toma en cuenta la cantidad total de personas que no experimentan algún suceso. Los número índices, describen el cambio porcentual respecto a un valor de base, son adimensionales y se expresan como porcentajes.
Distribución de Frecuencias
La distribución de frecuencias es la representación estructurada en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia. Se relaciona con la cantidad de veces que se repite un dato. Las frecuencias absolutas se calculan teniendo en cuenta la cantidad de veces que se repite un dato, la frecuencia relativa se calcula relacionando la frecuencia absoluta con el número total de datos.
Según la forma en que se presenta la información , se habla de:
- Recolección simple o no organizada (datos no organizados): es el listado de los datos presentados en su forma primaria, es decir, tal como fueron obtenidos durante el proceso observación o medición en la muestra o población.
- Recolección organizada o tabulación (datos organizados): Es el ordenamiento de la información en tablas, denominadas tablas de frecuencias o distribuciones de frecuencias, a partir de los datos primarios. Cuando los datos se tabulan, o se organizan en las tablas de frecuencias, pueden estar no agrupados, es decir, de manera que se leen directamente los valores observados, o agrupados, esto es, se construyen intervalos para resumir la información observada.
Otra manera de presentar los datos de manera de que brinden información a primera vista es una representación gráfica de los mismos, y entre los gráficos más usados se encuentran:
- Gráficos de barras o histogramas: Constan de dos ejes; un eje horizontal, donde se distribuyen los valores observados de la variable (datos no agrupados) o sus límites de clases (datos agrupados), y un eje vertical donde se representan las frecuencias absolutas (ni) o relativas (fi) correspondientes. En el punto correspondiente a cada observación o clase se levanta una barra cuya altura indica el valor de la frecuencia observada. Si los datos están agrupados en clases las barras conforman rectángulos contiguos, y el gráfico suele ser denominado histograma.
- Polígonos de frecuencias: Son similares a los gráficos de barras, y tienen la misma función, aunque actualmente se utilizan menos. Constan de también de dos ejes, con la diferencia de que en el eje horizontal, si los datos están agrupados en clases se distribuyen no sus límites de clase sino sus marcas de clase. En cualquier caso, sobre el punto correspondiente a cada observación o marca de clase se hace una marca a la altura de la frecuencia observada, y posteriormente estas marcas se unen con trazos rectos, formando una línea poligonal.
- Gráficos circulares o de torta: Parten de subdividir un círculo en tantos sectores como valores distintos (datos no agrupados) o clases (datos agrupados en clases) se tiene, de manera que la amplitud angular del sector, y por tanto su área, es proporcional a la frecuencia absoluta correspondiente (y consecuentemente también a la relativa).
Estadísticos y Parámetros
Cuando el conjunto de datos proviene de la población completa, el valor del estadístico, por ejemplo la media poblacional, es un parámetro. Un parámetro es un número que describe a la población pero que en la práctica, casi nunca es posible conocerlo, por esa razón se toman los valores de los datos provenientes de muestras, y a los resultados obtenidos se los denomina estadísticos, se utilizan como estimaciones del parámetro. La diferencia entre ambos datos es el error de estimación. Los llamados estadísticos de posición son medidas que informan sobre el centro de la distribución (tendencia central) o sobre valores significativos de esta.
La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de un punto central y por lo general es posible encontrar algún tipo de valor promedio que describa todo el conjunto. Un valor típico descriptivo como ese, es una medida de tendencia central. Con frecuencia se utilizan, como las más importantes medidas de tendencia central, la media aritmética, la mediana, la moda y la media geométrica. También se usan, otros estadígrafos de posición que no son medidas de tendencia central, como las cuantiles, entre las que se encuentran las cuartiles, las deciles y los percentiles, que son aquellos valores que dividen el conjunto de datos en cuatro, diez y cien partes iguales, respectivamente.
Medidas de Posición
- Media aritmética ( media): se define como la suma de todos los valores de la variable dividida entre el número de elementos, es lo que comúnmente se conoce como promedio. Se representa por X en la muestra, en la población por la letra griega mu, μ.
- Moda: se define como el valor mas frecuente en un conjunto de datos, es decir, el valor modal es el de mayor frecuencia. Se denota por Mo(x) y puede no existir en una distribución (distribución amodal), o existir más de una (distribución multimodal). Tiene especial importancia en datos de tipo cualitativo, pues en ellos es imposible calcular otros estadígrafos de posición, como la media. Esto no quita que también para datos cuantitativos suele ser de interés conocer el valor modal, que se utiliza en ocasiones como medida de tendencia central.
- Mediana: se define como el valor central de un grupo de datos ordenados, o sea, como aquel valor que supera hasta un 50% de las observaciones y a la vez es superado por hasta un 50 % de las observaciones. Se denota por Me(x). Para calcular la mediana a partir de un conjunto de datos en su forma primaria, es necesario antes ordenarlos; después, se puede buscar la posición del valor mediano en el arreglo ordenado, considerando al número de observaciones, según las dos siguientes reglas: Si el tamaño de la muestra es un número impar, la mediana está representada por el valor numérico correspondiente a la posición del centro de las observaciones ordenadas. Si el tamaño de la muestra es un número par, entonces el valor mediano, será la semisuma o promedio de los dos valores centrales de las observaciones ordenadas.
- Media geométrica: es la raíz n-ésima del producto de todos los números, es recomendada para datos de progresión geométrica, para promediar razones, interés compuesto y números índices.
Medidas de Dispersión
Son estadísticos que describen cómo se distribuyen los datos alrededor de alguno de sus valores representativos, principalmente alrededor de su media. Entre las medidas de dispersión más empleadas destacan la varianza, la desviación típica y el coeficiente de variación.
- Varianza: se define como la media o promedio del cuadrado de las desviaciones de la variable respecto a su media. Por sus propiedades, es la medida de dispersión más usada, y base para el cálculo de otras. Se representa en la muestra por S2, y en la población por σ2 (la letra griega sigma, al cuadrado).
- Desviación típica o estándar: Como la varianza se expresa en unidades cuadráticas, es conveniente contar con otro estadístico que basado en el valor de la varianza sirva para dar una medida de la dispersión en las mismas unidades o dimensiones en que están expresados los datos y este estadístico es la desviación típica. La desviación típica o desviación estándar se define como la raíz cuadrada positiva de la varianza. Se denota por S en la muestra y por σ en la población: