CONCEPTOS DE ESTADISTICA
ESTADÍSTICA DESCRIPTIVA
9.1 Unidades estadísticas y caracteres.
. Se llaman unidades estadísticas o individuos a los componentes de una determinada población de datos centro del estudio estadístico.
Cada uno de los individuos de la población puede describirse según uno o varios caracteres.
Cada uno de los caracteres estudiados puede presentar dos o más modalidades. Las modalidades son las diferentes situaciones posibles del carácter, y deben ser al mismo tiempo, incompatiblesy exhaustivas.
Ejemplo 1:
El personal de una empresa (unidades estadísticas), del cual puede ser realizado un estudio estadístico de su edad, sexo, antigüedad, sueldo, etc. (caracteres). Por ejemplo, de la antigüedad podría subdividirse en "menos de tres años", "entre tres y diez años" y "más de diez años" (modalidades).
Ejemplo 2:
La totalidad de barcos fabricados en un determinado periodo de tiempo (unidades estadísticas), de la que se hace un estudio del material de fabricación, capacidad, modalidades de uso, etc. (caracteres). Por ejemplo, en cuanto a las modalidades de uso pueden ser: transporte y mercancías.
* Carácter cualitativo y cuantitativo.
Un caracter se dice cualitativo si sus diversas modalidades no son expresables numéricamente (por ejemplo: sexo, profesión...).
Un caracter se dice cuantitativo si sus diversas modalidades se expresan numéricamente (por ejemplo: sueldo, edad, ...). A este número se le llama variable estadística.
NOTA: Nosotros en este tema nos limitaremos a tratar únicamente caracteres cuantitativos.
Una variables estadística se llama discreta si sus valores son números aislados (por ejemplo, números enteros como sucede en el caso de "número de hijos", pues nadie tiene 1,57 hijos
).
Una variable estadística se llama continua si sus valores pueden ser cualquier número (por ejemplo, el "tamaño de una pieza").
9.2 Distribuciones estadísticas de una carácter.
Consideremos una población estadística de n indivíduos descrita según el carácter C, cuyas k modalidades son:
C1, C2, ... , Ci, ... , Ck
Se designa por ni el número de individuos que presentan la modalidad Ci , y se la llama "frecuencia absoluta" de la modalidad Ci.
Por otra parte, se llama "frecuencia relativa" o simplemente "frecuencia" de la modalidad Ci a la proporción:
Como las modalidades son a la vez incompatibles y exhaustivas, la suma de las frecuencias absolutas es igual a la población total, y la suma de las frecuencias es igual a la unidad, es decir:
Cuando la variable estadística es continua, las modalidades del carácter son las clases de valores posibles definidas por los extremos de clase. Por ejemplo, si designamos por eo, ..., ei, ..., ek los elementos de clase, tal como se muestra en la gráfica:
entonces la clase nº i estará definida por el intervalo:
* Marca de la clase nº i viene definida por:
* Distancia entre las marcas de las clases nº i y nº i+1 viene definida por:
* Amplitud de la clase nº i viene definida por:
* Frecuencia relativa acumulada: es la proporción de observaciones cuyos valores son menores o iguales al límite superior de la clase, o, en forma equivalente, menores que el límite inferior de la siguiente clase.
Una observación: La cantidad de clases a emplear para clasificar los datos en un conjunto están en íntima dependencia del total de observaciones de éste. Si la cantidad de observaciones es relativamente pequeña, la cantidad de clases a emplear será cercana a 5. Si existe una cantidad sustancial de datos, la cantidad de clases debe encontrarse entre 8 y 12, aunque generalmente no suele superarse a 15.
Ejemplo 3:
De acuerdo con los datos publicados en la revista Sea men's en su número de febrero de 1980, las cuotas anuales de 40 compañías para un seguro de $25.000 por marino incluido en la tripulación son las siguientes:
$ 82 - 85 - 86 - 87 - 87 - 89 - 89 - 90 - 91 - 91 - 92 - 93 - 94 - 95 - 95 -95 - 95 - 95 - 97 - 98 - 99 - 99 - 100 - 100 - 101 - 101 - 103 - 103- 103 - 104 - 105 - 105 - 106 - 107 - 107 - 107 - 109 - 110 - 110 - 111
Como la diferencia entre los valores extremos es 111 - 82 = 29, al decidir -por ejemplo- utilizar 6 clases, el intervalo de cada clase será aproximadamente de $5. Para establecer los límites de cada clase, hay que considerar la unidad más cercana con respecto a la cual se miden las observaciones. En este caso se va a redondear al dolar más cercano. Con estos datos podemos establecer la siguiente tabla:
Agrupamiento y frecuencias absolutas y acumuladas del ejemplo 3
| Límites de clase | Marca de clase | Frecuencia, fi | Frecuencia relativa fi /n | Frec. acumulada | Frec. relativa acumulada |
| 82-86 | 84 | 3 | 3/40 = 0,075 | 3 | 3/40 = 0,075 |
| 87-91 | 89 | 7 | 7/40 = 0,175 | 10 | 10/40 = 0,250 |
| 92-96 | 94 | 8 | 8/40 = 0,200 | 18 | 18/40 = 0,450 |
| 97-101 | 99 | 8 | 8/40 = 0,200 | 26 | 26/40 = 0,650 |
| 102-106 | 104 | 7 | 7/40 = 0,175 | 33 | 33/40 = 0,825 |
| 107-111 | 109 | 7 | 7/40 = 0,175 | 40 | 40/40 = 1,000 |
| Totales | 40 | 1,000 |
9.3 Representación gráfica de las distribuciones
Aunque una tabla estadística encierra toda la información disponible, para realizar una síntesis visual de los datos es recomendable pasarla a forma gráfica. El principio de la representación de los caracteres es la proporcionalidad de las áreas con las frecuencias absolutas. Se pueden utilizar diagramas de sectores, o de rectángulos (denominado histográma) . También se pueden representar las frecuencias acumuladas, dando lugar a la denominada curva de distribución, denotada por F(x).
Representación gráfica por sectores de los datos del ejemplo 3.
Histograma de los datos del ejemplo 3.
Curva de distribución de los datos del ejemplo 3.
Otra característica gráfica útil de un conjunto de datos, es la distribución de frecuencia relativa acumulativa u ojiva. Se trata de una poli-línea que se obtiene trazando en el eje vertical la frecuencia relativa acumulada (última columna de la tabla) de cada clase y en el eje horizontal el límite inferior de la clase siguiente, y uniendo con segmentos los puntos consecutivos así obtenidos.
El principal uso de la distribución acumulativa es lo que comúnmente se conoce como cuantíles.
En una distribución de frecuencia relativa acumulativa se define cuantíl como el valor bajo el cual se encuentra una determinada proporción de los valores de la distribución. El valor del cuantílse lee en la dirección opuesta, en el eje horizontal, a la proporción correspondiente deseada sobre el eje vertical. El cuantíl más común es el percentíl. Por ejemplo, qo.2 es el valor bajo el cual se encuentra el 20% de los valores de la distribución, y qo.9 es el valor bajo el cual se encuentra el 90% de los valores de la distribución, tal como se aprecia en la gráfica adjunta.
9.4 Descripción numérica de una variable estadística.
Para todo conjunto de datos hay dos medidas destacables: la localización de su centro, y su variabilidad. La tendencia central de un conjunto de datos es la disposición de éstos para agruparse ya sea alrededor del centro o de ciertos valores numéricos.
La variabilidad de un conjunto de datos es la dispersión de las observaciones en el conjunto.
* Características de tendencia central:
Se llama mediana al valor de la variable estadística que divide en dos bloques iguales a los individuos de la población, suponiendo que están ordenados por valor creciente del carácter.
Si la cantidad de observaciones es un número impar, la mediana es el valor de la observación que se encuentra a la mitad del conjunto ordenado. Si la cantidad de observaciones es par, la mediana es la media aritmética de las dos observaciones que se encuentran en la mitad del conjunto ordenado.
Para datos agrupados, la mediana es aquel valor que divide en dos partes iguales la distribución de frecuencia relativa. La fórmula en este caso viene dada por:
Mediana = L + c(j/fm)
donde L es el límite inferior de la clase donde se encuentra la mediana, fm es la frecuencia de esa clase, y j es la cantidad de observaciones en esta clase que son necesarias para completar un total de n/2.
Se llama moda de una variable estadística al valor del carácter que tiene mayor frecuencia. En el caso de que haya varios valores compartiendo la frecuencia máxima esta moda puede tener una utilidad muy limitada.
Para el caso de datos agrupados, la moda es el punto medio de la clase que presenta una mayor frecuencia.
Se llama media de una variable estadística, denotada por
a la suma ponderada de los valores posibles por sus respectivas frecuencias:
Cuando la variable estadística es contínua, es decir, los datos están agrupados, los valores xi son las marcas de clase de cada uno de los intervalos.
Ejemplo 4:
Calcular las tres medidas de tendencia central para el ejemplo 3.
Solución: Teniendo en cuenta que eran 40 observaciones, se obtiene que: la mediana es la medida de los dos valores correspondientes a las observaciones 20 y 21, después de haberlas ordenado en orden creciente, es decir: (98+99)/2 = 98,50.
La media en este caso es:





No hay comentarios