Descriptiva Uno-dimensional












1 Introducción


El desarrollo de la mecánica cuántica —la teoría del mundo subatómico— en el siglo XX ha demostrado que las expectativas de un universo totalmente determinista pecan de exceso de optimismo. De hecho, la física moderna ha demostrado que no es posible predecir el resultado de todos los experimentos, ni siquiera en principio. La teoría puede únicamente predecir las probabilidades de distintos resultados. En las ciencias sociales, la situación es aún más compleja debido a la multiplicidad de elementos interrelacionados, muchos de los cuales son, como mínimo, inciertos. Los investigadores sociales del siglo XVII pronto se dieron cuenta de que su búsqueda de principios universales del tipo de la ley de gravitación de Newton estaba condenada al fracaso de entrada. Durante un tiempo parecía que, al introducir las complejidades de la naturaleza humana en la ecuación, es virtualmente imposible llegar a predicción segura alguna. La situación aún parecía más desesperada si se tomaba en cuenta el pensamiento de toda una población. Sin embargo, en lugar de desesperar, algunos astutos pensadores desarrollaron un innovador arsenal de herramientas matemáticas: la estadística y la teoría de probabilidades.

AAntes del siglo XIX, las leyes que se aplicaban a las “cifras de población” de Graunt parecían una evidencia de sabiduría y planificación divinas. Posteriormente, a muchos especialistas les parecieron las condiciones previas de la catástrofe y la revolución. Este estudio de las cifras de población necesitaba un nombre. En 1749, el erudito alemán Gottfried Achenwall sugirió que, puesto que esa “ciencia” se ocupaba de los “estados” naturales de la sociedad, debería llamarse Statistik. A John Sinclair, ministro presbiteriano escocés, el término le gustó lo suficiente para introducirlo en el idioma inglés en su épico Statistical Account of Scotland [Recuento estadístico de Escocia], el primero de cuyos veintiún volúmenes apareció en 17 9 1. Pero los inventores de la disciplina no eran matemáticos; en realidad, casi no podría llamárseles “científicos”. Eran tabuladores de cifras, y se llamaban a sí mismos “estadísticos”.

2 Población

Entendemos genéricamente por población el conjunto sobre el cual recaen las observaciones (puede ser una población de personas, de monos, de libros, de radiadores… ). Si tomamos un subconjunto de elementos de la población decimos que hemos tomado una muestra. Un ejemplo de población podría ser una biblioteca, y un conjunto de libros de la misma sería una muestra.

3 Variables y Atributos

Una primera clasificación del tipo de datos procede del hecho de que las observaciones sean de tipo cualitativo (indican una cualidad) o cuantitativo (miden una cantidad).

En el primero de los casos se tiene un atributo, y en el segundo una variable. Para hacer referencia genéricamente a una variable o a un atributo se utiliza el término carácter.

Como ejemplos de atributos tenemos el color del pelo, raza, idioma de un grupo de personas, y como variables su estatura, peso, dinero que lleven en el bolsillo, etc. Si es necesario operar con un atributo, se le asignará a cada una de sus clases un valor numérico, con lo que se transforma en una variable. Esta asignación se hará de forma que los resultados que se obtengan al final del estudio sean fácilmente interpretables. Por ejemplo, si hay 3 idiomas posibles (ingles, francés y español) podemos usar 1, 2 y 3.

Las variables estadísticas suelen representarse con letras mayúsculas: X,Y,Z,T….

3.1 Variables discretas y continuas

Si las observaciones corresponden a cantidades, las variables pueden distinguirse entre discretas y continuas. Se dice que una variable es discreta cuando no puede tomar ningún valor entre dos consecutivos, y que es continua cuando puede tomar cualquier valor dentro de un intervalo.

Ejemplos de variable discreta: número de empleados de una fábrica; número de hijos; número de cuentas ocultas en Suiza.

Ejemplos de variable continua: temperaturas registradas en un observatorio; tiempo en recorrer una distancia en una carrera; contenido de alcohol en un cuba-libre; estatura; tiempo dándole el coñazo a una tía en la discoteca.

En la práctica, todas las variables son discretas debido a la limitación de los aparatos de medida. Pensemos en el ejemplo de la estatura; quizá se podría detectar una diferencia de una cienmilésima de metro, o de una millonésima, pero dados dos individuos que se diferencien en una millonésima, seguramente ya no existe otro que tenga una estatura intermedia. De la misma forma, por insignificante que sea la diferencia entre la llegada de dos corredores olímpicos a una meta, la limitación de la precisión en la medida siempre puede acabar produciendo un posible (aunque improbable) empate. Obviando este tipo de limitaciones, las variables continuas se elegirán, desde un punto de vista teórico, con toda la precisión que deseemos (decimales), de manera que siempre podamos escribir un valor que esté entre cualesquiera otros dos.

Por ejemplo, hasta hace unos años, cuando uno se subía a una báscula lo máximo solían ser dos o tres decimales: 50 kilos, 350 gramos… Desde hace tiempo existen básculas digitales con mucha mayor precision, que ofrecen un número mayor de decimales. De manera general, consideraremos que una variable continua toma valores en un intervalo (por ejemplo: el peso de un grupo de personas varía entre 40 y 100 kilos), y un dato podrá ser cualquier número entre esos dos,


Tipos de variables

Tipos de variables

3.1.1 Las mediciones

A finales del siglo XIX la actitud optimista devino en soberbia: es célebre una frase atribuida a Albert Michelson (1852-1931), famoso por su trabajo en la medición de la velocidad de la luz:

en algunos años, todas las grandes constantes de la física habrán sido estimadas y la única ocupación que quedará a los hombres de ciencia, será la de refinar estas medidas al siguiente decimal.

La definición propuesta del metro de 1791 fue el estándar más exacto de la historia y tardó hasta 1793 para poder completarse —pues se requerían mediciones más exactas del arco meridiano de la Tierra— pero finalmente se construyó la “barra métrica” que medía una diezmillonésima de la distancia desde el ecuador hasta el Polo Norte: el estándar más exacto de su tiempo. Hoy, claro, tenemos una medida muchísimo más precisa: la distancia recorrida por la luz en el vacío en un lapso de 1/299,792,458 de segundo.

Si se quiere leer más sobre esto: naukas

3.2 Distribuciones de frecuencias

La organización de los datos constituye la primera etapa de su tratamiento, pues facilita los cálculos posteriores y evita posibles confusiones. Realmente, la organización de la información tiene una raíz histórica y, actualmente, con el desarrollo de los medios informáticos, tiene menos importancia desde un punto de vista aplicado. Cuando no existían ordenadores, o ni siquiera calculadoras, si se disponía de un conjunto de datos, era necesario dotarlos de alguna estructura que permitiera resumirlos y comprenderlos de una forma más o menos sencilla.

La organización va a depender del número de observaciones distintas que se tengan y de las veces que se repitan cada una de ellas. En base a lo anterior, se pueden estructurar los datos de tres maneras distintas:

Cuando se tiene un gran número de observaciones, pero muy pocas distintas, se pueden organizar en una tabla de frecuencias, es decir, cada uno de los valores acompañado de la frecuencia (también llamada frecuencia absoluta ) con la que aparece. Este es el tipo de tabla que acompaña a una variable discreta.

Ejemplo:







(x_i) (n_i)
1 12
3 12
5 3
6 45
8 72

indica que el valor 2 se repite 4 veces, el valor 4 se repite 4 veces, etc…. Este es el formato con que suele representarse también una variable cualitativa, como el equipo de fútbol preferido por 10 personas de un bar:

Ejemplo: El 10 de abril de 1912, el Titanic zarpaba con 1317 pasajeros a bordo, ante la admiración de una muchedumbre de curiosos que contemplaban atónitos como aquella mole de acero se alejaba majestuosamente del puerto. Cinco días después los medios de comunicación de todo el mundo se hicieron eco de la increíble noticia: el barco más grande jamás construido yacía a casi cuatro mil metros de profundidad. La tabla siguiente muestra la distribución de pasajeros, según supervivencia y clase social


 library(readxl)
 Titanic <- read_excel("Pasajeros-Titanic.xlsx")
 datatable(Titanic, options = list(pageLength = 5)) # Interactive table 


3.2.1 Gráficos para variables discretas

Como una imagen vale más que mil palabras, con las representaciones gráficas se puede obtener una idea del contenido de una variable (su forma, cómo se distribuye, qué valores aparecen más y cuáles menos…). Para una variable de este tipo existen dos gráficos fundamentales: los diagramas de barra y los de sectores.

table(Titanic$clase)

## 
## 1st 2nd 3rd 
## 323 277 709

op<-par(mfrow=c(1,2))
barplot(table(Titanic$clase))
pie(table(Titanic$clase))

par(op)

Este se puede ver interactivamente en barchart-plotly

3.3 Variables continuas

Cuando una variable unidimensional es recogida secuencialmente en el tiempo, un diagrama de 2 dimensiones es este

data(Arbuthnot)
# plot the sex ratios
with(Arbuthnot, plot(Year,Ratio, type='b', ylim=c(1, 1.20), ylab="Sex Ratio (M/F)"))
abline(h=1, col="red")