Informacion y algunos ejercicios
https://drive.google.com/file/d/0B6iAtfQV6mPAbEx4VnMySVdrOFk/edit?usp=sharing
juanvazquezmorales80
martes, 3 de junio de 2014
jueves, 29 de mayo de 2014
domingo, 25 de mayo de 2014
Probabilidad y
estadística Conceptos
Básicos
Estadística:
La estadística es comúnmente considerada como una colección de hechos
numéricos expresados en términos de una relación sumisa, y que han sido
recopilados a partir de otros datos numéricos.
Kendall y Buckland (citados por Gini V. Glas / Julian C. Stanley, 1980)
definen la estadística como un valor resumido, calculado, como base en
una muestra de observaciones que
generalmente, aunque no por necesidad, se considera como una estimación de
parámetro de determinada población; es decir, una función de valores de muestra.
"La estadística es una técnica especial apta para el estudio
cuantitativo de los fenómenos de masa o colectivo, cuya mediación requiere una
masa de observaciones de otros fenómenos más simples llamados individuales o
particulares". (Gini, 1953).
Murria R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para recoger,
organizar, resumir y analizar datos, así como para sacar conclusiones válidas y
tomar decisiones razonables basadas en tal análisis.
"La estadística es la ciencia que trata de la recolección,
clasificación y presentación de los hechos sujetos a una apreciación numérica
como base a la explicación, descripción y comparación de los
fenómenos". (Yale y Kendal, 1954).
Cualquiera sea el punto de vista, lo fundamental es la importancia
científica que tiene la estadística, debido al gran campo de aplicación que
posee.
Definición de estadística. El término estadística tiene su
raíz en la palabra Estado. Surge cuando se hace necesario para
sus intereses cuantificar conceptos. En la mayoría de los casos esta
cuantificación se hará en función de unos fines económicos o militares. El estado quiere conocer censo de personas,
de infraestructura, de recursos en general, para poder obtener conclusiones de esta
información.
Actualmente la estadística es una ciencia que se desarrolló principalmente
en el siglo XX en las Universidades y centros de investigación prestigiosos
alrededor del mundo, dedicados a la investigación en ciencias biológicas y agropecuarias, como
la Estación experimental de Rothamstead en Gran Bretaña o la Universidad Estatal de Iowa y la Universidad
de Carolina del Norte en EE.UU. No es ya una cuestión reservada al estado. Podríamos
decir que ha permeado la mayoría de las ciencias, desde la Biología (en
especial, la Genética), la Física, la Química y las relacionadas con la
Ingeniería en general, así como las Finanzas, Economía y Ciencias Sociales. La razón es clara: por una parte la
estadística proporciona técnicas precisas para obtener información, (recolección
y descripción de datos) y por otra parte proporciona métodos para el análisis
de esta información (inferencia).
INFERENCIA ESTADÍSTICA
Se basa en las conclusiones a la que se llega por la ciencia
experimental basándose en información incompleta (de una parte de la
población). La inferencia estadística es una parte de la Estadística que
permite generar modelos probabilísticos a partir de un
conjunto de observaciones. Del conjunto se observaciones que van a ser
analizadas, se eligen aleatoriamente sólo unas cuantas, que es lo que se
denomina muestra, y a partir de dicha muestra se estiman los
parámetros del modelo, y se contrastan las hipótesis establecidas, con el objeto de
determinar si el modelo probabilístico es el adecuado al problema real que se
ha planteado.
La utilidad de la inferencia estadística,
consiste en que si el modelo se considera adecuado, puede usarse para la toma de decisiones o para la realización de las
previsiones convenientes.
En el desarrollo del tema se utilizarán variables aleatorias, que son variables
determinadas por el azar.
La inferencia estadística parte de un conjunto de observaciones de una
variable, y a partir de estos datos "infiere" o genera un modelo
probabilístico; por tanto es la consecuencia de la investigación empírica,
cuando se está llevando a cabo, y como consecuencia de la ciencia teórica,
cuando se están generando estimadores, o métodos, con tal o cual característica
para casos particulares. La inferencia estadística es, en consecuencia, un
planteamiento inductivo.
.Es la parte de la estadística matemática que se encarga
del estudio de los métodos para la
obtención del modelo de probabilidad que sigue una
variable aleatoria de una determinada población, a través de
una muestra obtenida de la
misma.
.proceso de análisis que consiste en
inferir las propiedades de una población con base en la caracterización de la
muestra.
TEORÍA DE DECISIÓN
Estudio formal sobre la toma de decisiones. Los estudios de casos
reales, que se sirven de la inspección y los experimentos, se denominan teoría descriptiva de
decisión; los estudios de la toma de decisiones racionales, que utilizan
la lógica y la
estadística, se llaman teoría preceptiva de decisión. Estos estudios se hacen
más complicados cuando hay más de un individuo, cuando los
resultados de diversas opciones no se conocen con exactitud y cuando las
probabilidades de los distintos resultados son desconocidas. La teoría de
decisión comparte características con la teoría de juegos, aunque en la teoría
de decisión el "adversario" es la realidad en vez de otro jugador o
jugadores.
Al hacer un análisis sobre esta teoría, y mirándola desde el punto de
vista de un sistema, se puede decir que
al tomar una decisión sobre un problema en particular, se debe tener en cuenta
los puntos de dificultad que lo componen, para así empezar a estudiarlos uno a
uno hasta obtener una solución que sea acorde a lo que se esta esperando
obtener de este, y sino, buscar otras soluciones que se acomoden
a lo deseado.
La teoría de decisión, no solamente se puede ver desde el punto de vista
de un sistema, sino en general, porque esta se utiliza a menudo para tomar
decisiones de la vida cotidiana, ya que muchas personas piensan que la vida es
como una de las teorías; La teoría del juego, que para poder empezarlo y
entenderlo hay que saber jugarlo y para eso se deben conocer las reglas de
este, para que no surjan equivocaciones al empezar la partida.
Se puede decir que la Teoría de decisión es una de las ramas que sirve
para que al dar un paso, no se vaya a dar en falso, porque si se conoce de esta
no hay el porque de equivocarse.
POBLACION EN ESTADISTICA
El concepto de población en
estadística va más allá de lo que comúnmente se conoce como tal. Una población
se precisa como un conjunto finito o infinito de personas u objetos que
presentan características comunes. "Una población es un conjunto de todos
los elementos que estamos estudiando, acerca de los cuales intentamos sacar
conclusiones". Levan & Rubin (1996). "Una población es un
conjunto de elementos que presentan una característica común". Cadenas
(1974). Ejemplo: Los miembros del Colegio de Ingenieros del Estado Cojedes. El
tamaño que tiene una población es un factor de suma importancia en el proceso
de investigación estadística, y
este tamaño vienen dado por el número de elementos que constituyen la
población, según el número de elementos la población puede ser finita o
infinita. Cuando el número de elementos que integra la población es muy grande,
se puede considerar a esta como una población infinita, por ejemplo; el
conjunto de todos los números positivos. Una población finita es aquella que
está formada por un limitado número de elementos, por ejemplo; el número de
estudiante del Núcleo San Carlos de la Universidad Nacional
Experimental Simón Rodríguez. Cuando la población es muy grande, es obvio que
laobservación de todos los
elementos se dificulte en cuanto al trabajo, tiempo y costos necesarios para
hacerlo. Para solucionar este inconveniente se utiliza una muestra estadística.
Es a menudo imposible o poco práctico observar la totalidad de los individuos,
sobre todos si estos son muchos. En lugar de examinar el grupo entero llamado
población o universo, se examina una
pequeña parte del grupo llamada muestra.
Población o Universo: es el total del conjunto de elementos u objetos de
los cuales se quiere obtener información. Aquí el término
población tiene un significado mucho más amplio que el usual, ya que puede
referirse a personas, cosas, actos, áreas geográficas e incluso al tiempo.
La población debe estar perfectamente definida en el tiempo y en el
espacio, de modo que ante la presencia de un potencial integrante de la misma,
se pueda decidir si forma parte o no de la población bajo estudio. Por lo
tanto, al definir una población, se debe cuidar que el conjunto de elementos
que la integran quede perfectamente delimitado.
MUESTRA ALEATORIA
Es una muestra sacada de una población de unidades, de manera que todo
elemento de la población tenga la misma probabilidad de selección y que las
unidades diferentes se seleccionen independientemente.
Muestra aleatoria: muestra elegida independientemente de todas las
demás, con la misma probabilidad que cualquier otra y cuyos elementos están
elegidos independientemente unos de otros y con la misma probabilidad. Muestra
aleatoria
Una muestra aleatoria es una muestra sacada de una población de
unidades, de manera que todo elemento de la población tenga la misma
probabilidad de selección y que las unidades diferentes se seleccionen
independientemente.
Variables aleatorias y distribuciones
Se llama variable aleatoria aquella que toma diversos valores o conjuntos de valores con
distintas probabilidades. Existen 2 características importantes de una variable
aleatoria, sus valores y las probabilidades asociadas a esos valores.
Una tabla, gráfico o expresión matemática que de las probabilidades con
que una variable aleatoria toma diferentes valores, se llama distribución de la variable
aleatoria.
Como vimos anteriormente, la inferencia estadística se relaciona con las
conclusiones que se pueden sacar acerca de una población de observaciones
basándose en una muestra de observaciones. Entonces intervienen las
probabilidades en el proceso de la selección de la muestra; en este caso se
desea saber algo sobre una distribución con base en una muestra aleatoria de
esa distribución.
De tal manera vemos que trabajamos con muestras aleatorias de una
población que es mas grande que la muestra obtenida; tal muestra aleatoria
aislada no es mas que una de muchas muestras diferentes que se habrían podido
obtener mediante el proceso de selección. Este concepto es realmente importante
en estadística.
La distribución de un estadígrafo en todas las muestras aleatorias de
tamaño n tomadas de una población, se llama distribución muestral del
estadígrafo para muestras aleatorias de tamaño n.
Para muestras aleatorias de tamaño n de toda población base, la media de
la distribución muestral de la media muestral, es la mediaµ de la población de
base.
Para muestras aleatorias de tamaño n de toda población base, la varianza
de la distribución muestral de la media muestral, es s2/ n que es la varianza
de la población de base dividida por el tamaño de la muestra.
Para muestras aleatorias de tamaño n de toda población de base, la media
de la distribución muestral de la varianza muestral s2, es la varianza s2 de la
población de base.
PARAMETROS ALEATORIOS
Se llama variable aleatoria aquella que toma diversos valores o
conjuntos de valores con distintas probabilidades. Existen 2 características
importantes de una variable aleatoria, sus valores y las probabilidades
asociadas a esos valores.
Una tabla, gráfico o expresión matemática que dé las probabilidades con
que una variable aleatoria toma diferente valores, se llama distribución de la
variable aleatoria.
Como vimos anteriormente, la inferencia estadística se relaciona con las
conclusiones que se pueden sacar acerca de una población de observaciones
basándose en una muestra de observaciones. Entonces intervienen las
probabilidades en el proceso de la selección de la muestra; en este caso se
desea saber algo sobre una distribución con base en una muestra aleatoria de
esa distribución.
De tal manera vemos que trabajamos con muestras aleatorias de una
población que es más grande que la muestra obtenida; tal muestra aleatoria
aislada no es más que una de muchas muestras diferentes que se habrían podido
obtener mediante el proceso de selección. Este concepto es realmente importante
en estadística.
ENFOQUE CLASICO EN ESTADISTICA
En el enfoque clásico los primeros gerentes y autores sobre administración buscaban
"el mejor camino", una serie de principios para crear
una estructura organizacional
que funcionara bien en todas las situaciones. Max Weber, Frederick Taylor y Henri Fayol fueron los
principales contribuyentes al llamado enfoque clásico para diseñar organizaciones. Ellos pensaban que
las organizaciones más eficientes y eficaces tenían una estructura jerárquica
en la cual los miembros de la organización, en sus acciones, eran guiados por un
sentimiento de obligación en la organización y por una serie
de regla y reglamentos racionales. Según Weber, cuando estas
organizaciones se habían desarrollado plenamente, se caracterizaban por la
especialización de tareas, los nombramientos por méritos, la oferta de
oportunidades para que sus miembros hicieran carrera, la rutinización de
actividades y un clima impersonal y
racional en la organización, Weber lo llamó burocracia.
Weber alababa la burocracia porque establecía reglas para tomar
decisiones, una cadena de mando clara y a la promoción de las personas
con base en la capacidad y la experiencia, en lugar del favoritismo o el
capricho. Asimismo, admiraba que la burocracia especificaba, con claridad,
la autoridad y la responsabilidad lo cual, en su
opinión, facilitaba la evaluación de los
resultados y su recompensa. Tanto él como otros autores clásicos, así como sus
contemporáneos en la administración, vivieron en una
época en que este enfoque para diseñar organizaciones se fundamentaba en el
precedente de los servicios civiles
del gobierno. El término
burocracia no siempre ha tenido la connotación negativa moderna; es decir, un
marco para la actividad lenta, ineficiente, sin imaginación de las
organizaciones.
ENFOQUE BAYESIANO EN ESTADISTICA
En el enfoque Bayesiano de la Estadística, la incertidumbre presente en
un modelo dado, es representada a través de una distribución de probabilidad
sobre los posibles valores del parámetro desconocido (típicamente
multidimensional) que define al modelo. El Teorema de Bayes, permite entonces
incorporar la información contenida en un conjunto de datos, produciendo
una descripción conjunta
de la incertidumbre sobrelos valores de los
parámetros del modelo a través de la distribución final. Desafortunadamente, la
implementación de las técnicas Bayesianas
usualmente requiere de un esfuerzo computacional muy alto. La mayor parte de
este esfuerzo se concentra en el cálculo de ciertas
características de la distribución final del parámetro de interés (que llamaremos
resúmenes inferenciales). Así, por ejemplo, para pasar de una distribución
conjunta a una colección de distribuciones y momentos marginales que sean
útiles para hacer inferencias sobre subconjuntos de parámetros, se requiere
integrar. En la mayoría de los casos los resúmenes inferenciales básicos se
reducen a integrales de la forma
donde, , , y . Así, por ejemplo, donde denota a la función indicadora del
conjunto y denota a la distribución predictiva de una observación futura. En la
práctica es común que la dimensión de sea muy grande. Por otro lado, excepto en
aplicaciones muy sencillas tanto como pueden llegar a tener formas muy
complicadas. En la gran mayoría de los problemas las integrales
requeridas no pueden resolverse analíticamente, por lo que es necesario contar
con métodos numéricos eficientes que permitan calcular o aproximar integrales
en varias dimensiones.
El propósito de estas notas es revisar de manera general algunos de los
métodos clásicos para calcular integrales, tales como la aproximación de Laplace, cuadratura (integración numérica) y
el método de Monte Carlo,
así como discutir algunas de las técnicas de integración desarrolladas durante
los últimos años y conocidas con el nombre genérico de técnicas de Monte Carlo
vía cadenas de Markov. El lector interesado en el enfoque Bayesiano de la
Estadística o en aspectos específicos de los métodos aquí discutidos puede
consultar los libros de Bernardo y
Smith (1994) y O"Hagan (1994), así como las referencias que ahí se
incluyen.
En términos generales, los métodos antes mencionados serán más
eficientes y darán resultados más precisos en la medida en que la distribución
final sea más parecida a una distribución normal. Es por esta razón que en la
mayoría de los casos resulta conveniente trabajar en términos de una
reparametrización del modelo, de manera que cada uno de los nuevos parámetros
tome valores en todo y su distribución final sea aproximadamente normal.
También es importante que la correlación final entre los nuevos parámetros no
sea muy alta.
En lo que resta de esta sección describiremos dos problemas que nos servirán
para ilustrar y comparar los métodos discutidos en estas notas. Algunos de
estos métodos han sido instrumentados en el lenguaje S de S-Plus. El código correspondiente,
así como los resultados principales, pueden encontrarse en los apéndices al
final de este trabajo.
DESCRIPCION DE DATOS EN ESTADISTICA
La estadística descriptiva es una parte de la estadística que se dedica
a analizar y representar los datos. Este análisis es muy básico, pero
fundamental en todo estudio. Aunque hay tendencia a generalizar a toda la
población las primeras conclusiones obtenidas tras un análisis descriptivo, su
poder inferencia es mínimo y debería evitarse tal proceder. Otras ramas de la
estadística se centran en el contraste de hipótesis y su
generalización a la población.
Algunas de las técnicas empleadas en este primer análisis de los datos
se enumeran más abajo en el listado de conceptos básicos. Básicamente, se lleva
a cabo un estudio calculando una serie de medidas de tendencia central, para
ver en qué medida los datos se agrupan o dispersan en torno a un valor central.
DATOS AGRUPADOS Y NO AGRUPADOS
Cuando la muestra que se ha tomado de la población o proceso que se
desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces
estos datos son analizados sin necesidad de formar clases con ellos y a esto es
a lo que se le llama tratamiento de datos no agrupados.
Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar
los datos en clases y a partir de estas determinar las características de la
muestra y por consiguiente las de la población de donde fue tomada. Antes de
pasar a definir cuál es la manera de determinar las características de interés
(media, mediana, moda, etc.) cuando se han
agrupado en clases los datos de la muestra, es necesario que sepamos como se
agrupan los datos.
FRECUANCIA DE CLASE
Marca de clase (punto medio):
punto que divide a la clase en dos partes iguales. Es el promedio entre
los límites superior e
inferior de la clase.
Intervalo de clase: para una distribución de frecuencias que tiene
clases del mismo tamaño, el intervalo de clase se obtiene restando el límite
inferior de una clase del límite inferior de la siguiente.
FRECUENCIA RELATIVA
Es la relación o cociente entre la frecuencia absoluta y el número total
de observaciones. Es la proporción entre la frecuencia de un intervalo y el número
total de datos.
PUNTO MEDIO
Punto medio
Punto medio es el punto que divide a un segmento en dos partes iguales.
El punto medio de un segmento, es único y equidista de los extremos del
segmento. Cumpliendo esta última condición, pertenece a la mediatriz del
segmento.
La fórmula para determinar el punto medio de un segmento en el plano,
con coordenadas: (x1,y1) y (x2,y2) es: [(x1 + x2) / 2] + [(y1 + y2) / 2]
LIMITES EN ESTADISTICA
Son los valores extremos que tiene el intervalo de clase, inferior y
superior, entre los cuales van a estar los valores de los datos agrupados en
ese intervalo de clase.
HISTOGRAMA EN ESTADISTICA
El Histograma representa la frecuencia con la que se presentan los
diferentes grupos de datos de la
variable objeto de estudio. Es un conjunto de rectángulos, los cuales
representan a cada una de las clases. En el eje de abscisas se representan las
clases definidas y en el eje de ordenadas la frecuencia de cada una de ellas.
La amplitud del intervalo de las clases se halla dividiendo el Recorrido entre
el número de clases. El Histograma proporciona mucha información respecto a la
estructura de los datos. Por tanto, es importante analizar la situación del
centro del Histograma y el ancho del mismo que definen la tendencia central y
la variabilidad del conjunto de datos respectivamente, así como la forma del
Histograma que identifica algunas de las características del proceso en
estudio.
Historia de la Estadística""
Etimología
La palabra "estadística" procede del latín statisticum
collegium ("consejo de Estado") y de su derivado italiano statista
("hombre de Estado"
o "político"). El término alemán Statistik, introducido por Gottfried
Achenwall (1749), designaba originalmente el análisis de datos del Estado, es
decir, "la ciencia del
Estado". No fue hasta el siglo XIX cuando el término estadística vino a
designar la colección y clasificación de datos.
En su origen, por tanto, la estadística estuvo asociada al control de datos
poblacionales por parte de la administración pública. Este
tipo de prácticas han sido analizadas por Michel Foucault como una forma
de impolítica, un estilo de gobierno caracterizado por regular a las
poblaciones a través del biopoder. Desde los comienzos de la civilización han
existido formas sencillas de estadística, pues ya se utilizaban
representaciones gráficas y otros símbolos en
pieles, rocas, palos de madera y paredes de
cuevas para contar el número de personas, animales o ciertas
cosas. Hacia el año 3000 a. C. los babilonios usaban ya pequeñas tablillas de
arcilla para recopilar datos en tablas sobre la producción agrícola y de
los géneros vendidos o cambiados mediante trueque. Los egipcios analizaban los
datos de la población y la renta del país mucho antes de construir las
pirámides en el siglo XXXI a. C. Los libros bíblicos de Números y Crónicas
incluyen, en algunas partes, trabajos de estadística. El primero contiene dos
censos de la población de Israel y el segundo
describe el bienestar material de las diversas tribus judías. En China existían registros numéricos
similares con anterioridad al año 2000 a. C. Los griegos clásicos realizaban
censos cuya información se utilizaba hacia el 594 a. C. para cobrar impuestos.
HISTOGRAMA DE FRECUENCIA RELATIVA
El histograma de una imagen representa la
frecuencia relativa de los niveles de gris de la imagen. Las técnicas de
modificación del histograma de una imagen son útiles para aumentar el contraste
de imágenes con histogramas
muy concentrados.
Sea u una imagen de tamaño NxN, la función de distribución del
histograma es: Fu(l) = (Numerodepixels(i,j)talesqueu(i,j) < = l) / N2
Ejemplos de otros tipos de representaciones gráficas: Hay histogramas
donde se agrupan los datos en clases, y se cuenta cuántas observaciones
(frecuencia absoluta) hay en cada una de ellas. En algunas variables (variables
cualitativas) las clases están definidas de modo natural, p.e sexo con dos
clases: mujer, varón o grupo
sanguíneo con cuatro: A, B, AB, O. En las variables cuantitativas, las clases
hay que definirlas explícitamente (intervalos de clase).
Se representan los intervalos de clase en el eje de abscisas (eje horizontal)
y las frecuencias, absolutas o relativas, en el de ordenadas (eje vertical).
A veces es más útil representar las frecuencias acumuladas.
O representar simultáneamente los histogramas de una variable en dos
situaciones distintas.
Otra forma muy frecuente, de representar dos histogramas de la misma
variable en dos situaciones distintas.
En las variables cuantitativas o en las cualitativas ordinales se pueden
representar polígonos de frecuencia
en lugar de histogramas, cuando se representa la frecuencia acumulativa, se
denomina ojiva.
MEDIDAS DE TENDENCIA CENTRAL
También se les conoce como medidas de posición o promedios son los
valores que se utilizan para representar el conjunto de observaciones. Tienden
a situarse en el centro del conjunto de los datos, previamente ordenados.
·
Las principales medidas centrales son:
La media, la mediana y la moda.
MEDIA ARITMETICA GEOMETRICA PONDERADA
Media aritmética:
Es uno de los promedios de mayor utilización. Su generalización se debe
a las propiedades que posee, que la convierten en un indicador muy
representativo.
Se obtiene sumando los productos de cada valor
de la variable por su respectiva frecuencia, y dividiendo esta suma por el
total de observaciones.
MEDIANA EN ESTADISTICA
Mediana:
Es el valor de la variable que divide a la distribución de frecuencias
en dos partes iguales.
·
Para hallar la mediana ordenamos la frecuencias de mayor a menor o
viceversa, y si hay un número impar de valores la mediana es el central y si es
par será la semisuma de los dos valores.

MEDIDAS DE DISPERSIÓN
MODA EN ESTADÍSTICA
En Estadística, la moda es el valor que cuenta con una mayor frecuencia
en una distribución de datos.
Hablaremos de una distribución bimodal de los datos, cuando encontremos
dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima.
Una distribución trimodal de los datos es en la que encontramos tres modas. Si
todas las variables tienen la misma frecuencia diremos que no hay moda.
El intervalo modal es el de mayor frecuencia absoluta. Cuando tratamos
con datos agrupados antes de definir la moda, se ha de definir el intervalo
modal.
La moda, cuando los datos están agrupados, es un punto que divide al
intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del
intervalo, que verifiquen que:
Siendo la frecuencia absoluta del intervalo modal las frecuencias
absolutas de los intervalos anterior y posterior, respectivamente, al intervalo
modal.
Se llama típicaión de un conjunto de datos al grado en que los
diferentes valores de los datos tiende a extenderse alrededor del valor medio
utilizado.
Este grado de típicaión se mide por medio de los indicadores típicaións
llamados medidas de típica ión, entre ellas tenemos el rango, la varianza, y la
típicaión típica.
Hasta el momento hemos estudiado los valores centrales de la
distribución, pero también es importante conocer si los valores en general
están cerca o alejados de estos valores centrales, es por lo que surge la
necesidad de estudiar medidas de dispersión.
Rango:
Es la primera medida que vamos a estudiar, se define como la diferencia
existente entre el valor mayor y el menor de la distribución,. Lo notaremos
como R. Realmente no es una medida muy significativa e la mayoría de los casos,
pero indudablemente es muy fácil de calcular.
Hemos estudiado varias medidas de centralización, por lo que podemos
hablar de desviación con respecto a cualquiera de ellas, sin embargo, la mas
utilizada es con respecto a la media.
Desviación:
Es la diferencia que se observa entre el valor de la variable y la media
aritmética. La denotaremos por di.
No es una medida, son muchas medidas, pues cada valor de la variable
lleva asociada su correspondiente desviación, por lo que precisaremos una
medida que resuma dicha información.
La primera solución puede ser calcular la media de todas las
desviaciones, es decir, si consideramos como muestra la de todas las
desviaciones y calculamos su media. Pero esta solución es mala pues como
veremos siempre va a ser 0.

Luego por lo tanto esta primera idea no es valida, pues las desviaciones
positivas se contrarrestan con las negativas.
Para resolver este problema, tenemos dos caminos:
Tomar el valor absoluto de las desviaciones. Desviación media Elevar
al cuadrado las desviaciones. Varianza.
Varianza:

MEDIDAS DE DISPERSIÓN
VARIANZA EN ESTADISTICA
Varianza (Concepto)
Es el estadístico de dispersión que mide el grado de variabilidad que
sintetiza el grado de homogeneidad o heterogeneidad de las diferencias
individuales entre los casos de una muestra (o de varias muestras) respecto de
una o varias variables numéricas continuas o cuantitativas.
En teoría de probabilidad y estadística la varianza es un estimador de
la divergencia de una variable aleatoria x de su valor esperado E[x]. También
se utilizan la desviación estándar, la raíz de la varianza.
La varianza s2 de una variable aleatoria x se define como
Método abreviado:
También se expresa como la diferencia entre el momento de orden 2 y el
cuadrado del valor esperado:
Mientras que la desviación estándar es el promedio de la distancia de
cada punto respecto del promedio la varianza es como un área.
s 2 = å f(x - m )2 / N
s 2 = varianza de la población.
x = punto medio de cada una de las clases.
m = media de la población.
N = número total de elementos de la población.
f = frecuencia de cada una de las clases donde vean el 2 se eleva al
cuadrado y este símbolo (å) es de sumatoria
Cruz Bazan R. (Instituto Tecnológico Superior del Oriente del Estado De
Hidalgo).
DESVIACION ESTANDAR
La desviación estándar (o desviación típica) es una medida de dispersión
para variables de razón (ratio o cociente) y de intervalo, de gran utilidad en la estadística
descriptiva. Es una medida (cuadrática) de lo que se apartan los datos de su media,
y por tanto, se mide en las mismas unidades que la variable.
Para conocer con detalle un conjunto de datos, no basta con conocer las
medidas de tendencia central, sino que necesitamos conocer también la
desviación que representan los datos en su distribución, con objeto de tener
una visión de los mismos más acorde con la realidad a la hora de describirlos e
interpretarlos para la toma de decisiones.
DESVIACION MEDIANA
Desviación Mediana.
El criterio que guía esta estadística, radica en el uso de diferencias
de cada dato respecto a la mediana muestral m.
Si estas diferencias son muy grandes, entonces estamos ante un caso de
gran variabilidad, y si son pequeñas se espera que la variabilidad sea pequeña.
Naturalmente que el criterio que parece más apropiado es agrupar las
discrepancias individuales y tratarlas en conjunto.
Un agrupamiento natural sería una suma de ellas, pero el sólo uso de las
diferencias no garantiza que se pueda medir discrepancias porque algunas
(prácticamente la mitad) serán menores que la mediana, con diferencias
negativas, y el resto mayores que la mediana, con diferencias positivas, y al
sumar dichos valores habría compensaciones entre valores negativos y positivos.
Por lo tanto, una salida a esta dificultad es considerar el valor
absoluto de las diferencias calculadas y promediarlos.
Puede verse entonces que, cuanto mayor sea la dispersión existente entre
los datos, tanto mayor tenderá a ser el promedio del valor absoluto de las
diferencias de los datos, respecto de la mediana muestral.
Esta estadística se encuentra medida en la misma escala que los datos
originales, lo que facilita su comprensión.
RANGO EN ESTADISTICA
RANGO
El rango en estadística es la diferencia o resta del límite superior
menos el límite inferior, de los datos utilizados en una clase.
Se simboliza con la letra R mayúscula.
Para averiguar el rango de un grupo de números:
Ordene los números según su tamaño Reste el valor mínimo al valor máximo.
PARAMETROS PARA DATOS AGRUPADOS
En el estudio de las distribuciones de datos, la estadística selecciona
un conjunto de los mismos de forma que sean representativos de todos los de la
distribución.
·
Estos datos seleccionados se denominan características de la
distribución o parámetros estadísticos.
MEDIA DE DATOS AGRUPADOS
MEDIA DE DATOS AGRUPADOS Media para un conjunto de datos agrupados.
La media para datos agrupados es la siguiente:
Donde es el total de datos, m el número total de clase y es la
frecuencia de datos.
La definición es claramente entendida como una extensión de la
definición que dimos para datos no agrupados, ya que es lógico suponer que
datos que se repiten con una frecuencia pueden simplificar la suma por, por
supuesto que los índices de la segunda suma con respecto a la primera corren
con respecto a menor número, es decir, con respecto al número de agrupamientos
m.
Ejemplo:
Sean los siguientes datos 1, 1, 2, 2, 4, 4, 5, 2, 3, 2, 3, 4, 1, 2, 1.
La media para dichos datos es aproximadamente igual a 2.4666, es decir,
Sin embargo, el mismo resultado podemos obtener si tomamos la frecuencia
con que aparecen los datos, en este caso:
Dato
Frecuencia
Producto de frecuencias y datos
1 4 4 2 5 10 3 2 6 4 3 12 5 1 5
La obtención de la media finalmente se convierte en para la obtención de
la media cuando las frecuencias están sujetas a la elección de clase bajo los
métodos mostrados, se realiza de igual manera, la única diferencia existe en
determinar el valor como el punto medio de cada clase, veamos el siguiente
ejemplo.
Supongamos que una clínica de salud, obtiene una tabla
de edades de las personas que son atendidas en un fin de semana, para los que
presentan la siguiente tabla. ¿Cuál será el promedio de edades de los enfermos
que acudieron a recibir atención médica?
DISTRIBUCION DE FRECUENCIA
La distribución de frecuencia es la representación estructurada, en
forma de tabla, de toda la información que se ha recogido sobre la variable que
se estudia. Variable Frecuencias absolutas Frecuencias relativas (Valor) Simple
Acumulada Simple Acumulada x x x x x X1 n1 n1 f1 = n1 / n f1 X2 n2 n1 + n2 f2 =
n2 / n f1 + f2 . . . . . Xn-1 nn-1 n1 + n2 +..+ nn-1 fn-1 = nn-1 / n f1 + f2
+..+fn-1 f( n fn = nn / n (Xn nn
Siendo X los distintos valores que puede tomar la variable. Siendo n el
número de veces que se repite cada valor. Siendo f el porcentaje que la
repetición de cada valor supone sobre el total Veamos un ejemplo: Medimos la
altura de los niños de una clase y
obtenemos los siguientes resultados (cm): Alumno Estatura Alumno Estatura
Alumno Estatura x x x x x x Alumno 1 1,25 Alumno 11 1,23 Alumno 21 1,21 Alumno
2 1,28 Alumno 12 1,26 Alumno 22 1,29 Alumno 3 1,27 Alumno 13 1,30 Alumno 23
1,26 Alumno 4 1,21 Alumno 14 1,21 Alumno 24 1,22 Alumno 5 1,22 Alumno 15 1,28
Alumno 25 1,28 Alumno 6 1,29 Alumno 16 1,30 Alumno 26 1,27 Alumno 7 1,30 Alumno
17 1,22 Alumno 27 1,26 Alumno 8 1,24 Alumno 18 1,25 Alumno 28 1,23 Alumno 9
1,27 Alumno 19 1,20 Alumno 29 1,22 Alumno 10 1,29 Alumno 20 1,28 Alumno 30 1,21
Si presentamos esta información estructurada obtendríamos la siguiente
tabla de frecuencia: Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada x x x x x 1,20 1 1 3,3% 3,3% 1,21 4 5
13,3% 16,6% 1,22 4 9 13,3% 30,0% 1,23 2 11 6,6% 36,6% 1,24 1 12 3,3% 40,0% 1,25
2 14 6,6% 46,6% 1,26 3 17 10,0% 56,6% 1,27 3 20 10,0% 66,6% 1,28 4 24 13,3%
80,0% 1,29 3 27 10,0% 90,0% 1,30 3 30 10,0% 100,0% Si los valores que toma la
variable son muy diversos y cada uno de ellos se repite muy pocas veces,
entonces conviene agruparlos por intervalos, ya que de otra manera obtendríamos
una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos
de síntesis.
La distribución de frecuencia es la representación estructurada, en
forma de tabla, de toda la información que se ha recogido sobre la variable que
se estudia. Variable Frecuencias absolutas Frecuencias relativas (Valor) Simple
Acumulada Simple Acumulada x x x x x X1 n1 n1 f1 = n1 / n f1 X2 n2 n1 + n2 f2 =
n2 / n f1 + f2 . . . . . Xn-1 nn-1 n1 + n2 +..+ nn-1 fn-1 = nn-1 / n f1 + f2
+..+fn-1 f( n fn = nn / n (Xn nn
Siendo X los distintos valores que puede tomar la variable. Siendo n el
número de veces que se repite cada valor. Siendo f el porcentaje que la
repetición de cada valor supone sobre el total Veamos un ejemplo: Medimos la
altura de los niños de una clase y obtenemos los siguientes resultados (cm):
Alumno Estatura Alumno Estatura Alumno Estatura x x x x x x Alumno 1 1,25
Alumno 11 1,23 Alumno 21 1,21 Alumno 2 1,28 Alumno 12 1,26 Alumno 22 1,29
Alumno 3 1,27 Alumno 13 1,30 Alumno 23 1,26 Alumno 4 1,21 Alumno 14 1,21 Alumno
24 1,22 Alumno 5 1,22 Alumno 15 1,28 Alumno 25 1,28 Alumno 6 1,29 Alumno 16
1,30 Alumno 26 1,27 Alumno 7 1,30 Alumno 17 1,22 Alumno 27 1,26 Alumno 8 1,24
Alumno 18 1,25 Alumno 28 1,23 Alumno 9 1,27 Alumno 19 1,20 Alumno 29 1,22
Alumno 10 1,29 Alumno 20 1,28 Alumno 30 1,21
Si presentamos esta información estructurada obtendríamos la siguiente
tabla de frecuencia: Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada x x x x x 1,20 1 1 3,3% 3,3% 1,21 4 5
13,3% 16,6% 1,22 4 9 13,3% 30,0% 1,23 2 11 6,6% 36,6% 1,24 1 12 3,3% 40,0% 1,25
2 14 6,6% 46,6% 1,26 3 17 10,0% 56,6% 1,27 3 20 10,0% 66,6% 1,28 4 24 13,3%
80,0% 1,29 3 27 10,0% 90,0% 1,30 3 30 10,0% 100,0% Si los valores que toma la
variable son muy diversos y cada uno de ellos se repite muy pocas veces,
entonces conviene agruparlos por intervalos, ya que de otra manera obtendríamos
una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de
síntesis. (Tal como se verá en la siguiente lección).
DISTRIBUCIONES NUMERICAS
Distribución de frecuencia de clase o de datos Agrupados:
Es aquella distribución en la que la disposición tabular de los datos
estadísticos se encuentra ordenada en clases y con la frecuencia de cada clase;
es decir, los datos originales de varios valores adyacentes del conjunto se
combinan para formar un intervalo de clase. No existen normas establecidas
para determinar cuándo es apropiado utilizar datos agrupados o datos no
agrupados; sin embargo, se sugiere que cuando el número total de datos (N) es
igual o superior 50 y además el rango o recorrido de la serie de datos es mayor
de 20, entonces, se utilizará la distribución de frecuencia para datos
agrupados, también se utilizará este tipo de distribución cuando se requiera
elaborar gráficos lineales como
el histograma, el polígono de frecuencia o la ojiva.
La razón fundamental para utilizar la distribución de frecuencia de
clases es proporcionar mejor comunicación acerca del
patrón establecido en los datos y facilitar la manipulación de los mismos. Los
datos se agrupan en clases con el fin de sintetizar, resumir,
DISTRIBUCIONES CATEGÓRICAS
Si las distribuciones se hallan agrupadas de acuerdo con alguna cualidad
o atributo denominaremos distribución categórica a esa distribución.
DISTRIBUCIONES ACOMULADAS
Una distribución de frecuencias acumulada (ogiva) se usa para determinar
cuántos o qué proporción de los valores de los datos es menor o mayor que
cierto valor.
Una distribución de frecuencias acumuladas identifica el número
acumulado de observaciones incluidas bajo el límite exacto superior de cada
clase de la distribución. Las frecuencias acumuladas de una clase pueden
determinarse sumando las frecuencias observadas de esa clase a las frecuencias
acumuladas de la clase anterior.
La gráfica de una distribución de frecuencias acumuladas se llama ojiva.
En el caso de distribuciones acumuladas del tipo "y menor que", esta
gráfica indica las frecuencias acumuladas bajo cada límite exacto de clase de
la distribución de frecuencias. Si esa gráfica de líneas se suaviza, se obtiene
la curva llamada ojiva.
DISTRIBUCIONES PORCENTUALES ACOMULADAS
Es la distribución de frecuencias acumuladas
Fi = Ni/N
La Fi multiplicada por 100 se obtiene la distribución de porcentaje
acumulado (Pi) que al igual que Fi deberá de resultar al final el 100% de N.
TECNICAS DE AGRUPACION DE DATOS
Estoy invitando a todos los maestros, alumnos y personas interesadas en
esta área y/o carrera a colaborar construyendo este sitio dedicado a esta
hermosa y útil profesión aportando el material apropiado a cada uno de los más
de 1,000 temas que lo componen.
También los invito a aportar material a los más de 20,000 temas que
constituyen las 20 carreras profesionales que se imparten en los Institutos
Tecnológicos de México y se encuentran
en este sitio.
Es un esfuerzo personal y de muchos
amigos de MEXICO y el Mundo Hispano por devolver algo de lo mucho que hemos
recibido en el proceso de la educación superior,
saludos Prof. lauro soto, Tijuana, BC, mexica
PARA EMPEZAR SOLO USAR OPCION edit. ABAJO Y EMPIEZA A CONSTRUIR, SALUDOS
Y MUCHAS GRACIAS
LIMITES DE CLASE
Límites Reales de Clases
Límite Real Inferior: Se determina sumando el límite inferior de la
clase en la que nos ubicamos, más el límite superior de la clase contigua
anterior y dividiendo por dos.
Límite Real Superior: Se determina sumando el límite superior de la
clase en la que nos ubicamos, más el límite superior de la clase contigua
siguiente o superior y dividendo por dos.
Por Ejemplo: Considerando una tabla de frecuencias:
|
Salarios [Clases o Categorías]
|
No. de Profesionales [Frecuencias de Clase]
|
|
30 - 39
|
7
|
|
40 - 49
|
12
|
|
50 - 59
|
19
|
|
60 - 69
|
16
|
|
70 - 79
|
10
|
|
80 - 89
|
6
|
|
90 - 99
|
2
|
|
|
72
|
Salarios
|
Límites Inferiores
|
|
Límites Superiores
|
|
*
|
-
|
29
|
|
30
|
-
|
39
|
|
40
|
-
|
49
|
|
50
|
-
|
59
|
|
60
|
-
|
69
|
|
70
|
-
|
79
|
|
80
|
-
|
89
|
|
90
|
-
|
99
|
|
100
|
-
|
*
|
Calculando los límites reales de clases para el primer intervalo de
clase, resulta:
LÍMITE REAL INFERIOR = (Límite inferior actual + Límite
superior anterior) / 2 = (30+29)/2 = 29.5
LÍMITE REAL SUPERIOR = (Límite superior actual + Límite
inferior superior) / 2 = (39+40)/2 = 39.5
Por lo anterior, se concluye que los límites reales de clases para la
tabla del ejemplo son:
Límites Reales de Clases
Salarios
|
Límites Reales Inferiores
|
|
Límites Reales Superiores
|
|
29.5
|
-
|
39.5
|
|
39.5
|
-
|
49.5
|
|
49.5
|
-
|
59.5
|
|
59.5
|
-
|
69.5
|
|
69.5
|
-
|
79.5
|
|
79.5
|
-
|
89.5
|
|
89.5
|
-
|
99.5
|
La tabla anterior, resulta ser incierta, ya que los límites reales de
clases no serán coincidentes con las observaciones reales, pues, si una observación
fuese 49.5, no es posible definir si pertenece al intervalo de clase
(39.5–49.5) o al intervalo de clase (49.5–59.5). Lo anterior da lugar, que a
veces los "límites reales de clases" sean utilizados, únicamente como símbolos
de las clases.
PARA EMPEZAR SOLO USAR OPCION edit. ABAJO Y EMPIEZA A CONSTRUIR, SALUDOS
Y MUCHAS GRACIAS
FRONTERAS DE CLASE
Son los puntos medios entre límites
de clases adyacentes. Los límites de una clase estarán siempre contenidos entre
las fronteras de la misma clase y tendrán mayor aproximación que los datos, y
por lo tanto también que los límites. La distancia entre la frontera inferior y el
límite inferior de una misma clase, al igual que la distancia entre el límite
superior y la frontera superior de una misma clase, es igual a media unidad de
aproximación.
MARCA DE CLASE
En un estudio estadístico, valor representativo de cada intervalo.
Tomamos como marca de clase el
punto medio de cada intervalo y lo calculamos sumando los extremos del intervalo
y dividiéndolo entre 2.
INTERVALO DE CLASE
Es cada uno de los grupos que formamos de los valores de la variable.
Para obtener la amplitud de cada intervalo, tenemos que dividir el
recorrido de la variable por el número de grupos que queramos formar.
DIAGRAMA DE TALLOS Y HOJAS
Es una técnica estadística para representar un conjunto de datos. Cada
valor numérico se divide en dos partes. El o los dígitos principales forman el
tallo y los dígitos secundarios las hojas. Los tallos están colocados a lo
largo del eje vertical, y las hojas de cada observación a lo largo del eje
horizontal.
Ejemplo
La siguiente distribución de frecuencia muestra el número de anuncios
comerciales pagados por los 45 miembros de Grietear Bufadlo Automobile Dealer´s
Association en 1999. Observemos que 7 de los 45 comerciantes pagaron entre 90 y
99 anuncios (pero menos de 100). Sin embargo, ¿El numero de comerciantes pagados
en esta clase se agrupan en alrededor de 90, están dispersos a lo largo de toda
clase, o se acumulan alrededor de 99? No podemos saberlo.
# De anuncios comprados Frecuencia
80 a 90 2
90 a 100 7
100 a 110 6
110 a 120 9
120 a 130 8
130 a 140 7
140 a 150 3
150 a 160 3
Sumatoria de la frecuencia= 45
Una técnica que se usa para presentar información cuantitativa en forma
condensada es el diagrama de tallo y hoja. En el ejemplo anterior no se da
la identidad de los valores
de la clase de 90 a 100. Para ilustrar la construcción de un diagrama
de tallo y hojas usando el número de comerciales comprados, supongamos que las
7 observaciones en la clase de 90 a 100 sean 96, 94, 93, 94, 95, 96, 97. EL
valor de tallo es el digito o dígitos principales, en este caso el 9. Las hojas
son los dígitos secundarios. EL tallo se coloca a la izquierda de una línea
vertical y los valores de las hojas a la derecha.
Los valores de las clases de 90 a 100, aparecerían como sigue:
9 | 6 4 3 4 5 6 7
Por ultimo, ordenamos los valores dentro de cada tallo de menor a mayor.
El segundo renglón del diagrama de tallo y hojas aparecería como sigue:
9 | 3 4 4 5 6 6 7
Con el diagrama de tallo y hojas podemos observar rápidamente que hubo 2
comerciantes que compraron 94 comerciales y que el número de anuncios comprados
fue desde 93 hasta 97. Un diagrama de tallo y hojas es semejante a una
distribución de frecuencia, pero con más información, esto es, valores de datos
en lugar de marcas.
El Diagrama de Pareto es una gráfica en donde se organizan diversas
clasificaciones de datos por orden descendente, de izquierda a derecha por
medio de barras sencillas después de haber reunido los datos para calificar las
causas. De modo que se pueda asignar un orden de prioridades.
¿Qué es?
El nombre de Pareto fue dado por el Dr. Joseph Juran en honor del
economista italiano Vilfredo Pareto (1848–1923) quien realizo un estudio sobre
la distribución de la riqueza, en el cual descubrió que la minoría de la
población poseía la mayor parte de la riqueza y la mayoría de la población
poseía la menor parte de la riqueza. Con esto estableció la llamada "Ley de Pareto"
según la cual la desigualdad económica es inevitable en cualquier sociedad.
El Dr. Juran aplicó este concepto a la calidad, obteniéndose lo que
hoy se conoce como la regla 80/20.
Según este concepto, si se tiene un problema con muchas causas, podemos
decir que el 20% de las causas resuelven el 80% del problema y el 80% de las
causas solo resuelven el 20% del problema.
Por lo tanto, el Análisis de Pareto es una técnica que separa los
"pocos vitales" de los "muchos triviales". Una gráfica de
Pareto es utilizada para separar gráficamente los aspectos significativos de un
problema desde los triviales de manera que un equipo sepa dónde dirigir sus
esfuerzos para mejorar. Reducir los problemas más significativos (las barras
más largas en una Gráfica Pareto) servirá más para una mejora general que
reducir los más pequeños. Con frecuencia, un aspecto tendrá el 80% de los
problemas. En el resto de los casos, entre 2 y 3 aspectos serán responsables
por el 80% de los problemas.
En relación con los estilos gerenciales de Resolución de Problemas
y Toma de Decisiones (Conservador,
Bombero, Oportunista e Integrador)[1], vemos como la utilización de esta
herramienta puede resultar una alternativa excelente para un gerente de estilo
Bombero, quien constantemente a la hora de resolver problemas solo
"apaga incendios", es decir,
pone todo su esfuerzo en los "muchos triviales".
¿Cuándo se utiliza? · Al identificar un producto o servicio para el
análisis para mejorar la calidad.
· Cuando existe la necesidad de llamar la atención a los problema o
causas de una forma sistemática.
· Al identificar oportunidades para mejorar
· Al analizar las diferentes agrupaciones de datos (ej.: por producto,
por segmento, del mercado, área geográfica,
etc.)
· Al buscar las causas principales de los problemas y establecer la
prioridad de las soluciones
· Al evaluar los resultados de los cambios efectuados a un proceso
(antes y después)
· Cuando los datos puedan clasificarse en categorías
· Cuando el rango de cada categoría es importante
Pareto es una herramienta de análisis de datos ampliamente utilizada y
es por lo tanto útil en la determinación de la causa principal durante un
esfuerzo de resolución de problemas. Este permite ver cuáles son los problemas
más grandes, permitiéndoles a los grupos establecer prioridades. En casos
típicos, los pocos (pasos, servicios, ítems, problemas, causas) son
responsables por la mayor parte el impacto negativo sobre la calidad. Si
enfocamos nuestra atención en estos pocos vitales, podemos obtener la mayor
ganancia potencial de nuestros esfuerzos por mejorar la calidad.
Un equipo puede utilizar la Gráfica de Pareto para varios propósitos
durante un proyecto para lograr
mejoras:
· Para analizar las causas
· Para estudiar los resultados
· Para planear una mejora continua
· Las Gráficas de Pareto son especialmente valiosas como fotos de "antes
y después" para demostrar qué progreso se ha logrado. Como tal, la Gráfica
de Pareto es una herramienta sencilla pero poderosa.
¿Cómo se utiliza? 1. Seleccionar categorías lógicas para el tópico de
análisis identificado (incluir el periodo de tiempo).
2. Reunir datos. La utilización de un Check List puede ser de mucha
ayuda en este paso.
3. Ordenar los datos de la mayor categoría a la menor
4. totalizar los datos para todas las categorías
5. calcular el porcentaje del total que cada categoría representa
6. trazar los ejes horizontales (x) y verticales (y primario - y
secundario)
7. trazar la escala del eje vertical izquierdo para frecuencia (de 0 al
total, según se calculó anteriormente)
8. de izquierda a derecha trazar las barras para cada categoría en orden
descendente. Si existe una categoría "otros", debe ser colocada al
final, sin importar su valor. Es decir, que no debe tenerse en cuenta al
momento de ordenar de mayor a menor la frecuencia de las categorías.
9. trazar la escala del eje vertical derecho para el porcentaje
acumulativo, comenzando por el 0 y hasta el 100%
10. trazar el gráfico lineal para el porcentaje acumulado, comenzando en
la parte superior de la barra de la primera categoría (la más alta)
11. dar un título al gráfico, agregar las fechas de cuando los datos
fueron reunidos y citar la fuente de los datos.
12. analizar la gráfica para determinar los "pocos vitales"
Consejos para la construcción / interpretación Como hemos
visto, un Diagrama de Pareto es un gráfico de barras que enumera las categorías
en orden descendente de izquierda a derecha, el cual puede ser utilizado por un
equipo para analizar causas, estudiar resultados y planear una mejora continua.
Dentro de las dificultades que se pueden presentar al tratar de
interpretar el Diagrama de Pareto es que algunas veces los datos no indican una
clara distinción entre las categorías. Esto puede verse en el gráfico cuando
todas las barras son más o menos de la misma altura.
Otra dificultad es que se necesita más de la mitad de las categorías
para sumar más del 60% del efecto de calidad, por lo que un buen análisis e
interpretación depende en su gran mayoría de un buen análisis previo de las
causas y posterior recogida de datos.
En cualquiera de los casos, parece que el principio de Pareto no aplica.
Debido a que el mismo se ha demostrado como válido en literalmente miles de
situaciones, es muy poco probable que se haya encontrado una excepción. Es
mucho más probable que simplemente no se haya seleccionado un desglose
apropiado de las categorías. Se deberá tratar de estratificar los datos de una
manera diferente y repetir el Análisis de Pareto.
Esto nos lleva a la conclusión que para llevar a cabo un proceso de
Resolución de Problemas /Toma de Decisiones (RP/TD) es necesario manejar cada
una de las herramientas básicas de la
calidad, tanto desde el punto de vista teórico como desde su aplicación.
La interpretación de un Diagrama de Pareto se puede definir completando
las siguientes oraciones de ejemplo:
"Existen (número de categorías) contribuyentes relacionados con
(efecto). Pero estos (número de pocos vitales) corresponden al (número) % del
total (efecto). Debemos procurar estas (número) categorías pocos vitales, ya
que representan la mayor ganancia potencial para nuestros esfuerzos."
DIAGRAMA DE PUNTOS
El diagrama de puntos resulta de utilidad cuando el conjunto de datos
desrazonablemente pequeño o hay relativamente pocos datos distintos. Cada dato
representa con un punto encima de la correspondiente localización en una escala
horizontal de medida. Cuando un valor se repite, hay un punto por cada
ocurrencia y se colocan verticalmente. Permite por ejemplo analizar la
dispersión y detectar datos atípicos.
HISTOGRAMA
Histograma: Es una representación grafica de datos a través de barras
las cuales representan la frecuencia de las clases. Estas barras deben ser
dibujadas sin espacios entre si y no necesariamente inician en el origen.
Se utiliza en datos cuantitativos en distribuciones de frecuencia.
Son rectángulos verticales unidos entre sí, en donde sus lados son los
límites reales inferior y superior de clase y cuya altura es igual ala
frecuencia de clase.
Con la distribución de frecuencia anterior se tiene:
DIAGRAMA DE BARRAS
Se utilizan rectángulos separados, que tienen como base a cada uno de
los datos y como altura la frecuencia de ese dato. El diagrama de barras o gráfica
de barras suele elaborarse con algunas variantes; por ejemplo, se pueden
utilizar líneas en vez de rectángulos ó barras (ó líneas) horizontales en vez
de verticales. Si se tienen datos cuantitativos se grafica en el eje de las x
los valores centrales (marcas de clase), cuyas alturas son proporcionales a sus
frecuencias.
POLIGONO DE FRECUENCIAS
Es la línea quebrada que une los puntos medios de los lados superiores
(marcas de clase) de un histograma.
Los puntos o vértices del polígono de frecuencias están situados, por
tanto, en las marcas de clase, ya que estos corresponden a los puntos medios de
los intervalos.
OJIVAS
Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se
obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa
y de igual manera que éstas, existen las ojivas mayores que y las ojivas
menores que.
Existen dos diferencias fundamentales entre las ojivas y los polígonos
de frecuencias (y por esto la aplicación de la técnica es parcial):
Un extremo de la ojiva no se "amarra" al eje horizontal, para
la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que,
con el derecho.
En el eje horizontal en lugar de colocar las marcas de clase se colocan
las fronteras de clase. Para el caso de la ojiva mayor que es la frontera
menor; para la ojiva menor que, la mayor.
Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la
derecha la menor que, utilizando los datos que se usaron para ejemplificar el
histograma:
La ojiva mayor que (izquierda) se le denomina de esta manera porque
viendo el punto que está sobre la frontera de clase "4:00? se ven las
visitas que se realizaron en una hora mayor que las 4:00 horas (en cuestiones
temporales se diría: después de las 4:00 horas). De forma análoga, en la ojiva
menor que la frecuencia que se representa en cada frontera de clase son el
número de observaciones menores que la frontera señalada (en caso de tiempos
sería el número de observaciones antes de la hora que señala la frontera).
Si se utiliza una distribución porcentual acumulativa entonces se
obtiene una ojiva (mayor que o menor que según sea el caso) cuyo eje vertical
tiene una escala que va del 0% al 100%. El siguiente ejemplo es la misma ojiva
menor que se acaba de usar, pero con una distribución porcentual:
El estudio de determinadas características de una población se efectúa a
través de diversas muestras que pueden extraerse de ella.
El muestreo puede hacerse
con o sin reposición (con o sin reemplazo, también aparece en la literatura), y la población de
partida puede ser infinita o finita. Una población finita en la que se efectúa
muestreo con reposición puede considerarse infinita teóricamente. También, a
efectos prácticos, una población muy grande puede considerarse como infinita.
En todo nuestro estudio vamos a limitarnos a una población de partida infinita
o a muestreo con reposición.
Consideremos todas las posibles muestras de tamaño n en
una población. Para cada muestra podemos calcular un estadístico (media,
desviación típica, proporción,.) que variará de una a otra. Debemos aclarar que
un "estadístico" es cualquier combinación lineal de los datos
muéstrales. Así obtenemos una distribución del estadístico que se llama
distribución muestra.
Las dos medidas fundamentales de esta distribución son la media y la
desviación típica (estándar), también denominada error estándar.
Hay que hacer notar que si el tamaño de la muestra es lo suficientemente
grande las distribuciones muéstrales son (aproximadamente) normales (para fines
prácticos) y en esto se basarán todos los resultados que alcancemos.
1. DISTRIBUCIÓN MUESTRAL DE MEDIAS
Cada muestra de tamaño n que podemos extraer de una población
proporciona una media. Si consideramos cada una de estas medias como valores de
una variable aleatoria podemos estudiar su distribución que llamaremos
distribución muestra de medias.
Si tenemos una población normal N (m, s) y extraemos de ella muestras de
tamaño n, la distribución muestra de medias sigue también una distribución
normal
Si la población no sigue una distribución normal pero n>30, aplicando
el llamado Teorema central del límite la distribución muestra de medias se
aproxima también a la normal anterior.
2. DISTRIBUCIÓN MUESTRAL DE PROPORCIONES
En numerosas ocasiones se plantea estimar una proporción o porcentaje.
En estos casos la variable aleatoria toma solamente dos valores diferentes (éxito o fracaso), es
decir sigue una distribución binomio y cuando la extensión de la población es
grande la distribución binomio B(n,p) se aproxima a la normal .
Para muestras de tamaño n>30, la distribución muestra de proporciones
sigue una distribución normal
N(p, vpq/n)
Donde p es la proporción de uno de los valores que presenta la variable
estadística en la población y q=1-p.
1.2
Medidas de tendencia central
Al describir
grupos de observaciones, con frecuencia es conveniente resumir la información
con un solo número. Este número que, para tal fin, suele situarse hacia el
centro de la distribución de datos se denomina medida o parámetro
de tendencia central o de centralización. Cuando se hace
referencia únicamente a la posición de estos parámetros dentro de la
distribución, independientemente de que ésta esté más o menos centrada, se
habla de estas medidas como medidas de posición.1 En
este caso se incluyen también los cuan tiles entre estas medidas.
La media aritmética [editar]
La media
aritmética es el valor
obtenido por la suma de todos sus valores dividida entre el número de sumandos.
Por ejemplo, las notas de 5 alumnos en una prueba:
niño nota
1 6,0 ·Primero, se suman las notas:
2 5,4 6,0+5,4+3,1+7,0+6,1 = 27,6
3 3,1 ·Luego el total se divide entre la cantidad de alumnos:
4 7,0 27,6/5=5,52
5 6,1
· La media aritmética en este ejemplo es 5,52
La media
aritmética es, probablemente,
uno de los parámetros estadísticos más extendidos.2 Se le llama también promedio o, simplemente, media.
Media geométrica
Construcción
geométrica para hallar las medias aritmética, geométrica y armónica de
dos números a y b.
En matemáticas y estadística,
la media geométrica de una cantidad arbitraria de números (por
decir n números) es la raíz n-ésima del
producto de todos los números, es recomendada para datos de progresión
geométrica, para promediar razones, interés compuesto y números índices.
![\bar{x} =
\sqrt[n]{\prod_{i=1}^n{x_i}} =
\sqrt[n]{x_1 \cdot x_2 \cdots x_n}](file:///C:/Users/GATEWAY/AppData/Local/Temp/msohtmlclip1/01/clip_image005.gif)
Por ejemplo, la
media geométrica de 2 y 18 es
Otro ejemplo, la
media de 1, 3 y 9 sería
Mediana (estadística)
En el ámbito de
la estadística,
la mediana representa el valor de la variable de posición
central en un conjunto de datos ordenados.
Existen dos métodos para el cálculo de la mediana:
1.
Considerando los datos en forma individual, sin agruparlos.
2.
Utilizando los datos agrupados en intervalos de clase.
A continuación veamos cada una de ellas.
Datos sin
agrupar
Sean
los datos de una muestra ordenada en orden creciente y designando la mediana como
, distinguimos dos
casos:
a) Si n es impar, la mediana es el valor que ocupa la posición
Por ejemplo, si tenemos 5 datos, que ordenados son:
,
,
,
,
=> El valor central es el tercero:
. Este
valor, que es la mediana de ese conjunto de datos, deja dos datos por debajo (
,
) y otros dos por encima
de él (
,
).
b) Si n es par, la mediana es la media aritmética de los dos valores centrales. Cuando
Por ejemplo, si tenemos 6 datos, que ordenados son:
,
,
,
,
,
=> Hay dos valores que están por
debajo del
y otros dos que quedan por encima del
siguiente dato
.
Por tanto, la mediana de este grupo de datos es la media aritmética de estos
dos datos:
.
Datos
agrupados
Al tratar con datos agrupados, si
coincide con el valor de una
frecuencia acumulada, el valor de la mediana coincidirá con la abscisa correspondiente. Si no coincide con el valor de ninguna abscisa,
se calcula a través de semejanza de triángulos en el histograma o polígono de frecuencias acumuladas, utilizando la siguiente
equivalencia:
Donde
y
son las frecuencias absolutas
acumuladas tales que
,
y
son los extremos, interior y exterior,
del intervalo donde se alcanza la mediana y
es la abscisa a calcular, la mediana.
Se observa que
es la amplitud de los intervalos
seleccionados para el diagrama.
Moda (estadística)
Hablaremos de una
distribución bimodal de los datos adquiridos en una columna cuando encontremos
dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima.
Una distribución trimodal de los datos es en la que encontramos tres modas. Si
todas las variables tienen la misma frecuencia diremos que no hay moda.
El intervalo
modal es el de mayor frecuencia absoluta. Cuando tratamos con datos
agrupados antes de definir la moda, se ha de definir el intervalo modal.
La moda, cuando
los datos están agrupados, es un punto que divide al intervalo modal en dos
partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen
que:
Siendo la
frecuencia absoluta del intervalo modal las frecuencias absolutas de los
intervalos anterior y posterior, respectivamente, al intervalo modal.
Moda de datos agrupados[editar]
Para obtener la moda en datos agrupados se usa la siguiente
fórmula:
Donde:
Datos agrupados:
Media
aritmética
A veces puede ser útil otorgar pesos o valores a los datos
dependiendo de su relevancia para determinado estudio. En esos casos se puede
utilizar una media ponderada.
Si
son nuestros datos y
son sus "pesos" respectivos,
la media ponderada se define de la siguiente forma:
Media geométrica
Al igual que en una media aritmética pueden introducirse pesos
como valores multiplicativos para cada uno de los valores con el fin de
ponderar o hacer pesar más en el resultado final ciertos valores, en la media
geométrica pueden introducirse pesos como exponentes:

Donde las
son los «pesos».
Media
Esencialmente, la media es
el mismo parámetro que el anterior, aunque el adjetivo "muestral" se
aplica a aquellas situaciones en las que la media aritmética se calcula para un
subconjunto de la población
objeto de estudio.
La media es un parámetro de
extrema importancia en la inferencia estadística, siendo de gran utilidad para la estimación de la media poblacional, entre otros usos.
Mediana
La mediana es un valor de la variable que deja por debajo de sí a
la mitad de los datos, una vez que éstos están ordenados de menor a mayor.7 Por ejemplo, la mediana del número de hijos de un conjunto de
trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1
y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2,
2, 3, 3, 4, el que ocupa la posición central es 2:
En caso de un número par de datos, la mediana no correspondería a
ningún valor de la variable, por lo que se conviene en tomar como mediana el
valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de
doce datos como los siguientes:
Se toma como mediana 
Existen métodos de cálculo más rápidos para datos más numerosos
(véase el artículo principal dedicado a este
parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el
"intervalo mediano" y, dentro de éste, se obtiene un valor concreto
por interpolación
Moda
La moda es el dato más repetido de la encuesta, el valor de la
variable con mayor frecuencia absoluta.5 En cierto sentido la definición matemática corresponde con la
locución "estar de moda", esto es, ser lo
que más se lleva.
Su cálculo es extremadamente sencillo, pues sólo necesita un
recuento. En variables continuas, expresadas en intervalos, existe el
denominado intervalo modal o, en su defecto, si es necesario obtener un valor
concreto de la variable, se recurre a la interpolación.
Por ejemplo, el número de personas en distintos vehículos en una
carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la
moda es 5.
Hablaremos de una distribución bimodal de los datos, cuando
encontremos dos modas, es decir, dos datos que tengan la misma frecuencia
absoluta máxima. Cuando en una distribución de datos se encuentran tres o más
modas, entonces es multimodal. Por último, si todas las variables tienen la
misma frecuencia diremos que no hay moda.
Cuando tratamos con datos agrupados en intervalos, antes de
calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el
de mayor frecuencia absoluta.
La moda, cuando los datos están agrupados, es un punto que divide
el intervalo modal en dos partes de la forma p y c-p,
siendo c la amplitud del intervalo, que
verifiquen que:
Siendo
la frecuencia absoluta del intervalo
modal y
y
las frecuencias absolutas de los
intervalos anterior y posterior, respectivamente, al intervalo modal.
Las calificaciones en la asignatura de Matemáticas de 39 alumnos
de una clase viene dada por la siguiente tabla (debajo):
|
Calificaciones
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
|
Número
de alumnos
|
2
|
2
|
4
|
5
|
8
|
9
|
3
|
4
|
2
|
Cuartil
Los cuartiles son
los tres valores que dividen al conjunto de datos ordenados en
cuatro partes porcentualmente iguales. Aparecen citados en la literatura
científica por primera vez en 1879 por D. McAlister.1
La diferencia
entre el tercer cuartil y el primero se conoce como rango intercuartílico.
Se representa gráficamente como la anchura de las cajas en los llamados diagramas de cajas.
Dada una serie
de valores X1,X2,X3 ...Xn ordenados
en forma creciente, podemos pensar que su cálculo podría efectuarse:
·
Segundo cuartil (Q2)
como la propia mediana de la serie;
·
Tercer cuartil (Q3)
como la mediana de la segunda mitad de valores.
Pero esto conduce
a distintos métodos de cálculo de los cuartiles primero (así como tercero)
según la propia mediana se incluya o excluya en la serie de la primera
(respecto de la segunda) mitad de valores.
Cálculo
con datos no agrupados
No hay uniformidad
sobre su cálculo. En la bibliografía se encuentran hasta cinco métodos que dan
resultados diferentes.2 Uno
de los métodos es el siguiente: dados n datos ordenados,
·
El primer cuartil:
(n+3)/4
(n+3)/4
·
Para el tercer
cuartil:
(3n+1)/4
(3n+1)/4
Decil (estadística)
En estadística descriptiva, el concepto decil refiere a cada uno de los 9 valores
que dividen un grupo de datos (clasificados con una relación de orden) en
diez partes iguales, y de manera que cada parte representa un décimo de la
población. En resumen, los deciles son cada uno de los nueve valores que
dividen un conjunto de datos en diez grupos con iguales efectivos.
Cálculo de los deciles[editar]
·
El primer decil separe el juego de datos entre el 10% de los
valores inferiores, y el resto de los datos.
·
Y el noveno decil separe los datos entre el 90% de los valores
inferiores y el 10% de los valores superiores.
Obviamente, el término decil también se usa para designar la
separación de valores de una muestra, de manera tal de tener diez intervalos
con el mismo número de valores. El decil número n, sería pues el situado entre
el decil número (n-1) y el decil número (n+1), para n variando de 2 a 9.
Percentil
El percentil es
una medida usada en estadística que
indica, una vez ordenados los datos de menor a mayor, el valor de la variable
por debajo del cual se encuentra un porcentaje dado
de observaciones en un grupo de observaciones. Por ejemplo, el percentil 20º es
el valor debajo del cual se encuentran el 20 por ciento de las observaciones.
Se representan con
la letra P. Para el percentil i-ésimo, donde la i toma
valores del 1 al 99. El i % de la muestra son valores menores
que él y el 100-i % restante son mayores.
·
P25 = Q1.
·
P75 = Q3.
Cálculo
con datos no agrupados
Un método para
establecer un percentil sería el siguiente: Calculamos...
donde n es
el número de elementos de la muestra e i, el percentil. El
resultado de realizar esta operación es un número real con parte entera E y
parte decimal D. Teniendo en cuenta estos dos valores, aplicamos la
siguiente función:

B:
Medidas de dispersión
Las medidas
de dispersión, también llamadas medidas de variabilidad, muestran la
variabilidad de una distribución, indicando por medio de un número, si las
diferentes puntuaciones de una variable están muy alejadas de la media. Cuánto mayor sea
ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a
la media. Así se sabe si
todos los casos son parecidos o varían mucho entre ellos.
Para calcular la
variabilidad que una distribución tiene respecto de su media, se calcula la
media de las desviaciones de las puntuaciones respecto a la media aritmética.
Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases
de estrategias para salvar este problema. Una es tomando las desviaciones en
valor absoluto (desviación media) y otra es
tomando las desviaciones al cuadrado (varianza).
Desviación media
En estadística la desviación
absoluta promedio o, sencillamente desviación media o
promedio de un conjunto de datos es
la media de las
desviaciones absolutas y es un resumen de ladispersión estadística.
Se expresa, de acuerdo a esta fórmula:
La desviación
absoluta respecto a la media,
,
la desviación absoluta respecto a la mediana,
,
y la desviación típica,
,
de un mismo conjunto de valores cumplen la desigualdad:
Siempre ocurre que
donde el Rango es
igual a:
El valor:
ocurre cuando los
datos son exactamente iguales e iguales a la media aritmética. Por otro lado:
cuando solo hay
dos valores en el conjunto de datos.
Varianza
La varianza es una medida estadística que mide la dispersión de los valores
respecto a un valor central (media), es decir, es el cuadrado de las
desviaciones: 
Desviación estándar
La desviación
estándar o desviación típica (denotada con el símbolo σ o s,
dependiendo de la procedencia del conjunto de datos) es una medida de dispersión para
variables de razón (variables cuantitativas o cantidades racionales) y de
intervalo. Se define como la raíz cuadrada de la varianza de la variable.
Para conocer con detalle un conjunto de
datos, no basta con conocer las medidas de tendencia central, sino que
necesitamos conocer también la desviación que presentan los datos en su
distribución respecto de la media aritmética de dicha distribución, con objeto
de tener una visión de los mismos más acorde con la realidad al momento de
describirlos e interpretarlos para la toma de decisiones.
Ejemplo[editar]
Aquí se muestra cómo calcular la desviación estándar de un
conjunto de datos. Los datos representan la edad de los miembros de un grupo de
niños: { 4, 1, 11, 13, 2, 7 }
.
En este caso, N = 6 porque hay seis datos:
Sustituyendo N por 62. Calcular la desviación estándar

Sustituyendo N por 6;
Sustituyendo ![\sigma = \sqrt{\frac{1}{5} \left [ (4 - 6,33)^2 + (1 - 6,33)^2 + (11 - 6,33)^2 + (13 - 6,33)^2 +(2 - 6,33)^2 + (7 - 6,33)^2 \right ] }](file:///C:/Users/GATEWAY/AppData/Local/Temp/msohtmlclip1/01/clip_image085.gif)
![\sigma = \sqrt{\frac{1}{5} \left [ (-2,33)^2 + (-5,33)^2 + 4,67^2 + 6,67^2 + (-4,33)^2 + 0,67^2 \right ] }](file:///C:/Users/GATEWAY/AppData/Local/Temp/msohtmlclip1/01/clip_image086.gif)


Asimetría estadística
Las medidas de asimetría son indicadores que permiten
establecer el grado de
simetría (o asimetría) que
presenta una distribución de probabilidad de unavariable aleatoria sin tener que hacer su
representación gráfica.
Como eje de simetría consideramos una recta paralela al eje de
ordenadas que pasa por la media de la distribución. Si una distribución es
simétrica, existe el mismo número de valores a la derecha que a la izquierda de
la media, por tanto, el mismo número de desviaciones con signo positivo que con
signo negativo. Decimos que hay asimetría positiva (o a la derecha) si la
"cola" a la derecha de la media es más larga que la de la izquierda, es
decir, si hay valores más separados de la media a la derecha. Diremos que hay
asimetría negativa (o a la izquierda) si la "cola" a la izquierda de
la media es más larga que la de la derecha, es decir, si hay valores más
separados de la media a la izquierda.
Coeficiente
de asimetría de Fisher[editar]
En teoría de la probabilidad y estadística, la medida de asimetría
más utilizada parte del uso del tercer momento estándar. La razón de esto es que nos interesa mantener el signo de las
desviaciones con respecto a la media, para obtener si son mayores las que
ocurren a la derecha de la media que las de la izquierda. Sin embargo, no es
buena idea tomar el momento estándar con respecto a la media de orden 1. Debido
a que una simple suma de todas las desviaciones siempre es cero. En efecto, si
por ejemplo, los datos están agrupados en
clases, se tiene que:

en donde
representa la marca de la clase
-ésima y
denota la frecuencia relativa de dicha
clase. Por ello, lo más sencillo es tomar las desviaciones al cubo.
El coeficiente de
asimetría de Fisher, representado por
, se define como:
Si
, la
distribución es asimétrica positiva o a la derecha.
Si
, la
distribución es asimétrica negativa o a la izquierda.
Si la distribución es simétrica, entonces sabemos que
. El recíproco no
es cierto: es un error común asegurar que si
entonces la distribución es simétrica
(lo cual es falso).
Coeficiente
de asimetría de Pearson[editar]
Sólo se puede utilizar en distribuciones uniformes, unimodales y
moderadamente asimétricas. Se basa en que en distribuciones simétricas la media
de la distribución es igual a la moda.
Si la distribución es simétrica,
y
. Si la distribución es
asimétrica positiva la media se sitúa por encima de la moda y, por tanto,
.
Coeficiente
de asimetría de Bowley[editar]
En una distribución simétrica el tercer cuartil estará a la misma
distancia de la mediana que el primer cuartil. Por tanto
.
Si la distribución es positiva o a la derecha, 
Coeficiente de curtosis
El Coeficiente de Curtosis analiza
el grado de concentración que
presentan los
valores alrededor de la zona central de la distribución.
Se definen 3 tipos de distribuciones
según su grado de curtosis:
Distribución mesocúrtica: presenta un grado de
concentración medio alrededor de los valores centrales de la variable (el mismo
que presenta una distribución normal)
Distribución leptocúrtica: presenta un elevado grado de
concentración alrededor de los valores centrales de la
variable.
Distribución platicúrtica: presenta un
reducido grado de concentración alrededor de los valores centrales de la variable.



El Coeficiente de Curtosis viene definido por la
siguiente fórmula:

Los resultados pueden ser los
siguientes:
g2 = 0 (distribución mesocúrtica).
g2 > 0 (distribución
leptocúrtica).
g2 < 0 (distribución
platicúrtica).
2.1
Determinación
de la probabilidad.
Ø Elementos básicos:
EXPERIMENTO:
Un experimento,
en estadística, es cualquier proceso que proporciona datos, numéricos o no
numéricos. Un conjunto cuyos elementos representan todos los posibles
resultados de un experimento se llama espacio muestral y se representa
como S. El espacio muestral de un experimento siempre existe y no es
necesariamente único pues, dependiendo de nuestra valoración de los resultados,
podemos construir diferentes espacios muestrales.
Espacio
muestral
En la teoría de
probabilidades, el espacio muestral o espacio de
muestreo (denotado E, S, Ω o U) consiste en el conjunto de todos los posibles resultados individuales
de un experimento aleatorio.
Por ejemplo, si el experimento consiste en lanzar dos monedas, el
espacio de muestreo es el conjunto {(cara, cara), (cara, cruz), (cruz, cara) y
(cruz, cruz)}. Un evento o suceso es
cualquier subconjunto del espacio muestral, llamándose a los sucesos que
contengan un único elemento sucesos elementales. En el ejemplo, el
suceso "sacar cara en el primer lanzamiento", o {(cara, cara), (cara,
cruz)}, estaría formado por los sucesos elementales {(cara, cara)} y {(cara,
cruz)}.
Para algunos tipos de experimento puede haber dos o más espacios de
muestreo posibles. Por ejemplo, cuando se toma una carta de un mazo normal de
52 cartas, una posibilidad del espacio de muestreo podría ser el número (del as
al rey), mientras que otra posibilidad sería el palo (diamantes, tréboles,
corazones y picas). Una descripción completa de los resultados, sin embargo,
especificaría ambos valores, número y palo, y se podría construir un espacio de
muestreo que describiese cada carta individual como el producto cartesiano de los dos
espacios de muestreo descritos.
Evento simple o suceso elemental
Un suceso o evento simple es un subconjunto del espacio
muestral que contiene un único elemento.Ejemplos de espacios
muestrales y sucesos elementales:
Si se trata de contar objetos y el espacio muestral S
= {1, 2, 3, ...} (los números naturales), entonces los sucesos elementales son cada uno de los conjuntos {k},
donde k ∈ N.Si se lanza una moneda dos veces, S = {cc, cs, sc, ss},
donde (c representa "sale cara" y s, "sale cruz"), los
sucesos elementales son {cc}, {cs}, {sc} y {ss}.Si X es una variable aleatoria normalmente
distribuida, S = (-∞, +∞), los números reales, los sucesos
elementales son todos los conjuntos {x}, donde x ∈
.
Los sucesos elementales pueden tener probabilidades que son estrictamente
mayores que cero, cero, no definidas o cualquier combinación de estas. Por
ejemplo, la probabilidad de cualquier variable aleatoria discreta está
determinada por las probabilidades asignadas a los sucesos elementales del
experimento que determina la variable. Por otra parte, cualquier suceso
elemental tiene probabilidad cero en cualquier variable aleatoria continua. Existen
distribuciones mixtas que no son completamente continuas, ni completamente
discretas, entre las que pueden darse ambas situaciones.
Ø Enfoques:
CLÀSICO:
El enfoque clásico
Dice que si hay x posibles resultados favorables a la ocurrencia de un evento A y z posibles resultados desfavorables a la ocurrencia de A, y todos los resultados son igualmente posibles y mutuamente excluyente (no pueden ocurrir los dos al mismo
Dice que si hay x posibles resultados favorables a la ocurrencia de un evento A y z posibles resultados desfavorables a la ocurrencia de A, y todos los resultados son igualmente posibles y mutuamente excluyente (no pueden ocurrir los dos al mismo
tiempo), entonces la probabilidad de
que ocurra A es:
El enfoque clásico de la probabilidad se basa en la suposición de que cada resultado sea igualmente posible.
Este enfoque es llamado enfoque a priori porque permite, (en caso de que pueda aplicarse) calcular el valor de probabilidad antes de observar cualquier evento de muestra.
El enfoque clásico de la probabilidad se basa en la suposición de que cada resultado sea igualmente posible.
Este enfoque es llamado enfoque a priori porque permite, (en caso de que pueda aplicarse) calcular el valor de probabilidad antes de observar cualquier evento de muestra.
ENFOQUE DE FRECUENCIA RELATIVA
Este
enfoque permite determinar la probabilidad con base en la proporción de veces
que ocurre un resultado favorable en cierto número experimentos.
No
implica ningún supuesto previo de igualdad de probabilidades.
A este enfoque se le denomina también enfoque empírico debido a que para determinar los valores de probabilidad se requiere de la observación y de la recopilación de datos. También se le denomina a posteriori, ya que el resultado se obtiene después de realizar el experimento un cierto número de veces.
Si queremos conocer la probabilidad del evento A según este enfoque debemos calcular el siguiente cociente:
Número de observaciones de A n(A)
P(A) = -------------------------------------- = -------
Tamaño de la muestra n
A este enfoque se le denomina también enfoque empírico debido a que para determinar los valores de probabilidad se requiere de la observación y de la recopilación de datos. También se le denomina a posteriori, ya que el resultado se obtiene después de realizar el experimento un cierto número de veces.
Si queremos conocer la probabilidad del evento A según este enfoque debemos calcular el siguiente cociente:
Número de observaciones de A n(A)
P(A) = -------------------------------------- = -------
Tamaño de la muestra n
EL ENFOQUE SUBJETIVO:
El enfoque subjetivo Dice que la probabilidad de ocurrencia de un
evento es el grado de creencia por parte de un individuo de que un evento ocurra, basado en toda la
evidencia a su disposición. Bajo esta premisa se puede decir que este enfoque
es adecuado cuando solo hay una oportunidad de ocurrencia del evento. Es decir,
que el evento ocurrirá o no ocurrirá esa sola vez. El valor de probabilidad
bajo este enfoque es un juicio personal.
Calculo:
Para realizar el cálculo de la muestra se tomarán los
siguientes supuestos.
• Se asume que la población tiene una distribución normal
• Población es homogénea y existe independencia en sus elementos
• Los elementos de los que está compuesta la población son variables numéricas finitas
• El tamaño de la población es conocido
• Nivel de confianza del 95%
• Probabilidad de error 5%
• Se asume que la población tiene una distribución normal
• Población es homogénea y existe independencia en sus elementos
• Los elementos de los que está compuesta la población son variables numéricas finitas
• El tamaño de la población es conocido
• Nivel de confianza del 95%
• Probabilidad de error 5%
Ø Eventos:
UNION:
Es la unión de dos eventos diferentes de pruebas
estadísticas. Por ejemplo: En un salón de clase, todos los alumnos son la
población de tu muestra
Buscamos quienes son hombre y quienes mujeres, cada uno de ellos sería un evento estadístico, es decir una parte de la población. La unión de eventos excluyentes da la inclusión de todos lo elementos de cada envento(matemáticamente no puede ser mujer y hombre a la vez).
Otro evento sería los que tiene mas de 1.7 de estatura y los que tiene menos o igual a 1.7
Otro evento sería los que viven en la colonia de la escuela y los que viven en otra colonia.
La unión de eventos Los que miden más de 1.7 y los que viven en otra colonia, sería la inclusión de todos los elementos, pero sólo una vez, no repitiendo elementos. Es factible que existan miembros que estén en ambos eventos, por lo tanto es factible que se repitan. Cuando son excluyentes, si ocurre uno ya no puede ocurrir lo otro (repito, matemáticamente hablando).
Intersección de conjuntos
Buscamos quienes son hombre y quienes mujeres, cada uno de ellos sería un evento estadístico, es decir una parte de la población. La unión de eventos excluyentes da la inclusión de todos lo elementos de cada envento(matemáticamente no puede ser mujer y hombre a la vez).
Otro evento sería los que tiene mas de 1.7 de estatura y los que tiene menos o igual a 1.7
Otro evento sería los que viven en la colonia de la escuela y los que viven en otra colonia.
La unión de eventos Los que miden más de 1.7 y los que viven en otra colonia, sería la inclusión de todos los elementos, pero sólo una vez, no repitiendo elementos. Es factible que existan miembros que estén en ambos eventos, por lo tanto es factible que se repitan. Cuando son excluyentes, si ocurre uno ya no puede ocurrir lo otro (repito, matemáticamente hablando).
Intersección de conjuntos
En la teoría de conjuntos, la
intersección es una operación binaria en
el conjunto de todos los subconjuntos de un U, Conjunto universal,
dado. Por la cual a cada par de conjuntos A y B de U se le asocia otro
conjunto:
de
U.
COMPLEMENTO
DE CONJUNTOS
Si un conjunto A es
subconjunto de otro conjunto universal U, al conjunto A' formado por todos los
elementos de U pero no de A, se llama complemento de A con respecto a U.
Simbólicamente se expresa: Sean U = { m, a, r, t, e } y A = { t, e }
Su complemento de A es: A' = { m, a, r }
MUTUAMENTE EXCLUYENTES
Los eventos mutuamente excluyentes son aquellos en los
que si un evento sucede significa que el otro no puede ocurrir. Si bien suelen
usarse en teorías científicas, también son parte de las leyes y los negocios.
Como resultado, entender los eventos mutuamente excluyentes puede ser
importante para una variedad de disciplinas
Ø Leyes:
Condicional
Es la probabilidad de que ocurra un evento A, sabiendo que también sucede otro evento B.
La probabilidad condicional se escribe P(A|B), y se lee
«la probabilidad de A dado B».
No tiene por qué haber una relación causal o temporal entre A y B.
A puede preceder en el tiempo a B, sucederlo o pueden ocurrir
simultáneamente. A puede causar B, viceversa o pueden no tener
relación causal. Las relaciones causales o temporales son nociones que no
pertenecen al ámbito de la probabilidad. Pueden desempeñar un papel o no
dependiendo de la interpretación que se le dé a los eventos.
Un ejemplo clásico es el lanzamiento de una moneda para luego lanzar un
dado. ¿Cuál es la probabilidad de obtener una cara (moneda) y luego un 6
(dado)? Pues eso se escribiría como P (Cara | 6).
INDEPENDENCIA
ESTADÍSTICA
Dos
variables estadísticas son estadísticamente independientes cuando el
comportamiento estadístico de una de ellas no se ve afectado por los valores
que toma la otra; esto es cuando las relativas de las distribuciones
condicionadas no se ven afectadas por la condición, y coinciden en todos los
casos con las frecuencias relativas marginales.
Esta
definición puede hacerse más operativa, a través de la caracterización
siguiente:Dos variables son estadísticamente independientes cuando para todos
los pares de valores se cumple que la frecuencia relativa conjunta es igual al
producto de las frecuencias relativas marginales.:
Multiplicación
De la definición de probabilidad condicional se tienen los siguientes resultados al
despejar Las relaciones |
|
Calculo con técnicas de
conteo:
Ø Principio básico de conteo:
El principio básico o
fundamental de conteo se puede utilizar para determinar los posibles resultados
cuando hay dos o más características que pueden variar.
Ejemplo:
El helado puede venir en un cono o una tasa y los sabores son chocolate, fresa
y vainilla.
/
/ tasa de fresa
<-- fresa <
\
\ cono de fresa
El
diagrama anterior se llama diagrama de árbol y muestra todas las posibilidades.
El diagrama de árbol también se puede ordenar de otra forma. Ambos diagramas
tienen un total de 6 resultados.
Diagrama de árbol
es una herramienta
que se utiliza para determinar todos los posibles resultados de un experimento
aleatorio. En el cálculo de la probabilidad se requiere conocer el número de
objetos que forman parte del espacio muestral, estos se pueden determinar con
la construcción de un diagrama de árbol. Ejemplo: Si Juan tiene 3 pantalones y
2 camisas basta multiplicar 3x2=6 y son 6 posibilidades de que se pueda vestir.
El diagrama de árbol es una representación gráfica de los posibles
resultados del experimento, el cual consta una serie de pasos, donde cada uno
de los pasos tiene un número finito de maneras de ser llevado a cabo. Se
utiliza en los problemas de conteo y probabilidad.
COMBINACIONES Y PERMUTACIONES
Combinación
Son eventos similares a las
permutaciones. Pero el orden ya no importa y es necesario eliminar de las
permutaciones aquellas donde los elementos se repiten aunque con distinto orden
Una combinación es una selección de objetos sin importar el orden en
que se escojan:
Permutación
Son eventos de tipo
multiplicativo, donde el número de posibilidades va disminuyendo y si importa
el orden una permutación es un arreglo de un conjunto de objetos en un
orden definido. El número de permutaciones diferentes de estos objetos
es ; esto se vé fácilmente si pensamos que para la primera alternativa
disponemos de los elementos del conjunto, cada uno de los cuales puede
complementarse con los restantes como segunda opción, y así hasta llegar a
la última elección, conformando el producto .
El número de permutaciones
posibles al tomar objetos del conjunto de elementos será, siguiendo
el mismo razonamiento.
PERMUTACIONES
Ejemplo 7: ¿
De cuántas formas diferentes se pueden sentar seis alumnos en un salón de
clases con 25 pupitres?
Solución: El
primer estudiante puede elegir entre 25 lugares, el segundo tendrá 24 lugares a
escoger, el tercero 23, así sucesivamente; por lo tanto el número de arreglos
sin repetición de 25 elementos tomados de 6 en 6 es:
Esto se simboliza por
=
PERMUTACIONES CON REPETICIÓN
Veamos otra aplicación del
principio de la multiplicación. Supongamos que tenemos 20
niños de un grupo de
Preescolar y 10 sabores de helados disponibles. ¿De cuántas formas diferentes
podemos servir un helado a 20 niños?
Al primer niño le podemos
servir uno de los 10 sabores, al segundo niño también le podemos servir los 10
sabores, al tercero también, y así sucesivamente. A cada uno de los 20 niños le
podemos servir de los 10 sabores,
2.2
A)
Análisis
de las medidas de una distribución:
Variable aleatoria
En probabilidad y estadística, una variable aleatoria o variable
estocástica es una variable estadística cuyos
valores se obtienen de mediciones en algún tipo de experimento aleatorio.
Formalmente, una variable aleatoria es una función, que asigna eventos (p.e.,
los posibles resultados de tirar un dado dos veces: (1, 1), (1, 2), etc.) a
números reales (p.e., su suma).
Los valores posibles de una variable aleatoria pueden representar los
posibles resultados de un experimento aún no realizado, o los posibles valores
de una cantidad cuyo valor actualmente existente es incierto (p.e., como
resultado de medición incompleta o imprecisa). Intuitivamente, una variable
aleatoria puede tomarse como una cantidad cuyo valor no es fijo pero puede tomar
diferentes valores; una distribución
de probabilidad se usa para describir la probabilidad de que se
den los diferentes valores.
Función de probabilidad
En teoría de la probabilidad, una función
de probabilidad (también denominada función de masa de probabilidad)
es una función que asocia a cada punto de su espacio muestral X la
probabilidad de que ésta lo asuma.La gráfica de una función de probabilidad de masa, note
que todos los valores no son negativos, y la suma de ellos es igual a 1.La
funcion de masa de probablilidad de un Dado. Todos los numeros tienen la misma probabilidad de aparecer cuando este
es tirado.En concreto, si el espacio muestral, E de la variable
aleatoria X consta de los puntos x1, x..., xk,
la función de probabilidad P asociada a X es
Varianza
En teoría de
probabilidad, la varianza (que suele representarse como
) de una variable aleatoria es una medida de dispersión definida
como la esperanza del
cuadrado de la desviación de dicha variable respecto a su media.
Está medida en unidades distintas de las de la variable. Por ejemplo, si
la variable mide una distancia en metros, la varianza se expresa en metros al
cuadrado. La desviación estándar es la raíz
cuadrada de la varianza, es una medida de dispersión alternativa expresada en
las mismas unidades de los datos de la variable objeto de estudio. La varianza
tiene como valor mínimo 0.
Hay que tener en cuenta que la varianza puede verse muy influida por los
valores atípicos y no se
aconseja su uso cuando las distribuciones de las variables aleatorias tienen
colas pesadas. En tales casos se recomienda el uso de otras medidas de
dispersión más robustas.
Desviación estándar
La desviación estándar o desviación típica (denotada con
el símbolo σ o s, dependiendo de la procedencia del conjunto de datos) es una medida de dispersión para
variables de razón (variables cuantitativas o cantidades racionales) y de
intervalo. Se define como la raíz cuadrada de la varianza de la variable.
Para conocer con detalle un conjunto de datos, no basta con conocer las
medidas de tendencia central, sino que necesitamos conocer también la
desviación que presentan los datos en su distribución respecto de la media
aritmética de dicha distribución, con objeto de tener una visión de los mismos
más acorde con la realidad al momento de describirlos e interpretarlos para la
toma de decisiones.
Gráfica:
Un gráfico o una representación
gráfica son un tipo de representación de datos, generalmente numéricos, mediante recursos gráficos (líneas, vectores, superficies o símbolos), para que se manifieste visualmente la relación
matemática o correlación estadística que guardan entre sí. También es el nombre de un
conjunto de puntos que se plasman en coordenadas cartesianas y
sirven para analizar el comportamiento de un proceso o un conjunto de elementos o signos que permiten
la interpretación de un fenómeno. La representación gráfica permite establecer
valores que no se han obtenido experimentalmente sino mediante la interpolación (lectura entre puntos) y la extrapolación (valores fuera del intervalo experimental).
B)
Análisis
de modelos probabilísticos especiales:
Distribución
de Bernoulli
En teoría de
probabilidad y estadística, la distribución
de Bernoulli (o distribución dicotómica), nombrada así por el matemático y científico suizo Jakob Bernoulli, es una distribución
de probabilidad discreta, que toma
valor 1 para la probabilidad de éxito (
) y valor 0
para la probabilidad de fracaso (
). Si
Distribución binomial
En estadística, la distribución
binomial es una distribución
de probabilidad discreta que cuenta el número de éxitos en una
secuencia de n ensayos de Bernoulli
independientes entre sí, con una probabilidad fija p de ocurrencia del
éxito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser
dicotómico, esto es, sólo son posibles dos resultados. A uno de estos se
denomina éxito y tiene una probabilidad de ocurrencia p y al otro,
fracaso, con una probabilidad q = 1 - p. En la distribución
binomial el anterior experimento se repite n veces, de forma
independiente, y se trata de calcular la probabilidad de un determinado número
de éxitos. Para n = 1, la binomial se convierte, de hecho, en una distribución
de Bernoulli.Para representar que una variable aleatoria X sigue una distribución binomial de
parámetros n y p, se escribe:
Distribución de Poisson
En teoría de
probabilidad y estadística, la distribución
de Poisson es una distribución
de probabilidad discreta que
expresa, a partir de una frecuencia de ocurrencia media, la probabilidad de que
ocurra un determinado número de eventos durante cierto período de tiempo.
Fue descubierta por Siméon-Denis Poisson, que la dio a conocer en 1838 en su trabajo Recherches sur la probabilité des jugements en
matières criminelles et matière civile (Investigación sobre la
probabilidad de los juicios en materias criminales y civiles).
Distribución hipergeométrica
En teoría de la probabilidad la distribución
hipergeométrica es una distribución discreta
relacionada con muestreos aleatorios y sin
reemplazo. Supóngase que se tiene una población de N elementos de los
cuales, d pertenecen a la categoría A y N-d a la B.
La distribución hipergeométrica mide la probabilidad de obtener x (La distribución hipergeométrica es aplicable a muestreos sin reemplazo y la binomial a muestreos con reemplazo. En situaciones en las que el número esperado de repeticiones en el muestreo es presumiblemente bajo, puede aproximarse la primera por la segunda. Esto es así cuando N es grande y el tamaño relativo de la muestra extraída, n/N, es pequeño.
Distribución geométrica
En teoría de probabilidad y estadística, la distribución
geométrica es cualquiera de las dos distribuciones de probabilidad
discretas siguientes:- la distribución de probabilidad del número X
del ensayo
de Bernoulli necesaria para obtener un
éxito, contenido en el conjunto { 1, 2, 3,...} o
- la distribución de probabilidad del número Y = X − 1
de fallos antes del primer éxito, contenido en el conjunto { 0, 1, 2,
3,... }.
Suscribirse a:
Comentarios (Atom)