Estadística Paramétrica y no paramétrica (definición y criterios)
PARÁMETRO DEFINICIÓN
Un acercamiento a la parametrización obliga a este colectivo de
autores a referenciar la acepción de parámetro. Se conoce como
parámetro al dato que se considera como imprescindible y orientativo
para lograr evaluar o valorar una determinada situación. A partir de un
parámetro, una cierta circunstancia puede comprenderse o ubicarse en
perspectiva. Función definida sobre valores numéricos que caracteriza
una población o un modelo.
Definen a aquellas variables y constantes que aparecen en una
expresión matemática, siendo su variación la que da lugar a las distintas
soluciones de un problema. De esta forma, un parámetro supone la
representación numérica de la ingente cantidad de información que se
deriva del estudio de una variable.
Cuando un matemático se plantea el estudio de una variable se ha de
enfrentar a multitud de datos que se presentan de forma desordenada. Es
por ello, que se hace necesario un trabajo previo con esa información,
reduciéndola y ordenándola, para así poder trabajar de una manera
más sencilla y eficaz.
Si bien la concentración de los datos iniciales en un parámetro conlleva
la pérdida de parte de la información contenida en los mismos, esto
se compensa sobremanera al poder realizar comparaciones entre las
muestras o permitir una caracterización de los datos.
Parámetro estadístico
Dentro de la estadística se pueden diferenciar tres grandes grupos de
parámetros: de posición, dispersión y forma. Las medidas de posición
posibilitan la identificación del valor alrededor del cual se agrupan
mayormente los datos. Existen dos tipos de parámetros de dispersión:
los de tendencia central (media, moda y mediana) y los de posición no
central (percentiles, deciles y cuartiles).
Por su parte, las medidas de dispersión sirven para resumir cuál es la
distribución de los datos. El problema de estos parámetros es que por sí
mismos resultan insuficientes al simplificar en exceso la información,
por lo que se hace necesario que se acompañen de otros parámetros
accesorios que den información sobre la heterogeneidad de los datos.
Entre los parámetros de dispersión más destacados se encuentran la
varianza, la desviación típica, los coeficientes de variación y el rango.
Los parámetros de forma indican la forma que presenta el histograma
de los datos, siendo la representación más habitual la de campana de
Gauss. Aquí cabría destacar los coeficientes de asimetría y curtosis.
En estadística, un parámetro es un número que resume la gran cantidad
de datos que pueden derivarse del estudio de una variable estadística.
El cálculo de este número está bien definido, usualmente mediante
una fórmula aritmética obtenida a partir de datos de la población. Los
parámetros estadísticos son una consecuencia inevitable del propósito
esencial de la estadística: crear un modelo de la realidad.
El estudio de una gran cantidad de datos individuales de una población
puede ser confuso e inoperativo, por lo que se hace necesario realizar
un resumen que permita tener una idea global de la población,
compararla con otras, comprobar su ajuste a un modelo ideal, realizar
estimaciones sobre datos desconocidos de la misma y, en definitiva,
tomar decisiones. A estas tareas contribuyen de modo esencial los
parámetros estadísticos.
Rasgos deseables de un parámetro
Se define de manera objetiva, es decir, es posible calcularlo sin
ambigüedades, generalmente mediante una fórmula matemática. Por
ejemplo, la media aritmética se define como la suma de todos los datos,
dividida por el número de datos. No hay ambigüedad: Si se realiza
ese cálculo, se obtiene la media; si se realiza otro cálculo, se obtiene
otra cosa. Sin embargo, la definición de moda como el “valor más
frecuente”, puede dar lugar a confusión cuando la mayor frecuencia la
presentan varios valores distintos.
No desperdicia, a priori, ninguna de las observaciones. Con carácter
general, un parámetro será más representativo de una determinada
población, cuántos más valores de la variable estén implicados en
su cálculo. Por ejemplo, para medir la dispersión puede calcularse el
recorrido, que sólo usa dos valores de la variable objeto de estudio, los
extremos; o la desviación típica, en cuyo cálculo intervienen todos los
datos del eventual estudio.
Es interpretable, significa algo. La mediana, por ejemplo, deja por
debajo de su valor a la mitad de los datos, está justo en medio de todos
ellos cuando están ordenados. Esta es una interpretación clara de su
significado.
Es sencillo de calcular y se presta con facilidad a manipulaciones
algebraicas. Se verá más abajo que una medida de la dispersión es la
desviación media. Sin embargo, al estar definida mediante un valor
absoluto, función definida a trozos y no derivable, no es útil para
gran parte de los cálculos en los que estuviera implicada, aunque su
interpretación sea muy clara.
Es poco sensible a las fluctuaciones muestrales. Si pequeñas
variaciones en una muestra de datos estadísticos influyen en gran
medida en un determinado parámetro, es porque tal parámetro no
representa con fiabilidad a la población. Así pues es deseable que el
valor de un parámetro con esta propiedad se mantenga estable ante
las pequeñas oscilaciones que con frecuencia pueden presentar las
distintas muestras estadísticas. Esta propiedad es más interesante en
el caso de la estimación de parámetros. Por otra parte, los parámetros
que no varían con los cambios de origen y escala o cuya variación
está controlada algebraicamente, son apropiados en determinadas
circunstancias como la tipificación.
Estudios de estimación de un parámetro
Principio de representatividad En estadística, el término población
se utiliza para describir todas las posibles observaciones de una
determinada variable o todas las unidades sobre las que podría haberse
realizado una observación. Puede tratarse de pacientes, de profesionales
o de prescripciones terapéuticas, por ejemplo. Habitualmente se
estudian muestras en lugar de poblaciones por criterios de eficiencia.
El término muestra se refiere a cualquier conjunto específico de
sujetos u observaciones procedentes de una población determinada.
Para que sea útil y la estadística aplicable, se requiere que la muestra
tenga un tamaño razonable y sea representativa de la población de
la que procede. Un tamaño elevado no asegura la representatividad,
sino que ésta radica básicamente en que la muestra haya sido escogida
adecuadamente y esté libre de sesgos.
En cualquier estudio pueden considerarse tres niveles de población:
Población diana, a la que hace referencia el objetivo del estudio, y a la
que se desearía generalizar los resultados.
Existen dos formas de estimar parámetros: la estimación puntual y la
estimación por intervalo de confianza. En la primera se busca, con base
en los datos muestrales, un único valor estimado para el parámetro.
Para la segunda, se determina un intervalo dentro del cual se encuentra
el valor del parámetro, con una probabilidad determinada. Si el objetivo
del tratamiento estadístico inferencial, es efectuar generalizaciones
acerca de la estructura, composición o comportamiento de las
poblaciones no observadas, a partir de una parte de la población, será
necesario que la parcela de población examinada sea representativa
del total. Por ello, la selección de la muestra requiere unos requisitos
que lo garanticen, debe ser representativa y aleatoria.
Estadística Paramétrica
Las técnicas estadísticas de estimación de parámetros, intervalos
de confianza y prueba de hipótesis son, en conjunto, denominadas
estadística paramétrica y son aplicadas básicamente a variables
continuas. Estas técnicas se basan en especificar una forma de
distribución de la variable aleatoria y de los estadísticos derivados de
los datos. En estadística paramétrica se asume que la población de la
cual la muestra es extraída es normal o aproximadamente normal. Esta
propiedad es necesaria para que la prueba de hipótesis sea válida.
Las pruebas paramétricas asumen distribuciones estadísticas
subyacentes a los datos. Por tanto, deben cumplirse algunas condiciones
de validez, de modo que el resultado de la prueba paramétrica sea fiable.
Por ejemplo, la prueba t de Student para dos muestras independientes
será fiable solo si cada muestra se ajusta a una distribución normal y si
las varianzas son homogéneas.
La estadística inferencial paramétrica hace suposiciones específicas
acerca de la población o poblaciones que se muestrean. De allí
la importancia del Teorema del Límite Central para esta clase de
inferencias (el supuesto de normalidad es parte fundamental de las
pruebas paramétricas).Los métodos descritos con anterioridad.
(Estimación puntual, estimación de intervalo y pruebas de hipótesis) en
su forma paramétrica se derivan principalmente de trabajos realizados
por Neyman y Pearson como proyecto conjunto.
De hecho su trabajo se dirigió al problema principal de las pruebas
de hipótesis: Construir una teoría matemática de pruebas que se
utilicen para reducir la frecuencia de conclusiones erróneas respecto
a las hipótesis consideradas. Como resultado se definieron una serie
de estadísticos de prueba que, siendo fijo el Error Tipo I, dejan libre
la probabilidad de Error Tipo II. De allí que la teoría de Neyman y
Pearson haya dejado a un lado la dependencia entre probabilidades
de Errores Tipo I y Tipo II para centrarse en restringir el tamaño de la
región crítica.
Los análisis paramétricos partes de los siguientes supuestos:
1. La distribución poblacional de la variable dependiente es
normal: el universo tiene distribución normal.
2. El nivel de medición de las variables es por intervalos de razón.
3. Cuando dos o más poblaciones son estudiadas, tienen una
varianza homogénea: las poblaciones en cuestión poseen una
dispersión similar en sus distribuciones.
Métodos estadístico paramétricos
Teorema del Límite Central Sea X1,X2,X3,...Xn una sucesión de
variables aleatorias independientes e idénticamente distribuidas con
media μ y varianza σ 2 , ambas finitas, defínase Sn = X1 + X2 + X3
+.........+ Xn. Bajo estas condiciones la variable aleatoria: σ S μ Z n
n − n = Converge en ley a una distribución Normal con μ =0 y σ 2 =1.
Teoría de Neyman y Pearson Neyman y E. Pearson en 1933
establecieron la base de lo que sería la estadística inferencial
paramétrica. Basaron su teoría en fijar la probabilidad de cometer un
Error Tipo I a una constante α; es decir tratar de restringir la región
crítica a un tamaño menor o igual que α y buscar el estadístico de
prueba que minimice la probabilidad de ocurrencia de un Error Tipo
II o maximizar la probabilidad de no cometer un Error Tipo II. Sea β
la probabilidad de cometer un Error Tipo II, se tratará de maximizar
la probabilidad 1-β. Esta cantidad recibe el nombre de potencia de la
prueba. De encontrarse un máximo en la potencia de la prueba, este
máximo será el que genere la región crítica más potente. Es allí donde
Neyman y Pearson demostraron el siguiente teorema conocido como
lema de Neyman y Pearson:
Sea el contraste de hipótesis: H0: θ = θ0 Vs. H1: θ = θ1 Sea C un
subconjunto de Rn , λ una constante positiva y x1,x2,x3,...xn una
muestra aleatoria de tamaño n tomada de una población X con función
de densidad f(x), uno de cuyos parámetros es θ y donde: 29 L ( ;θ )
n i 1 0 Π 0 = = xi f ) L ( ;θ n i 1 1 Π 1 = = xi f L y 0 L1 se conocen
como función de verosimilitud para los parámetros θ0 y θ1 . Considere
las siguientes condiciones: i) λ L (θ, ) L (θ, ) 1 0 ≤ X X Para todo
(x1,x2,x3,...xn) C ii) λ L (θ, ) L (θ, ) 1 0 > X X Para todo (x1,x2,x3,...
xn) Cc iii) P((x1,x2,x3,...xn) C / H0) = α Si se cumplen i), ii), iii)
entonces C es la mejor región crítica de tamaño α que se puede obtener
para el contraste indicado.
Este procedimiento es análogo en el momento en que se necesita
construir modelos paramétricos frente a problemas de intervalos de
confianza, pruebas de hipótesis de medias, varianzas, regresiones,
tablas de análisis de varianza, tablas de contingencia y demás.
Partimos de construir un estadístico de prueba que defina la región
crítica más potente. Aun así hay ciertas consideraciones en una
prueba paramétrica. Una prueba paramétrica puede no funcionar bajo
violaciones a sus supuestos, a menos que sea robusta.
Siempre puede usarse una transformación (logarítmica, exponencial,
etc.) de manera que puedan cumplirse los supuestos ya sean de
normalidad u otros. La prueba dependerá del campo de aplicación.
Si se sabe de antemano la distribución de la población por estudios
anteriores será mejor optar por una prueba paramétrica. Las pruebas
paramétricas pueden evaluar en diferente medida que las no
paramétricas. La perspectiva de las pruebas puede ser distinta.
Estadística no paramétrica
La estadística no paramétrica es una rama de la estadística que estudia
las pruebas y modelos estadísticos cuya distribución subyacente no
se ajusta a los llamados criterios paramétricos. Su distribución no
puede ser definida a priori, pues son los datos observados los que la
determinan. La utilización de estos métodos se hace recomendable
cuando no se puede asumir que los datos se ajusten a una distribución
conocida, cuando el nivel de medida empleado no sea, como mínimo,
de intervalo.
Las principales pruebas no paramétricas son las siguientes:
• Prueba χ² de Pearson
• Prueba binomial
• Prueba de Anderson-Darling
• Prueba de Cochran
• Prueba de Cohen kappa
• Prueba de Fisher
• Prueba de Friedman
• Prueba de Kendal
La estadística no paramétrica es una rama de la estadística no basada
en familias parametrizadas de distribuciones de probabilidad. Incluye
estadística descriptiva e inferenciales. Los parámetros típicos son
la media, la varianza, entre otras. A diferencia de las estadística
paramétrica, las estadística no paramétrica no hacen suposiciones
acerca de las distribuciones de probabilidad de las variables que se
están evaluando.
Los métodos no paramétricos son ampliamente utilizados para estudiar
las poblaciones que toman un orden clasificado (como revisiones de
películas que reciben de una a cuatro estrellas). El uso de métodos
no paramétricos puede ser necesario cuando los datos tienen una
clasificación pero no una interpretación numérica clara, como cuando
se evalúan las preferencias. En términos de niveles de medición, los
métodos no paramétricos resultan en datos “ordinales”.
Como los métodos no paramétricos hacen menos suposiciones, su
aplicabilidad es mucho más amplia que los métodos paramétricos
correspondientes. En particular, pueden aplicarse en situaciones en las
que se sabe menos sobre la aplicación en cuestión. Además, debido a
la dependencia de menos suposiciones, los métodos no paramétricos
son más robustos.
Debido a esta simplicidad y a su mayor robustez, los métodos no
paramétricos son vistos por algunos estadísticos como ideales dado
que dejan menos espacio para uso indebido y malentendidos. La mayor
aplicabilidad y mayor robustez de las pruebas no paramétricas tiene un
costo: en los casos en que una prueba paramétrica sería apropiada, las
pruebas no paramétricas tienen menos potencia. En otras palabras, se
puede requerir un tamaño de muestra mayor para sacar conclusiones
con el mismo grado de confianza.
Si volvemos al ejemplo de la prueba t veremos que existen supuestos
sobre las distribuciones poblacionales de la media muestral y del valor
de la media poblacional. En el caso de que uno de sus supuestos no
se cumpla, las técnicas paramétricas (si no son robustas) generarán
resultados erróneos y por ende las conclusiones de sus hipótesis serán
inválidas.
Las técnicas estadísticas no paramétricas ofrecen menor rigidez con
respecto a sus condiciones que las técnicas paramétricas, aunque
sacrificando para ello su potencia de explicación. Son procedimientos
estadísticos que poseen ciertas propiedades bajo supuestos generales y
sin importar la población de la cual los datos han sido obtenidos.
La mayoría de las veces estos supuestos se refieren, por ejemplo, a la
simetría o continuidad de la distribución poblacional. La inferencia
no paramétrica constituye un campo muy amplio que va desde las
equivalencias no paramétricas de las pruebas paramétricas existentes
hasta llegar a las estimaciones de punto e intervalo de constantes
poblacionales que no pueden ser llevadas a modelos paramétricos por
su complejidad (percentiles, deciles, otros)
El rápido desarrollo de las técnicas no paramétricas ha sido en parte
por las siguientes razones:
Las técnicas no paramétricas hacen supuestos muy generales respecto
a la distribución de probabilidad que siguen los datos. En particular,
dejan de lado el supuesto de normalidad en una población.
Son aplicables cuando la teoría de normalidad no puede ser utilizada,
por ejemplo cuando no se trabaja con magnitudes de observaciones
sino con sus rangos.
El caso no paramétrico: La prueba del signo de Fisher Sean x1,x2,x3,...
xn una muestra aleatoria de tamaño n tomada de una población
simétrica y continua con media μ. Considere el siguiente contraste de
hipótesis: H0: μ = μ0 Vs H1: μ ≠ μ0 Sean r el número de cantidades (xi
-μ0) que sean positivas y s el número de las mismas que sean negativas
para i =1,2,..n ; donde r+s ≤ n .
Definamos la función indicadora ψi donde: 1 si (xi -μ0) > 0 0 resto
Definamos además r en función de ψi como: Σ= = Ψ n i i r 1
Particularicemos el caso para n =10. El número de casos posibles
correspondientes a ψi equivalen a 2n = 210 = 1024; mientras que para
r se obtienen valores enteros entre 0 y 10. Pudiendo entonces tabular
los valores posibles r en base de ψi y obtener su frecuencia relativa a
fin de determinar la función de probabilidad de los valores r.
Ventajas de los Métodos No Paramétricos
Los métodos no paramétricos pueden ser aplicados a una amplia
variedad de situaciones porque ellos no tienen los requisitos rígidos de
los métodos paramétricos correspondientes. En particular, los métodos
no paramétricos no requieren poblaciones normalmente distribuidas.
Diferente a los métodos paramétricos, los métodos no paramétricos
pueden frecuentemente ser aplicados a datos no numéricos, tal como
el género de los que contestan una encuesta.
Los métodos no paramétricos usualmente involucran simples
computaciones que los correspondientes en los métodos paramétricos
y son por lo tanto, más fáciles para entender y aplicar.
Desventajas de los Métodos No Paramétricos
Los métodos no paramétricos tienden a perder información porque
datos numéricos exactos son frecuentemente reducidos a una forma
cualitativa. Por otra parte las pruebas no paramétricas no son tan
eficientes como las pruebas paramétricas, de manera que con una
prueba no paramétrica generalmente se necesita evidencia más fuerte
(así como una muestra más grande o mayores diferencias) antes de
rechazar una hipótesis nula.
Cuando los requisitos de la distribución de una población son
satisfechos, las pruebas no paramétricas son generalmente menos
eficientes que sus contrapartes paramétricas, pero la reducción de
eficiencia puede ser compensada por un aumento en el tamaño de la
muestra.
Conclusiones sobre la estadística paramétrica y no paramétrica
Un parámetro estadístico es el dato que se considera como
imprescindible y orientativo para lograr evaluar o valorar una
determinada situación. A partir de un parámetro, una cierta circunstancia
puede comprenderse o ubicarse en perspectiva. Función definida sobre
valores numéricos que caracteriza una población o un modelo.
Las técnicas estadísticas de estimación de parámetros, intervalos
de confianza y prueba de hipótesis son, en conjunto, denominadas
estadística paramétrica y son aplicadas básicamente a variables
continuas. Estas técnicas se basan en especificar una forma de
distribución de la variable aleatoria y de los estadísticos derivados de
los datos. En estadística paramétrica se asume que la población de la
cual la muestra es extraída es normal o aproximadamente normal. Esta
propiedad es necesaria para que la prueba de hipótesis sea válida.
Las técnicas estadísticas no paramétricas ofrecen menor rigidez con
respecto a sus condiciones que las técnicas paramétricas, aunque
sacrificando para ello su potencia de explicación. Son procedimientos
estadísticos que poseen ciertas propiedades bajo supuestos generales y
sin importar la población de la cual los datos han sido obtenidos.
Los métodos no paramétricos tienden a disipar información porque
datos numéricos exactos son frecuentemente reducidos a una forma
cualitativa, cuando los requisitos de la distribución de una población
son satisfechos, las pruebas no paramétricas son ordinariamente
menos eficientes que sus contrapartes paramétricas, pero la deflación
de eficiencia puede ser compensada por un acrecentamiento en el
tamaño de la muestra.
Fuente:
http://www.cidepro.org/images/pdfs/estadistica.pdf
Comentarios
Publicar un comentario