Forum Docentis - Sección IN, Vol. 2024, Núm. 3 (2024)
ISSN: 2952-3052
doi: https://doi.org/10.33732/FD.v2024.n3.20
Recepción: 27/09/2024, Aceptación: 15/10/2024
Introducción a la Estimación Puntual
1 Departamento de Economía Financiera y Contabilidad, Área de Didáctica de la Matemática, Universidad Rey Juan Carlos, Madrid.
*Autor de correspondencia: daniel.mcudero@urjc.es
Resumen
En este artículo se introduce uno de los temas constituyentes de la Inferencia Estadística: la Estimación Puntual. El objetivo de la estimación puntual es estimar el valor de un parámetro desconocido de una población a partir de los datos de una muestra. En concreto, vamos a estudiar las propiedades que debe tener un buen estimador (insesgadez, eficiencia, consistencia y suficiencia) y aplicaremos dos de las técnicas clásicas para la obtención de estimadores (método de los momentos y método de la máxima verosimilitud).
Palabras clave
Estimación puntual — Propiedades de los estimadores — Métodos de estimación
© 2025 Los autores. Publicado por URJC. Este es un artículo de acceso abierto con licencia CC BY.
Cómo citar este artículo: Martín-Cudero, D. Introducción a la Estimación Puntual. Forum Docentis - IN vol. 2025, (3), e20, 2025
Índice
1.1 Población y distribución teórica
1.1.1 Distribuciones discretas
1.1.2 Distribuciones continuas
1.2 Muestra aleatoria
1.3 Estadísticos y su distribución en el muestreo
2.1 Error Cuadrático Medio de un estimador
2.2 Propiedades de los estimadores
2.2.1 Estimador insesgado
2.2.2 Estimador eficiente
2.2.3 Estimador consistente
2.2.4 Estimador suficiente
2.3 Métodos de estimación
2.3.1 Método de los Momentos
2.3.2 Método de la Máxima Verosimilitud
Introducción
La Teoría de la Probabilidad es la rama de las matemáticas que estudia las propiedades de los fenómenos aleatorios, es decir, aquellos fenómenos en los que interviene el azar y, por tanto, no se pueden predecir, como por ejemplo, el lanzamiento de un dado o de una moneda. Los fenómenos aleatorios se obtienen a partir de experimentos llevados a cabo bajo el mismo conjunto aparente de condiciones iniciales, pudiéndose arrojar diferentes resultados en cada uno de ellos. En consecuencia, en Teoría de la Probabilidad, se dice que los resultados de un determinado fenómeno aleatorio tiene una distribución de probabilidad bien definida, capaz de aproximar de manera adecuada un conjunto de datos que se comportan de manera aleatoria.
Los procesos que se modelizan mediante distribuciones de probabilidad corresponden a leyes de probabilidad donde no se conocen, a priori, todos los parámetros que intervienen. Así, si se desea ahondar en la forma de adaptar una ley o modelo probabilístico concreto a cada situación aleatoria extraída de la realidad, va a ser necesario llevar a cabo observaciones del fenómeno que se pretende analizar. Por ejemplo, la mejor opción para inferir si un dado está bien equilibrado es realizar un número elevado de lanzamientos y verificar, a partir de los resultados obtenidos, la confirmación o invalidez de la corrección del dado; o, por ejemplo, si se desea estudiar la distribución de la estatura de los individuos de una población, no cabe más alternativa que conocer la altura de un gran número de ellos. En este sentido, disponer de un conjunto de observaciones acerca del fenómeno a estudiar, permite obtener información sobre su modelo de probabilidad. De esta forma, dejamos a un lado el campo de la Teoría de la Probabilidad para introducirnos en la rama de la Inferencia Estadística o Estadística Matemática.
Se pueden plantear diversos problemas de Inferencia Estadística en base a la situación aleatoria que se considere. Por ejemplo, estimar un intervalo numérico para un parámetro desconocido de una distribución (intervalos de confianza); aceptar o rechazar una afirmación acerca de la distribución de probabilidad del fenómeno estudiado (contrastes de hipótesis); o utilizar la información proporcionada por las observaciones para obtener una estimación acerca del parámetro desconocido de la distribución (estimación puntual). Es justamente esta última situación la que se va a desarrollar a lo largo de este documento, pero no sin antes repasar algunas nociones básicas que el lector debe conocer y tener bien asumidas para abordar adecuadamente los conceptos posteriores sobre estimación puntual que se van a explicar.
La estimación puntual es un tema que se imparte tanto en grados de Ciencias y Ciencias Sociales como en Ingeniería e Informática. Obviamente, suele introducirse de manera más o menos compleja, según los objetivos marcados para cada grado. Por esta razón, se ha optado por una presentación tradicional de los contenidos evitando, en la medida de lo posble, formalismos y tecnicismos que puedan dificultar la lectura a estudiantes con escaso rigor matemático. El objetivo es que estas notas puedan servir como referencia a estudiantes de cualquier grado en el que la Estadística Matemática forme parte de su progreso académico. Asimismo, para aquellos estudiantes que necesiten ampliar sus conocimientos sobre este tema, se proponen para su consulta algunas referencias algo más técnicas y formalistas (consultar [1-4]).
1. Conceptos básicos
1.1 Población y distribución teórica
Como ya se adelantó en la introducción, todo problema de Inferencia Estadística se origina por el desconocimiento del modelo de probabilidad que sigue un determinado fenómeno aleatorio. La distribución desconocida F de la variable aleatoria X involucrada en dicho problema se denomina distribución teórica; sin embargo, puesto que la Inferencia Estadística se utiliza para sacar conclusiones acerca de la distribución de alguna característica de los elementos de una población, también suele denominarse distribución de la población. Entiéndase el concepto población como el conjunto de los elementos sometidos a estudio o conjunto de posibles resultados de un experimento aleatorio.
El mayor o menor grado de desconocimiento acerca de la distribución de la población se manifiesta en los modelos de Inferencia a partir de la familia de distribuciones que se postulan a ser la distribución teórica real. Nos centramos aquí en la familia compuesta por distribuciones dependientes de un parámetro θ (valor representativo de la población), de una o más dimensiones, que varía dentro de un subconjunto Θ de ℝk que denominamos espacio paramétrico. Esto es,
Las familias de distribuciones que se presentan en los problemas de Inferencia Estadística que vamos a tratar aquí van a ser: familias de distribuciones discretas, si la variable aleatoria o característica poblacional que se desea estudiar es discreta, es decir, únicamente puede tomar valores finitos o contables (como el número de resultados al lanzar un dado, el número de incendios al año en una ciudad, etc.); o bien familias de distribuciones continuas, si la variable aleatoria o característica poblacional objeto de análisis es continua, es decir, que puede tomar infinitos valores dentro de un intervalo de números reales (como la estatura, el peso, la duración, etc.). Mientras que las primeras están caracterizadas por su función de probabilidad, las segundas lo están por su función de densidad.
Ambas son funciones matemáticas que describen la probabilidad de que una variable aleatoria X tome un determinado valor x. Escribiremos fX(x) para definirlas, independientemente de que sean discretas o continuas. Así, si FX(x) es la distribución teórica asociada a X, se tiene que:
■, si X es discreta.
■, si X es continua.
1.1.1 Distribuciones discretas
Las distribuciones de probabilidad para variables discretas más habituales son la binomial, la binomial negativa, la geométrica y la distribución de Poisson. En la tabla 1 se describen las funciones de probabilidad, media y varianza de cada una de ellas.
Distribución Binomial: Familia de distribuciones de probabilidad para variables aleatorias discretas que cuentan el número de éxitos que se obtienen al realizar n experimentos independientes y dicotómicos (con dos posibles resultados, éxito o fracaso) con una probabilidad de éxito p constante. Por ejemplo, una variable aleatoria que sigue este tipo de distribución puede ser el número de veces que se obtiene un número par al lanzar un dado n veces. El parámetro de la distribución binomial es θ = (n, p) y su espacio paramétrico . Además, la suma de m variables aleatorias independientes tal que , es una variable aleatoria con distribución ).
Distribución Binomial Negativa: Familia de distribuciones de probabilidad para variables aleatorias discretas que cuentan el número de fracasos que se observan antes de obtener un número fijo n de éxitos al realizar experimentos dicotómicos independientes, con una probabilidad de éxito p constante en cada uno. Por ejemplo, una variable aleatoria que sigue este tipo de distribución puede ser el número de tiros fallidos que se tienen antes de encestar 5 veces en una serie de lanzamientos al aro. El parámetro de la distribución binomial negativa es θ = (n, p) y su espacio paramétrico .
Distribución Geométrica: Familia de distribuciones de probabilidad para variables aleatorias discretas que cuentan el número de fracasos antes del primer éxito cuando se realizan experimentos dicotómicos e independientes con una probabilidad de éxito p constante. Por ejemplo, una variable aleatoria que sigue este tipo de distribución puede ser el número de lanzamientos de un dado que se tienen que realizar hasta obtener el número 5. El parámetro de la distribución geométrica es su espacio paramétrico . La distribución geométrica es un caso particular de la distribución binominal negativa con parámetro n = 1. Esto es, . Además, la suma de n variables aleatorias independientes e idénticamente distribuidas , es una variable aleatoria con distribución BN(n, p).
Distribución de Poisson: Familia de distribuciones de probabilidad para variables aleatorias discretas que describen el número de veces que se repite un cierto evento en un intervalo de tiempo dado. En general, se utiliza para describir sucesos cuya probabilidad de éxito es muy baja. Por ejemplo, una variable aleatoria que sigue este tipo de distribución puede ser el número de llamadas que recibe una central telefónica en un minuto. El parámetro de la distribución de Poisson es θ = λ y su espacio paramétrico . Además, la suma de n variables aleatorias independientes e idénticamente distribuidas , es una variable aleatoria con distribución Poi(nλ).
Tabla 1. Distribuciones discretas más utilizadas
Distribución |
Notación |
Parámetros |
Función de probabilidad, fX(x) |
Media |
Varianza |
Binomial |
Bin(n, p) |
n ∈ ℕ, p ∈ [0, 1] |
np |
np(1 − p) |
|
Geométrica |
Geo(p) |
p ∈ [0, 1] |
|||
Poisson |
Poi(λ) |
λ > 0 |
λ |
λ |
|
Binomial Negativa |
BN(n, p) |
1.1.2 Distribuciones continuas
Las distribuciones de probabilidad para variables continuas más habituales son la normal, la exponencial y la distribución gamma. En la tabla 2 se describen las funciones de densidad, media y varianza de cada una de ellas.
Distribución Uniforme Continua: Familia de distribuciones de probabilidad para variables aleatorias continuas que toman valores en un intervalo finito de manera equiprobable. Esto es, todos los resultados con valores en un intervalo finito tiene la misma probabilidad de ocurrir. La distribución uniforme continua queda definida por el intervalo [a, b] de equiprobabilidad. Por ejemplo, si el resultado de un experimento aleatorio puede tomar cualquier valor real en el intervalo [2, 7] y todos los posibles resultados tienen la misma probabilidad de ocurrir, el experimento se puede modelizar con una distribución uniforme continua U(2, 7). El parámetro de la distribución es θ = (a, b) y su espacio paramétrico .
Distribución Normal: Familia de distribuciones de probabilidad para variables aleatorias continuas que modelizan fenómenos reales de características muy diferentes (fenómenos naturales, sociales y psicológicos). La gráfica de su función de densidad tiene forma de campana, es simétrica respecto de su media μ y tiene puntos de inflexión en . Asimismo, es útil para aproximar otros tipos de distribuciones bajo ciertas condiciones. El parámetro de la distribución normal es y su espacio paramétrico .
Distribución Exponencial: Familia de distribuciones de probabilidad para variables aleatorias continuas que modelizan el tiempo de espera para la ocurrencia de un fenómeno aleatorio determinado. En particular, permite describir el tiempo de espera entre dos fenómenos que siguen una distribución de Poisson. Una variable aleatoria que sigue este tipo de distribución puede ser el tiempo transcurrido en una central telefónica hasta recibir la primera llamada del día, o el tiempo que transcurre entre dos llamadas consecutivas. El parámetro de la distribución exponencial es θ = λ y su espacio paramétrico .
Distribución Gamma: Familia de distribuciones de probabilidad para variables aleatorias continuas que habitualmente se utilizan para modelizar datos que son asimétricos a la derecha de la gráfica de la función de densidad, existiendo así una mayor concentración de datos en su parte izquierda. Por ejemplo, la distribución Gamma se utiliza para modelar la fiabilidad de componentes eléctricos. El parámetro de la distribución es , donde α es el parámetro característico de forma y λ el de escala. El espacio paramétrico es . Además, como propiedades importantes de esta distribución podemos destacar las siguientes: (a) si α = 1, entonces ; (b) la suma de n variables aleatorias independientes e idénticamente distribuidas , es una variable aleatoria con distribución ; (c) la suma de n variables aleatorias independientes tal que , es una variable aleatoria con distribución .
Tabla 2. Distribuciones continuas más utilizadas
Distribución |
Notación |
Parámetros |
Función de densidad, fX(x) |
Media |
Varianza |
Uniforme |
U(a, b) |
{a, b} ∈ ℝ, a < b |
|||
Normal |
N(µ, σ2) |
µ ∈ ℝ, σ > 0 |
μ |
σ2 |
|
Exponencial |
Exp(λ) |
λ >0 |
|||
Gamma |
Γ(α, λ) |
α, λ > 0 |
1.2 Muestra aleatoria
Una vez conocemos los conceptos básicos involucrados en una población y los modelos de probabilidad más habituales que esta puede seguir, centrémonos ahora en las observaciones que nos van a permitir disminuir el desconocimiento de la distribución teórica de la variable aleatoria X objeto de estudio. Dichas observaciones pueden obtenerse realizando n repeticiones del experimento aleatorio y anotando los valores de X en cada una de ellas. De esta forma, se obtiene lo que denominamos muestra aleatoria de X de tamaño n, la cual está constituida por el conjunto de valores numéricos (x1, x2, …, xn). A este respecto, lo ideal es que la muestra sea un subconjunto representativo de la población. Esta sería fácil de seleccionar si se conociese la distribución de la población; sin embargo, cuando esta es desconocida la única solución es esperar que el azar suministre una muestra con unas características similares a las de la población. En este caso, lo más simple para precisar la distribución teórica es realizar n repeticiones independientes del experimento aleatorio observando en cada una el valor de la variable X que se quiere estudiar. En este caso, diremos que la muestra ha sido seleccionada por muestreo aleatorio simple.
Muestra aleatoria simple: Una muestra aleatoria simple, de tamaño n, de una variable aleatoria X con distribución teórica F, son n variables aleatorias (X1, X2, …, Xn), independientes e igualmente distribuidas. De estas forma, la función de distribución conjunta de una muestra aleatoria simple correspondiente a la distribución F, es
Ejemplo 1. Consideremos la variable aleatoria X que describe el número de incendios que se producen por unidad de tiempo en un determinado país. En este caso, todo apunta a que la distribución teórica F es la de una Poisson de parámetro θ > 0. A este respecto, podemos aceptar que el número de incendios que se producen en unidades de tiempo distintas son independientes entre sí. En consecuencia, para obtener una muestra aleatoria simple de tamaño n basta con observar el número de incendios que se producen durante n días. Entonces, la probabilidad de que la muestra (X1, X2, …, Xn) tome cada uno de los valores (x1, x2, …, xn) es
Ejemplo 2. A diferencia del ejemplo anterior, podemos considerar una variable aleatoria X cuya distribución a priori sea desconocida. Por ejemplo, supongamos que queremos conocer la probabilidad de extraer una bola negra de una urna que contiene bolas blancas y negras. La variable, en este caso, es
donde la probabilidad de éxito es P{X = 1} = θ y la de fracaso P{X = 0} = 1 − θ, es decir, la distribución de X dependerá del parámetro θ ∈ [0,1]. Supongamos también que únicamente se puede realizar 3 extracciones con reemplazamiento. Es claro que cada extracción es independiente de las otras y por tanto, podemos obtener una muestra aleatoria simple (X1, X2, X3) de tamaño 3 que tome los valores (x1, x2, x3), con xi ∈ {0,1}. Esto nos va a permitir disminuir el desconocimiento de la distribución teórica F de X. Los resultados de todas las muestras posibles se dan en la tabla 3.
Tabla 3. Probabilidades según las muestras posibles
X1 = x1 |
X2 = x2 |
X3 = x3 |
P{X1 = x1}P {X2 = x2}P{X3 = x3} |
1 |
1 |
1 |
θ3 |
1 |
1 |
0 |
θ2(1 − θ) |
1 |
0 |
1 |
θ2(1 − θ) |
0 |
1 |
1 |
θ2(1 − θ) |
1 |
0 |
0 |
θ(1 − θ)2 |
0 |
1 |
0 |
θ(1 − θ)2 |
0 |
0 |
1 |
θ(1 − θ)2 |
0 |
0 |
0 |
(1 − θ)3 |
Nótese, por ejemplo, como la probabilidad de obtener 2 bolas negras y 1 blanca es θ2(1 — θ) sin importar el orden de extracción. La independencia entre las extracciones hace que la probabilidad de cada muestra sea el producto de las probabilidades de los resultados que la componen. Esto nos va a permitir determinar la distribución de la muestra a partir de su función de probabilidad. Para hallar la función de probabilidad de la población, para este caso concreto, basta con visualizar las expresiones de las probabilidades de la tabla para darse cuenta que ha de tener la forma
Puede verse como si x = 0 y si x = 1. Por tanto, la función de probabilidad de la muestra la podemos expresar como sigue:
Es fácil comprobar que el problema se reduce a extraer una muestra aleatoria simple de tamaño 3 de una población que sigue una distribución Bin(1, p), con parámetro θ = p. Por tanto, cabe esperar, que si la muestra se ampliara a n extracciones, la función de probabilidad de la muestra sería:
Ejemplo 3. Sea X la variable aleatoria: tiempo t que transcurre hasta que se recibe la primera llamada del día en una central telefónica. En este caso, es claro que la mejor distribución que describe este suceso es una exponencial de parámetro θ > 0, con función de densidad fX(t) = θe-θt para t ≥ 0. Supongamos que se obtiene una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n con valores t1, t2, …, tn. La función de densidad de la muestra es
Para terminar con los conceptos relacionados con población y muestra, veamos un aspecto importante sobre convergencia de variables aleatorias: el Teorema Central del Limite. De manera intuitiva y operativa este teorema se puede describir de la siguiente manera:
Teorema Central del Límite: Sea la suma de n variables aleatorias X1, X2, …, Xn independientes e idénticamente distribuidas, con media E(Xi) y varianza V(Xi) finitas. El teorema establece que la función de distribución de la suma de estas n variables converge a una variable aleatoria con distribución normal . El teorema es válido cuando la suma de estas variables es lo suficientemente grande (como norma general, n ≥ 30). Algunas consecuencias del Teorema Central del Límite pueden ser, entre otras:
■Si , entonces .
■Si , entonces .
■Si , entonces
■Si , entonces
Ahora bien, podemos aplicar el Teorema Central del Límite para estudiar la convergencia de la distribución de las medias muestrales. Esto es, la media de una muestra se aproxima por el Teorema Central del Límite a una distribución normal a medida que el tamaño de la muestra aumenta, independientemente de la distribución de probabilidad de la población. Como norma general, el tamaño de la muestra ha de ser como mínimo de 30 observaciones y el número de muestras extraídas de la población suficientemente grande, aunque esto dependerá también de las características de la variable aleatoria que se esté estudiando.
Así, si una población ξ tiene de media E(ξ) = μ y varianza V(ξ) = σ2 y tomamos de ella un número de muestras lo suficientemente grande (n ≥ 30), el conjunto de las medias muestrales se aproxima a una distribución normal . En efecto, si X es la variable aleatoria objeto de estudio asociada a la población, por un lado,
y por otro,
1.3 Estadísticos y su distribución en el muestreo
Para resolver cualquier problema de inferencia estadística es importante conocer la función de los valores muestrales (resultados observados de la muestra), sea cual sea el método que se utilice para resolverlo. Esta función se denomina estadístico y la denotamos T(xi, x2, …, xn). Supuesta extraída una muestra aleatoria simple de tamaño n de una población, los estadísticos de uso más frecuente son:
■, el total de la muestra.
■, la media aritmética de la muestra o media muestral, que denotamos .
■, el momento muestral de orden r respecto al origen, que denotamos ar.
■, la varianza de los valores muestrales, que denotamos s2.
■, el momento muestral de orden r respecto a la media, que denotamos br.
■, la cuasivarianza de los valores muestrales, que denotamos .
■, la frecuencia observada del valor k en una muestra de tamaño n.
■, el menor valor muestral, que denotamos x(1).
■, el mayor valor muestral, que denotamos x(n).
■
Cuando se considera la muestra (X1, X2, …, Xn) como una variable aleatoria, el estadístico T(X1, X2, …, Xn) también es a su vez otra variable aleatoria, ya que no puede predecir el valor que tomará después de efectuar el muestreo aleatorio simple. Por esta razón, es importante considerar la distribución de probabilidad de T(X1, X2, …, Xn) que nos de la probabilidad con que se puede tomar cada valor (x1, x2, …, xn) de la muestra. En concreto, se denomina distribución en el muestreo de un estadístico T a la distribución de la variable aleatoria T(X1, X2, …, Xn). Es decir, el estadístico presenta una distribución de probabilidad derivada de la distribución de la muestra, , la cual suele identificarse con su función de probabilidad o de densidad conjunta, según que la distribución de la población sea discreta o continua respectivamente.
Ejemplo 4. La muestra aleatoria simple del Ejemplo 1 está compuesta por n variables aleatorias discretas, independientes y con distribución de Poisson de parámetro . Supongamos que queremos determinar la distribución en el muestreo del estadístico media muestral. En este caso, la media muestral es también una variable aleatoria discreta que puede tomar cada uno de los valores , según sea Por tanto, la distribución en el muestreo de se puede determinar a partir de su función de probabilidad:
pues la variable aleatoria tiene una distribución de Poisson de parámetro nλ.
Ejemplo 5. Teniendo en cuenta la problemática del Ejemplo 2, vamos a determinar, suponiendo la extracción con reemplazamiento de n bolas de la urna, la distribución en el muestreo de la media y la varianza muestrales. Como ya se avanzó, la variable aleatoria X sigue una distribución binomial Bin(l, θ), con espacio paramétrico , por lo que la media muestral , que en este caso proporciona la frecuencia de unos en la muestra, también va a ser una variable aleatoria discreta. Sabiendo que la suma de n variables aleatorias binomiales Bin(1, θ) e independientes sigue una distribución binomial Bin(n, θ), es claro que
En consecuencia,
En cuanto a la varianza muestral s2, también va a ser una variable aleatoria discreta. Puede verse que como Xi únicamente toma valores 0 y 1, es claro que y por tanto, se tiene que
Nótese que s2 va a tomar el mismo valor cuando sea que cuando sea . En cualquier caso, la función de probabilidad de la varianza muestral es
Puesto que , podemos escribir:
Para comprobar que las distribuciones halladas funcionan correctamente podemos particularizar el tamaño de la muestra a n = 3, tal y como hicimos en el Ejemplo 2. De acuerdo con los datos de la tabla 3, los valores de los estadísticos y S2 se especifican junto con sus probabilidades en la tabla 4. La distribución en el muestreo de la media muestral es:
y de la varianza muestral:
Tabla 4. Valores de los estadísticos y S2 y sus probabilidades
X1 = x1 |
X2 = x2 |
X3 = x3 |
S2 |
P{X1 = x1}P{X2 = x2}P {X3 = x3} |
|
1 |
1 |
1 |
1 |
0 |
θ3 |
1 |
1 |
0 |
2/3 |
2/9 |
θ2(1 − θ) |
1 |
0 |
1 |
2/3 |
2/9 |
θ2(1 − θ) |
0 |
1 |
1 |
2/3 |
2/9 |
θ2(1 − θ) |
1 |
0 |
0 |
1/3 |
2/9 |
θ(1 − θ)2 |
0 |
1 |
0 |
1/3 |
2/9 |
θ(1 − θ)2 |
0 |
0 |
1 |
1/3 |
2/9 |
θ(1 − θ)2 |
0 |
0 |
0 |
0 |
0 |
(1 − θ)3 |
Ejemplo 6. Consideremos el caso poblacional del Ejemplo 3 y obtengamos la distribución en el muestreo del estadístico media muestral. Es conocido que la suma de n variables aleatorias exponenciales Exp(θ) e independientes es una variable aleatoria con distribución Gamma . En consecuencia, la distribución en el muestreo del estadístico es
pues recordemos que, para , la función gamma se relaciona con el factorial de la forma !. Por tanto,
2. Estimación puntual
Partimos del problema estadístico de evaluar el parámetro característico que identifica a la distribución de una población dentro de una familia . En este caso, es preciso asignar un valor de Θ que constituya una predicción individual sobre el parámetro de la población, utilizando únicamente información muestral y considerando el parámetro un valor fijo desconocido. En Inferencia Estadística, a esta técnica se le denomina Estimación Puntual, pues lo que se pretende con ella es reducir el desconocimiento acerca del valor paramétrico a un único punto (el más próximo al valor desconocido del parámetro).
Para obtener una estimación puntual del valor paramétrico de una población basta con extraer una muestra (aleatoria simple, en este caso), seleccionar un estadístico y tomar como estimación el valor de T calculado a partir de la muestra. Evidentemente, la estimación puntual del parámetro va a ser función de la muestra observada. A partir de ahora, a los estadísticos (independientes del parámetro) cuyos valores son utilizados para hacer una estimación puntual del parámetro poblacional desconocido, los vamos a llamar estimadores. Por ejemplo, la media muestral (estadístico) es un buen estimador de la media poblacional (parámetro).
Sin embargo, cabe señalar que cuando se particulariza el estimador para una muestra concreta no se puede saber, a priori, si la estimación obtenida se aproxima al valor verdadero del parámetro poblacional. Esto es debido, entre otras cosas, a la aleatoriedad del muestreo y al desconocimiento del valor real del parámetro. Por tanto, para conseguir una buena estimación puntual del parámetro, es fundamental que los estimadores seleccionados satisfagan ciertas condiciones de insesgadez, eficiencia, consistencia y suficiencia, las cuales vamos a explicar en esta sección.
Por otro lado, otra de las cuestiones que hay que abordar en Estimación Puntual es cómo seleccionar los estimadores más adecuados para luego evaluar sus propiedades. Es claro que cualquier función de la muestra puede ser un posible estimador para el parámetro, pero sólo unos pocos son aptos para considerarse objeto de estudio. Por ello, es importante disponer de métodos objetivos que permitan obtener, de entre las infinitas posibilidades, los estimadores más razonables (los que tengan mejores propiedades). En particular, los métodos que vamos a explicar en esta sección van a ser el método de los momentos y el método de la máxima verosimilitud.
2.1 Error Cuadrático Medio de un estimador
Para estudiar si un estadístico es un buen estimador de un parámetro θ desconocido de una población se puede empezar analizando el error cometido en la estimación. El error de estimación se define como la diferencia entre la estimación que se realiza, que denotamos , y el valor real del parámetro θ. Para obtener una medida más práctica se procede a elevar al cuadrado el error de estimación (para eliminar la influencia del signo) y tomar su esperanza matemática. A esta medida se le denomina Error Cuadrático Medio del estimador , y se denota . Por tanto, lo podemos expresar como
El error cuadrático medio supone una medida de la dispersión del estimador alrededor del valor de θ; así, si un estimador tiene un error cuadrático medio pequeño, significa que su distribución está muy concentrada alrededor de la cantidad a estimar, es decir, tal estimador está muy próximo (en media) al parámetro desconocido. Para hacerlo más operativo, expresemos el error cuadrático medio del estimador en función de su media y su varianza. Esto es,
puesto que:
(1).
(2)
(3)
La descomposición del error cuadrático medio en dos sumandos positivos sugiere la necesidad de minimizar ambos simultáneamente si queremos encontrar un buen estimador, pero esto no es posible, en general. Por tanto, una solución consiste en buscar estimadores cuyo error cuadrático medio sea igual a su varianza, es decir, estimadores que satisfagan la igualdad , minimizando así al menos el segundo sumando. De esta forma, tiene sentido pensar que, entre varios estimadores con esta propiedad, será mejor aquel que tenga menor varianza.
Ejemplo 7. De una población normal de media μ desconocida y varianza 4, se extrae una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n y se propone el estadístico como estimador de μ. Veamos cuál es el error cuadrático medio de dicho estimador y si este podría ser o no un buen estimador para μ. En primer lugar, hallemos el valor de la esperanza matemática de :
Se puede observar que , por lo que, a priori, no es el mejor estimador para μ. Hay otros mejores, como, por ejemplo, la media muestral. Por otro lado, para hallar el error cuadrático medio de μ necesitamos calcular previamente su varianza:
Por tanto, el error cuadrático medio de μ es
Ahora bien, si proponemos como estimador la media muestral , se tiene que
y, en consecuencia, , lo que nos lleva a pensar que efectivamente la media muestral es un buen estimador para μ. La varianza, en este caso, es
y, por tanto, . Nótese, que si , entonces , corroborando la bondad del estimador.
Ejemplo 8. Volviendo al Ejemplo 2., supuesto que se realicen n extracciones de la urna, es claro que si cada extracción Xi se distribuye de forma binomial Bin(1, p), entonces la distribución del total de las extracciones es . Se quiere estimar el parámetro desconocido tomando como posibles estimadores los múltiplos de la media muestral, esto es, , con k > 0. Como antes, hallemos la media y la varianza de , en función de k:
En consecuencia el error cuadrático medio de es
El error cuadrático medio de visto como una función de p, que denotamos ECMk(p), es una parábola cuya pendiente en p = 0, aumenta a medida que k crece (ver figura 1). Evidentemente, el mejor estimador para es , pues es claro que y ademós, , cuando . En consecuencia, el estimador es preferible a todos los demás estimadores cuando k > 1. Así, para el caso k > 1 evidentemente, el estimador será mejor estimador que , pues la función vale tomando p = 1 fijo, lo cual indica que para ese valor de p, la función va a ir tomando valores cada vez más altos a medida que k crece. Ahora bien, cuando , ningún estimador va a ser preferible al resto, pues el valor mínimo1 de ECMk(p) se alcanza para , con y, consecuentemente, el estimador que minimiza el error cuadrático medio va a ser uno distinto para cada valor de p. Para que se entienda de una manera más sencilla, en la figura 1 se justifica de manera visual la bondad de los estimadores a partir de las gráficas que generan las funciones ECMk(p).

Figura 1. Función Error Cuadrático Medio ECMk(p) del Ejemplo 8 según los valores de k y tomando n = 30. Puede verse como el mejor estimador para es la media muestral . No existe ninguna otra función que esté por debajo de la gráfica de ECM1(p) en todo el intervalo [0,1]. Nótese como para valores de k > 1, las gráficas de sus funciones estan completamente por encima de la de ECM1(p), por lo que es imposible que los estimadores asociados a esas funciones sean mejores que . De la misma forma, para valores de 0 ≤ k < 1, se puede comprobar como las gráficas tienen tramos en el intervalo [0, 1] que están tanto por debajo como por encima de ECM1(p) y, en consecuencia, sus estimadores asociados tampoco podrán ser mejores que la media muestral.
2.2 Propiedades de los estimadores
2.2.1 Estimador insesgado
Ya avanzamos en la sección anterior que una de las condiciones deseables que tiene que satisfacerse para que un estadístico T(X1, X2, …, Xn) sea un buen estimador de un parámetro poblacional θ desconocido es que su error cuadrático medio sea igual a su varianza. Esto se verifica cuando la media del estimador coincide con el valor verdadero del parámetro desconocido, esto es, , o equivalentemente, . En Inferencia Estadística, un estimador que satisface esta condición se dice que es un estimador insesgado. En consecuencia, si un estimador no es insesgado, entonces y, en este caso, diremos que el estimador tiene un sesgo, función de θ, de valor , para cada . Así, podemos expresar el error cuadrático medio de como .
Entre las propiedades de los estimadores insesgados se encuentran las siguientes:
1.De entre dos estimadores sesgados, será mejor aquel cuyo sesgo sea menor en valor absoluto.
2.De entre varios estimadores insesgados, o varios estimadores sesgados con el mismo sesgo en valor absoluto, será mejor aquel estimador cuya varianza sea menor. En este caso, diremos que el estimador con menor varianza será el más eficiente de todos.
3.Un estimador se dice asintóticamente insesgado si su sesgo tiende a cero a medida que el tamaño de la muestra crece. Esto es, . Evidentemente, si un estimador es insesgado, también será asintóticamente insesgado.
4.Sea θ un parámetro desconocido de una población. Consideremos m estimadores con la misma esperanza y escribamos otro estimador como combinación lineal de los anteriores:
La esperanza de T es
Se puede comprobar que basta que se satisfaga la igualdad para que T sea un estimador con el mismo sesgo que los anteriores. Por tanto, se podrán obtener infinitos estimadores de esta forma: sesgados, con sesgo , si e insesgados, si k = 1.
Cabe señalar que los estimadores insesgados, o con un sesgo muy próximo a cero, es frecuente utilizarlos cuando el tamaño de las muestras es muy elevado. Esto es porque para muestras grandes la varianza del estimador generalmente tiende a ser muy pequeña y, por tanto, su distribución en el muestreo va a estar muy concentrada alrededor de la esperanza del estimador. Sin embargo, cuando el tamaño de las muestras es pequeño, hablar de estimadores insesgados no tendría mucho sentido, pues lo normal, en estos casos, es que la varianza de los estimadores tome valores lo suficientemente grandes como para que el sesgo se pueda despreciar.
2.2.2 Estimador eficiente
Ya pudimos adelantar en la sección anterior que, a igualdad de sesgo, será más eficiente aquel estimador que tenga menor varianza. Es decir, la mayor eficiencia se va a conseguir al disminuir el error cuadrático medio del estimador. Sin embargo, cuando existen muchos estimadores posibles para un mismo parámetro poblacional, encontrar el estimador con menor varianza de todos ellos se complica. Para simplificar la gran cantidad de cálculos que esto conllevaría, podemos recurrir a la Cota de Cramér-Rao (CCR). La Cota de Cramér-Rao se define como:
donde fX(x) recordemos que es la función de probabilidad o de densidad de la muestra según que el caso sea discreto o continuo respectivamente.
La Cota de Cramér-Rao expresa una cota inferior para la varianza de un estimador del parámetro θ. Esto es . Para poder obtener la Cota de Cramér-Rao se deben dar las condiciones de regularidad siguientes:
1.El espacio parámetrico Θ es un conjunto abierto, es decir, cada uno de los elementos que lo constituyen tiene un entorno que está incluido en el mismo conjunto.
2.El soporte de fX(x) dado por el conjunto es finito y no depende del parámetro θ.
3.La función tiene segundas derivdas continuas.
4.La función es diferenciable respecto de θ, para todo x en el soporte de .
5.Para cada , se satisface
Bajo estas condiciones de regularidad, ha de satisfacerse siempre la siguiente igualdad:
Comprobemos que esto es cierto, supuesta X una variable aleatoria continua (se razona de manera análoga para variables discretas utilizando el sumatorio en vez de la integral). Por un lado, es bien sabido que como toda función de densidad se ha de satisfacer que
Se trata de una integral finita, pues el soporte de fX(x) es, por hipótesis, finito. Así que, derivando a ambos lados de la igualdad con respecto a resulta:
Por la definición de esperanza matemática, se concluye la demostración:
Asimismo, aplicando la definición de la varianza que relaciona la esperanza con el momento poblacional de segundo orden2, se tiene que:
Por tanto, aplicando esta igualdad y haciendo que b(θ) = 0 (para estimadores insesgados), la Cota de Cramér-Rao, se reduce a la siguiente expresión:
Ahora bien, podemos hacer aún más sencillo el cálculo de la Cota de Cramér-Rao si derivamos de nuevo respecto a θ en la última igualdad de (1). Aplicando, dentro de la integral, la definición de derivada de un producto entre dos funciones, tenemos que
Por tanto, concluimos que:
A la varianza de , o equivalentemente, la esperanza de , presentes en la Cota de Cramér-Rao, se le denomina Información de Fisher, y se denota . La conveniencia para decidir qué expresión de la Cota de Cramér-Rao es menos costosa de calcular dependerá, entre otras cosas, de la complejidad de la función de probabilidad o densidad de la población.
Por último, para medir cuán de eficiente es un estimador se utiliza la medida de eficiencia (ME) del estimador, que se define como el cociente entre CCR(θ) y , con . Así, si la medida de eficiencia de un estimador toma valores próximos a 1 diremos que dicho estimador tiene buenas propiedades de eficiencia. Si ME = 1, o equivalentemente, , y además es insesgado, entonces diremos que es un estimador insesgado de mínima varianza. Evidentemente, en este caso, estaremos ante el mejor estimador posible.
Ejemplo 9. Sea X una variable aleatoria continua con distribución , con parámetro desconocido. Vamos a probar que es un estimador insesgado de mínima varianza para θ, esto es, , con insesgado. Recordemos que la función de densidad de una distribución exponencial de parámetro λ es , con y que su media y varianza son y respectivamente. Así, tomando , la función de densidad de la distribución es de media y varianza . Veamos primero que es insesgado, esto es, .
Por otro lado, la varianza de es
Ademas,
En consecuencia,
y, por tanto, es un estimador insesgado de mínima varianza, como queríamos demostrar.
Ejemplo 10. Consideremos ahora una variable aleatoria continua X con función de densidad , para , donde es un parámetro de la distribución que se desconoce. Para estimarlo se propone el estimador . Vamos a ver es un estimador insesgado de mánima varianza. En primer lugar, veamos qie es insesgado. En efecto,
pues,
Una vez sabemos que es insesgado, procedemos a calcular la Cota de Cramér-Rao:
pues,
Por tanto,
Para saber es insesgado de mínima varianza nos falta comprobar la igualdad . Por tanto, hallemos la varianza del estimador:
pues,
En consecuencia, como podemos afirmar que se trata de un estimador insesgado de mínima varianza.
2.2.3 Estimador consistente
La cantidad de información que nos proporciona la muestra que se extrae de la población generalmente tiende a aumentar a medida que el tamaño de la muestra crece. En este sentido, un estimador razonable debería recoger ese aumento de información de forma que las posibles estimaciones que se hagan con él sean tanto mejores cuanto mayor sea el número de unidades observadas. Por esta razón, es conveniente estudiar el comportamiento de los estimadores en función del tamaño de la muestra. A esta propiedad de los estimadores se le denomina consistencia.
Un estimador de un parámetro poblacional desconocido θ se denomina consistente si para todo y todo , se verifica
(recordemos que P denota la función de probabilidad o de densidad de la muestra). Es importante aclarar que aquí suponemos que el tamaño de la muestra coincide con el número de elementos de la población. Desde el punto de vista del error cuadrático medio, es consistente si, para cualquier se verifica
o equivalentemente, para cada ,
En consecuencia, puesto que el sesgo y la varianza del estimador tienden a 0 a medida que n crece, podemos decir que un estimador es consistente si es asintóticamente insesgado y con varianza asintóticamente nula. Es importante señalar que, para que un estimador sea consistente, es necesario que se verifiquen las dos condiciones; que se satisfaga únicamente una de ellas no implica que lo sea.
Ejemplo 11. Se extrae una muestra aleatoria simple X1, X2, …, Xn de tamaño n de una población binomial Bin(m, p). Se proponen como estimadores del parámetro los siguientes:
Para ver si son consistentes, veamos y tiende a 0 cuando . Empezamos con el primer estimador:
de donde
Por tanto, es claro que es consistente, pues es insesgado y, por consiguiente, asintóticamente insesgado, y además, tiene varianza asintóticamente nula. Veamos qué ocurre con el segundo estimador:
de donde
Nótese que el sesgo no se anula cuando y, en consecuencia, no puede ser consistente, independientemente de que su varianza sea asintóticamente nula.
2.2.4 Estimador suficiente
En todo problema de estimación paramétrica puede ocurrir que parte de la información que nos proporciona la muestra no sea relevante para conseguir disminuir el desconocimiento del parámetro. Por tanto, es importante saber eliminar tal información, limitándola únicamente al conjunto de datos de la muestra que proporcionan información útil, con el propósito de simplificar el proceso de selección del estimador puntual adecuado. A esta propiedad de los estimadores se le denomina suficiencia. Así, un estimador de un parámetro poblacional desconocido θ se denomina suficiente cuando contiene toda la información relevante contenida en la muestra respecto de θ (ningún otro estadístico puede proporcionar información adicional sobre θ).
Una de las características de la suficiencia es que la distribución de la muestra condicionada por el valor del estadístico ha de ser independiente del parámetro θ. En poblaciones discretas, la función de probabilidad de la muestra va a ser de la forma
cualquiera sea el estadístico T y suponiendo T(x1, x2, …, xn) = t. Nótese que el primer factor indica la obtención T y el segundo, la elección de una muestra que facilite dicho valor a T. Por tanto, un estadístico T será suficiente si la distribución de la muestra (X1, X2, …, Xn) condicionada por el valor de T no depende del parámetro θ. Por supuesto, esto no requiere que las distribuciones tengan que ser discretas ni que la muestra tenga que ser aleatoria simple, pero cualquier otra variante necesitaría de unas explicaciones más detalladas que no se van a explicar en estas notas.
Ejemplo 12. Sea (X1, X2, …, Xn) una muestra aleatoria simple de una población de Poisson de parámetro desconocido, tal que . La función de probabilidad de la muestra es
A partir de tiene sentido pensar que el estadístico . puede que sea suficiente, pues T tiene distribución de Poisson de parámetro , al ser suma de n variables aleatorias independientes e idénticamente distribuidas. Por tanto,
y, en consecuencia
supuesto que (y 0 en otro caso). Podemos concluir que como la muestra, condicionada por su suma, no depende del parámetro λ, el estadístico es suficiente.
Ejemplo 13. Supongamos ahora que la muestra (X1, X2, …, Xn) se selecciona de una población binomial Bin(1, θ), con . La función de probabilidad de la muestra, en este caso, ya se calculó en el Ejemplo 2, resultando
para x1, x2, …, xn ∈ {0,1}. Cabe pensar que el estadístico puede que sea suficiente, pues T tiene distribución binomial Bin(n, θ), al ser suma de n variables aleatorias independientes e idénticamente distribuidas. Por tanto,
y, en consecuencia,
supuesto que (y 0 en otro caso). Podemos concluir que como la muestra, condicionada por su suma, no depende del parámetro θ, el estadístico es suficiente.
Existe un método más general y mucho más directo para comprobar que un estadístico es suficiente. Se trata del Teorema de factorización de Fisher-Neyman, o simplemente Teorema, de factorización. Sea (X1, X2, …, Xn) una muestra aleatoria de una población cuya distribución pertenece a la familia y la función de probabilidad o la función de densidad de la muestra, según que la población sea discreta o continua. Un estadástico T(X1, X2, …, Xn) es un estimador suficiente de θ si y sólo si
siendo g una función que únicamente depende de x1, x2, …, xn a través del valor T(x1, x2, …, xn) del estadístico y h una función que no depende de θ.
Ejemplo 14. Apliquemos el teorema de factorización a los ejemplos anteriores. En el caso del Ejemplo 12,
donde g es una función que sólo depende de los valores x1, x2, …, xn del estadístico y h una función que no depende de λ. En cuanto al Ejemplo 13, la función de probabilidad de la muestra se puede escribir como
donde g nuevamente es una función que únicamente depende de los valores x1, x2, …, xn a través del estadístico y una función que no depende de θ.
2.3 Métodos de estimación
En esta última sección, vamos a ver cómo construir estimadores a partir de dos técnicas de estimación clásicas: el Método de los Momentos y el Método de la Máxima Verosimilitud. Asimismo, comprobaremos, a partir de las propiedades vistas en la sección anterior, si dichos estimadores son óptimos para ser utilizados como estimación del parámetro desconocido de una población (consultar [4] para conocer otros métodos de estimación algo más complejos como son la estimación bayesiana y la estimación mínimo cuadrática).
2.3.1 Método de los Momentos
Sea una población cuya distribución teórica depende de k parámetros desconocidos que se desean estimar. La técnica del Método de los Momentos consiste en igualar los momentos poblacionales de orden r, que no sean constantes, a los correspondientes momentos muestrales (con respecto al origen) de orden r. Los momentos poblaciones de orden r, que denotamos , se definen como
1., para el caso discreto.,
2., para el caso continuo.,
y los momentos muestrales de orden r con respecto al origen como
Nótese que el momento muestral de orden 1 equivale a la media muestral . Se plantean tantas ecuaciones como número de parámetros se quieran estimar con el fin de obtener el sistema de ecuaciones
cuyas soluciones , son los estimadores de por el método de los momentos. Si al igualar los momentos poblacionales y muestrales de orden 1, no se obtiene ninguna ecuación con alguno de los parámetros a estimar, habría que igualar los momentos de orden 2, y así sucesivamente hasta encontrar el sistema de k ecuaciones que relacione los k parámetros a estimar.
Ejemplo 15. Sea () una muestra aleatoria simple de tamaño n de una distribución uniforme U(a, a + b), con parámetros . Vamos a estimar a y b por el método de los momentos. Para ellos, en primer lugar, obtenemos los momentos poblacionales y muestrales de orden 1 y, si es posible, los igualamos para obtener la primera de nuestras ecuaciones. Esto es,
Ahora, hacemos lo mismo con los momentos poblacionales y muestrales de orden 2 para obtener la segunda ecuación:
Despejando a de la primera ecuación y sustituyéndolo en la segunda, tenemos que:
de donde
Así, reemplazando el valor de b en la primera ecuación, tenemos que . Concluimos, por tanto, que los estimadores de los parámetros a y b por el método de los momentos son y .
Ejemplo16. Sea (X1, X2, …, Xn) una muestra aleatoria simple de tamaño n de una distribución con función de densidad de parámetro θ > −1. Vamos a estimar θ por el método de los momentos. Para ello, igualamos, si es posible, los momentos poblacionales y muestrales de orden 1, esto es,
Despejando θ de la ecuación, tenemos que el estimador por el método de los momentos de θ es .
Ejemplo 17. Sea (X1, X2, …, Xn) una muestra aleatoria simple de tamaño n de una distribución con función de probabilidad
de parámetro θ, tal que |θ| < |1 + θ|. Para estimar θ por el método de los momentos igualamos, si es posible, los momentos poblacionales y muestrales de orden 1, esto es,
Por tanto, el estimador por el método de los momentos de θ es .
Propiedades: El método de los momentos es una técnica bastante sencilla en cuanto a cálculos se refiere. Los estimadores obtenidos por este método son, en general, consistentes; sin embargo, no suelen ser insesgados ni suficientes. En algunos casos, las estimaciones dadas por el método de momentos están por fuera del espacio paramétrico (esto ocurre más en muestras pequeñas), por lo que no tiene sentido confiar en ellos. Si se obtienen buenos resultados es casi por casualidad.
2.3.2 Método de la Máxima Verosimilitud
En Inferencia Estadística hablamos de verosimilitud para indicar la confianza que se tiene sobre la estimación de un parámetro atendiendo a la información contenida en la muestra. En este sentido, supongamos que tenemos una muestra aleatoria (X1, X2, …, Xn) de una población cuya distribución teórica pertenece a la familia . Sea la función de probabilidad o de densidad de la muestra, según que la población sea discreta o continua respectivamente. Se denomina función de verosimilitud a la función de probabilidad o de densidad de la muestra considerada como función del parámetro θ para valores fijos (x1, x2, …, xn) de la muestra. La denotamos .
Un estimador del parámetro desconocido θ se denomina estimador de máxima verosimilitud o estimador máximo-verosímil del parámetro θ si
En la práctica es más cómodo trabajar con el logaritmo de la función de verosimilitud puesto que la función logaritmo es monótona creciente. Por tanto, el método de la máxima verosimilitud consiste en buscar el valor de θ que maximice . Esto es, resolver las ecuaciones de verosimilitud:
en el supuesto de que θ = (θ1, θ2, …, θk) sea un parámetro k-dimensional, y seleccionar las soluciones que sean un máximo de .
Ejemplo 18. Supuesta extraída una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n de una distribución con función de densidad fX(x) la del Ejemplo 16, hallemos el estimador de θ por el método de la máxima verosimilitud. El logaritmo de la función de verosimilud de fX(x) es
Puesto que sólo hay que estimar un parámetro, habrá ánicamente una ecuación de verosimilitud:
Veamos si es máximo relativo evaluando la solución en la segunda derivada de la función Esto es,
Concluimos que, efectivamente, el valor de θ que hemos obtenido a partir de la ecuación de verosimilitud es un máximo relativo y, por tanto, el estimador máximo-verosimil de θ es .
Ejemplo 19. Sea (X1, X2, …, Xn) una muestra aleatoria simple de tamaño n de una distribución con función de densidad de parámetro θ > 0. El logaritmo de la función de verosimilitud de fX(x) es
La solución a la ecuación de verosimilitud es
Evaluando la solución en la segunda derivada de la función log fθ se puede comprobar que es un máximo relativo. En efecto,
Concluimos, por tanto, que es el estimador de máxima verosimilitud del parámetro θ.
Propiedades: El método de la máxima verosimilitud da mejores resultados que el método de los momentos debido a las adecuadas propiedades asintóticas que presenta, especialmente, en muestras de gran tamaño. En concreto, los estimadores obtenidos por este método son asintóticamente insesgados y consistentes, su medida de eficiencia suele ser, en general, próxima a 1, y además, son invariantes ante una posible transformación del parámetro (consultar [4] si se quiere profundizar en las propiedades asintóticas de los estimadores de máxima verosimilitud).
Principio (o propiedad) de la invarianza: Sea el estimador obtenido por el método de la máxima verosimilitud de un parámetro desconocido θ de una población. El estimador máximo-verosimil de otro parámetro es .
Ejemplo 20. La media de la población del Ejemplo 19 es
Por tanto, si es el estimador máximo-verosimil de θ, entonces el estimador máximo-verosimil de la media poblacional es
3. Ejercicios
Ejercicio 1. Se selecciona una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n de una población que se distribuye de manera uniforme en el intervalo [0, b], con b > 0. Para estimar b se proponen como estimadores los múltiplos de la media muestral . Determinar cuál debe ser el valor de k para que sea insesgado.
Ejercicio 2. Se selecciona una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n de una población de media μ desconocida y varianza σ2 conocida. Se proponen como estimadores de μ los siguientes: y . Estudiar cuál de los dos estimadores es más eficiente. ¿Se podría obtener un estimador insesgado a partir de y ? En caso afirmativo, indique su forma.
Ejercicio 3. Tres estimadores de un parámetro desconocido θ de una población satisfacen la relación: . Calcular cuál debe ser el valor de a para que el estimador tenga varianza mínima.
Ejercicio 4. Se selecciona una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n de una población de media μ desconocida y varianza conocida. Sea el estadístico un estimador para μ. Calcular el error cuadrático medio de y estudiar su consistencia.
Ejercicio 5. Razonar si el estadístico media muestral es un estimador insesgado de mínima varianza de los parámetros a estimar en cada caso:
a), con .
b), con .
c), con desconocida y conocida.
Ejercicio 6. Sea X una variable aleatoria cuya distribución tiene función de densidad , con x ≥ 0. Se selecciona una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n con el propósito de estimar θ. Obtener el estimador de θ por el método de los momentos y por el método de la máxima verosimilitud y justificar si son estimadores insesgados de mínima varianza.
Ejercicio 7. De la población del Ejemplo 17, se pide:
a)Calcular el estimador del parámetro θ por el método de los momentos y estudiar su consistencia.
b)Calcular el estimador máximo-verosímil de la media y la varianza poblacionales.
Ejercicio 8. De la población del Ejemplo 19, se pide:
a)Calcular el estimador del parámetro θ por el método de los momentos.
b)Calcular el estimador máximo-verosímil de la varianza poblacional.
Ejercicio 9. El tiempo de realización en minutos de una determinada tarea dentro de un proceso industrial se mide a través de una variable aleatoria X con función de densidad , (x > 0) de parámetro θ > 0. Se extrae una muestra aleatoria simple (X1, X2, …, Xn) de tamaño 30 de la población representada por X, resultando los siguientes tiempos, en minutos:
5,56 |
2,23 |
1,37 |
1,87 |
2,44 |
2,71 |
4,69 |
3,47 |
3,51 |
2,57 |
4,33 |
5,12 |
3,77 |
2,27 |
3,15 |
2,37 |
3,05 |
5,10 |
4,83 |
1,65 |
2,97 |
2,35 |
4,75 |
3,68 |
1,76 |
3,20 |
5,33 |
2,59 |
2,31 |
4,32 |
Se pide:
a)Calcular el estimador de θ por el método de los momentos y por el método de la máxima verosimilitud y obtener estimaciones puntuales para θ en ambos casos.
b)Calcular los estimadores máximo-verosímiles de la media y la varianza de la población y obtener estimaciones puntuales para cada una de ellas.
Ejercicio 10. Supuesta extraída una muestra aleatoria simple (X1, X2, …, Xn), calcular el estimador del parámetro θ tanto por el método de los momentos como por el de máxima verosimilitud en los siguientes casos:
a)Función de densidad , con y .
b)Función de densidad , con .
c)Función de densidad , con y .
d)Función de probabilidad , con y .
Ejercicio 11. Se extrae una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n de una población que se distribuye uniformemente en el intervalo [−θ, θ], con θ > 0. Obtener el estimador de θ por el método de los momentos.
Referencias
1 G. Casella y R. Berger, Statistical Inference, 2.a ed. (Ed. Brooks/Cole, Belmont, California, 1990).
2 K. Knight, Mathematical Statistics, 1.a ed. (Ed. Chapman y Hall/CRC Press, New York, NY, 1999)
3 L. Wasserman, All of statistics: a concise course in statistical inference, 1.a ed. (Ed. Springer, New York, NY, 2003).
4 R. Vélez y A. García, Principios de Inferencia Estadística, 1.a ed. (Universidad Nacional de Educación a Distancia, Madrid, España, 2012).
_______________________________
1 Resultado de derivar ECMk(p) con respecto a k e igualar a cero.
2 Sea una variable aleatoria X. Podemos expresar la varianza como V(X) = E(X2) — [E(X)]2, es decir, como la diferencia entre el momento poblacional de segundo orden de X y su media al cuadrado.