Forum Docentis

Buscador

Forum Docentis - Sección IN, Vol. 2024, Núm. 3 (2024)
ISSN: 2952-3052
doi: https://doi.org/10.33732/FD.v2024.n3.20
Recepción: 27/09/2024, Aceptación: 15/10/2024

Introducción a la Estimación Puntual

Daniel Martín-Cudero1*

1 Departamento de Economía Financiera y Contabilidad, Área de Didáctica de la Matemática, Universidad Rey Juan Carlos, Madrid.

*Autor de correspondencia: daniel.mcudero@urjc.es

Resumen

En este artículo se introduce uno de los temas constituyentes de la Inferencia Estadística: la Estimación Puntual. El objetivo de la estimación puntual es estimar el valor de un parámetro desconocido de una población a partir de los datos de una muestra. En concreto, vamos a estudiar las propiedades que debe tener un buen estimador (insesgadez, eficiencia, consistencia y suficiencia) y aplicaremos dos de las técnicas clásicas para la obtención de estimadores (método de los momentos y método de la máxima verosimilitud).

Palabras clave
Estimación puntual — Propiedades de los estimadores — Métodos de estimación

© 2025 Los autores. Publicado por URJC. Este es un artículo de acceso abierto con licencia CC BY.
Cómo citar este artículo: Martín-Cudero, D. Introducción a la Estimación Puntual. Forum Docentis - IN vol. 2025, (3), e20, 2025

Índice

Introducción

1. Conceptos básicos

1.1 Población y distribución teórica

1.1.1 Distribuciones discretas

1.1.2 Distribuciones continuas

1.2 Muestra aleatoria

1.3 Estadísticos y su distribución en el muestreo

2. Estimación puntual

2.1 Error Cuadrático Medio de un estimador

2.2 Propiedades de los estimadores

2.2.1 Estimador insesgado

2.2.2 Estimador eficiente

2.2.3 Estimador consistente

2.2.4 Estimador suficiente

2.3 Métodos de estimación

2.3.1 Método de los Momentos

2.3.2 Método de la Máxima Verosimilitud

3. Ejercicios

Referencias

Introducción

La Teoría de la Probabilidad es la rama de las matemáticas que estudia las propiedades de los fenómenos aleatorios, es decir, aquellos fenómenos en los que interviene el azar y, por tanto, no se pueden predecir, como por ejemplo, el lanzamiento de un dado o de una moneda. Los fenómenos aleatorios se obtienen a partir de experimentos llevados a cabo bajo el mismo conjunto aparente de condiciones iniciales, pudiéndose arrojar diferentes resultados en cada uno de ellos. En consecuencia, en Teoría de la Probabilidad, se dice que los resultados de un determinado fenómeno aleatorio tiene una distribución de probabilidad bien definida, capaz de aproximar de manera adecuada un conjunto de datos que se comportan de manera aleatoria.

Los procesos que se modelizan mediante distribuciones de probabilidad corresponden a leyes de probabilidad donde no se conocen, a priori, todos los parámetros que intervienen. Así, si se desea ahondar en la forma de adaptar una ley o modelo probabilístico concreto a cada situación aleatoria extraída de la realidad, va a ser necesario llevar a cabo observaciones del fenómeno que se pretende analizar. Por ejemplo, la mejor opción para inferir si un dado está bien equilibrado es realizar un número elevado de lanzamientos y verificar, a partir de los resultados obtenidos, la confirmación o invalidez de la corrección del dado; o, por ejemplo, si se desea estudiar la distribución de la estatura de los individuos de una población, no cabe más alternativa que conocer la altura de un gran número de ellos. En este sentido, disponer de un conjunto de observaciones acerca del fenómeno a estudiar, permite obtener información sobre su modelo de probabilidad. De esta forma, dejamos a un lado el campo de la Teoría de la Probabilidad para introducirnos en la rama de la Inferencia Estadística o Estadística Matemática.

Se pueden plantear diversos problemas de Inferencia Estadística en base a la situación aleatoria que se considere. Por ejemplo, estimar un intervalo numérico para un parámetro desconocido de una distribución (intervalos de confianza); aceptar o rechazar una afirmación acerca de la distribución de probabilidad del fenómeno estudiado (contrastes de hipótesis); o utilizar la información proporcionada por las observaciones para obtener una estimación acerca del parámetro desconocido de la distribución (estimación puntual). Es justamente esta última situación la que se va a desarrollar a lo largo de este documento, pero no sin antes repasar algunas nociones básicas que el lector debe conocer y tener bien asumidas para abordar adecuadamente los conceptos posteriores sobre estimación puntual que se van a explicar.

La estimación puntual es un tema que se imparte tanto en grados de Ciencias y Ciencias Sociales como en Ingeniería e Informática. Obviamente, suele introducirse de manera más o menos compleja, según los objetivos marcados para cada grado. Por esta razón, se ha optado por una presentación tradicional de los contenidos evitando, en la medida de lo posble, formalismos y tecnicismos que puedan dificultar la lectura a estudiantes con escaso rigor matemático. El objetivo es que estas notas puedan servir como referencia a estudiantes de cualquier grado en el que la Estadística Matemática forme parte de su progreso académico. Asimismo, para aquellos estudiantes que necesiten ampliar sus conocimientos sobre este tema, se proponen para su consulta algunas referencias algo más técnicas y formalistas (consultar [1-4]).

1. Conceptos básicos

1.1 Población y distribución teórica

Como ya se adelantó en la introducción, todo problema de Inferencia Estadística se origina por el desconocimiento del modelo de probabilidad que sigue un determinado fenómeno aleatorio. La distribución desconocida F de la variable aleatoria X involucrada en dicho problema se denomina distribución teórica; sin embargo, puesto que la Inferencia Estadística se utiliza para sacar conclusiones acerca de la distribución de alguna característica de los elementos de una población, también suele denominarse distribución de la población. Entiéndase el concepto población como el conjunto de los elementos sometidos a estudio o conjunto de posibles resultados de un experimento aleatorio.

El mayor o menor grado de desconocimiento acerca de la distribución de la población se manifiesta en los modelos de Inferencia a partir de la familia F de distribuciones que se postulan a ser la distribución teórica real. Nos centramos aquí en la familia compuesta por distribuciones dependientes de un parámetro θ (valor representativo de la población), de una o más dimensiones, que varía dentro de un subconjunto Θ de ℝk que denominamos espacio paramétrico. Esto es,

F={FΘ:θΘk}.

Las familias de distribuciones que se presentan en los problemas de Inferencia Estadística que vamos a tratar aquí van a ser: familias de distribuciones discretas, si la variable aleatoria o característica poblacional que se desea estudiar es discreta, es decir, únicamente puede tomar valores finitos o contables (como el número de resultados al lanzar un dado, el número de incendios al año en una ciudad, etc.); o bien familias de distribuciones continuas, si la variable aleatoria o característica poblacional objeto de análisis es continua, es decir, que puede tomar infinitos valores dentro de un intervalo de números reales (como la estatura, el peso, la duración, etc.). Mientras que las primeras están caracterizadas por su función de probabilidad, las segundas lo están por su función de densidad.

Ambas son funciones matemáticas que describen la probabilidad de que una variable aleatoria X tome un determinado valor x. Escribiremos fX(x) para definirlas, independientemente de que sean discretas o continuas. Así, si FX(x) es la distribución teórica asociada a X, se tiene que:

FX(x)=P(Xx)=k=0[x]fX(k), si X es discreta.

FX(x)=P(Xx)=xfX(t) dt, si X es continua.

1.1.1 Distribuciones discretas

Las distribuciones de probabilidad para variables discretas más habituales son la binomial, la binomial negativa, la geométrica y la distribución de Poisson. En la tabla 1 se describen las funciones de probabilidad, media y varianza de cada una de ellas.

Distribución Binomial: Familia de distribuciones de probabilidad para variables aleatorias discretas que cuentan el número de éxitos que se obtienen al realizar n experimentos independientes y dicotómicos (con dos posibles resultados, éxito o fracaso) con una probabilidad de éxito p constante. Por ejemplo, una variable aleatoria que sigue este tipo de distribución puede ser el número de veces que se obtiene un número par al lanzar un dado n veces. El parámetro de la distribución binomial es θ = (n, p) y su espacio paramétrico Θ=(0,)×[0,1]×. Además, la suma de m variables aleatorias independientes X1,X2,,Xm tal que Xi~Bin(ni,p), es una variable aleatoria con distribución Bin(i=1nni,p)).

Distribución Binomial Negativa: Familia de distribuciones de probabilidad para variables aleatorias discretas que cuentan el número de fracasos que se observan antes de obtener un número fijo n de éxitos al realizar experimentos dicotómicos independientes, con una probabilidad de éxito p constante en cada uno. Por ejemplo, una variable aleatoria que sigue este tipo de distribución puede ser el número de tiros fallidos que se tienen antes de encestar 5 veces en una serie de lanzamientos al aro. El parámetro de la distribución binomial negativa es θ = (n, p) y su espacio paramétrico Θ=(0,)×[0,1]×.

Distribución Geométrica: Familia de distribuciones de probabilidad para variables aleatorias discretas que cuentan el número de fracasos antes del primer éxito cuando se realizan experimentos dicotómicos e independientes con una probabilidad de éxito p constante. Por ejemplo, una variable aleatoria que sigue este tipo de distribución puede ser el número de lanzamientos de un dado que se tienen que realizar hasta obtener el número 5. El parámetro de la distribución geométrica es θ=p su espacio paramétrico Θ=[0,1]. La distribución geométrica es un caso particular de la distribución binominal negativa con parámetro n = 1. Esto es, Geo(p)=BN(1,p). Además, la suma de n variables aleatorias independientes e idénticamente distribuidas X1,X2,,Xn~Geo(p), es una variable aleatoria con distribución BN(n, p).

Distribución de Poisson: Familia de distribuciones de probabilidad para variables aleatorias discretas que describen el número de veces que se repite un cierto evento en un intervalo de tiempo dado. En general, se utiliza para describir sucesos cuya probabilidad de éxito es muy baja. Por ejemplo, una variable aleatoria que sigue este tipo de distribución puede ser el número de llamadas que recibe una central telefónica en un minuto. El parámetro de la distribución de Poisson es θ = λ y su espacio paramétrico Θ=(0,). Además, la suma de n variables aleatorias independientes e idénticamente distribuidas X1,X2,,Xn~Poi(λ), es una variable aleatoria con distribución Poi().

Tabla 1. Distribuciones discretas más utilizadas

Distribución

Notación

Parámetros

Función de probabilidad, fX(x)

Media

Varianza

Binomial

Bin(n, p)

n ∈ ℕ, p ∈ [0, 1]

(nx)px(1p)nx,x=0,1,2,,n

np

np(1 − p)

Geométrica

Geo(p)

p ∈ [0, 1]

p(1p)x1,x=1,2,3,

1p

1pp2

Poisson

Poi(λ)

λ > 0

λxeλx!,x=0,1,2,

λ

λ

Binomial Negativa

BN(n, p)

n,p[0,1]

(x1xn)pn(1p)xn,x=0,1,2,,n

n(1p)p

n(1p)p2

1.1.2 Distribuciones continuas

Las distribuciones de probabilidad para variables continuas más habituales son la normal, la exponencial y la distribución gamma. En la tabla 2 se describen las funciones de densidad, media y varianza de cada una de ellas.

Distribución Uniforme Continua: Familia de distribuciones de probabilidad para variables aleatorias continuas que toman valores en un intervalo finito de manera equiprobable. Esto es, todos los resultados con valores en un intervalo finito tiene la misma probabilidad de ocurrir. La distribución uniforme continua queda definida por el intervalo [a, b] de equiprobabilidad. Por ejemplo, si el resultado de un experimento aleatorio puede tomar cualquier valor real en el intervalo [2, 7] y todos los posibles resultados tienen la misma probabilidad de ocurrir, el experimento se puede modelizar con una distribución uniforme continua U(2, 7). El parámetro de la distribución es θ = (a, b) y su espacio paramétrico Θ=×=2.

Distribución Normal: Familia de distribuciones de probabilidad para variables aleatorias continuas que modelizan fenómenos reales de características muy diferentes (fenómenos naturales, sociales y psicológicos). La gráfica de su función de densidad tiene forma de campana, es simétrica respecto de su media μ y tiene puntos de inflexión en x=μσ. Asimismo, es útil para aproximar otros tipos de distribuciones bajo ciertas condiciones. El parámetro de la distribución normal es θ=(μ,σ) y su espacio paramétrico Θ=×(0,)2.

Distribución Exponencial: Familia de distribuciones de probabilidad para variables aleatorias continuas que modelizan el tiempo de espera para la ocurrencia de un fenómeno aleatorio determinado. En particular, permite describir el tiempo de espera entre dos fenómenos que siguen una distribución de Poisson. Una variable aleatoria que sigue este tipo de distribución puede ser el tiempo transcurrido en una central telefónica hasta recibir la primera llamada del día, o el tiempo que transcurre entre dos llamadas consecutivas. El parámetro de la distribución exponencial es θ = λ y su espacio paramétrico Θ=(0,).

Distribución Gamma: Familia de distribuciones de probabilidad para variables aleatorias continuas que habitualmente se utilizan para modelizar datos que son asimétricos a la derecha de la gráfica de la función de densidad, existiendo así una mayor concentración de datos en su parte izquierda. Por ejemplo, la distribución Gamma se utiliza para modelar la fiabilidad de componentes eléctricos. El parámetro de la distribución es θ=(α,λ), donde α es el parámetro característico de forma y λ el de escala. El espacio paramétrico es Θ=(0,)×(0,)×=2. Además, como propiedades importantes de esta distribución podemos destacar las siguientes: (a) si α = 1, entonces Γ(1,λ)=Exp(λ); (b) la suma de n variables aleatorias independientes e idénticamente distribuidas X1,X2,,Xn~Exp(λ), es una variable aleatoria con distribución Γ(n,λ); (c) la suma de n variables aleatorias independientes X1,X2,,Xn tal que Xi~Γ(αi,λ), es una variable aleatoria con distribución Γ(i=1nαi,λ).

Tabla 2. Distribuciones continuas más utilizadas

Distribución

Notación

Parámetros

Función de densidad, fX(x)

Media

Varianza

Uniforme

U(a, b)

{a, b} ∈ ℝ, a < b

1ba,x[a,b]

a+b2

(ba)212

Normal

N(µ, σ2)

µ ∈ ℝ, σ > 0

1σ2πe(xμ)22σ2,x

μ

σ2

Exponencial

Exp(λ)

λ >0

λeλx,x0

1λ

1λ2

Gamma

Γ(α, λ)

α, λ > 0

λ(λx)α1eλxΓ(α),Γ(α)=0tα1etdt,x>0

αλ

αλ2

1.2 Muestra aleatoria

Una vez conocemos los conceptos básicos involucrados en una población y los modelos de probabilidad más habituales que esta puede seguir, centrémonos ahora en las observaciones que nos van a permitir disminuir el desconocimiento de la distribución teórica de la variable aleatoria X objeto de estudio. Dichas observaciones pueden obtenerse realizando n repeticiones del experimento aleatorio y anotando los valores de X en cada una de ellas. De esta forma, se obtiene lo que denominamos muestra aleatoria de X de tamaño n, la cual está constituida por el conjunto de valores numéricos (x1, x2, …, xn). A este respecto, lo ideal es que la muestra sea un subconjunto representativo de la población. Esta sería fácil de seleccionar si se conociese la distribución de la población; sin embargo, cuando esta es desconocida la única solución es esperar que el azar suministre una muestra con unas características similares a las de la población. En este caso, lo más simple para precisar la distribución teórica es realizar n repeticiones independientes del experimento aleatorio observando en cada una el valor de la variable X que se quiere estudiar. En este caso, diremos que la muestra ha sido seleccionada por muestreo aleatorio simple.

Muestra aleatoria simple: Una muestra aleatoria simple, de tamaño n, de una variable aleatoria X con distribución teórica F, son n variables aleatorias (X1, X2, …, Xn), independientes e igualmente distribuidas. De estas forma, la función de distribución conjunta de una muestra aleatoria simple correspondiente a la distribución F, es

F(X1,X2,,Xn)(x1,x2,,xn)=i=1n FXi(xi).

Ejemplo 1. Consideremos la variable aleatoria X que describe el número de incendios que se producen por unidad de tiempo en un determinado país. En este caso, todo apunta a que la distribución teórica F es la de una Poisson de parámetro θ > 0. A este respecto, podemos aceptar que el número de incendios que se producen en unidades de tiempo distintas son independientes entre sí. En consecuencia, para obtener una muestra aleatoria simple de tamaño n basta con observar el número de incendios que se producen durante n días. Entonces, la probabilidad de que la muestra (X1, X2, …, Xn) tome cada uno de los valores (x1, x2, …, xn) es

f(X1,X2,,Xn)(x1,x2,,xn)=i=1nfXi(xi)=i=1nθxieθxi!=θi=1nxienθi=1nxi!,(xi{0}).

Ejemplo 2. A diferencia del ejemplo anterior, podemos considerar una variable aleatoria X cuya distribución a priori sea desconocida. Por ejemplo, supongamos que queremos conocer la probabilidad de extraer una bola negra de una urna que contiene bolas blancas y negras. La variable, en este caso, es

X={1,si se extrae una bola negra0,si se extrae una bola blanca,

donde la probabilidad de éxito es P{X = 1} = θ y la de fracaso P{X = 0} = 1 − θ, es decir, la distribución de X dependerá del parámetro θ ∈ [0,1]. Supongamos también que únicamente se puede realizar 3 extracciones con reemplazamiento. Es claro que cada extracción es independiente de las otras y por tanto, podemos obtener una muestra aleatoria simple (X1, X2, X3) de tamaño 3 que tome los valores (x1, x2, x3), con xi ∈ {0,1}. Esto nos va a permitir disminuir el desconocimiento de la distribución teórica F de X. Los resultados de todas las muestras posibles se dan en la tabla 3.

Tabla 3. Probabilidades según las muestras posibles

X1 = x1

X2 = x2

X3 = x3

P{X1 = x1}P {X2 = x2}P{X3 = x3}

1

1

1

θ3

1

1

0

θ2(1 − θ)

1

0

1

θ2(1 − θ)

0

1

1

θ2(1 − θ)

1

0

0

θ(1 − θ)2

0

1

0

θ(1 − θ)2

0

0

1

θ(1 − θ)2

0

0

0

(1 − θ)3

Nótese, por ejemplo, como la probabilidad de obtener 2 bolas negras y 1 blanca es θ2(1 — θ) sin importar el orden de extracción. La independencia entre las extracciones hace que la probabilidad de cada muestra sea el producto de las probabilidades de los resultados que la componen. Esto nos va a permitir determinar la distribución de la muestra a partir de su función de probabilidad. Para hallar la función de probabilidad de la población, para este caso concreto, basta con visualizar las expresiones de las probabilidades de la tabla para darse cuenta que ha de tener la forma

fX(x)=θx(1θ)1x,(x=0 ó 1).

Puede verse como fX(0)=P{X=0}=1θ si x = 0 y fX(1)=P{X=1}=θ si x = 1. Por tanto, la función de probabilidad de la muestra la podemos expresar como sigue:

f(X1,X2,X3)(x1,x2,x3)=θx1(1θ)1x1θx2(1θ)1x2θx3(1θ)1x3=θx1+x2+x3(1θ)3(x1+x2+x3).

Es fácil comprobar que el problema se reduce a extraer una muestra aleatoria simple de tamaño 3 de una población que sigue una distribución Bin(1, p), con parámetro θ = p. Por tanto, cabe esperar, que si la muestra se ampliara a n extracciones, la función de probabilidad de la muestra sería:

f(X1,X2,,Xn)(x1,x2,,xn)=i=1nfXi(xi)=θi=1nxi(1θ)ni=1nxi.

Ejemplo 3. Sea X la variable aleatoria: tiempo t que transcurre hasta que se recibe la primera llamada del día en una central telefónica. En este caso, es claro que la mejor distribución que describe este suceso es una exponencial de parámetro θ > 0, con función de densidad fX(t) = θe-θt para t ≥ 0. Supongamos que se obtiene una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n con valores t1, t2, …, tn. La función de densidad de la muestra es

f(X1,X2,,Xn)(t1,t2,,tn)=i=1nfXi(ti)=i=1nθeθti=θneθi=1nti,(ti0).

Para terminar con los conceptos relacionados con población y muestra, veamos un aspecto importante sobre convergencia de variables aleatorias: el Teorema Central del Limite. De manera intuitiva y operativa este teorema se puede describir de la siguiente manera:

Teorema Central del Límite: Sea la suma de n variables aleatorias X1, X2, …, Xn independientes e idénticamente distribuidas, con media E(Xi) y varianza V(Xi) finitas. El teorema establece que la función de distribución de la suma de estas n variables i=1nXi converge a una variable aleatoria con distribución normal N(nE(Xi),nV(Xi)). El teorema es válido cuando la suma de estas variables es lo suficientemente grande (como norma general, n ≥ 30). Algunas consecuencias del Teorema Central del Límite pueden ser, entre otras:

Si Xi~Bin(1,p), entonces i=1nXi~Bin(n,p)N(E(i=1nXi),V(i=1nXi))N(np,np(1p)).

Si Xi~Poi(λ), entonces i=1nXi~Poi(nλ)N(E(i=1nXi),V(i=1nXi))N(nλ,nλ).

Si Xi~N(μ,σ), entonces i=1nXi~N(nμ,nσ2)N(E(i=1nXi),V(i=1nXi))N(nμ,nσ2).

Si Xi~Exp(λ), entonces i=1nXi~Γ(n,λ)N(E(i=1nXi),V(i=1nXi))N(nλ,nλ2).

Ahora bien, podemos aplicar el Teorema Central del Límite para estudiar la convergencia de la distribución de las medias muestrales. Esto es, la media de una muestra se aproxima por el Teorema Central del Límite a una distribución normal a medida que el tamaño de la muestra aumenta, independientemente de la distribución de probabilidad de la población. Como norma general, el tamaño de la muestra ha de ser como mínimo de 30 observaciones y el número de muestras extraídas de la población suficientemente grande, aunque esto dependerá también de las características de la variable aleatoria que se esté estudiando.

Así, si una población ξ tiene de media E(ξ) = μ y varianza V(ξ) = σ2 y tomamos de ella un número de muestras lo suficientemente grande (n ≥ 30), el conjunto de las medias muestrales se aproxima a una distribución normal N(μ,σ2/n). En efecto, si X es la variable aleatoria objeto de estudio asociada a la población, por un lado,

E(X¯)=E(1ni=1nXi)=1nE(i=1nXi)=1n[E(X1)μ+E(X2)μ+(n)+E(Xn)μ]=nμn=μ,

y por otro,

V(X¯)=V(1ni=1nXi)=1n2V(i=1nXi)=1n2[V(X1)σ2+V(X2)σ2+(n)+V(Xn)σ2]=nσ2n2=σ2n.

1.3 Estadísticos y su distribución en el muestreo

Para resolver cualquier problema de inferencia estadística es importante conocer la función de los valores muestrales (resultados observados de la muestra), sea cual sea el método que se utilice para resolverlo. Esta función se denomina estadístico y la denotamos T(xi, x2, …, xn). Supuesta extraída una muestra aleatoria simple de tamaño n de una población, los estadísticos de uso más frecuente son:

T1(x1,x2,,xn)=i=1nxi, el total de la muestra.

T2(x1,x2,,xn)=1ni=1nxi, la media aritmética de la muestra o media muestral, que denotamos x¯.

T3(x1,x2,,xn)=1ni=1nxir, el momento muestral de orden r respecto al origen, que denotamos ar.

T4(x1,x2,,xn)=1ni=1nxi2x¯2, la varianza de los valores muestrales, que denotamos s2.

T5(x1,x2,,xn)=1ni=1nxirx¯r, el momento muestral de orden r respecto a la media, que denotamos br.

T6(x1,x2,,xn)=nn1s2, la cuasivarianza de los valores muestrales, que denotamos sn12.

T7(x1,x2,,xn)=1ni=1nI{Xi=k}, la frecuencia observada del valor k en una muestra de tamaño n.

T8(x1,x2,,xn)=mín(x1,x2,,xn), el menor valor muestral, que denotamos x(1).

T9(x1,x2,,xn)=máx(x1,x2,,xn), el mayor valor muestral, que denotamos x(n).

T10(x1,x2,,xn)=i=1nlogxi=log(i=1nxi)

Cuando se considera la muestra (X1, X2, …, Xn) como una variable aleatoria, el estadístico T(X1, X2, …, Xn) también es a su vez otra variable aleatoria, ya que no puede predecir el valor que tomará después de efectuar el muestreo aleatorio simple. Por esta razón, es importante considerar la distribución de probabilidad de T(X1, X2, …, Xn) que nos de la probabilidad con que se puede tomar cada valor (x1, x2, …, xn) de la muestra. En concreto, se denomina distribución en el muestreo de un estadístico T a la distribución de la variable aleatoria T(X1, X2, …, Xn). Es decir, el estadístico presenta una distribución de probabilidad derivada de la distribución de la muestra, P, la cual suele identificarse con su función de probabilidad o de densidad conjunta, según que la distribución de la población sea discreta o continua respectivamente.

Ejemplo 4. La muestra aleatoria simple del Ejemplo 1 está compuesta por n variables aleatorias discretas, independientes y con distribución de Poisson de parámetro λ>0. Supongamos que queremos determinar la distribución en el muestreo del estadístico media muestral. En este caso, la media muestral X¯ es también una variable aleatoria discreta que puede tomar cada uno de los valores r=0,1/n,2/n,,k/n,(k+1)/n,, según sea i=1nXi=0,1,2,,k,k+1,. Por tanto, la distribución en el muestreo de X¯ se puede determinar a partir de su función de probabilidad:

Pλ{X¯=r}=Pλ{1ni=1nXi=r}=Pλ{i=1nXi=nr}=(nλ)nrenλ(nr)!,

pues la variable aleatoria i=1nXi tiene una distribución de Poisson de parámetro .

Ejemplo 5. Teniendo en cuenta la problemática del Ejemplo 2, vamos a determinar, suponiendo la extracción con reemplazamiento de n bolas de la urna, la distribución en el muestreo de la media y la varianza muestrales. Como ya se avanzó, la variable aleatoria X sigue una distribución binomial Bin(l, θ), con espacio paramétrico Θ=[0,1], por lo que la media muestral X¯, que en este caso proporciona la frecuencia de unos en la muestra, también va a ser una variable aleatoria discreta. Sabiendo que la suma i=1nXi de n variables aleatorias binomiales Bin(1, θ) e independientes sigue una distribución binomial Bin(n, θ), es claro que

Pθ{i=1nXi=r}=(nr)θr(1θ)nr,(r=0,1,2,,n).

En consecuencia,

Pθ{i=1nXi=r}=Pθ{1ni=1nXi=rn}=Pθ{X¯=rn}=(nr)θr(1θ)nr,(r=0,1,2,,n).

En cuanto a la varianza muestral s2, también va a ser una variable aleatoria discreta. Puede verse que como Xi únicamente toma valores 0 y 1, es claro que i=1nXi=i=2nXi2 y por tanto, se tiene que

s2=1ni=1nXi2X¯2=i=1nXin(i=1nXi)2n2=ni=1nXi(i=1nXi)2n2=i=1nXi(ni=1nXi)n2.

Nótese que s2 va a tomar el mismo valor cuando sea i=1nXi=r que cuando sea i=1nXi=nr. En cualquier caso, la función de probabilidad de la varianza muestral es

Pθ{s2=r(nr)n2}=Pθ{i=1nXi=r}+Pθ{i=1nXi=nr}=(nr)θr(1θ)nr+(nnr)θnr(1θ)r.

Puesto que (nr)=(nnr), podemos escribir:

Pθ{s2=r(nr)n2}=(nr)[θr(1θ)nr+θnr(1θ)r],(r=0,1,2,,n).

Para comprobar que las distribuciones halladas funcionan correctamente podemos particularizar el tamaño de la muestra a n = 3, tal y como hicimos en el Ejemplo 2. De acuerdo con los datos de la tabla 3, los valores de los estadísticos X¯ y S2 se especifican junto con sus probabilidades en la tabla 4. La distribución en el muestreo de la media muestral es:

Pθ{X¯=rn}={(1θ)3,sir=03θ(1θ)2,sir=13θ2(1θ),sir=2θ3,sir=3,

y de la varianza muestral:

Pθ{S2=r(nr)n2}={θ3+(1θ)3,sir=0θ2(1θ)+θ(1θ)2,sir=1θ2(1θ)+θ(1θ)2,sir=2θ3+(1θ)3,sir=3.

Tabla 4. Valores de los estadísticos X¯ y S2 y sus probabilidades

X1 = x1

X2 = x2

X3 = x3

X¯

S2

P{X1 = x1}P{X2 = x2}P {X3 = x3}

1

1

1

1

0

θ3

1

1

0

2/3

2/9

θ2(1 − θ)

1

0

1

2/3

2/9

θ2(1 − θ)

0

1

1

2/3

2/9

θ2(1 − θ)

1

0

0

1/3

2/9

θ(1 − θ)2

0

1

0

1/3

2/9

θ(1 − θ)2

0

0

1

1/3

2/9

θ(1 − θ)2

0

0

0

0

0

(1 − θ)3

Ejemplo 6. Consideremos el caso poblacional del Ejemplo 3 y obtengamos la distribución en el muestreo del estadístico media muestral. Es conocido que la suma de n variables aleatorias exponenciales Exp(θ) e independientes es una variable aleatoria con distribución Gamma Γ(n,θ). En consecuencia, la distribución en el muestreo del estadístico T(X1,X2,,Xn)=i=1n es

Pθ{i=1nXi=t}=θ(θt)n1eθtΓ(n)=θntn1eθt(n1)!,(t>0),

pues recordemos que, para n+, la función gamma Γ(n) se relaciona con el factorial de la forma Γ(n)=(n1)!. Por tanto,

Pθ{i=1nXi=t}=Pθ{1ni=1nXi=tn}=Pθ{X¯=tn}=θntn1eθt(n1)!,(t>0)

2. Estimación puntual

Partimos del problema estadístico de evaluar el parámetro característico que identifica a la distribución de una población dentro de una familia F={FθθΘ}. En este caso, es preciso asignar un valor de Θ que constituya una predicción individual sobre el parámetro de la población, utilizando únicamente información muestral y considerando el parámetro un valor fijo desconocido. En Inferencia Estadística, a esta técnica se le denomina Estimación Puntual, pues lo que se pretende con ella es reducir el desconocimiento acerca del valor paramétrico a un único punto (el más próximo al valor desconocido del parámetro).

Para obtener una estimación puntual del valor paramétrico de una población basta con extraer una muestra (aleatoria simple, en este caso), seleccionar un estadístico T(X1,X2,,Xn) y tomar como estimación el valor de T calculado a partir de la muestra. Evidentemente, la estimación puntual del parámetro va a ser función de la muestra observada. A partir de ahora, a los estadísticos (independientes del parámetro) cuyos valores son utilizados para hacer una estimación puntual del parámetro poblacional desconocido, los vamos a llamar estimadores. Por ejemplo, la media muestral (estadístico) es un buen estimador de la media poblacional (parámetro).

Sin embargo, cabe señalar que cuando se particulariza el estimador para una muestra concreta no se puede saber, a priori, si la estimación obtenida se aproxima al valor verdadero del parámetro poblacional. Esto es debido, entre otras cosas, a la aleatoriedad del muestreo y al desconocimiento del valor real del parámetro. Por tanto, para conseguir una buena estimación puntual del parámetro, es fundamental que los estimadores seleccionados satisfagan ciertas condiciones de insesgadez, eficiencia, consistencia y suficiencia, las cuales vamos a explicar en esta sección.

Por otro lado, otra de las cuestiones que hay que abordar en Estimación Puntual es cómo seleccionar los estimadores más adecuados para luego evaluar sus propiedades. Es claro que cualquier función de la muestra puede ser un posible estimador para el parámetro, pero sólo unos pocos son aptos para considerarse objeto de estudio. Por ello, es importante disponer de métodos objetivos que permitan obtener, de entre las infinitas posibilidades, los estimadores más razonables (los que tengan mejores propiedades). En particular, los métodos que vamos a explicar en esta sección van a ser el método de los momentos y el método de la máxima verosimilitud.

2.1 Error Cuadrático Medio de un estimador

Para estudiar si un estadístico T(X1,X2,,Xn) es un buen estimador de un parámetro θ desconocido de una población se puede empezar analizando el error cometido en la estimación. El error de estimación se define como la diferencia entre la estimación que se realiza, que denotamos T=θ^, y el valor real del parámetro θ. Para obtener una medida más práctica se procede a elevar al cuadrado el error de estimación (para eliminar la influencia del signo) y tomar su esperanza matemática. A esta medida se le denomina Error Cuadrático Medio del estimador θ^, y se denota ECM(θ^). Por tanto, lo podemos expresar como

ECM(θ^)=E[(θ^θ)2].

El error cuadrático medio supone una medida de la dispersión del estimador θ^ alrededor del valor de θ; así, si un estimador tiene un error cuadrático medio pequeño, significa que su distribución está muy concentrada alrededor de la cantidad a estimar, es decir, tal estimador está muy próximo (en media) al parámetro desconocido. Para hacerlo más operativo, expresemos el error cuadrático medio del estimador en función de su media y su varianza. Esto es,

ECM(θ^)=E[(θ^θ)2]=E[(θ^E(θ^)+E(θ^)θ)2]==E[(θ^E(θ^))2+2(θ^E(θ^))(E(θ^)θ)+(E(θ^)θ)2]==E[(θ^E(θ^))2](1)+2E(θ^E(θ^))(2)E(E(θ^)θ)+E[(E(θ^)θ)2](3)==V(θ^)+(E(θ^)θ)2,

puesto que:

(1)E[(θ^E(θ^))2]=V(θ^).

(2)E(θ^)E[E(θ^)]=E(θ^)E(θ^)=0.

(3)E[(E(θ^)θ)2]=[E(θ^)θ]2

La descomposición del error cuadrático medio en dos sumandos positivos sugiere la necesidad de minimizar ambos simultáneamente si queremos encontrar un buen estimador, pero esto no es posible, en general. Por tanto, una solución consiste en buscar estimadores cuyo error cuadrático medio sea igual a su varianza, es decir, estimadores que satisfagan la igualdad E(θ^)θ=0, minimizando así al menos el segundo sumando. De esta forma, tiene sentido pensar que, entre varios estimadores con esta propiedad, será mejor aquel que tenga menor varianza.

Ejemplo 7. De una población normal de media μ desconocida y varianza 4, se extrae una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n y se propone el estadístico μ^=(3X1+2Xn)/4 como estimador de μ. Veamos cuál es el error cuadrático medio de dicho estimador y si este podría ser o no un buen estimador para μ. En primer lugar, hallemos el valor de la esperanza matemática de μ^:

E(μ^)=E(3X1+2Xn4)=34E(X1)+24E(Xn)=34μ+24μ=54μ,puesE(Xi)=μ.

Se puede observar que E(μ^)μ=μ/40, por lo que, a priori, no es el mejor estimador para μ. Hay otros mejores, como, por ejemplo, la media muestral. Por otro lado, para hallar el error cuadrático medio de μ necesitamos calcular previamente su varianza:

V(μ^)=V(3X1+2Xn4)=(34)2V(X1)+(24)2V(Xn)=9164+4164=134,puesV(Xi)=4.

Por tanto, el error cuadrático medio de μ es

ECM(μ^)=134+(54μ)2=134+2516μ2.

Ahora bien, si proponemos como estimador la media muestral X¯, se tiene que

E(X¯)=E(1ni=1nXi)=1nE(i=1nXi)=1nnμ=μ,

y, en consecuencia, E(X¯)μ=0, lo que nos lleva a pensar que efectivamente la media muestral es un buen estimador para μ. La varianza, en este caso, es

V(X¯)=V(1ni=1nXi)=1n2V(i=1nXi)=1n24n=4n,

y, por tanto, ECM(X¯)=V(X¯). Nótese, que si n, entonces V(X¯)0, corroborando la bondad del estimador.

Ejemplo 8. Volviendo al Ejemplo 2., supuesto que se realicen n extracciones de la urna, es claro que si cada extracción Xi se distribuye de forma binomial Bin(1, p), entonces la distribución del total de las extracciones es i=1nXi~Bin(n,p). Se quiere estimar el parámetro desconocido p[0,1] tomando como posibles estimadores los múltiplos de la media muestral, esto es, Tk(X1,X2,,Xn)=p^k=kX¯, con k > 0. Como antes, hallemos la media y la varianza de p^k, en función de k:

E(p^k)=E(kX¯)=E(kni=1nXi)=knE(i=1nXi)=knnp=kp,puesE(Xi)=p.

V(p^k)=E(kX¯)=V(kni=1nXi)=k2n2V(i=1nXi)=k2n2np(1p)=k2p(1p)n,puesV(Xi)=p(1p).

En consecuencia el error cuadrático medio de p^k es

ECM(p^k)=ECM(kX¯)=k2p(1p)n+(kpp)2=k2pk2p2+n(kpp)2n=k2pk2p2+np2(k1)2n==p2[n(k1)2k2]n+k2pn=[(k1)2k2n]p2+k2np.

El error cuadrático medio de p^k visto como una función de p, que denotamos ECMk(p), es una parábola cuya pendiente en p = 0, p=0,ECMk(0)=k2/n aumenta a medida que k crece (ver figura 1). Evidentemente, el mejor estimador para p^k es p^1=X¯, pues es claro que E(p^1)p=0 y ademós, ECM(p^1)=V(p^1)=p(1p)/n0, cuando n0. En consecuencia, el estimador p^1 es preferible a todos los demás estimadores p^k cuando k > 1. Así, para el caso k > 1 evidentemente, el estimador p^k será mejor estimador que p^k+1, pues la función vale (k1)2 tomando p = 1 fijo, lo cual indica que para ese valor de p, la función va a ir tomando valores cada vez más altos a medida que k crece. Ahora bien, cuando 0k<1, ningún estimador va a ser preferible al resto, pues el valor mínimo1 de ECMk(p) se alcanza para k=np/(npp+1), con k[0,1) y, consecuentemente, el estimador p^k que minimiza el error cuadrático medio va a ser uno distinto para cada valor de p. Para que se entienda de una manera más sencilla, en la figura 1 se justifica de manera visual la bondad de los estimadores a partir de las gráficas que generan las funciones ECMk(p).

Figura 1. Función Error Cuadrático Medio ECMk(p) del Ejemplo 8 según los valores de k y tomando n = 30. Puede verse como el mejor estimador para p^k es la media muestral p^1. No existe ninguna otra función que esté por debajo de la gráfica de ECM1(p) en todo el intervalo [0,1]. Nótese como para valores de k > 1, las gráficas de sus funciones estan completamente por encima de la de ECM1(p), por lo que es imposible que los estimadores asociados a esas funciones sean mejores que p^k. De la misma forma, para valores de 0 ≤ k < 1, se puede comprobar como las gráficas tienen tramos en el intervalo [0, 1] que están tanto por debajo como por encima de ECM1(p) y, en consecuencia, sus estimadores asociados tampoco podrán ser mejores que la media muestral.

2.2 Propiedades de los estimadores

2.2.1 Estimador insesgado

Ya avanzamos en la sección anterior que una de las condiciones deseables que tiene que satisfacerse para que un estadístico T(X1, X2, …, Xn) sea un buen estimador de un parámetro poblacional θ desconocido es que su error cuadrático medio sea igual a su varianza. Esto se verifica cuando la media del estimador θ^ coincide con el valor verdadero del parámetro desconocido, esto es, E(θ^)=θ, o equivalentemente, E(θ^)θ=0. En Inferencia Estadística, un estimador que satisface esta condición se dice que es un estimador insesgado. En consecuencia, si un estimador no es insesgado, entonces E(θ^)θ0 y, en este caso, diremos que el estimador tiene un sesgo, función de θ, de valor b(θ)=E(θ^)θ, para cada θΘ. Así, podemos expresar el error cuadrático medio de θ^ como ECM(θ^)=V(θ^)+b2(θ).

Entre las propiedades de los estimadores insesgados se encuentran las siguientes:

1.De entre dos estimadores sesgados, será mejor aquel cuyo sesgo sea menor en valor absoluto.

2.De entre varios estimadores insesgados, o varios estimadores sesgados con el mismo sesgo en valor absoluto, será mejor aquel estimador cuya varianza sea menor. En este caso, diremos que el estimador con menor varianza será el más eficiente de todos.

3.Un estimador se dice asintóticamente insesgado si su sesgo tiende a cero a medida que el tamaño de la muestra crece. Esto es, limnb(θ)=0. Evidentemente, si un estimador es insesgado, también será asintóticamente insesgado.

4.Sea θ un parámetro desconocido de una población. Consideremos m estimadores θ^1θ^2,,θ^m con la misma esperanza E(θ^i)=kθ(k{0}) y escribamos otro estimador como combinación lineal de los anteriores:

T=a1θ^1+a2θ^2++amθ^m=i=1maiθ^i,(ai{0}).

La esperanza de T es

E(T)=E(i=1maiθ^i)=i=1mE(aiθi)=i=1maiE(θi)=kθi=1mai,(k{0}).

Se puede comprobar que basta que se satisfaga la igualdad ki=1mai=1 para que T sea un estimador con el mismo sesgo que los θ^i anteriores. Por tanto, se podrán obtener infinitos estimadores de esta forma: sesgados, con sesgo b(θ)=kθθ=θ(k1), si k1 e insesgados, si k = 1.

Cabe señalar que los estimadores insesgados, o con un sesgo muy próximo a cero, es frecuente utilizarlos cuando el tamaño de las muestras es muy elevado. Esto es porque para muestras grandes la varianza del estimador generalmente tiende a ser muy pequeña y, por tanto, su distribución en el muestreo va a estar muy concentrada alrededor de la esperanza del estimador. Sin embargo, cuando el tamaño de las muestras es pequeño, hablar de estimadores insesgados no tendría mucho sentido, pues lo normal, en estos casos, es que la varianza de los estimadores tome valores lo suficientemente grandes como para que el sesgo se pueda despreciar.

2.2.2 Estimador eficiente

Ya pudimos adelantar en la sección anterior que, a igualdad de sesgo, será más eficiente aquel estimador que tenga menor varianza. Es decir, la mayor eficiencia se va a conseguir al disminuir el error cuadrático medio del estimador. Sin embargo, cuando existen muchos estimadores posibles para un mismo parámetro poblacional, encontrar el estimador con menor varianza de todos ellos se complica. Para simplificar la gran cantidad de cálculos que esto conllevaría, podemos recurrir a la Cota de Cramér-Rao (CCR). La Cota de Cramér-Rao se define como:

CCR(θ)=[1+θb(θ)]2nE[(θlogfX(x))2],(0<E[(θlogfX(x))2]<),

donde fX(x) recordemos que es la función de probabilidad o de densidad de la muestra según que el caso sea discreto o continuo respectivamente.

La Cota de Cramér-Rao expresa una cota inferior para la varianza de un estimador del parámetro θ. Esto es V(θ^)CCR(θ). Para poder obtener la Cota de Cramér-Rao se deben dar las condiciones de regularidad siguientes:

1.El espacio parámetrico Θ es un conjunto abierto, es decir, cada uno de los elementos que lo constituyen tiene un entorno que está incluido en el mismo conjunto.

2.El soporte de fX(x) dado por el conjunto sop(f)={x:fX(x)>0} es finito y no depende del parámetro θ.

3.La función θΘfX(x) tiene segundas derivdas continuas.

4.La función θΘlogfX(x) es diferenciable respecto de θ, para todo x en el soporte de fX(x).

5.Para cada θΘ, se satisface

sop(f)|θlogfX(x)|2fX(x)dx<.

Bajo estas condiciones de regularidad, ha de satisfacerse siempre la siguiente igualdad:

E[θlogfX(x)]=0,para todoθΘ.

Comprobemos que esto es cierto, supuesta X una variable aleatoria continua (se razona de manera análoga para variables discretas utilizando el sumatorio en vez de la integral). Por un lado, es bien sabido que como toda función de densidad se ha de satisfacer que

xsop(f)fX(x)dx=1,(θΘ).

Se trata de una integral finita, pues el soporte de fX(x) es, por hipótesis, finito. Así que, derivando a ambos lados de la igualdad con respecto a θΘ resulta:

xsop(f)θfX(x)dx=xsop(f)[θfX(x) dxfX(x)] fX(x)dx=xsop(f)[θlog fX(x)]fX(x)dx=0.          (1)

Por la definición de esperanza matemática, se concluye la demostración:

xsop(f)[θlog fX(x)]fX(x) dx=E[θlog fX(x)]=0.

Asimismo, aplicando la definición de la varianza que relaciona la esperanza con el momento poblacional de segundo orden2, se tiene que:

V[θlog fX(x)]=E[(θlog fX(x))2][E(θlog fX(x))]20=E[(θlog fX(x))2].          (2)

Por tanto, aplicando esta igualdad y haciendo que b(θ) = 0 (para estimadores insesgados), la Cota de Cramér-Rao, se reduce a la siguiente expresión:

V(θ^)CCR(θ)=1nV[θlog fX(x)],(0<V[θlog fX(x)]<).

Ahora bien, podemos hacer aún más sencillo el cálculo de la Cota de Cramér-Rao si derivamos de nuevo respecto a θ en la última igualdad de (1). Aplicando, dentro de la integral, la definición de derivada de un producto entre dos funciones, tenemos que

0=xsop(f)[θlog fX(x)]fX(x)dx==xsop(f)[2θ2log fX(x)]fX(x)dx+xsop(f)[θlog fX(x)][θfX(x)]()dx=()θlog fX(x)=1fX(x)θfX(x)θfX(x)=[θlog fX(x)]fX(x).=xsop(f)[2θ2log fX(x)]fX(x)dx+xsop(f)[θlog fX(x)]2fX(x)dx==E[2θ2log fX(x)]+E[(θlog fX(x))2]expresión (2)=E[2θ2log fX(x)]+V[θlog fX(x)].

Por tanto, concluimos que:

V[θlog fX(x)]=E[2θ2log fX(x)]V(θ^)CCR(θ)=1nE[2θ2log fX(x)].

A la varianza de θlog fX(x), o equivalentemente, la esperanza de 2θ2log fX(x), presentes en la Cota de Cramér-Rao, se le denomina Información de Fisher, y se denota IX(θ). La conveniencia para decidir qué expresión de la Cota de Cramér-Rao es menos costosa de calcular dependerá, entre otras cosas, de la complejidad de la función de probabilidad o densidad de la población.

Por último, para medir cuán de eficiente es un estimador se utiliza la medida de eficiencia (ME) del estimador, que se define como el cociente entre CCR(θ) y V(θ^), con 0ME1. Así, si la medida de eficiencia de un estimador toma valores próximos a 1 diremos que dicho estimador tiene buenas propiedades de eficiencia. Si ME = 1, o equivalentemente, V(θ^)=CCR(θ), y además θ^ es insesgado, entonces diremos que θ^ es un estimador insesgado de mínima varianza. Evidentemente, en este caso, estaremos ante el mejor estimador posible.

Ejemplo 9. Sea X una variable aleatoria continua con distribución X~Exp(1/θ), con parámetro θ>0 desconocido. Vamos a probar que θ^=X¯ es un estimador insesgado de mínima varianza para θ, esto es, V(θ^)=CCR(θ), con θ^ insesgado. Recordemos que la función de densidad de una distribución exponencial de parámetro λ es fX(x)=λeλx, con x0 y que su media y varianza son E(X)=1/λ y V(X)=1/λ2 respectivamente. Así, tomando λ=1/θ, la función de densidad de la distribución X~Exp(1/θ) es fX(x)=(1/θ)ex/θ de media E(X)=θ y varianza V(X)=θ2. Veamos primero que X¯ es insesgado, esto es, E(X¯)=θ.

E(X¯)=E(1ni=1nXi)=1nE(i=1nXi)=1nnθ=θ,

Por otro lado, la varianza de X¯ es

V(X¯)=V(1ni=1nXi)=1n2V(i=1nXi)=1n2nθ2=θ2n.

Ademas,

V[θlog fX(x)]=V[θlog (1θexθ)]=V[θ(log (1θ)xθ)]=V(1θ+xθ2)==V(1θ)0, ya que V(a)=0, a+V(xθ2)=1θ4V(x)=1θ4θ2=1θ2.

En consecuencia,

CCM(θ)=1n1θ2=θ2n=V(X¯),

y, por tanto, X¯ es un estimador insesgado de mínima varianza, como queríamos demostrar.

Ejemplo 10. Consideremos ahora una variable aleatoria continua X con función de densidad fX(x)=1θx1θ1, para 0<x<1, donde θ>0 es un parámetro de la distribución que se desconoce. Para estimarlo se propone el estimador θ^=T(X1,X2,,Xn)=1ni=1nlog (1Xi). Vamos a ver θ^ es un estimador insesgado de mánima varianza. En primer lugar, veamos qie θ^ es insesgado. En efecto,

E(θ^)=E[1ni=1nlog (1Xi)]=1nE[i=1nlog (1Xi)]=1nnθ=θ,          (3)

pues,

E[log (1X)]=01log (1x)fX(x)dx=01log (1x)1θx1θ1dx=θ.

Una vez sabemos que es insesgado, procedemos a calcular la Cota de Cramér-Rao:

V[θlog fX(x)]=V[θlog (1θx1θ1)]=V[θ(log (1θ)+(1θ1)log (x))]==V[1θ1θ2log (x)]=V(1θ)0+V(1θ2log (x))==1θ4V[log (x)]=1θ4θ2=1θ2,

pues,

V[log (x)]=E[log2 (x)][E(log (x))]2=01log2 (x)fX(x)dx[01log (x)fX(x)dx]2==01log2 (x)1θx1θ1dx[01log (x)1θx1θ1dx]2=2θ2(θ)2=θ2

Por tanto,

CCM(θ)=1n1θ2=θ2n.

Para saber θ^ es insesgado de mínima varianza nos falta comprobar la igualdad CCM(θ)=V(θ^). Por tanto, hallemos la varianza del estimador:

V(θ^)=V[1ni=1nlog (1Xi)]=1n2V[i=1nlog (1Xi)]=1n2nθ2=θ2n,

pues,

V[log (1X)]=E[log2 (1X)][E(log (1X))]2θ2,resuelto en (3)=(01log2 (1x)fX(x)dx)θ2==(01log2 (1x)1θx1θ1dx)θ2=2θ2θ2=θ2.

En consecuencia, como CCR(θ)=V(θ^) podemos afirmar que θ^ se trata de un estimador insesgado de mínima varianza.

2.2.3 Estimador consistente

La cantidad de información que nos proporciona la muestra que se extrae de la población generalmente tiende a aumentar a medida que el tamaño de la muestra crece. En este sentido, un estimador razonable debería recoger ese aumento de información de forma que las posibles estimaciones que se hagan con él sean tanto mejores cuanto mayor sea el número de unidades observadas. Por esta razón, es conveniente estudiar el comportamiento de los estimadores en función del tamaño de la muestra. A esta propiedad de los estimadores se le denomina consistencia.

Un estimador θ^ de un parámetro poblacional desconocido θ se denomina consistente si para todo ϵ>0 y todo θΘ, se verifica

P{|θ^θ|>ϵ}0,n

(recordemos que P denota la función de probabilidad o de densidad de la muestra). Es importante aclarar que aquí suponemos que el tamaño de la muestra coincide con el número de elementos de la población. Desde el punto de vista del error cuadrático medio, θ^ es consistente si, para cualquier θΘ se verifica

ECM(θ^)0,n

o equivalentemente, para cada θΘ,

b(θ)=E(θ^)θ0yV(θ^)0,n.

En consecuencia, puesto que el sesgo y la varianza del estimador tienden a 0 a medida que n crece, podemos decir que un estimador es consistente si es asintóticamente insesgado y con varianza asintóticamente nula. Es importante señalar que, para que un estimador sea consistente, es necesario que se verifiquen las dos condiciones; que se satisfaga únicamente una de ellas no implica que lo sea.

Ejemplo 11. Se extrae una muestra aleatoria simple X1, X2, …, Xn de tamaño n de una población binomial Bin(m, p). Se proponen como estimadores del parámetro p[0,1] los siguientes:

p^1=T1(X1,X2,,Xn)=X¯myp^2=T2(X1,X2,,Xn)=X¯m+1.

Para ver si son consistentes, veamos b(p^1),b(p^2),V(p^1) y V(p^2) tiende a 0 cuando n. Empezamos con el primer estimador:

E(p^1)=E(X¯m)=E(i=1nXinm)=1nmE(i=1nXi)=1nmnmp=p,E(p^2)=E(X¯m+1)=E[i=1nXin(m+1)]=1n(m+1)E(i=1nXi)=1n(m+1)nmp=mpm+1,V(p^1)=V(X¯m)=V(i=1nXinm)=1n2m2V(i=1nXi)=1n2m2p(1p)=p(1p)nm,

de donde

límnb(p^1)=límnE(p^1)p=límn0=0ylímnV(p^1)=límnp(1p)nm=límnp(1p)=0.

Por tanto, es claro que p^1 es consistente, pues es insesgado y, por consiguiente, asintóticamente insesgado, y además, tiene varianza asintóticamente nula. Veamos qué ocurre con el segundo estimador:

E(p^2)=E(X¯m+1)=E[i=1nXin(m+1)]=1n(m+1)E(i=1nXi)=1n(m+1)nmp=mpm+1,

de donde

límnb(p^2)=límnE(p^2)p=límnnpm+1p=0.

Nótese que el sesgo no se anula cuando n y, en consecuencia, p^2 no puede ser consistente, independientemente de que su varianza sea asintóticamente nula.

2.2.4 Estimador suficiente

En todo problema de estimación paramétrica puede ocurrir que parte de la información que nos proporciona la muestra no sea relevante para conseguir disminuir el desconocimiento del parámetro. Por tanto, es importante saber eliminar tal información, limitándola únicamente al conjunto de datos de la muestra que proporcionan información útil, con el propósito de simplificar el proceso de selección del estimador puntual adecuado. A esta propiedad de los estimadores se le denomina suficiencia. Así, un estimador θ^ de un parámetro poblacional desconocido θ se denomina suficiente cuando contiene toda la información relevante contenida en la muestra respecto de θ (ningún otro estadístico puede proporcionar información adicional sobre θ).

Una de las características de la suficiencia es que la distribución de la muestra Pθ{X1=x1,X2=x2,,Xn=xn} condicionada por el valor del estadístico T(X1,X2,,Xn) ha de ser independiente del parámetro θ. En poblaciones discretas, la función de probabilidad de la muestra va a ser de la forma

Pθ{X1=x1,X2=x2,,Xn=xn}=Pθ{T=t}Pθ{X1=x1,X2=x2,,Xn=xnT=t}

cualquiera sea el estadístico T y suponiendo T(x1, x2, …, xn) = t. Nótese que el primer factor indica la obtención T y el segundo, la elección de una muestra que facilite dicho valor a T. Por tanto, un estadístico T será suficiente si la distribución de la muestra (X1, X2, …, Xn) condicionada por el valor de T no depende del parámetro θ. Por supuesto, esto no requiere que las distribuciones {FθθΘ} tengan que ser discretas ni que la muestra tenga que ser aleatoria simple, pero cualquier otra variante necesitaría de unas explicaciones más detalladas que no se van a explicar en estas notas.

Ejemplo 12. Sea (X1, X2, …, Xn) una muestra aleatoria simple de una población de Poisson de parámetro λ>0 desconocido, tal que Xi~Poi(λ). La función de probabilidad de la muestra es

Pλ{X1=x1,X2=x2,,Xn=xn}=i=1nfXi(xi)=λx1eλx1!λx2eλx2!λxneλxn!=λi=1nxienλi=1nxi!.

A partir de Pλ tiene sentido pensar que el estadístico T(X1,X2,,Xn)=i=1nXi. puede que sea suficiente, pues T tiene distribución de Poisson de parámetro nλ, al ser suma de n variables aleatorias independientes e idénticamente distribuidas. Por tanto,

Pλ{T=t}=(nλ)tenλt!,

y, en consecuencia

Pλ{X1=x1,X2=x2,,Xn=xnT=t}=Pλ{X1=x1,X2=x2,,Xn=xn}Pλ{T=t}=λi=1nxienλi=1nxi!(nλ)tenλt!=t!nti=!nxi!,

supuesto que i=1nxi=t (y 0 en otro caso). Podemos concluir que como la muestra, condicionada por su suma, no depende del parámetro λ, el estadístico T=i=1nXi es suficiente.

Ejemplo 13. Supongamos ahora que la muestra (X1, X2, …, Xn) se selecciona de una población binomial Bin(1, θ), con θ[0,1]. La función de probabilidad de la muestra, en este caso, ya se calculó en el Ejemplo 2, resultando

Pθ{X1=x1,X2=x2,,Xn=xn}=i=1nfXi(xi)=θi=1nxi(1θ)ni=1nxi,

para x1, x2, …, xn ∈ {0,1}. Cabe pensar que el estadístico T(X1,X2,,Xn)=i=1nXi puede que sea suficiente, pues T tiene distribución binomial Bin(n, θ), al ser suma de n variables aleatorias independientes e idénticamente distribuidas. Por tanto,

Pθ{T=t}=(nt)θt(1θ)nt,

y, en consecuencia,

Pθ{X1=x1,X2=x2,,Xn=xnT=t}=Pθ{X1=x1,X2=x2,,Xn=xn}Pθ{T=t}=θt(1θ)nt(nt)θt(1θ)nt=1(nt),

supuesto que i=1nxi=t (y 0 en otro caso). Podemos concluir que como la muestra, condicionada por su suma, no depende del parámetro θ, el estadístico T=i=1nXi es suficiente.

Existe un método más general y mucho más directo para comprobar que un estadístico es suficiente. Se trata del Teorema de factorización de Fisher-Neyman, o simplemente Teorema, de factorización. Sea (X1, X2, …, Xn) una muestra aleatoria de una población cuya distribución pertenece a la familia F={FθθΘ} y f(X1,X2,,Xn)(x1,x2,,xn) la función de probabilidad o la función de densidad de la muestra, según que la población sea discreta o continua. Un estadástico T(X1, X2, …, Xn) es un estimador suficiente de θ si y sólo si

f(X1,X2,,Xn)(x1,x2,,xn)=g(X1,X2,,Xn)[T(x1,x2,,xn)]h(x1,x2,,xn),

siendo g una función que únicamente depende de x1, x2, …, xn a través del valor T(x1, x2, …, xn) del estadístico y h una función que no depende de θ.

Ejemplo 14. Apliquemos el teorema de factorización a los ejemplos anteriores. En el caso del Ejemplo 12,

f(X1,X2,,Xn)(x1,x2,,xn)=λi=1nxienλgX1i=1nxi!h=g(X1,X2,,Xn)(i=1nxi)h(x1,x2,,xn),

donde g es una función que sólo depende de los valores x1, x2, …, xn del estadístico T(X1,X2,,Xn)=i=1nXi y h una función que no depende de λ. En cuanto al Ejemplo 13, la función de probabilidad de la muestra se puede escribir como

f(X1,X2,,Xn)(x1,x2,,xn)=θi=1nxi(1θ)ni=1nxigX1h=g(X1,X2,,Xn)(i=1nxi)h(x1,x2,,xn),

donde g nuevamente es una función que únicamente depende de los valores x1, x2, …, xn a través del estadístico T(X1,X2,,Xn)=i=1nXi y h(x1,x2,,xn)=1 una función que no depende de θ.

2.3 Métodos de estimación

En esta última sección, vamos a ver cómo construir estimadores a partir de dos técnicas de estimación clásicas: el Método de los Momentos y el Método de la Máxima Verosimilitud. Asimismo, comprobaremos, a partir de las propiedades vistas en la sección anterior, si dichos estimadores son óptimos para ser utilizados como estimación del parámetro desconocido de una población (consultar [4] para conocer otros métodos de estimación algo más complejos como son la estimación bayesiana y la estimación mínimo cuadrática).

2.3.1 Método de los Momentos

Sea una población cuya distribución teórica depende de k parámetros desconocidos θ1,θ2,,θn que se desean estimar. La técnica del Método de los Momentos consiste en igualar los momentos poblacionales de orden r, que no sean constantes, a los correspondientes momentos muestrales (con respecto al origen) de orden r. Los momentos poblaciones de orden r, que denotamos αr(θ1,θ2,,θk), se definen como

1.E(Xr)=αr(θ1,θ2,,θk)=xxrfX(x), para el caso discreto.,

2.E(Xr)=αr(θ1,θ2,,θk)=xxrfX(x)dx, para el caso continuo.,

y los momentos muestrales de orden r con respecto al origen como

ar=1ni=1nXir.

Nótese que el momento muestral de orden 1 equivale a la media muestral X¯. Se plantean tantas ecuaciones como número de parámetros se quieran estimar con el fin de obtener el sistema de ecuaciones

{αr(θ1,θ2,,θn)=arr=1,2,,k,

cuyas soluciones θ^1θ^2,,θ^k, son los estimadores de θ1,θ2,,θn por el método de los momentos. Si al igualar los momentos poblacionales y muestrales de orden 1, no se obtiene ninguna ecuación con alguno de los parámetros a estimar, habría que igualar los momentos de orden 2, y así sucesivamente hasta encontrar el sistema de k ecuaciones que relacione los k parámetros a estimar.

Ejemplo 15. Sea (X1,X2,,Xn) una muestra aleatoria simple de tamaño n de una distribución uniforme U(a, a + b), con parámetros a,b (a<b). Vamos a estimar a y b por el método de los momentos. Para ellos, en primer lugar, obtenemos los momentos poblacionales y muestrales de orden 1 y, si es posible, los igualamos para obtener la primera de nuestras ecuaciones. Esto es,

α1=E(X)=2a+b2=a+b2a1=1ni=1nXi=X¯}X¯=a+b2.

Ahora, hacemos lo mismo con los momentos poblacionales y muestrales de orden 2 para obtener la segunda ecuación:

α2=E(X2)=V(X)+[E(X)]2=b212+(a+b2)2=a2+ab+b23a2=1ni=1nXi2}1ni=1nXi2=a2+ab+b23.

Despejando a de la primera ecuación y sustituyéndolo en la segunda, tenemos que:

1ni=1nXi2=(X¯b2)2+b(X¯b2)+b23=X¯2b24bX¯+bX¯b22+b23=X¯2+b212,

de donde

b2=12(1ni=1nXi2X¯2)s2(varianza muestral)=12s2b=23s2.

Así, reemplazando el valor de b en la primera ecuación, tenemos que a=X¯3s2. Concluimos, por tanto, que los estimadores de los parámetros a y b por el método de los momentos son a^=X¯3s2 y b^=23s2.

Ejemplo16. Sea (X1, X2, …, Xn) una muestra aleatoria simple de tamaño n de una distribución con función de densidad fX(x)=xθ(1+θ)(0<x<1) de parámetro θ > −1. Vamos a estimar θ por el método de los momentos. Para ello, igualamos, si es posible, los momentos poblacionales y muestrales de orden 1, esto es,

α1=E(X)=01xfX(x)dx=(1+θ)01x1+θdx=1+θ2+θa1=1ni=1nXi=X¯}X¯=1+θ2+θ.

Despejando θ de la ecuación, tenemos que el estimador por el método de los momentos de θ es θ^=2X¯11X¯.

Ejemplo 17. Sea (X1, X2, …, Xn) una muestra aleatoria simple de tamaño n de una distribución con función de probabilidad

fX(x)=1+θθ2(θ1+θ)x,(x2)

de parámetro θ, tal que |θ| < |1 + θ|. Para estimar θ por el método de los momentos igualamos, si es posible, los momentos poblacionales y muestrales de orden 1, esto es,

α1=E(X)=x=2xfX(x)=1+θθ2x=2x(θ1+θ)x=1+θθ2θ2(θ+2)θ+1=θ+2a1=1ni=1nXi=X¯}X¯=θ+2.

Por tanto, el estimador por el método de los momentos de θ es θ^=X¯2.

Propiedades: El método de los momentos es una técnica bastante sencilla en cuanto a cálculos se refiere. Los estimadores obtenidos por este método son, en general, consistentes; sin embargo, no suelen ser insesgados ni suficientes. En algunos casos, las estimaciones dadas por el método de momentos están por fuera del espacio paramétrico (esto ocurre más en muestras pequeñas), por lo que no tiene sentido confiar en ellos. Si se obtienen buenos resultados es casi por casualidad.

2.3.2 Método de la Máxima Verosimilitud

En Inferencia Estadística hablamos de verosimilitud para indicar la confianza que se tiene sobre la estimación de un parámetro atendiendo a la información contenida en la muestra. En este sentido, supongamos que tenemos una muestra aleatoria (X1, X2, …, Xn) de una población cuya distribución teórica pertenece a la familia F{FθθΘ}. Sea f(X1,X2,,Xn)(x1,x2,,xn) la función de probabilidad o de densidad de la muestra, según que la población sea discreta o continua respectivamente. Se denomina función de verosimilitud a la función de probabilidad o de densidad de la muestra considerada como función del parámetro θ para valores fijos (x1, x2, …, xn) de la muestra. La denotamos fθ(x1,x2,,xn).

Un estimador θ^ del parámetro desconocido θ se denomina estimador de máxima verosimilitud o estimador máximo-verosímil del parámetro θ si

fθ^(x1,x2,,xn)=máxθΘ fθ(x1,x2,,xn).

En la práctica es más cómodo trabajar con el logaritmo de la función de verosimilitud puesto que la función logaritmo es monótona creciente. Por tanto, el método de la máxima verosimilitud consiste en buscar el valor de θ que maximice log fθ(x1,x2,,xn). Esto es, resolver las ecuaciones de verosimilitud:

{θilog fθ(x1,x2,,xn)=0i=1,2,,k,

en el supuesto de que θ = (θ1, θ2, …, θk) sea un parámetro k-dimensional, y seleccionar las soluciones que sean un máximo de log fθ.

Ejemplo 18. Supuesta extraída una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n de una distribución con función de densidad fX(x) la del Ejemplo 16, hallemos el estimador de θ por el método de la máxima verosimilitud. El logaritmo de la función de verosimilud de fX(x) es

fθ(x1,x2,,xn)=i=1nxiθ(1+θ)=(i=1nxi)θ(1+θ)nlog fθ(x1,x2,,xn)=θlog i=1nxi+nlog (1+θ).

Puesto que sólo hay que estimar un parámetro, habrá ánicamente una ecuación de verosimilitud:

θlog fθ(x1,x2,,xn)=log i=1nxi+n1+θ=i=1nlog (xi)+n1+θ=0θ=ni=1nlog (xi)1.

Veamos si θ=[n/i=1nlog (xi)]1 es máximo relativo evaluando la solución en la segunda derivada de la función log fθ Esto es,

2θ2log fθ(x1,x2,,xn)=n(1+θ)2n(1+ni=1nlog (xi)1)2=[i=1nlog (xi)]2n<0.

Concluimos que, efectivamente, el valor de θ que hemos obtenido a partir de la ecuación de verosimilitud es un máximo relativo y, por tanto, el estimador máximo-verosimil de θ es θ^=[n/i=1nlog (xi)]1.

Ejemplo 19. Sea (X1, X2, …, Xn) una muestra aleatoria simple de tamaño n de una distribución con función de densidad fX(x)=2θxeθx2(x>0) de parámetro θ > 0. El logaritmo de la función de verosimilitud de fX(x) es

fθ(x1,x2,,xn)=i=1n2θxeθx2=(2θ)neθi=1nxi2i=1nxilog fθ(x1,x2,,xn)=nlog (2θ)θi=1nxi2+log i=1nxi.

La solución a la ecuación de verosimilitud es

θlog fθ(x1,x2,,xn)=nθi=1nxi2θ=ni=1nxi2.

Evaluando la solución en la segunda derivada de la función log fθ se puede comprobar que θ=n/i=1nxi2 es un máximo relativo. En efecto,

2θ2log fθ(x1,x2,,xn)=nθ2n(n/i=1nxi2)2=(i=1nxi2)2n<0.

Concluimos, por tanto, que θ^=n/i=1nxi2 es el estimador de máxima verosimilitud del parámetro θ.

Propiedades: El método de la máxima verosimilitud da mejores resultados que el método de los momentos debido a las adecuadas propiedades asintóticas que presenta, especialmente, en muestras de gran tamaño. En concreto, los estimadores obtenidos por este método son asintóticamente insesgados y consistentes, su medida de eficiencia suele ser, en general, próxima a 1, y además, son invariantes ante una posible transformación del parámetro (consultar [4] si se quiere profundizar en las propiedades asintóticas de los estimadores de máxima verosimilitud).

Principio (o propiedad) de la invarianza: Sea θ^ el estimador obtenido por el método de la máxima verosimilitud de un parámetro desconocido θ de una población. El estimador máximo-verosimil de otro parámetro δ=h(θ) es δ^=h(θ^).

Ejemplo 20. La media de la población del Ejemplo 19 es

E(X)=0xfX(x)dx=02θx2eθx2dx=12πθ.

Por tanto, si θ^=n/i=1nxi2 es el estimador máximo-verosimil de θ, entonces el estimador máximo-verosimil de la media poblacional es

E(X)^=12πθ^=12πn/i=1nxi2=12πi=1nxi2n.

3. Ejercicios

Ejercicio 1. Se selecciona una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n de una población que se distribuye de manera uniforme en el intervalo [0, b], con b > 0. Para estimar b se proponen como estimadores los múltiplos de la media muestral b^k=kX¯,conk{0}. Determinar cuál debe ser el valor de k para que b^k sea insesgado.

Ejercicio 2. Se selecciona una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n de una población de media μ desconocida y varianza σ2 conocida. Se proponen como estimadores de μ los siguientes: μ^1=(X1+Xn1+Xn)/3 y μ^2=(2X1X2+Xn)/2. Estudiar cuál de los dos estimadores es más eficiente. ¿Se podría obtener un estimador insesgado a partir de μ^1 y μ^2? En caso afirmativo, indique su forma.

Ejercicio 3. Tres estimadores θ^1,θ^2 y θ^3 de un parámetro desconocido θ de una población satisfacen la relación: θ^3=(a+1)θ^1aθ^2. Calcular cuál debe ser el valor de a para que el estimador θ^3 tenga varianza mínima.

Ejercicio 4. Se selecciona una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n de una población de media μ desconocida y varianza σ2 conocida. Sea el estadístico μ^=i=1nXi/(n+1) un estimador para μ. Calcular el error cuadrático medio de θ^ y estudiar su consistencia.

Ejercicio 5. Razonar si el estadístico media muestral es un estimador insesgado de mínima varianza de los parámetros a estimar en cada caso:

a)X~Bin(1,θ), con p[0,1].

b)X~Poi(λ), con λ>0.

c)X~N(μ,σ2), con μ desconocida y σ2>0 conocida.

Ejercicio 6. Sea X una variable aleatoria cuya distribución tiene función de densidad fX(x)=xθex2/2θ, con x ≥ 0. Se selecciona una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n con el propósito de estimar θ. Obtener el estimador de θ por el método de los momentos y por el método de la máxima verosimilitud y justificar si son estimadores insesgados de mínima varianza.

Ejercicio 7. De la población del Ejemplo 17, se pide:

a)Calcular el estimador del parámetro θ por el método de los momentos y estudiar su consistencia.

b)Calcular el estimador máximo-verosímil de la media y la varianza poblacionales.

Ejercicio 8. De la población del Ejemplo 19, se pide:

a)Calcular el estimador del parámetro θ por el método de los momentos.

b)Calcular el estimador máximo-verosímil de la varianza poblacional.

Ejercicio 9. El tiempo de realización en minutos de una determinada tarea dentro de un proceso industrial se mide a través de una variable aleatoria X con función de densidad fX(x)=xθ2ex/θ, (x > 0) de parámetro θ > 0. Se extrae una muestra aleatoria simple (X1, X2, …, Xn) de tamaño 30 de la población representada por X, resultando los siguientes tiempos, en minutos:

5,56

2,23

1,37

1,87

2,44

2,71

4,69

3,47

3,51

2,57

4,33

5,12

3,77

2,27

3,15

2,37

3,05

5,10

4,83

1,65

2,97

2,35

4,75

3,68

1,76

3,20

5,33

2,59

2,31

4,32

Se pide:

a)Calcular el estimador de θ por el método de los momentos y por el método de la máxima verosimilitud y obtener estimaciones puntuales para θ en ambos casos.

b)Calcular los estimadores máximo-verosímiles de la media y la varianza de la población y obtener estimaciones puntuales para cada una de ellas.

Ejercicio 10. Supuesta extraída una muestra aleatoria simple (X1, X2, …, Xn), calcular el estimador del parámetro θ tanto por el método de los momentos como por el de máxima verosimilitud en los siguientes casos:

a)Función de densidad fX(x)=(1/θ)ex/θ, con x0 y θ>0.

b)Función de densidad fX(x)=2(θx)/θ2, con x(0,θ).

c)Función de densidad fX(x)=θ/(1+x)1+θ, con x>0 y θ>1.

d)Función de probabilidad fx(x)=θ(1θ)x1, con x>1 y θ(0,2).

Ejercicio 11. Se extrae una muestra aleatoria simple (X1, X2, …, Xn) de tamaño n de una población que se distribuye uniformemente en el intervalo [−θ, θ], con θ > 0. Obtener el estimador de θ por el método de los momentos.

Referencias

1 G. Casella y R. Berger, Statistical Inference, 2.a ed. (Ed. Brooks/Cole, Belmont, California, 1990).

2 K. Knight, Mathematical Statistics, 1.a ed. (Ed. Chapman y Hall/CRC Press, New York, NY, 1999)

3 L. Wasserman, All of statistics: a concise course in statistical inference, 1.a ed. (Ed. Springer, New York, NY, 2003).

4 R. Vélez y A. García, Principios de Inferencia Estadística, 1.a ed. (Universidad Nacional de Educación a Distancia, Madrid, España, 2012).

_______________________________

1 Resultado de derivar ECMk(p) con respecto a k e igualar a cero.

2 Sea una variable aleatoria X. Podemos expresar la varianza como V(X) = E(X2) — [E(X)]2, es decir, como la diferencia entre el momento poblacional de segundo orden de X y su media al cuadrado.