diff --git a/07-estimacionPuntual.Rmd b/07-estimacionPuntual.Rmd index 3c5a5ba..b1ff30c 100644 --- a/07-estimacionPuntual.Rmd +++ b/07-estimacionPuntual.Rmd @@ -1070,7 +1070,7 @@ Ejemplo 2.4.6 En la familia de la Poisson hemos visto que $\sum_{i=1}^{n} X_{i}$ 2. Si $T$ es un estadístico suficiente para $\theta$ y $\varphi$ es una función paramétrica monótona diferenciable, entonces $\varphi(T)$ también es suficiente para $\varphi(\theta)$. 3. Si $T_{1}, T_{2}$ son dos estadísticos suficientes para $\theta$, entonces $T_{1}$ es función de $T_{2}$. -# MÉTODOS DE OBTENCIÓN DE ESTIMADORES +## Obtención de estimadores En el capítulo anterior hemos analizado el problema de la estimación puntual desde el punto de vista de, dado un estimador, ver ?qué tan bueno es? para estimar un parámetro. Otra cuestión que nos podemos plantear, de hecho la primera cuestión que hay que plantearse en la práctica, es cómo obtener un estimador ?razonablemente bueno? de un parámetro. De hecho, desde el punto de vista práctico parece razonable empezar por ver cómo se obtiene un estimador y, una vez obtenido, analizar ?cuán bueno resulta?. diff --git a/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-14-1.png b/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-14-1.png index ce57cff..12f1fb5 100644 Binary files a/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-14-1.png and b/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-14-1.png differ diff --git a/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-15-1.png b/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-15-1.png index 0ac406d..e62d70d 100644 Binary files a/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-15-1.png and b/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-15-1.png differ diff --git a/FundamentosInferenciaEstadistica_files/figure-latex/unnamed-chunk-14-1.pdf b/FundamentosInferenciaEstadistica_files/figure-latex/unnamed-chunk-14-1.pdf index 0f531ed..54e5b6a 100644 Binary files a/FundamentosInferenciaEstadistica_files/figure-latex/unnamed-chunk-14-1.pdf and b/FundamentosInferenciaEstadistica_files/figure-latex/unnamed-chunk-14-1.pdf differ diff --git a/FundamentosInferenciaEstadistica_files/figure-latex/unnamed-chunk-15-1.pdf b/FundamentosInferenciaEstadistica_files/figure-latex/unnamed-chunk-15-1.pdf index a7d87a1..3074466 100644 Binary files a/FundamentosInferenciaEstadistica_files/figure-latex/unnamed-chunk-15-1.pdf and b/FundamentosInferenciaEstadistica_files/figure-latex/unnamed-chunk-15-1.pdf differ diff --git a/FundamentosInferenciaEstadistica_files/figure-latex/unnamed-chunk-16-1.pdf b/FundamentosInferenciaEstadistica_files/figure-latex/unnamed-chunk-16-1.pdf index ae7a216..c4c0ed3 100644 Binary files a/FundamentosInferenciaEstadistica_files/figure-latex/unnamed-chunk-16-1.pdf and b/FundamentosInferenciaEstadistica_files/figure-latex/unnamed-chunk-16-1.pdf differ diff --git a/docs/404.html b/docs/404.html index 6499eb1..2474f12 100644 --- a/docs/404.html +++ b/docs/404.html @@ -6,7 +6,7 @@ Page not found | Fundamentos de Inferencia Estadistica - + @@ -23,7 +23,7 @@ - + @@ -426,46 +426,44 @@
  • 7.9.2 Teorema de factorización
  • 7.9.3 Propiedades de los estadísticos suficientes
  • - -
  • 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES -
  • -
  • 9 Estimación puntual +
  • 8 Estimación puntual
  • -
  • 10 Pruebas de hipótesis +
  • 9 Pruebas de hipótesis
  • -
  • 11 Inferencia Aplicada +
  • 10 Inferencia Aplicada
  • -
  • 12 Computación Intensiva y Multiple Testing +
  • 11 Computación Intensiva y Multiple Testing
  • Published with bookdown
  • diff --git a/docs/FundamentosInferenciaEstadistica.pdf b/docs/FundamentosInferenciaEstadistica.pdf index 7e9b571..f5c8ceb 100644 Binary files a/docs/FundamentosInferenciaEstadistica.pdf and b/docs/FundamentosInferenciaEstadistica.pdf differ diff --git a/docs/FundamentosInferenciaEstadistica.tex b/docs/FundamentosInferenciaEstadistica.tex index 1d47c3d..3c6382b 100644 --- a/docs/FundamentosInferenciaEstadistica.tex +++ b/docs/FundamentosInferenciaEstadistica.tex @@ -124,7 +124,7 @@ \title{Fundamentos de Inferencia Estadistica} \author{Alex Sanchez Pla y Santiago Pérez Hoyos} -\date{2024-11-12} +\date{2024-11-17} \begin{document} \maketitle @@ -6807,7 +6807,7 @@ \subsubsection{Propiedades de los estadísticos suficientes}\label{propiedades-d 2. Si \(T\) es un estadístico suficiente para \(\theta\) y \(\varphi\) es una función paramétrica monótona diferenciable, entonces \(\varphi(T)\) también es suficiente para \(\varphi(\theta)\). 3. Si \(T_{1}, T_{2}\) son dos estadísticos suficientes para \(\theta\), entonces \(T_{1}\) es función de \(T_{2}\). -\section{MÉTODOS DE OBTENCIÓN DE ESTIMADORES}\label{muxe9todos-de-obtenciuxf3n-de-estimadores} +\subsection{Obtención de estimadores}\label{obtenciuxf3n-de-estimadores} En el capítulo anterior hemos analizado el problema de la estimación puntual desde el punto de vista de, dado un estimador, ver ?qué tan bueno es? para estimar un parámetro. Otra cuestión que nos podemos plantear, de hecho la primera cuestión que hay que plantearse en la práctica, es cómo obtener un estimador ?razonablemente bueno? de un parámetro. De hecho, desde el punto de vista práctico parece razonable empezar por ver cómo se obtiene un estimador y, una vez obtenido, analizar ?cuán bueno resulta?. diff --git a/docs/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-14-1.png b/docs/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-14-1.png index ce57cff..12f1fb5 100644 Binary files a/docs/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-14-1.png and b/docs/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-14-1.png differ diff --git a/docs/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-15-1.png b/docs/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-15-1.png index 0ac406d..e62d70d 100644 Binary files a/docs/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-15-1.png and b/docs/FundamentosInferenciaEstadistica_files/figure-html/unnamed-chunk-15-1.png differ diff --git a/docs/agradecimiento-y-fuentes-utilizadas.html b/docs/agradecimiento-y-fuentes-utilizadas.html index ed34fd3..7d3597d 100644 --- a/docs/agradecimiento-y-fuentes-utilizadas.html +++ b/docs/agradecimiento-y-fuentes-utilizadas.html @@ -6,7 +6,7 @@ Agradecimiento y fuentes utilizadas | Fundamentos de Inferencia Estadistica - + @@ -23,7 +23,7 @@ - + @@ -426,46 +426,44 @@
  • 7.9.2 Teorema de factorización
  • 7.9.3 Propiedades de los estadísticos suficientes
  • - -
  • 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES -
  • -
  • 9 Estimación puntual +
  • 8 Estimación puntual
  • -
  • 10 Pruebas de hipótesis +
  • 9 Pruebas de hipótesis
  • -
  • 11 Inferencia Aplicada +
  • 10 Inferencia Aplicada
  • -
  • 12 Computación Intensiva y Multiple Testing +
  • 11 Computación Intensiva y Multiple Testing
  • Published with bookdown
  • diff --git "a/docs/computaci\303\263n-intensiva-y-multiple-testing.html" "b/docs/computaci\303\263n-intensiva-y-multiple-testing.html" index fca1ce2..fc02772 100644 --- "a/docs/computaci\303\263n-intensiva-y-multiple-testing.html" +++ "b/docs/computaci\303\263n-intensiva-y-multiple-testing.html" @@ -4,18 +4,18 @@ - Capítulo 12 Computación Intensiva y Multiple Testing | Fundamentos de Inferencia Estadistica - - + Capítulo 11 Computación Intensiva y Multiple Testing | Fundamentos de Inferencia Estadistica + + - + - + @@ -23,7 +23,7 @@ - + @@ -426,46 +426,44 @@
  • 7.9.2 Teorema de factorización
  • 7.9.3 Propiedades de los estadísticos suficientes
  • - -
  • 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES -
  • -
  • 9 Estimación puntual +
  • 8 Estimación puntual
  • -
  • 10 Pruebas de hipótesis +
  • 9 Pruebas de hipótesis
  • -
  • 11 Inferencia Aplicada +
  • 10 Inferencia Aplicada
  • -
  • 12 Computación Intensiva y Multiple Testing +
  • 11 Computación Intensiva y Multiple Testing
  • Published with bookdown
  • @@ -487,24 +485,24 @@

    -
    -

    Capítulo 12 Computación Intensiva y Multiple Testing

    +
    +

    Capítulo 11 Computación Intensiva y Multiple Testing

    Este capítulo está pendiente de ser introducida en los apuntes.

    La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1).

    Se introducen distintos métodos cuyo nexo común es la computación intensiva.

    -
    -

    12.1 Tests de permutaciones; ¿Qué?, ¿Cuándo?, ¿Cómo?

    +
    +

    11.1 Tests de permutaciones; ¿Qué?, ¿Cuándo?, ¿Cómo?

    -
    -

    12.2 El bootstrap en contraste de hipótesis

    +
    +

    11.2 El bootstrap en contraste de hipótesis

    -
    -

    12.3 El problema de las comparaciones múltiples

    +
    +

    11.3 El problema de las comparaciones múltiples

    -
    -

    12.4 Métodos de control de error: FWER y FDR

    +
    +

    11.4 Métodos de control de error: FWER y FDR

    diff --git a/docs/distribuciones-de-probabilidad-multidimensionales.html b/docs/distribuciones-de-probabilidad-multidimensionales.html index f83ec1e..67f85a3 100644 --- a/docs/distribuciones-de-probabilidad-multidimensionales.html +++ b/docs/distribuciones-de-probabilidad-multidimensionales.html @@ -6,7 +6,7 @@ Capítulo 4 Distribuciones de probabilidad multidimensionales | Fundamentos de Inferencia Estadistica - + @@ -23,7 +23,7 @@ - + @@ -426,46 +426,44 @@
  • 7.9.2 Teorema de factorización
  • 7.9.3 Propiedades de los estadísticos suficientes
  • - -
  • 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES -
  • -
  • 9 Estimación puntual -
  • - -
  • 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES -
  • -
  • 9 Estimación puntual -
  • - -
  • 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES -
  • -
  • 9 Estimación puntual +
  • 8 Estimación puntual
  • -
  • 10 Pruebas de hipótesis +
  • 9 Pruebas de hipótesis
  • -
  • 11 Inferencia Aplicada +
  • 10 Inferencia Aplicada
  • -
  • 12 Computación Intensiva y Multiple Testing +
  • 11 Computación Intensiva y Multiple Testing
  • Published with bookdown
  • @@ -487,34 +485,34 @@

    -
    -

    Capítulo 9 Estimación puntual

    +
    +

    Capítulo 8 Estimación puntual

    Este capítulo está pendiente de ser introducido en los apuntes.

    La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1).

    Se plantea el problema de la estimación como una forma de aproximación a las características de las distribucionesa partir de muestras aleatorias simples.

    Se abordan las distintas filosofías para la construcción de estimadores.

    -
    -

    9.1 Preliminares: estimación del error estándar e Introducción al bootstrap

    +
    +

    8.1 Preliminares: estimación del error estándar e Introducción al bootstrap

    -
    -

    9.2 Estimadores por intervalo: intervalos de confianza

    +
    +

    8.2 Estimadores por intervalo: intervalos de confianza

    -
    -

    9.3 Intervalos de confianza para características de una población normal (media, varianza),

    +
    +

    8.3 Intervalos de confianza para características de una población normal (media, varianza),

    -
    -

    9.4 Intervalos de confianza bootstrap.

    +
    +

    8.4 Intervalos de confianza bootstrap.

    -
    -

    9.5 Intervalos de confianza para proporciones binomiales

    +
    +

    8.5 Intervalos de confianza para proporciones binomiales

    -
    -

    9.6 Intervalos de confianza para parámetros en muestra grandes y para casos generales (tasas, OR, …)

    +
    +

    8.6 Intervalos de confianza para parámetros en muestra grandes y para casos generales (tasas, OR, …)

    -
    -

    9.7 Aplicaciones: cálculo del tamaño muestral

    +
    +

    8.7 Aplicaciones: cálculo del tamaño muestral

    @@ -523,7 +521,7 @@

    9.7 Aplicaciones: cálculo del ta

    - +
    diff --git "a/docs/estimaci\303\263n-puntual.html" "b/docs/estimaci\303\263n-puntual.html" index f254125..0215ff2 100644 --- "a/docs/estimaci\303\263n-puntual.html" +++ "b/docs/estimaci\303\263n-puntual.html" @@ -6,7 +6,7 @@ Capítulo 7 Estimación puntual | Fundamentos de Inferencia Estadistica - + @@ -23,7 +23,7 @@ - + @@ -31,7 +31,7 @@ - + @@ -426,46 +426,44 @@
  • 7.9.2 Teorema de factorización
  • 7.9.3 Propiedades de los estadísticos suficientes
  • - -
  • 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES -
  • -
  • 9 Estimación puntual +
  • 8 Estimación puntual
  • -
  • 10 Pruebas de hipótesis +
  • 9 Pruebas de hipótesis
  • -
  • 11 Inferencia Aplicada +
  • 10 Inferencia Aplicada
  • -
  • 12 Computación Intensiva y Multiple Testing +
  • 11 Computación Intensiva y Multiple Testing
  • Published with bookdown
  • @@ -1285,6 +1283,335 @@

    7.9.3 Propiedades de los estadís

    Ejemplo 2.4.6 En la familia de la Poisson hemos visto que \(\sum_{i=1}^{n} X_{i}\) es suficiente para \(\lambda\). Entonces \(\bar{X}=\varphi\left(\sum_{i=1}^{n} X_{i}\right)\), donde \(\varphi(z)=(1 / n) z\) es inyectiva, es suficiente para \(\lambda\). 2. Si \(T\) es un estadístico suficiente para \(\theta\) y \(\varphi\) es una función paramétrica monótona diferenciable, entonces \(\varphi(T)\) también es suficiente para \(\varphi(\theta)\). 3. Si \(T_{1}, T_{2}\) son dos estadísticos suficientes para \(\theta\), entonces \(T_{1}\) es función de \(T_{2}\).

    +

    +
    +
    +

    7.10 Obtención de estimadores

    +

    En el capítulo anterior hemos analizado el problema de la estimación puntual desde el punto de vista de, dado un estimador, ver ?qué tan bueno es? para estimar un parámetro. +Otra cuestión que nos podemos plantear, de hecho la primera cuestión que hay que plantearse en la práctica, es cómo obtener un estimador ?razonablemente bueno? de un parámetro. De hecho, desde el punto de vista práctico parece razonable empezar por ver cómo se obtiene un estimador y, una vez obtenido, analizar ?cuán bueno resulta?. +Existen muchos métodos para obtener estimadores, cada uno de los cuales puede llevarnos a unos resultados de diferente calidad. +Los principales métodos de estimación son:

    +
      +
    1. Método de los momentos
    2. +
    3. Método de la máxima verosimilitud
    4. +
    5. Método de Bayes
    6. +
    7. Otros métodos
    8. +
    +
    +
    +

    7.11 El método de los momentos

    +

    Este método fue introducido por K. Pearson a finales del siglo XIX y es el principio en que nos basamos cuando hacemos una estimación de la media o de la varianza poblacional a partir de la media o la varianza muestrales. +La idea del método de los momentos es bastante intuitiva. Si lo que queremos estimar (uno o varios parámetros) es una función de los momentos +poblacionales, entonces una estimación razonable puede consistir en tomar como estimador la misma función en la que los momentos poblacionales han sido sustituidos por los momentos muestrales. +Dado que estos últimos son estimadores consistentes de los momentos poblacionales, en condiciones bastante generales se puede garantizar que los estimadores obtenidos serán estimadores consistentes para las funciones de los momentos poblacionales estimadas. +Algunos ejemplos típicos de estimadores basados en el método de los momentos son:

    +

    \[ +\widehat{\mu}=\bar{X}_{n} \quad \widehat{\sigma}=\sqrt{S^{2}} \quad \widehat{\sigma^{2}}=S^{2} +\]

    +

    Sea un modelo estadístico, \(\left\{X \sim F_{\theta}: \theta \in \Theta\right\}\), y \(X_{1}, X_{2}, \ldots, X_{n}\) una muestra aleatoria simple de \(X\). Sean \(m_{1}, m_{2}, ?, m_{k}\) los momentos poblacionales de orden \(1,2, ?, k\) de \(X\), que suponemos que existen,

    +

    \[ +m_{k}=E\left(X^{k}\right) +\]

    +

    y \(a_{1}, a_{2}, ?, a_{k}\) los momentos muestrales respectivos

    +

    \[ +a_{k}\left(X_{1}, X_{2}, \ldots, X_{n}\right)=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k} +\]

    +

    Suponemos que estamos interesados en estimar:

    +

    \[ +\theta=h\left(m_{1}, m_{2}, \ldots, m_{p}\right), +\]

    +

    donde \(h\) es una función conocida. +Definició 3.1 El método de los momentos consiste en estimar \(\theta\) por el estadístico

    +

    \[ +T(\mathbf{X})=h\left(a_{1}, a_{2}, \ldots, a_{p}\right) +\]

    +
    +

    7.11.1 Observaciones

    +
      +
    • El método se extiende de forma sencilla a la estimación de momentos conjuntos. Podemos usar \(\frac{1}{n} \sum_{i=1}^{n} X_{i} Y_{i}\) para estimar \(E(X Y)\), etc.
    • +
    • Por la ley débil de los grandes números,
    • +
    +

    \[ +a_{k}\left(X_{1}, X_{2}, \ldots, X_{n}\right)=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k} \xrightarrow{P} E\left(X^{k}\right), +\]

    +

    de modo que si lo que queremos es estimar los momentos muestrales, el método garantiza que los estimadores son consistentes y sin sesgo.

    +

    En este caso, además, los estimadores son asintóticamente normales. Si lo que se desea estimar es una función \(h\) continua de los momentos, entonces el método garantiza que el estimador \(T(\mathbf{X})\) es consistente y, bajo ciertas condiciones de regularidad, también es asintóticamente normal.

    +

    Ejemplo 3.1.1 Sea \(X \sim \Gamma(p, \alpha)\). Queremos estimar \(p\) y \(\alpha\). En lugar de conocer la función \(h\left(\theta_{1}, \theta_{2}\right)\) sabemos que:

    +

    \[ +\begin{aligned} +m_{1} & =\frac{p}{\alpha}=E(X) \\ +m_{2} & =\frac{p(p+1)}{\alpha^{2}}=E\left(X^{2}\right) \\ +& =V(X)+[E(X)]^{2}=\frac{p}{\alpha^{2}}+\left(\frac{p}{\alpha}\right)^{2}=\frac{p^{2}+p}{\alpha^{2}}= +\end{aligned} +\]

    +

    De modo que podemos obtener las funciones deseadas ?aislando? p y \(\alpha\) como funciones de \(m_{1}\) y \(m_{2}\) :

    +

    \[ +\begin{aligned} +\alpha^{2} & =\frac{p^{2}}{m_{1}^{2}} \\ +\alpha^{2} & =\frac{p(p+1)}{m_{2}} +\end{aligned} +\]

    +

    Procediendo por igualación:

    +

    \[ +\begin{aligned} +& \frac{p^{2}}{m_{1}^{2}}=\frac{p(p+1)}{m_{2}} \\ +& \frac{p}{m_{1}}=\frac{p+1}{m_{2}} \\ +& p m_{2}=p m_{1}^{2}+m_{1}^{2} \\ +& p\left(m_{2}-m_{1}^{2}\right)=m_{1}^{2} \\ +& p=\frac{m_{1}^{2}}{m_{2}-m_{1}^{2}} \\ +& \alpha=\frac{m_{1}^{2}}{m_{2}-m_{1}^{2}} \\ +& m_{1} +\end{aligned} \frac{m_{1}}{m_{2}-m_{1}^{2}} . +\]

    +

    Los estimadores por el método de los momentos se obtendrán ahora sustituyendo \(p\) y \(\alpha\) por \(\hat{p}\) y \(\hat{\alpha}\) en la expresión anterior, es decir:

    +

    \[ +\widehat{p}=\frac{a_{1}^{2}}{a_{2}-a_{1}^{2}} +\]

    +

    Hacemos lo mismo para el parámetro \(\alpha\) :

    +

    \[ +\widehat{\alpha}=\frac{a_{1}}{a_{2}-a_{1}^{2}} +\]

    +
    +
    +
    +

    7.12 El método del máximo de verosimilitud

    +
    +

    7.12.0.1 Introducción

    +

    El método de la máxima verosimilitud, introducido por Fisher, es un método de estimación que se basa en la función de verosimilitud, presentada en el capítulo anterior. Básicamente consiste en tomar como estimadores de los parámetros aquellos valores que hagan más probable observar precisamente lo que se ha observado, es decir, que hagan que la muestra observada resulte más verosímil.

    +

    Ejemplo 3.2.1 Tomemos 5 papeles. En cada uno de ellos ponemos o bien un ?+? o bien un ?-?, sin que se sepa qué hay en cada papel, y los guardamos en una bolsa. Nuestro objetivo es estimar el número de papeles con el signo ?? escrito. Extraemos tres papeles, devolviéndolos a la bolsa después de cada extracción, y observamos que ha salido lo siguiente: ?++-?. Los valores posibles para la probabilidad de ?-?, llamémosla p, son:

    + + + + + + + + + + + + + + + + + + + + + + + + + +
    En la bolsa hay\(p\)
    \(4 ?+\) ?, 1 ?-?0,2
    \(3 ?+\) ?, 2 ?-?0,4
    \(2 ?+\) ?, 3 ?-?0,6
    \(1 ?+\) ?, 4 ?-?0,8
    +

    Supongamos que la variable \(X\) mide el número de ?-? en tres extracciones consecutivas y que, por tanto, sigue una distribución binomial:

    +

    \[ +X \sim B(3, p(?-?)) +\]

    +

    La probabilidad de sacar un ?-? es:

    +

    \[ +P_{p}[X=1]=\binom{3}{1} \cdot p^{1}(1-p)^{2} +\]

    +

    Para cada uno de los valores de p, las probabilidades quedan asi:

    + + + + + + + + + + + + + + + + + + + + + + + + + +
    \(p\)\(P_{p}[X=1]\)
    0.2\(3 \cdot 0.2 \cdot 0.8^{2}=0.384\)
    0.4\(3 \cdot 0.4 \cdot 0.6^{2}=0.432\)
    0.6\(3 \cdot 0.6 \cdot 0.4^{2}=0.288\)
    0.8\(3 \cdot 0.8 \cdot 0.2^{2}=0.096\)
    +

    El valor de p que da una probabilidad mayor a la muestra, es decir, que la hace más verosímil, es \(p=0.4\). El método del máximo de verosimilitud consiste precisamente en tomar este valor como estimación de \(p\).

    +
    +
    +

    7.12.0.2 La función de verosimilitud

    +

    Una vez introducido el método con un ejemplo, podemos pasar a definirlo con mayor precisión. Para ello, comenzaremos con el concepto de función de verosimilitud. +En el capítulo anterior presentamos la función de verosimilitud como la función que resulta de considerar que, en la función de probabilidad de la muestra, el parámetro es variable y la muestra queda fija. Es decir:

    +

    \[ +\underbrace{f\left(x_{1}, x_{2}, \ldots, x_{n} ; \theta\right)}_{\mathbf{x} \text { variable, } \theta \text { fijo }} \longrightarrow \underbrace{L\left(\theta ; x_{1}, x_{2}, \ldots, x_{n}\right)}_{\mathbf{x} \text { fija, } \theta \text { variable }} +\]

    +

    Esta definición es básicamente correcta. En el caso de las variables discretas, donde \(f\left(x_{1}, x_{2}, \ldots, x_{n} ; \theta\right)\) representa la probabilidad de la muestra, fijado \(\theta\), resulta intuitivamente claro decir que la verosimilitud representa la ?probabilidad de la muestra para cada valor del parámetro?. +Refiriéndonos al ejemplo introductorio, resulta sencillo ver que se trata de ?dos puntos de vista? sobre la misma función. Fijado un valor del parámetro, por ejemplo, 0.4 , podemos considerar la probabilidad de diversas muestras posibles, como \(x=0, x=1, \ldots\), hasta \(x=3\) :

    +

    \[ +\begin{aligned} +f\left(x_{1}, x_{2}, \ldots, x_{n} ; \theta\right) & =P_{0.4}[X=x], x=0,1, \ldots, 3 \\ +& =\binom{3}{x} \cdot 0.4^{x}(0.6)^{3-x} . +\end{aligned} +\]

    +

    Análogamente, fijada una muestra, por ejemplo, \(x=1\), podemos considerar la probabilidad de esta para diversos valores del parámetro, \(p=0,0.2, \ldots, 1\).

    +

    \[ +\begin{aligned} +L\left(x_{1}, x_{2}, \ldots, x_{n} ; \theta\right) & =P_{p}[X=1], x=0,0.2,0.4, \ldots, 1 \\ +& =3 \cdot p(1-p)^{2} . +\end{aligned} +\]

    +

    En el caso de las distribuciones absolutamente continuas, el significado de la función de verosimilitud ya no es intuitivamente tan claro como en el caso de las discretas. En este caso, la función de densidad de la muestra ya no representa la probabilidad de esta como en el caso de las discretas. Algunos autores intentan solucionar esto explicando que existe una conocida aproximación en que la función de densidad es la probabilidad de un suceso ?infinitesimal?. +Lo que es importante en la función de verosimilitud, a la hora de hacer inferencias, es la parte que es función del parámetro. Esto hace que a menudo se considere que la expresión de la función de verosimilitud mantenga solo aquella parte de \(f\left(x_{1}, x_{2}, \ldots, x_{n} ; \theta\right)\) que depende de \(\theta\), ignorando la parte que dependa solo de la muestra. Es decir, si podemos factorizar \(f\left(x_{1}, x_{2}, \ldots, x_{n} ; \theta\right)\) como

    +

    \[ +f(\mathbf{x} ; \theta)=c(\mathbf{x}) \cdot g(\mathbf{x} ; \theta) +\]

    +

    podremos prescindir de la ?constante? \(c(x)\) (constante porque no depende de \(\theta\) ) al considerar la verosimilitud.

    +

    \[ +L(\theta ; \mathbf{x})=g(\mathbf{x} ; \theta) \propto f(\mathbf{x} ; \theta) +\]

    +

    Esto implica que \(L(\theta ; \mathbf{x})\) no tiene por qué integrar a 1 , como en el caso de las probabilidades, y que depende de las unidades de medida.

    +

    Ejemplo 3.2.2 Si \(X\) es discreta, \(X \sim \mathcal{P}(\lambda)\), y suponemos \(n=1\) (muestras de tamaño 1), tenemos que la f.d.p. de la muestra es:

    +

    \[ +P[x ; \lambda]=e^{-\lambda} \frac{\lambda^{x}}{x!} +\]

    +

    con \(x=0,1, \ldots\) Ahora, si hemos observado \(x=5\), la función de verosimilitud vale:

    +

    \[ +L(\lambda ; 5)=e^{-\lambda} \lambda^{5}\left[\frac{1}{5!}\right] +\]

    +

    Como solo nos interesa la parte que es función de \(\lambda\), podemos ignorar \(\frac{1}{5!}\), es decir:

    +

    \[ +L(\lambda ; 5)=e^{-\lambda} \lambda^{5} \propto P[\mathbf{x} ; \lambda] . +\]

    +

    Ejemplo 3.2.3 Si dada una muestra de tamaño 1, por ejemplo, \(x=2\), de una ley de Poisson \(\mathcal{P}(\lambda)\) queremos comparar sus verosimilitudes respecto de los valores del parámetro \(\lambda=1.5\) o \(\lambda=3\), lo que haremos será basarnos en la razón de verosimilitudes:

    +

    \[ +\begin{aligned} +\Lambda(\mathbf{x}) & =\frac{L\left(\lambda_{1} ; x\right)}{L\left(\lambda_{2} ; x\right)}=\frac{L(1.5 ; 2)}{L(3 ; 2)} \\ +& =\frac{e^{-1.5} 1.5^{2}\left[\frac{1}{2!}\right]}{e^{-3} 3^{2}\left[\frac{1}{2!}\right]}=\frac{e^{-1.5} 1.5^{2}}{e^{-3} 3^{2}}=\frac{0.5020}{0.4481}=1.12 . +\end{aligned} +\]

    +

    Como se observa, al basarnos en la razón de verosimilitudes, la parte correspondiente solo a la muestra no se toma en cuenta. La razón de verosimilitudes sugiere que el valor \(\lambda=1.5\) hace la muestra más verosímil.

    +
    +
    +

    7.12.0.3 El método del máximo de verosimilitud

    +

    Si partimos de las dos ideas que hemos visto en la introducción:

    +
      +
    • Escoger como estimación el valor que maximice la probabilidad de la muestra observada.
    • +
    • La verosimilitud de la muestra es una aproximación a la probabilidad de esta como función del valor del parámetro.
    • +
    +

    Una forma razonable de definir el EMV es entonces como aquel que maximice la verosimilitud.

    +

    Definició 3.2 Un estimador \(T: \Omega \longrightarrow \Theta\) es un estimador del máximo de verosimilitud para el parámetro \(\theta\) si cumple:

    +

    \[ +L(T(\mathbf{x}) ; \mathbf{x})=\sup _{\theta \in \Theta} L(\theta ; \mathbf{x}) +\]

    +

    Como suele ocurrir en problemas de maximización, este valor ni existe necesariamente ni tiene por qué ser único. Ahora bien, bajo ciertas condiciones (las habituales para los problemas de máximos y mínimos) el problema se podrá reducir a buscar un máximo para la función de verosimilitud.

    +

    Ejemplo 3.2.4 Supongamos que \(x_{1}, \ldots, x_{n}\) es una muestra de una población de Bernouilli, \(X \sim B e(p)\), donde queremos estimar p. La función de masa de la probabilidad de \(X\) es:

    +

    \[ +P\left[X=x_{i}\right]=P\left(x_{i} ; p\right)=p^{x_{i}}(1-p)^{1-x_{i}} \text { donde } x_{i} \in\{0,1\} ; i=1, \ldots, n +\]

    +

    La función de verosimilitud es:

    +

    \[ +L(p ; \mathbf{x})=\prod_{i=1}^{n} p^{x_{i}}(1-p)^{1-x_{i}}=p^{\sum_{i=1}^{n} x_{i}}(1-p)^{\sum_{i=1}^{n}\left(1-x_{i}\right)} +\]

    +

    Debemos buscar el máximo de \(L(p ; \mathbf{x})\). En este caso, como en otros, es más sencillo buscar el máximo de su logaritmo, que, dado que es una función monótona, es el mismo que el máximo de \(L\)

    +

    \[ +\ln L(p ; x)=\left(\sum_{i=1}^{n} x_{i}\right) \cdot \ln p+\left(n-\sum_{i=1}^{n} x_{i}\right) \cdot \ln (1-p) +\]

    +

    Derivamos respecto a p:

    +

    \[ +\frac{\partial \ln L(p ; x)}{\partial p}=\frac{\sum_{i=1}^{n} x_{i}}{p}-\frac{n-\sum_{i=1}^{n} x_{i}}{1-p} +\]

    +

    e igualamos a cero la derivada, planteando lo que se denomina la ecuación de verosimilitud, cuyas soluciones nos conducirán eventualmente al estimador del máximo de verosimilitud.

    +

    \[ +\frac{\sum_{i=1}^{n} x_{i}-n \hat{p}}{\hat{p}(1-\hat{p})}=0 \Rightarrow \hat{p}=\frac{\sum_{i=1}^{n} x_{i}}{n} +\]

    +

    Si la segunda derivada es negativa en \(\widehat{p}\) entonces será un máximo:

    +

    \[ +\begin{aligned} +\frac{\partial^{2} \ln L(p ; x)}{\partial p^{2}} & =\frac{\partial}{\partial p}\left(\frac{\sum_{i=1}^{n} x_{i}-n p}{p(1-p)}\right)=\frac{-n[p(1-p)]-\left(\sum_{i=1}^{n} x_{i}-n p\right) \cdot(1-2 p)}{p^{2}\left(1-p^{2}\right)}= \\ +& =\frac{-n p+n p^{2}-\sum_{i=1}^{n} x_{i}-n p-2 p \sum_{i=1}^{n} x_{i}-2 n p^{2}}{p^{2}(1-p)^{2}}= \\ +& =\frac{\left[\sum_{i=1}^{n} x_{i}(1+2 p)-n p^{2}\right]}{p^{2} \cdot(1-p)^{2}} +\end{aligned} +\]

    +

    que es negativa cuando \(p=\hat{p}\), de forma que \(\hat{p}\) es efectivamente un máximo. +El método analítico expuesto en el ejemplo anterior, consistente en el cálculo de un extremo de una función, no se puede aplicar en todas las situaciones. En estos casos, una alternativa puede ser estudiar directamente la función de verosimilitud. Veamos un ejemplo:

    +

    Ejemplo 3.2.5 Sea \(X_{1}, \ldots, X_{n} \stackrel{i i d}{\sim} X \sim U(0, \theta) \quad \theta>0\) desconocido. Sabemos que:

    +

    \[ +f(x ; \theta)=\left\{\begin{array}{c} +\frac{1}{\theta} \text { si } 0<\min \left\{x_{i}\right\} \leq \max \left\{x_{i}\right\} \leq \theta \\ +0 \quad \text { en caso contrario } +\end{array}\right\} +\]

    +

    La derivada respecto a \(\theta\) es \(-\frac{n}{\theta^{n-1}}\), que se anula cuando \(\theta \underset{n \rightarrow \infty}{\longrightarrow} \infty\) que lleva a una solución sin sentido de la ecuación de verosimilitud. Una inspección de la gráfica de la función de verosimilitud revela que el EMV, en este caso,

    +

    Figura 3.1: Función de verosimilitud para una distribución uniforme +es \(\max \left\{X_{i}, \ldots, X_{n}\right\}\). Efectivamente, consideremos cualquier otro valor \(\theta^{*}\) diferente del máximo:

    +

    \[ +\begin{aligned} +& \text { Si } \theta^{*}>X_{(n)} \Rightarrow \frac{1}{\left(\theta^{*}\right)^{n}}<\frac{1}{\left(X_{n}\right)^{n}}, \\ +& \text { Si } \theta^{*}<X_{(n)} \Rightarrow L\left(\theta^{*} ; \mathbf{x}\right)=0 +\end{aligned} +\]

    +

    ya que si un estimador toma un valor inferior al máximo de la muestra habrá algún valor muestral, \(x_{i}\) para el cual se verificará que \(\theta^{*}<x_{i}\), lo que hace la muestra inverosímil, y por tanto el estimador no es admisible. +A la vista de lo anterior, deducimos que el valor que maximiza \(L(\theta ; \mathbf{x})\) es el máximo de la muestra.

    +

    Ejemplo 3.2.6 El método del máximo de verosimilitud se extiende de forma inmediata a los parámetros \(K\)-dimensionales. Consideremos el caso de la +ley normal \(X \sim N\left(\mu, \sigma^{2}\right)\). Aquí el parámetro \(\theta\) es bidimensional, es decir: \(\theta=\left(\mu, \sigma^{2}\right) \in \Theta=\mathbb{R} \times \mathbb{R}^{+}\)

    +
      +
    1. La función de verosimilitud de una muestra de tamaño \(n\) es:
    2. +
    +

    \[ +L\left(\left(\mu, \sigma^{2}\right) ; \mathbf{x}\right)=\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}}=\frac{1}{(2 \pi)^{n / 2}\left(\sigma^{2}(n / 2\right.} e^{-\frac{\sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}} +\]

    +
      +
    1. Sacando logaritmos
    2. +
    +

    \[ +\log L\left(\left(\mu, \sigma^{2}\right) ; \mathbf{x}\right)=-\frac{n}{2} \log (2 \pi)-\frac{n}{2} \log \left(\sigma^{2}\right)-\frac{\sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}} +\]

    +
      +
    1. La derivada de \(L()\) es la matriz de derivadas:
    2. +
    +

    \[ +D \log L\left(\left(\mu, \sigma^{2}\right) ; \mathbf{x}\right)=\binom{\frac{\partial \log L\left(\left(\mu, \sigma^{2}\right) ; \mathbf{x}\right)}{\partial \mu}}{\frac{\partial \log L\left(\left(\mu, \sigma^{2}\right) ; \mathbf{x}\right)}{\partial \sigma^{2}}}=\left\{\begin{array}{c} +\frac{\sum_{i=1}^{n}\left(x_{i}-\mu\right)}{\sigma^{2}} \\ +\frac{\sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}}{2 \sigma^{4}}-\frac{n}{2 \sigma^{2}} +\end{array}\right. +\]

    +
      +
    1. Planteando y resolviendo la ecuación de verosimilitud tenemos:
    2. +
    +

    \[ +D \log L\left(\left(\hat{\mu}, \hat{\sigma}^{2}\right) ; \mathbf{x}\right)=\left\{\begin{array}{c} +\frac{\sum_{i=1}^{n}\left(x_{i}-\hat{\mu}\right)}{\hat{\sigma}^{2}}=0 \\ +\frac{\sum_{i=1}^{n}\left(x_{i}-\hat{\mu}\right)^{2}}{2 \hat{\sigma}^{4}}=\frac{n}{2 \hat{\sigma}^{2}} +\end{array}\right. +\]

    +

    de donde las raíces de la ecuación de verosimilitud son:

    +

    \[ +\hat{m} u=\bar{x}, \quad \hat{\sigma}^{2}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}{n}=s^{2} . +\]

    +
      +
    1. Para decidir si las raíces de la ecuación de verosimilitud corresponden a un máximo, analizamos la matriz de derivadas segundas, denominada Hessiana.
    2. +
    +

    \[ +H=\left(\begin{array}{cc} +\frac{\partial^{2} z}{\partial x^{2}} & \frac{\partial^{2} z}{\partial x \partial y} \\ +\frac{\partial^{2} z}{\partial y \partial x} & \frac{\partial^{2} z}{\partial y^{2}} +\end{array}\right) +\]

    +

    Una condición suficiente para que un punto \(\left(x_{0}, y_{0}\right)\) sea un máximo es que el determinante de \(H\) sea positivo y el menor en la posición ?11? negativo, es decir: +\(S i|H|>\left.0 y \frac{\partial^{2} z}{\partial x^{2}}\right|_{\left(x_{0}, y_{0}\right)}<0 \Longrightarrow\) Hay un máximo relativo en \(\left(x_{0}, y_{0}\right)\). +Si evaluamos el Hessiano en el punto \(\left(\bar{x}, s^{2}\right)\) tenemos:

    +

    \[ +H=\left(\begin{array}{cc} +-\frac{n}{s^{2}} & 0 \\ +0 & -\frac{n}{2 s^{4}} +\end{array}\right) . +\]

    +

    Las condiciones de extremo que hemos dado más arriba se verifican: \(H_{11}<0 y|H|>0\), de manera que podemos concluir que el estimador del máximo de verosimilitud de \(\left(\mu, \sigma^{2}\right)\) es, efectivamente, \(\left(\bar{x}, s^{2}\right)\).

    +
    @@ -1294,7 +1621,7 @@

    7.9.3 Propiedades de los estadís

    - +
    diff --git a/docs/grandes-muestras.html b/docs/grandes-muestras.html index 96a3215..83f15d8 100644 --- a/docs/grandes-muestras.html +++ b/docs/grandes-muestras.html @@ -6,7 +6,7 @@ Capítulo 5 Grandes muestras | Fundamentos de Inferencia Estadistica - + @@ -23,7 +23,7 @@ - + @@ -426,46 +426,44 @@
  • 7.9.2 Teorema de factorización
  • 7.9.3 Propiedades de los estadísticos suficientes
  • - -
  • 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES -
  • -
  • 9 Estimación puntual +
  • 8 Estimación puntual
  • -
  • 10 Pruebas de hipótesis +
  • 9 Pruebas de hipótesis
  • -
  • 11 Inferencia Aplicada +
  • 10 Inferencia Aplicada
  • -
  • 12 Computación Intensiva y Multiple Testing +
  • 11 Computación Intensiva y Multiple Testing
  • Published with bookdown
  • diff --git a/docs/images/LLN1.png b/docs/images/LLN1.png index e00e2f4..22c2df3 100644 Binary files a/docs/images/LLN1.png and b/docs/images/LLN1.png differ diff --git a/docs/index.html b/docs/index.html index f9d5433..aa72749 100644 --- a/docs/index.html +++ b/docs/index.html @@ -6,7 +6,7 @@ Fundamentos de Inferencia Estadistica - + @@ -23,7 +23,7 @@ - + @@ -426,46 +426,44 @@
  • 7.9.2 Teorema de factorización
  • 7.9.3 Propiedades de los estadísticos suficientes
  • - -
  • 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES -
  • -
  • 9 Estimación puntual +
  • 8 Estimación puntual
  • -
  • 10 Pruebas de hipótesis +
  • 9 Pruebas de hipótesis
  • -
  • 11 Inferencia Aplicada +
  • 10 Inferencia Aplicada
  • -
  • 12 Computación Intensiva y Multiple Testing +
  • 11 Computación Intensiva y Multiple Testing
  • Published with bookdown
  • @@ -490,7 +488,7 @@

    Presentación

    diff --git a/docs/inferencia-aplicada.html b/docs/inferencia-aplicada.html index 60714f1..53b31ac 100644 --- a/docs/inferencia-aplicada.html +++ b/docs/inferencia-aplicada.html @@ -4,18 +4,18 @@ - Capítulo 11 Inferencia Aplicada | Fundamentos de Inferencia Estadistica - - + Capítulo 10 Inferencia Aplicada | Fundamentos de Inferencia Estadistica + + - + - + @@ -23,7 +23,7 @@ - + @@ -426,46 +426,44 @@
  • 7.9.2 Teorema de factorización
  • 7.9.3 Propiedades de los estadísticos suficientes
  • - -
  • 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES -
  • -
  • 9 Estimación puntual +
  • 8 Estimación puntual
  • -
  • 10 Pruebas de hipótesis +
  • 9 Pruebas de hipótesis
  • -
  • 11 Inferencia Aplicada +
  • 10 Inferencia Aplicada
  • -
  • 12 Computación Intensiva y Multiple Testing +
  • 11 Computación Intensiva y Multiple Testing
  • Published with bookdown
  • @@ -487,27 +485,27 @@

    -
    -

    Capítulo 11 Inferencia Aplicada

    +
    +

    Capítulo 10 Inferencia Aplicada

    Este capítulo está pendiente de ser introducida en los apuntes.

    La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1).

    Se muestra como deducir y aplicar algunos de los tests mas populares.

    -
    -

    11.1 Pruebas de normalidad.Pruebas gráficas. El test de Shapiro-Wilks

    +
    +

    10.1 Pruebas de normalidad.Pruebas gráficas. El test de Shapiro-Wilks

    -
    -

    11.2 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas paramètricas t-test y Anova

    +
    +

    10.2 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas paramètricas t-test y Anova

    -
    -

    11.3 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas de hipótesis no paramétricas de Wilcoxon y Kruskal-Wallis

    +
    +

    10.3 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas de hipótesis no paramétricas de Wilcoxon y Kruskal-Wallis

    -
    -

    11.4 Contrastes para datos categóricos. Pruebas binomiales, ji cuadrado y test de Fisher.

    +
    +

    10.4 Contrastes para datos categóricos. Pruebas binomiales, ji cuadrado y test de Fisher.

    -
    -

    11.5 Riesgo relativo y razón de «odds»

    +
    +

    10.5 Riesgo relativo y razón de «odds»

    diff --git "a/docs/introducci\303\263n-a-la-inferencia-estad\303\255stica.html" "b/docs/introducci\303\263n-a-la-inferencia-estad\303\255stica.html" index f8bfddf..fd159c9 100644 --- "a/docs/introducci\303\263n-a-la-inferencia-estad\303\255stica.html" +++ "b/docs/introducci\303\263n-a-la-inferencia-estad\303\255stica.html" @@ -6,7 +6,7 @@ Capítulo 6 Introducción a la inferencia estadística | Fundamentos de Inferencia Estadistica - + @@ -23,7 +23,7 @@ - + @@ -426,46 +426,44 @@
  • 7.9.2 Teorema de factorización
  • 7.9.3 Propiedades de los estadísticos suficientes
  • - -
  • 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES -
  • -
  • 9 Estimación puntual +
  • 8 Estimación puntual
  • -
  • 10 Pruebas de hipótesis +
  • 9 Pruebas de hipótesis
  • -
  • 11 Inferencia Aplicada +
  • 10 Inferencia Aplicada
  • -
  • 12 Computación Intensiva y Multiple Testing +
  • 11 Computación Intensiva y Multiple Testing
  • Published with bookdown
  • diff --git "a/docs/m\303\251todos-de-obtenci\303\263n-de-estimadores.html" "b/docs/m\303\251todos-de-obtenci\303\263n-de-estimadores.html" index a63f7fe..7c164db 100644 --- "a/docs/m\303\251todos-de-obtenci\303\263n-de-estimadores.html" +++ "b/docs/m\303\251todos-de-obtenci\303\263n-de-estimadores.html" @@ -6,7 +6,7 @@ Capítulo 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES | Fundamentos de Inferencia Estadistica - + @@ -23,7 +23,7 @@ - + diff --git a/docs/probabilidad-y-experimentos-aleatorios.html b/docs/probabilidad-y-experimentos-aleatorios.html index 7c48b01..fa06bbf 100644 --- a/docs/probabilidad-y-experimentos-aleatorios.html +++ b/docs/probabilidad-y-experimentos-aleatorios.html @@ -6,7 +6,7 @@ Capítulo 1 Probabilidad y Experimentos aleatorios | Fundamentos de Inferencia Estadistica - + @@ -23,7 +23,7 @@ - + @@ -426,46 +426,44 @@
  • 7.9.2 Teorema de factorización
  • 7.9.3 Propiedades de los estadísticos suficientes
  • - -
  • 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES -
  • -
  • 9 Estimación puntual -
  • - -
  • 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES -
  • -
  • 9 Estimación puntual +
  • 8 Estimación puntual
  • -
  • 10 Pruebas de hipótesis +
  • 9 Pruebas de hipótesis
  • -
  • 11 Inferencia Aplicada +
  • 10 Inferencia Aplicada
  • -
  • 12 Computación Intensiva y Multiple Testing +
  • 11 Computación Intensiva y Multiple Testing
  • Published with bookdown
  • @@ -487,24 +485,24 @@

    -
    -

    Capítulo 10 Pruebas de hipótesis

    +
    +

    Capítulo 9 Pruebas de hipótesis

    Este capítulo está pendiente de ser introducida en los apuntes.

    La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1).

    Se plantea el problema de las pruebas de hipótesis. Se discuten las aproximaciones y los conceptos asociados. Se trata el problema de la crisis de la significación.

    -
    -

    10.1 Conceptos básicos: pruebas de hipótesis y de significación, pruebas unilaterales y bilaterales, tipos de error, valores críticos de test y p-valores

    +
    +

    9.1 Conceptos básicos: pruebas de hipótesis y de significación, pruebas unilaterales y bilaterales, tipos de error, valores críticos de test y p-valores

    -
    -

    10.2 Potencia de un test. Cálculos de potencia y de tamaño de la muestra. Tamaño del efecto.

    +
    +

    9.2 Potencia de un test. Cálculos de potencia y de tamaño de la muestra. Tamaño del efecto.

    -
    -

    10.3 Métodos de construcción de tests.

    +
    +

    9.3 Métodos de construcción de tests.

    -
    -

    10.4 Problemas asociados al uso de tests estadísticos. La crisis de la significación

    +
    +

    9.4 Problemas asociados al uso de tests estadísticos. La crisis de la significación

    diff --git a/docs/search_index.json b/docs/search_index.json index 8a0b022..b9a84b0 100644 --- a/docs/search_index.json +++ b/docs/search_index.json @@ -1 +1 @@ -[["index.html", "Fundamentos de Inferencia Estadistica Presentación Objetivo Prerequisitos y organización del material Referencias", " Fundamentos de Inferencia Estadistica Alex Sanchez Pla y Santiago Pérez Hoyos 2024-11-12 Presentación Objetivo El objetivo de estas notas es presentar un material de soporte para la asignatura de “Inferencia Estadística” del Máster interuniversitario de Bioiestadística y Bioinformática impartido conjuntamente por la Universitat Oberta de Catalunya (UOC) y la Universidad de Barcelona (UB). Esta asignatura adolece de las características habituales de las asignaturas de posgrado, y especialmente de un posgrado de estadística (y bioinformática), que muestran algunas de las cosas que no debe de ser esta asignatura: No puede ser un primer curso de estadística, porque se supone que los estudiantes del máster ya lo han cursado en sus grados. Por no decir que, a quien viene a especializarse en estadística se le puede suponer una base mínima. Tampoco debe ser como los segundos cursos de estadística de algunos grados, que tratan temas como la regresión, el diseño de experimentos o el análisis multivariante, porque esto ya se trata en diversas asignaturas del máster. ¿Que debemos pues esperar que sea este curso? Puestos a pedir, este curso debería servir para repasar y consolidar los conceptos básicos que la mayoría de estudiantes traerán consigo. Además, y sobretodo, debe proporcionar una visión general, lo más completa posible dentro de las limitaciones de tiempo, del campo de la inferencia estadística Y, naturalmente, esto significa proporcionar aquellos conceptos sobre los que se apoyaran muchas de las restantes asignaturas como “Regresión modelos y métodos”, “Diseño de Experimentos”, “Análisis Multivariante”, “Análisis de la Supervivencia” o “Análisis de datos ómicos”. Prerequisitos y organización del material Uno de los problemas “eternos” en el estudio de la estadística ha sido siempre la falta de acuerdo, entre la comunidad de docentes, de cual debería ser el nivel matemático a que se impartan los cursos. En los cursos de pre-grado ha habido un cierto consenso, y con los años el nivel de formalismo ha disminuido, incluso en estudios de tipo “STEM”, tendiendo a centrarse en la aplicación de los conceptos, por ejemplo usando R, más que en un tratamiento formal (“matemático”) de los mismos. Aunque esto puede ser práctico para aquellos estudios en los que la estadística és una asignatura de un grado, es también obvio que dicha aproximación no permite profundizar en muchos de los puntos que se tratan. Es por ello que en este curso seguiremos la indicación habitual en cursos similares de asumir que el estudiante: Se siente comodo con el lenguaje algebráico, desarrollo de expresiones, sumatorios etc. Está familiarizado con el cálculo diferencial en una o varias variables, aunque esta familiaridad no será imprescindible para seguir la mayoría de los contenidos del curso. Conoce el lenguaje estadístico R, que en muchas ocasiones nos ofrecerá una solución directa a los problemas de cálculo. Referencias Los prerequisitos anteriores corresponden básicamente a las matemáticas del bachilerato. Algunas funetes adiconales pueden ser: Iniciación a las matemáticas para la ingeniería. M. Besalú y Joana Villalonga Colección de (100) videos de soporte a las matemáticas para la ingeniería "],["agradecimiento-y-fuentes-utilizadas.html", "Agradecimiento y fuentes utilizadas El proyecto Statmedia Otros materiales utilizados", " Agradecimiento y fuentes utilizadas Salvo que uno desee escribir un libro sobre algo muy extraño, siempre habran otros libros o manuales similares al que se está planteando. La respuesta a la pregunta, “Y entonces, ¿porque hacer un nuevo matrerial?” suele ser más una excusa que una explicación sólida. Una posible razón puede ser para ajustarlo al máximo al perfil del curso para al que se destinan dichos materiales, condición que otros textos, pensados para cursos y audiencias distintas, pueden no satisfacer. En este caso adoptaremos esta explicación y el tiempo decidirá si el objetivo se alcanza. Dicho esto, debemos agradecer a las distintas fuentes utilizadas, el que hayan puesto a disposición sus materiales para poder reutilizarlos. Entre estos destacamos: El proyecto Statmedia Statmedia es un grupo de innovación docente de la Universidad de Barcelona, cuyo objetivo es desarrollar nuevas herramientas que ayuden en la enseñanza de la estadística aplicada, mejorando así el rendimiento académico de los alumnos y su motivación hacia la estadística. Partiendo de la idea que el aprendizaje debe basarse en casos prácticos para motivar y fomentar la participación de los estudiantes. Se desarrolló primer proyecto, Statmedia I, un texto multimedia de estadística que además de los contenidos, relativamente ampliados, para un curso de introducción a la estadística, incorporaba: Una serie de casos para motivar e ilustrar los conceptos introducidos. Un conjunto de gadgets interactivos con los que interactuar y experimentar y Ejercicios de respuesta múltiple para verificar los conceptos trabajados. Aunque el proyecto Statmedia ha seguido evolucionando en múltiples direcciones, Statmedia I, como tantos otros, no sobrevivió al desarrollo tecnológico, y la evolución (o decadencia) del lenguaje Java lo llevó a dejar de ser funcional. Para estos apuntes hemos recuperado, y en ocasiones adaptado o modificado, algunos de los contenidos de Statmedia I, que habían estado escritos con gran pulcritud. Esto se ha hecho siguiendo las indicaciones de la licencia (CC-Share-alike) que permite adaptar contenidos atribuyendolo a sus autores y citando la fuente. Los gadgets originales ya no son funcionales pero muchos de ellos han sido re-escritos en R como aplicaciones Shiny (disponibles en: https://grbio.upc.edu/en/software/teaching_apps) y se enlazaran desde los puntos necesarios del texto. Dejando aparte (además) de la licencia, vaya nuestro agradecimiento explícito al equipo de profesores del Departamento de Estadística de la Universidad de Barcelona, redactor de la versión inicial del proyecto, que es la que hemos utilizado: Antonio Arcas Pons, Miquel calvo Llorca, Antonio Miñarro Alonso, Sergi Civit Vives y Angel Vilarroya del Campo. Antoni Arcas, Antonio Miñarro and Miguel Calvo (2008) Statmedia projects in Statistical Education Otros materiales utilizados Alex Sanchez y Francesc Carmona (2002). Apunts d’Estadística Matemàtica Licencia CC0 1.0 Universal Molina Peralta, I. and García-Portugués, E. (2024). A First Course on Statistical Inference. Version 2.4.1. ISBN 978-84-09-29680-4. Licencia CC BY-NC-ND 4.0 Peter K. Dunn (2024) The theory of distributions. Licencia CC BY-NC-ND 4.0 "],["probabilidad-y-experimentos-aleatorios.html", "Capítulo 1 Probabilidad y Experimentos aleatorios 1.1 Introducción 1.2 Función de probabilidad 1.3 ¿Cómo se calculan las probabilidades? 1.4 Sucesos elementales y sucesos observables 1.5 Propiedades inmediatas de la probabilidad 1.6 Espacios de probabilidad 1.7 Probabilidad condicionada 1.8 Dos Teoremas importantes 1.9 Introducción a los experimentos múltiples 1.10 Combinatoria 1.11 Frecuencia relativa y probabilidad 1.12 Caso de Estudio: Eficacia de una prueba diagnóstica", " Capítulo 1 Probabilidad y Experimentos aleatorios 1.1 Introducción 1.1.1 Fenómenos deterministas y fenómenos aleatorios Supongamos que disponemos de un dado regular con todas las caras pintadas de blanco y con un número, que irá de 1 a \\(6 \\sin\\) repetir ninguno, en cada una de las seis caras. Definamos los dos experimentos siguientes: Experimento 1: Tirar el dado y anotar el color de la cara resultante. Experimento 2: Tirar el dado y anotar el número de la cara resultante. ¿Qué diferencia fundamental observamos entre ambos experimentos? Muy simple! En el experimento 1, el resultado es obvio: saldrá una cara de color blanco. Es decir, es posible predecir el resultado. Se trata de un experimento o fenómeno determinista. En cambio, en el experimento 2 no podemos predecir cuál será el valor resultante. El resultado puede ser : \\(1,2,3,4,5\\) o 6 . Se trata de un experimento o fenómeno aleatorio. El conjunto de resultados se anotará con el símbolo: \\(\\Omega\\). En este caso, \\(\\Omega=\\{1,2,3,4,5,6\\}\\). En los fenómenos aleatorios, al hacer muchas veces la experiencia, la frecuencia relativa de cualquier elemento del conjunto de resultados debe aproximarse siempre hacia un mismo valor. 1.1.2 Sucesos Supongamos que se ejecuta un experimento aleatorio. Se nos puede ocurrir emitir un enunciado que, una vez realizada la experiencia, pueda decirse si se ha verificado o no se ha verificado. A dichos enunciados los denominamos sucesos. Por otro lado, los sucesos van asociados a subconjuntos del conjunto de resultados. Cada suceso se corresponderá exactamente con uno, y sólo con un, subconjunto del conjunto de resultados. Veamos un ejemplo: Experimento: Tirar un dado regular. Conjunto de resultados : \\(\\Omega=\\{1,2,3,4,5,6\\}\\) Enunciado: Obtener múltiplo de 3. Subconjunto al que se asocia el enunciado: \\(A=\\{3,6\\}\\) Nos referiremos habitualmente al suceso A. 1.1.2.1 Sucesos y conjuntos Al conjunto de resultados \\(\\Omega\\), se le denomina suceso seguro. Al conjunto Ø ( conjunto sin elementos), se le denomina suceso imposible. Al complementario del conjunto \\(\\mathrm{A}\\left(\\mathrm{A}^{\\mathrm{c}}\\right)\\), se le denomina suceso contrario o complementario de \\(A\\). A partir de dos sucesos A y B, podemos formar los sucesos siguientes: A intersección B, que anotaremos como: \\[ A \\cap B \\] A unión B, que anotaremos como: \\[ A \\cup B \\] A intersección B, significa que se verifican a la vez A y B. A unión B, significa que se verifica \\(A\\) o \\(B\\) ( se pueden verificar a la vez). 1.2 Función de probabilidad Lógicamente, una vez tenemos un suceso, nos preocupa saber si hay muchas o pocas posibilidades de que al realizar la experiencia se haya verificado. Por lo tanto, sería interesante el tener alguna función que midiera el grado de confianza a depositar en que se verifique el suceso. A esta función la denominaremos función de probabilidad. La función de probabilidad será, pues, una aplicación entre el conjunto de resultados y el conjunto de números reales, que asignará a cada suceso la probabilidad de que se verifique. La notación: \\(\\mathrm{P}(\\mathrm{A})\\) significará: probabilidad de que se verifique el suceso A . Pero claro, de funciones de probabilidad asociadas a priori a una experiencia aleatoria podrían haber muchas. Lo que se hace para decir qué es y qué no es una función de probabilidad es construir una serie de propiedades (denominadas axiomas) que se exigirán a una función para poder ser catalogada como función de probabilidad. Y, ¿cuáles son estos axiomas? Pues los siguientes: Sea S el conjunto de sucesos. Axioma 1: Para cualquier suceso A, la probabilidad debe ser mayor o igual que 0. Axioma 2: La probabilidad del suceso seguro debe ser 1: \\(\\mathrm{P}(\\Omega)=1\\) Axioma 3: Para sucesos \\(\\mathrm{A}_{\\mathrm{i}}\\), de modo que cada par de sucesos no tengan ningún resultado común, se verifica que: \\[ P\\left(\\bigcup_{i=1}^{\\infty} A_{i}\\right)=\\sum_{i=1}^{\\infty} P\\left(A_{i}\\right) \\] De este modo, pueden haber muchas funciones de probabilidad que se podrían asociar con la experiencia. El problema pasa entonces al investigador para decidir cual o cuales son las funciones de probabilidad más razonables asociadas con la experiencia que está manejando. 1.2.1 ¿Diferentes funciones de probabilidad para una misma experiencia aleatoria? Supongamos la experiencia de tirar un dado regular. A todo el mundo se le ocurriría pensar que la función de probabilidad se obtiene de contar el número de resultados que contiene el suceso dividido por 6 , que es el número total de resultados posibles. Así pues, la probabilidad de obtener un múltiplo de 3 sería igual a \\(2 / 6\\), la probabilidad de obtener el número 2 sería \\(1 / 6\\) i la probabilidad de obtener un número par sería 3/6. Es decir, parece inmediato construir la función de probabilidad que, además, parece única. A nadie se le ocurre decir, por ejemplo, que la probabilidad de obtener un número par es \\(5 / 6\\) ! En este caso, todo ha sido muy fácil. Hemos visto que existe una única función de probabilidad que encaje de forma lógica con la experiencia y, además, ha sido muy sencillo encontrarla. Pero esto, por desgracia, no siempre es así. En muchísimas ocasiones resulta muy complejo el decidir cuál es la función de probabilidad. En el tema de variables aleatorias y de función de distribución se explica el problema de la modelización de muchas situaciones reales. 1.3 ¿Cómo se calculan las probabilidades? No siempre es fácil conocer los valores de la función de probabilidad de todos los sucesos. Sin embargo, muchas veces se pueden conocer las probabilidades de algunos de estos sucesos. Con la ayuda de ciertas propiedades que se deducen de manera inmediata a partir de la axiomática es posible calcular las probabilidades de más sucesos. Por otro lado, en caso de que el número de resultados sea finito y de que todos los resultados tengan las mismas posibilidades de verificarse, la probabilidad de un suceso cualquiera se puede calcular a partir de la regla de Laplace: Si A es un suceso : \\[ \\text { Probabilidad }(A)=\\frac{\\text { Número de casos favorables }}{\\text { Número de casos posibles }} \\] donde: Número de casos favorables \\(=\\) Número de resultados contenidos en \\(\\mathrm{A}(\\) cardinal de A\\()\\) Número de casos posibles \\(=\\) Número total de resultados posibles (cardinal del conjunto total de resultados) En este caso, el contar número de resultados, ya sean favorables o posibles, debe hacerse por medio de la combinatoria. Veamos con unos ejemplos muy sencillos y visuales cómo se obtienen y qué representan los casos posibles y los casos favorables. También es posible obtener de manera aproximada la probabilidad de un suceso si se puede repetir muchas veces la experiencia: la probabilidad del suceso sería el valor al que tendería la frecuencia relativa del suceso. Podéis consultar más detalles acerca de esta aproximación. En este caso, la cuestión estriba en poder hacer muchas veces la experiencia en condiciones independientes. 1.4 Sucesos elementales y sucesos observables En el contexto de la probabilidad, es fundamental diferenciar entre los sucesos elementales y los sucesos observables. Los sucesos elementales son los resultados individuales que pueden ocurrir al realizar un experimento aleatorio, es decir, cada uno de los elementos que conforman el conjunto de resultados \\(\\Omega\\). En nuestro ejemplo del dado, los sucesos elementales son los números \\(1, 2, 3, 4, 5\\) y \\(6\\). Sin embargo, no todos los sucesos elementales son necesariamente observables. Un suceso observable es un subconjunto de estos sucesos elementales que permite formular afirmaciones verificables sobre el resultado del experimento. Ejemplo Podemos imaginar un dado en el que pintamos de blanco las caras pares y de negro las impares. En este caso los sucesos elementales serían los habituales 1, 2, 3,…6. Sin embargo tan solo “Par” (“blanco”) o impar (“negro”) se pueden observar. Si repintamos el dado de forma que las caras 1 y 2 esten blancas, las 3 y 4, azules y las 5 y 6 rojas podremos observar el suceso “Sale 1 o 2 (=Sale blanco)” o “sale blanco o azul”, pero no el suceso “sale par” dado que cada color contiene un número par y uno impar Para formalizar estos conceptos, definimos el espacio de probabilizable como el par de conjuntos formados por: \\((\\Omega, \\mathcal{A})\\) \\(\\Omega\\) es el conjunto de todos los resultados posibles (el conjunto de resultados o sucesos elementales). \\(\\mathcal{A}\\) es el conjunto de todos los sucesos observables, que vienen definidos por el nivel de observación del experimento. 1.5 Propiedades inmediatas de la probabilidad Veremos a continuación una serie de propiedades que se deducen de manera inmediata de la axiomática de la probabilidad. 1.5.1 Succeso imposible El suceso imposible se identifica con el conjunto vacío, puesto que no hay ningún resultado asociado a él. La probabilidad del suceso imposible es: \\[ P(\\varnothing)=0 \\] 1.5.2 Suceso implicado Decimos que un suceso, B, esta implicado por otro suceso A, si siempre que se presenta A, también lo hace B. Por ejemplo, si al tirar un dado se obtiene un dos (suceso A), ello implica que ha salido un número par (suceso B). En terminos de conjuntos, A es un suceso que está contenido en B (todos los resultados de A también pertenecen a B ), por lo que: \\[ \\mathrm{P}(\\mathrm{A}) \\leq \\mathrm{P}(\\mathrm{B}) \\] 1.5.3 Complementario de un suceso Sea \\(A^{\\mathrm{c}}\\) el suceso formado por todos los elementos de \\(\\Omega\\) que no pertenecen a A (Suceso complementario de A). La probabilidad de dicho suceso es igual a: \\[ \\mathrm{P}\\left(\\mathrm{A}^{\\mathrm{c}}\\right)=1-\\mathrm{P}(\\mathrm{A}) \\] 1.5.4 Ocurrencia de algun suceso La probabilidad de la unión de dos sucesos A y B es igual a: \\[ P(A \\cup B)=P(A)+P(B)-P(A \\cap B) \\] 1.5.5 Probabilidad de que ocurra algun suceso Si tenemos una colección de \\(k\\) sucesos, la probabilidad de la unión de dichos sucesos será: \\[ P\\left(\\bigcup_{i=1}^{k} A_{i}\\right)=\\sum_{i=1}^{k} P\\left(A_{i}\\right)-\\sum_{i<j} P\\left(A_{i} \\cap A_{j}\\right)+\\sum P\\left(A_{i} \\cap A_{j} \\cap A_{k}\\right)+\\ldots+(-1)^{k+1} \\cdot P\\left(A_{1} \\cap . . \\cap A_{k}\\right) \\] 1.5.6 Probabilidad de que ocurran dos (o más) sucesos a la vez No existe una expresión cerrada única para la probabilidad de que ocurran dos o más sucesos a la vez, pues esto depende de si los sucesos que consideramos son dependientes o independientes, conceptos éstos, que introduciremos en la próxima sección. Lo que si que existe es una cota para dicha probabilidad, es decir, podemos decir que valor alcanza dicha probabilidad, como mínimo. \\[ P\\left(\\bigcap_{i=1}^{n} A_{i}\\right) \\geq 1-\\sum_{i=1}^{n} P\\left(\\bar{A}_{i}\\right) \\] 1.6 Espacios de probabilidad Para concluir esta introducción introduciremos los espacio de probabilidad que, extienden los espacios probabilizables definidos en la sección anterior La terna \\((\\Omega, \\mathcal{A}, P)\\) donde: \\(Omega\\) es el conjunto de todos los resultados posibles (el conjunto de resultados o sucesos elementales), \\(\\mathcal{A}\\) es el conjunto de todos los sucesos observables, que vienen definidos por el nivel de observación del experimento y \\(P\\) es una función de probabilidad, que asigna a cada suceso observable \\(A \\in \\mathcal{A}\\) un número real \\(P(A)\\) que representa la probabilidad de que ocurra dicho suceso se conoce como espacio de probabilidad. Es importante destacar que la probabilidad se calcula exclusivamente para los sucesos observables, lo que garantiza que la medida sea coherente y verificada a través de experimentos. Los espacios de probabilidad proporcionan una estructura fundamental para analizar y medir las incertidumbres asociadas a los fenómenos aleatorios, facilitando el estudio de sus propiedades, la construcción, sobre ellos de diversos conceptos fundamentales como el de variables aleatorias, y, en general, la aplicación de teorías de la probabilidad a diversas áreas de conocimiento. 1.7 Probabilidad condicionada Imaginemos que en la experiencia de tirar un dado regular supiéramos de antemano que se ha obtenido un número par. Es decir, que se ha verificado el suceso: \\(\\{B = \\mbox{número par}\\}\\)“. Pregunta: ¿Cuál es ahora la probabilidad de que se verifique el suceso mayor o igual a cuatro? Lógicamente, el resultado sería : \\(2 / 3\\). Por lo tanto, la probabilidad del suceso \\(\\mathrm{A}=\\) mayor o igual a cuatro se ha modificado. Evidentemente, ha pasado de ser \\(1 / 2\\) ( cuando no tenemos ninguna información previa) a ser \\(2 / 3\\) (cuando sabemos que se ha verificado el suceso B). ¿Cómo podemos anotar esta última probabilidad \\((2 / 3)\\) ? Muy sencillo. Anotaremos \\(\\mathrm{P}(\\mathrm{A} / \\mathrm{B})\\), que se lee como probabilidad de A condicionada a B . Así, en este ejemplo, \\[ \\begin{gathered} \\mathrm{P}(\\mathrm{A} / \\mathrm{B})=2 / 3 \\\\ \\mathrm{P}(\\mathrm{A})=1 / 2 \\end{gathered} \\] En términos generales, estamos en condiciones de poder definir la probabilidad condicionada, y lo hacemos como: \\[ P(A / B)=\\frac{P(A \\cap B)}{P(B)} \\] Podemos ahora visualizar de una manera práctica y divertida el ejemplo anterior. Siguiendo con la notación utilizada, el suceso A será lo que denominamos suceso de obtención, mientras que el suceso B será lo que denominamos suceso condicionado. La pantalla nos proporcionará los casos posibles para el condicionante elegido y los casos favorables, calculando mediante la regla de Laplace la probabilidad del suceso. Elegid suceso a estudiar. Desplazad, si procede, las barras de puntos. Elegir suceso condicionante. Desplazad, si procede, las barras de puntos. Comprobad los sucesos posibles y los favorables. La probabilidad condicionada se comporta, entonces, como una función de probabilidad. Es decir, verifica los tres axiomas siguientes: Axioma 1: \\[ \\mathrm{P}(\\mathrm{A} / \\mathrm{B}) \\geq 0 \\] Axioma 2: \\[ P(\\Omega / B)=1 \\] Axioma 3: \\[ P\\left(\\bigcup_{i=1}^{\\infty} A_{i} / B\\right)=\\sum_{i=1}^{\\infty} P\\left(A_{i} / B\\right) \\] para sucesos \\(\\mathrm{A}_{\\mathrm{i}}\\) con intersección vacía dos a dos. 1.7.1 Sucesos dependientes y sucesos independientes Sean A y B dos sucesos con probabilidad mayor que 0 . Evidentemente, si \\[ \\mathrm{P}(\\mathrm{A} / \\mathrm{B})=\\mathrm{P}(\\mathrm{A}) \\] B no ha modificado la probabilidad de que suceda A. En este caso diremos que son sucesos independientes. En caso contrario diremos que son sucesos dependientes. En el ejemplo del apartado anterior, se observa que los sucesos son dependientes puesto que las probabilidades anteriores no coinciden. Se verifica que independencia de los sucesos A y B es equivalente a decir que la probabilidad de la intersección es igual a producto de probabilidades de los dos sucesos. Se verifica también que si A y B son independientes: a) El complementario del suceso A y el suceso B son independientes. b) El complementario del suceso A y el complementario del suceso B son independientes. c) El complementario del suceso B y el suceso A son independientes. 1.7.2 Incompatibilidad e independencia Dos sucesos con intersección vacía se denominan sucesos incompatibles. Esto, ¿qué implica? Pues, que si se verifica uno seguro que no se verifica el otro, ya que no tienen resultados en común. Por lo tanto es el caso extremo de dependencia. Obtenemos en este caso que: \\[ \\mathrm{P}(\\mathrm{A} / \\mathrm{B})=0 \\] y, en consecuencia, si \\(\\mathrm{P}(\\mathrm{A})\\) y \\(\\mathrm{P}(\\mathrm{B})\\) son diferentes de cero, la probabilidad condicionada anterior es diferente de \\(\\mathrm{P}(\\mathrm{A})\\), y así se deduce la dependencia. La única posibilidad de que se dé incompatibilidad e independencia a la vez, es que alguno de los dos sucesos tenga probabilidad igual a cero. 1.8 Dos Teoremas importantes 1.8.1 Teorema de las probabilidades totales Sea \\(\\Omega\\) el conjunto total formado por una partición (colección de sucesos con intersección vacía dos a dos): \\[ \\Omega=H_{1} \\cup \\ldots \\ldots \\cup H_{n} \\] La probabilidad de cualquier otro suceso A , se puede obtener a partir de las probabilidades de los sucesos de la partición y de las probabilidades de A condicionado a los sucesos de la partición, de la manera siguiente: \\[ P(A)=\\sum_{i=1}^{n} P\\left(A / H_{i}\\right) \\cdot P\\left(H_{i}\\right) \\] Esto es lo que se conoce como teorema de las probabilidades totales. 1.8.2 Teorema de Bayes Es una consecuencia del teorema de las probabilidades totales. Sea \\(\\Omega\\) el conjunto total formado por una partición (colección de sucesos con intersección vacía dos a dos). \\[ \\Omega=H_{1} \\cup \\ldots \\ldots \\cup H_{n} \\] Ahora el interés se centrará en la obtención de la probabilidad de cualquier suceso de la partición condicionada a un suceso A cualquiera. El resultado será: \\[ P\\left(\\mathrm{H}_{\\mathrm{i}} / \\mathrm{A}\\right)=\\frac{\\mathrm{P}\\left(\\mathrm{A} / \\mathrm{H}_{\\mathrm{i}}\\right) \\cdot \\mathrm{P}\\left(\\mathrm{H}_{\\mathrm{i}}\\right)}{\\sum_{i=1}^{n} \\mathrm{P}\\left(\\mathrm{A} / \\mathrm{H}_{\\mathrm{i}}\\right) \\cdot \\mathrm{P}\\left(\\mathrm{H}_{\\mathrm{i}}\\right)} \\] Esto es conocido como teorema o regla de Bayes. 1.9 Introducción a los experimentos múltiples Supongamos que tiramos a la vez un dado y una moneda. Tenemos una experiencia múltiple, puesto que la experiencia que se realiza es la composición de dos experiencias (experiencia \\(1=\\) tirar un dado regular; experiencia 2 = tirar una moneda regular). ¿Cuál es en este caso el conjunto de resultados? Si \\(\\Omega_{1}\\) es el conjunto de resultados asociado con la experiencia tirar un dado y \\(\\Omega_{2}\\) es el conjunto de resultados asociado con la experiencia tirar una moneda, el conjunto de resultados asociado a la experiencia múltiple será \\(\\Omega_{1} \\times \\Omega_{2}\\). Es decir, \\(\\Omega_{1}=\\{1,2,3,4,5,6\\}\\) \\(\\Omega_{2}=\\{\\) cara, cruz \\(\\}\\) \\(\\Omega_{1} \\times \\Omega_{2}=\\{(1\\), cara \\(),(2\\), cara \\(),(3\\), cara \\(),(4\\), cara \\(),(5\\), cara \\(),(6\\), cara \\(),(1\\), cruz ), ( 2 , cruz ), ( 3, cruz ), (4, cruz \\(),(5\\), cruz \\(),(6\\), cruz \\()\\}\\) Si \\(\\mathrm{P}_{1}\\) y \\(\\mathrm{P}_{2}\\) son, respectivamente, las funciones de probabilidad asociadas a las experiencias 1 y 2 , ¿es posible calcular probabilidades de la experiencia múltiple a partir de \\(\\mathrm{P}_{1}\\) y \\(\\mathrm{P}_{2}\\) ? Efectivamente! Pero hemos de distinguir dos situaciones: Experiencias independientes: cuando el resultado de una no influya en la otra. Experiencias dependientes: cuando el resultado de una influya en la otra. En nuestro caso se trata de experiencias independientes, puesto que el resultado que se obtenga al tirar el dado no influye sobre el resultado que se obtenga al lanzar la moneda y al revés. ¿Como se calculan, pues, las probabilidades de la experiencia múltiple? Sea un suceso de la experiencia múltiple: A x B. Caso de experiencias independientes: \\[ \\mathrm{P}(\\mathrm{A} \\times \\mathrm{B})=\\mathrm{P}_{1}(\\mathrm{~A}) \\times \\mathrm{P}_{2}(\\mathrm{~B}) \\] Caso de experiencias dependientes: \\[ \\mathrm{P}(\\mathrm{A} \\times \\mathrm{B})=\\mathrm{P}_{1}(\\mathrm{~A}) \\times \\mathrm{P}_{2}(\\mathrm{~B} / \\mathrm{A}) \\] Entendemos que existe una \\(\\mathrm{P}_{2}\\) para cada suceso A . Esto que hemos explicado se puede, lógicamente, generalizar a una experiencia múltiple formada por \\(n\\) experiencias. 1.10 Combinatoria Veamos algunas fórmulas simples que se utilizan en combinatoria y que nos pueden ayudar a calcular el número de casos posibles o el número de casos favorables. 1.10.1 Permutaciones Sea un conjunto de \\(n\\) elementos. A las ordenaciones que se pueden hacer con estos \\(n\\) elementos \\(\\sin\\) repetir ningún elemento y utilizándolos todos se las denomina permutaciones. El número de permutaciones que se pueden realizar coincide con el factorial de \\(n\\), y su cálculo es: \\[ n!=n \\cdot(n-1) \\cdot(n-2) \\ldots \\ldots .2 \\cdot 1 \\] Ejemplo: ¿De cuántas maneras distintas podemos alinear a seis personas en una fila? Respuesta De \\(6!=6 \\cdot 5 \\cdot 4 \\cdot 3 \\cdot 2 \\cdot 1=720\\) maneras (permutaciones de 6 elementos). 1.10.2 Variaciones Sea un conjunto de \\(n\\) elementos. Supongamos que deseamos ordenar \\(r\\) elementos de entre los \\(n\\). A cada una de estas ordenaciones la denominamos variación. El número de variaciones que se pueden hacer de los \\(n\\) elementos tomados de \\(r\\) en \\(r\\) es: \\[ V_{n}^{r}=n \\cdot(n-1) \\ldots \\ldots(n-r+1) \\] Ejemplo En una carrera de velocidad compiten diez atletas. ¿De cuántas maneras distintas podría estar formado el podio? (el podio lo forman el primer, el segundo y el tercer clasificado) Respuesta Cada podio posible es una variación de diez elementos tomado de tres en tres. Por tanto, el número posible de podios es: \\[ \\mathrm{V}_{10}^{3}=10.9 .8=720 \\] 1.10.3 Variaciones con repetición Sea un conjunto de \\(n\\) elementos. Supongamos que se trata de ordenar \\(r\\) elementos que pueden estar repetidos. Cada ordenación es una variación con repetición. El número de variaciones con repetición para un conjunto de \\(n\\) tomados de \\(r\\) en \\(r\\) es : \\[ \\mathrm{RV}_{\\mathrm{n}}^{\\mathrm{r}}=\\mathrm{n}^{\\mathrm{r}} \\] Ejemplo En una urna tenemos cinco bolas numeradas del 1 al 5 . Se extraen tres bolas sucesivamente con reposición (devolviendo cada vez la bola a la urna). ¿Cuántos resultados distintos es posible obtener? Respuesta: Se trata de variaciones con repetición de un conjunto de cinco bolas tomadas de tres en tres. En total tendremos: \\[ \\mathrm{RV}_{5}^{3}=5^{3}=125 \\] 1.10.4 Combinaciones Cuando se trata de contar el número de subconjuntos de \\(x\\) elementos en un conjunto de \\(n\\) elementos tenemos lo que se denomina combinaciones de x elementos en un conjunto de n . El cálculo del contaje se hace mediante el número combinatorio, de la manera siguiente: \\[ \\mathrm{C}_{\\mathrm{n}}^{\\mathrm{x}}=\\binom{n}{\\mathrm{x}}=\\frac{\\mathrm{n!}}{\\mathrm{x}!.(\\mathrm{n}-\\mathrm{x})!} \\] Ejemplo ¿De cuántas maneras podemos elegir, en la urna anterior (recordemos que había cinco bolas), tres bolas en una única extracción? Respuesta Serán combinaciones de cinco elementos tomados de tres en tres, por tanto, tendremos: \\[ \\mathrm{C}_{5}^{3}=\\binom{5}{3}=\\frac{5!}{3!(5-3)!}=10 \\] 1.10.5 Permutaciones con repetición Sea un conjunto de \\(n\\) elementos, de entre los cuales tenemos \\(a\\) elementos indistinguibles entre sí, \\(b\\) elementos indistinguibles entre sí, \\(c\\) elementos indistinguibles entre sí, etc. Cada ordenación de estos elementos se denominará permutación con repetición. El número de permutaciones con repetición es: \\[ R P{ }_{n}^{a, b, c, \\ldots}=\\frac{n!}{a!b!c!\\ldots} \\] Ejemplo ¿Cuantas palabras con sentido o sin él pueden formarse con las letras PATATA? Respuesta: Tenemos tres veces la letra A, dos veces la T y una vez la P. Por tanto, serán: \\[ \\mathrm{RP}_{6}^{3,2,1}=\\frac{6!}{3!2!!}=60 \\] 1.11 Frecuencia relativa y probabilidad La definición moderna de probabilidad basada en la axiomática de Kolmogorov (presentada anteriormente) es relativamente reciente. Históricamente hubo otros intentos previos de definir el escurridizo concepto de probabilidad, descartados por diferentes razones. Sin embargo conviene destacar aquí algunas ideas que aparecen en la antigua definición basada en la frecuencia relativa, ya que permiten intuir algunas profundas propiedades de la probabilidad. Recordemos antes que si en un experimento que se ha repetido \\(n\\) veces un determinado suceso A se ha observado en \\(k\\) de estas repeticiones, la frecuencia relativa \\(\\mathrm{f}_{\\mathrm{r}}\\) del suceso A es: \\[ \\mathrm{f}_{\\mathrm{r}}=k / n \\] El interés por la frecuencia relativa y su relación con el concepto de probabilidad aparece a lo largo de los siglos XVIII a XX al observar el comportamiento de numerosas repeticiones de experimentos reales. A título de ejemplo de un experimento de este tipo, supongamos que se dispone de una moneda ideal perfectamente equilibrada. Aplicando directamente la regla de Laplace resulta claro que el suceso \\(\\mathrm{A}=\\) obtener cara tiene probabilidad: \\[ \\mathrm{p}(\\mathrm{A})=1 / 2=0,5 \\] ### Ilustración por simulación En el enlace siguiente se accede a una simulación por ordenador de la ley de los grandes números en la que se basa precisamente la idea de asimilar “a la larga” (es decir a medida que crece el número de repeticiones) frecuencia relativa y probabilidad. Enlace a la simulación En la simulación podéis definir: La verdadera probabilidad” de que al tirar la moneda salga cara, EL número de tiradas. Como podréis comprobar, sea cual sea la probabilidad (una moneda justa es un 0.5) a la larga la frecuencia relativa converge hacia el valor que habéis fijado. Eso sí, observad lo que sucede si fijais probabilidades cercanas a 0.5 o muy alejadas de ell. ¿La idea de lo que sucede a la larga es la misma? ¿En que encontráis diferencias? Aunque no deje de llamar la atención el carácter errático del comportamiento de \\(\\mathrm{f}_{\\mathrm{r}}\\) entre los valores 0 y 1, estaréis seguramente de acuerdo que a mayor número de lanzamientos \\(n\\), más improbable es que \\(f_{r}\\) se aleje mucho de \\(p(A)\\). La teoría moderna de la probabilidad enlaza formalmente estas ideas con el estudio de las leyes de los grandes números, que se discutiran con más detalle en el capítulo dedicado a las “Grandes muestras”. 1.12 Caso de Estudio: Eficacia de una prueba diagnóstica Para decidir la presencia(E) o ausencia (A) de sordera profunda a la edad de seis meses, se está ensayando una batería de tests. Considerando el caso en que la prueba pueda dar positivo \\((+)\\) o negativo \\((-)\\), hay que tener en cuenta que en individuos con dicha sordera la prueba dará a veces positivo y a veces negativo, e igual ocurrirá con individuos que no presentan la sordera. En este contexto todas las probabilidades pueden ser interpretadas en terminos de resultados positivos o neghativos, correctamente o no y cada una ha recibe un nombre que la ha popularizado dentro de la literatura médica: Así tenemos: \\(\\mathrm{P}(+/ \\mathrm{E})\\) Probabilidad de test positivo en individuos que padecen la sordera. Este valor se conoce como sensibilidad del test. \\(\\mathrm{P}(+/ \\mathrm{A})=\\) Probabilidad de test positivo en individuos que no padecen la sordera. Este valor se conoce como probabilidad de falso-positivo. \\(\\mathrm{P}(-/ \\mathrm{E})=\\) Probabilidad de test negativo en individuos que padecen la sordera Este valor se conoce como probabilidad de falso-negativo. \\(P(-/ A)=\\) Probabilidad de test negativo en individuos que no padecen sordera. Este valor se conoce como especificidad del test. Finalmente a la probabilidad, \\(\\mathrm{P}(\\mathrm{E})\\), de presentar la enfermedad se le conoce como prevalencia de la enfermedad. Lógicamente, en un “buen test” nos interesa que la sensibilidad y la especificidad sean elevadas, mientras que los falsos-positivos y falsos-negativos sean valores bajos. Además no debemos olvidar que, el interés de aplicar el test, consiste en que sirva de elemento predictivo para diagnosticar la sordera. Por lo tanto, interesa que las probabilidades: \\(\\mathrm{P}(\\mathrm{E} /+)=\\) Probabilidad de padecer sordera si el test da positivo \\(\\mathrm{P}(\\mathrm{A} /-)=\\) Probabilidad de no padecer sordera si el test da negativo sean realmente altas. A las probabilidades anteriores se las conoce como: valores predictivos del test, en concreto: \\(\\mathrm{P}(\\mathrm{E} /+)=\\) es el valor predictivo positivo y \\(\\mathrm{P}(\\mathrm{A} /-)=\\) es el valor predictivo negativo 1.12.1 Aplicación del Teorema de Bayes Estamos en una situación en que, a partir de conocimiento de unas probabilidades, nos interesa calcular otras, para lo que utilizaremos el teorema de Bayes. Habitualmente, a partir de estudios epidemiológicos y muestras experimentales, se estiman: La prevalencia La sensibilidad del test La especificidad del test La probabilidad de falso positivo La probabilidad de falso negativo ¿Cómo se obtiene entonces el valor predictivo del test? Veamos como aplicar el teorema de Bayes a este problema: Si dividimos a la población global (en este caso, el conjunto de todos los bebés de seis meses) entre los que padecen sordera y los que no la padecen, aplicando el teorema de Bayes resulta que: \\[ \\mathrm{P}(\\mathrm{E} /+)=(\\mathrm{P}(+/ \\mathrm{E}) \\times \\mathrm{P}(\\mathrm{E})) /(\\mathrm{P}(+/ \\mathrm{E}) \\times \\mathrm{P}(\\mathrm{E})+\\mathrm{P}(+/ \\mathrm{A}) \\times \\mathrm{P}(\\mathrm{~A})) \\] y \\[ \\mathrm{P}(\\mathrm{~A} /-)=(\\mathrm{P}(-/ \\mathrm{A}) \\times \\mathrm{P}(\\mathrm{~A})) /(\\mathrm{P}(-/ \\mathrm{A}) \\times \\mathrm{P}(\\mathrm{~A})+\\mathrm{P}(-/ \\mathrm{E}) \\times \\mathrm{P}(\\mathrm{E})) \\] 1.12.2 Ejemplo numérico Supongamos que en el ejemplo de la sordera, se sabe que: Prevalencia \\(=0,003\\), Es decir, que un tres por mil padece sordera profunda a esta edad. Sensibilidad \\(=0,98\\) Especificidad \\(=0,95\\) Probabilidad de falso positivo \\(=0,05\\) Probabilidad de falso negativo \\(=0,02\\) ¿Cuál es el valor predictivo del test? \\[ \\begin{aligned} & \\mathrm{P}(\\mathrm{E} /+)=(0,98 \\times 0,003) /(0,98 \\times 0,003+0,05 \\times 0,997)=0,00294 / 0,05279=0,055692 \\\\ & \\mathrm{P}(\\mathrm{~A} /-)=(0,95 \\times 0,997) /(0,95 \\times 0,997+0,02 \\times 0,003)=0,94715 / 0,94721=0,999936 \\end{aligned} \\] En conclusión, Podemos afirmar que se trata de un test muy válido para decidir que no hay sordera en caso de que el resultado del test sea negativo. Sin embargo, el valor tan bajo de \\(\\mathrm{P}(\\mathrm{E} /+)\\) no permite poder considerar al test como un predictor válido para diagnosticar la sordera. Obsérvese que: Probabilidad de falso positivo \\(=1-\\) especificidad Probabilidad de falso negativo \\(=1-\\) sensibilidad "],["variables-aleatorias-y-distribuciones-de-probabilidad.html", "Capítulo 2 Variables aleatorias y Distribuciones de probabilidad 2.1 El espacio muestral y sus elementos 2.2 Representación numérica de los sucesos elementales. Variables aleatorias 2.3 Caracterización de una variable aleatoria a través de la probabilidad. Función de distribución 2.4 Propiedades de la función de distribución 2.5 Clasificación de las variables aleatorias 2.6 Variable aleatoria discretas 2.7 Variables aleatorias continuas 2.8 Caracterización de una variable aleatoria a través de parámetros 2.9 Esperanza de una variable aleatoria discreta 2.10 Esperanza de una variable aleatoria continua 2.11 Propiedades de la esperanza matemática 2.12 Varianza de una variable aleatoria 2.13 Momentos (de orden \\(k\\)) de una variable aleatoria 2.14 Definición formal de variable aleatoria 2.15 Caso práctico: Lanzamiento de dos dados", " Capítulo 2 Variables aleatorias y Distribuciones de probabilidad En el capítulo anterior hemos introducido el concepto de probabilidad y como calcular probabilidades asociadas a sucesos observables, formados por uno o mas sucesos elementales, resultado de un experimento aleatorio. En muchas ocasiones nos interesa representar los resultados de un experimento aleatorio mediante un valor numérico que lo caracterice. Por ejemplo si tiramos tres monedas y contamos el número de caras, nos será indiferente cuando salgan dos caras, en que monedas ha salido una cara y en cual ha salido una cruz. En la práctica, esto significa que en dichas ocasiones, aunque haya un experimento aleatorio detras de los valores que observamos, tan sólo nos interesan los resultados que expresamos a traves de valores numéricos. Las variables aleatorias son la forma que hemos desarrollado para trasladar la estructura proporcionada por los espacios de probabilidad el espacio muestral, el conjunto de sucesos elementales, al conjunto de los números, en concreto a la recta real, haciéndolo de tal forma que podamos seguir calculando probabilidades de sucesos observables. En este capítulo veremos que las variables aleatorias permiten pues transportar la probabilidad del espacio de probabilidad original a la recta real. Para ello, introduciremos una función que es la que se ocupa de ello, la función de distribución de probabilidad. 2.1 El espacio muestral y sus elementos Cuando llevamos a cabo un experimento aleatorio, el conjunto \\(\\Omega\\) de resultados posibles forman el denominado espacio muestral. Sus elementos \\(\\omega\\) (resultados o sucesos elementales) deben ser conocidos por el investigador que realiza la experiencia, aun cuando no podamos determinar a priori el resultado particular de una realización concreta. Supondremos que también conocemos la manera de asignar una probabilidad sobre el conjunto de enunciados o sucesos observables que se pueden construir a partir de \\(\\Omega\\). Es decir, supondremos la existencia de un espacio de probabilidad construido a partir de los resultados de \\(\\Omega\\). Generalmente, la estructura del espacio muestral no permite, o por lo menos no facilita, su tratamiento matemático. Pensemos en la inmensa variedad en la naturaleza de resultados posibles de diferentes experimentos. Además es bastante frecuente que no nos interesen los resultados en sí, sino una característica que, de alguna manera, resuma el resultado del experimento. 2.2 Representación numérica de los sucesos elementales. Variables aleatorias La forma de resumen que adoptaremos es la asignación a cada suceso elemental de un valor numérico, en particular, de un número real. En la práctica la asignación de un valor numérico a cada elemento del espacio muestral se hace siguiendo una regla o enunciado, según el interés concreto del experimentador. Evidentemente, podemos construir diversas maneras de asignar valores numéricos a los mismos resultados de un experimento. Hablando en términos coloquiales, podemos decir que cada regla de asignación corresponde a una determinada variable que se puede medir sobre los sucesos elementales. Nótese que es posible construir múltiples variables sobre un mismo espacio de probabilidad. En términos algo más formales, las reglas de asignación se pueden interpretar como una aplicación de \\(\\Omega\\) en el conjunto de números reales. \\[ \\begin{aligned} X: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow X(\\omega) \\end{aligned} \\] \\(X\\) representa la variable o regla de asignación concreta. El conjunto de valores numéricos que puede tomar una variable, y que depende de la naturaleza de la misma variable, recibe el nombre de recorrido de la variable. A partir de este momento, los sucesos elementales quedan substituidos por sus valores numéricos de acuerdo a una determinada variable y permiten un mayor tratamiento matemático en el marco de la teoría de la probabilidad. El apelativo aleatoria que reciben las variables hace referencia al hecho de que los posibles valores que toman dependen de los resultados de un fenómeno aleatorio que se presentan con una determinada probabilidad. Como un complemento al tema, al final del capítulo, presentamos la definición formal de variable aleatoria, donde se introducen las restricciones a las reglas de asignación numérica que posibilitan el tratamiento matemático de las variables. 2.3 Caracterización de una variable aleatoria a través de la probabilidad. Función de distribución Una vez que tenemos definida una variable aleatoria, ésta queda totalmente caracterizada en el momento en que somos capaces de determinar la probabilidad de que la variable tome valores en cualquier intervalo de la recta real. Dado que los posibles valores que puede tomar la variable, es decir, su recorrido, pueden ser muy grandes (infinitos de hecho), el problema de caracterizar una variable aleatoria se resuelve introduciendo una función especial, la función de distribución. Definición La función de distribución de una variable aleatoria \\(X\\) es la aplicación que, a cada punto de la recta real, le asigna la probabilidad del suceso formado por los resultados del experimento que tienen asignado un valor de la variable aleatoria menor o igual a dicho punto. \\[ \\begin{array}{rll} F: & \\mathbb{R} & \\rightarrow[0,1] \\\\ & x & \\rightarrow F(x)=P(X \\leq x)=P\\{\\omega \\in \\Omega \\mid X(\\omega) \\leq x\\} \\end{array} \\] También podemos decir que es la probabilidad inducida en el intervalo de la recta \\((-\\infty, x]\\) Hay que hacer notar que siempre será posible determinar dicha probabilidad gracias a los requerimientos exigidos en la definición formal de variable aleatoria. Por tanto, toda variable aleatoria tiene asociada una función de distribución. Nos referimos a esta función cuando decimos que conocemos la distribución de la variable aleatoria. 2.4 Propiedades de la función de distribución La forma en que hemos definido las funciones de distribución determina que dichas funciones deban de tener las siguientes propiedades: \\(0 \\leq F(x) \\leq 1. \\quad\\) Efectivamente, se trata de una probabilidad, por lo que toma valores entre 0 y 1 \\(\\lim _{x \\rightarrow+\\infty} F(x)=1. \\quad\\) A medida que un valor se hace más y más grande, la probabilidad de encontrar valores anteriores a él crece y, en el límite, valdrá uno (el valor máximo para una probabilidad). \\(\\lim _{x \\rightarrow-\\infty} F(x)=0. \\quad\\) A medida que un valor se hace más y más negativo, la probabilidad de encontrar valores anteriores a él disminuye, y en el límite es cero (el valor mínimo para una probabilidad). \\(x_{1}<x_{2} \\Rightarrow F\\left(x_{1}\\right) \\leq F\\left(x_{2}\\right). \\quad\\) Por construcción, es una función monótona, es decir, si un valor es inferior a otro, la probabilidad de encontrar valores inferiores al menor de los dos será menor o igual que la de encontrarlos inferiores al mayor de los dos. \\(\\lim _{x \\rightarrow a^{+}} F(x)=F(a) \\quad \\forall a \\in \\mathbb{R}. \\quad\\) Por la forma en que se ha definido, la función de distribución es contínua por la derecha. Toda función que verifique las propiedades anteriores es una función de distribución y toda función de distribución caracteriza una determinada variable aleatoria sobre algún espacio de probabilidad. Las propiedades anteriores determinan la forma de la función de distribución. En concreto, según la variable sea contínua o discreta, conceptos definidos a continuación en el capítulo, la forma de la función será: : Primer tipo (Variables contínuas) Segundo tipo (variables discretas) 2.5 Clasificación de las variables aleatorias Para su estudio, las variables aleatorias se clasifican en variables discretas o variables contínuas. 2.5.1 Variables aleatorias discretas Definición: Variable aleatoria discreta Diremos que una variable aleatoria es discreta si su recorrido, es decir, el conjunto de valores que puede tomar, es finito o infinito numerable. Generalmente, este tipo de variables van asociadas a experimentos en los cuales se cuenta el número de veces que se ha presentado un suceso o donde el resultado es una puntuación concreta. Los puntos del recorrido se corresponden con saltos en la gráfica de la función de distribución, que correspondería al segundo tipo de gráfica visto anteriormente. 2.5.2 Variables aleatorias continuas Definición: Variable aleatoria contínua Diremos que una variable aleatoria es continua si su función de distribución es una función continua. También puede definirse, de forma análoga a las variables discretas como aquellas cuyo recorrido, es decir, el conjunto de valores que puede tomar, es un intervalo o subconjunto no numerable de los números reales. En otras palabras, aquellas que pueden tomar cualquier valor dentro de un rango continuo, sin saltos entre los valores posibles. Se corresponde con el primer tipo de gráfica visto. Generalmente, se corresponden con variables asociadas a experimentos en los cuales la variable medida puede tomar cualquier valor en un intervalo; mediciones biométricas, por ejemplo. Un caso particular dentro de las variables aleatorias continuas y al cual pertenecen todos los ejemplos usualmente utilizados, son las denominadas variables aleatorias absolutamente continuas. Definición: Distribución absolutamente contínua Diremos que una variable aleatoria \\(X\\) continua tiene una distribución absolutamente continua si existe una función real \\(f\\), positiva e integrable en el conjunto de números reales, tal que la función de distribución \\(F\\) de \\(X\\) se puede expresar como \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] Una variable aleatoria con distribución absolutamente continua, por extensión, se la clasifica como variable aleatoria absolutamente continua. Definición: función de densidad de probabilidad A la función \\(f\\) se la denomina función de densidad de probabilidad de la variable \\(X\\). Hay que hacer notar que no toda variable continua es absolutamente continua, pero los ejemplos son complicados, algunos utilizan para su construcción el conjunto de Cantor, y quedan fuera del nivel y del objetivo de este curso. Igualmente indicaremos que los tipos de variables comentados anteriormente forman únicamente una parte de todos los posibles tipos de variables, sin embargo contienen prácticamente todas las variables aleatorias que encontramos usualmente. Tal como se estudiará más adelante, existen algunas familias de funciones de distribución, tanto dentro del grupo de las discretas como de las continuas, que por su importancia reciben un nombre propio y se estudiarán en los capítulos siguientes. En ocasiones encontramos variables de tipo mixto, es decir que se comportan como discretas o contínuas para distintos grupos de valores. 2.6 Variable aleatoria discretas Tal como se ha definido, una variable aleatoria \\(X\\) discreta toma valores en un conjunrto finito o numerables. Indicaremos el recorrido de la variable \\(X\\) como: \\(\\left\\{x_{1}, x_{2}, \\ldots, x_{\\mathrm{k}}, \\ldots\\right\\}\\). El ejemplo más sencillo de variable aleatoria discreta lo constituyen las variables indicadoras. Sea \\(A\\) un suceso observable, se llama indicador de \\(A\\) a la variable aleatoria definida por \\[ \\begin{aligned} I_{A}: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow I_{A}(\\omega)=\\left\\{\\begin{array}{lll} 1 & \\text { si } \\omega \\in A \\\\ 0 & \\text { si } & A \\end{array}\\right. \\end{aligned} \\] 2.6.0.1 Ejercicio propuesto Construir, a partir de las variables indicadoras de \\(A\\) y \\(B\\), las siguientes variables indicadoras \\[ I_{A \\cap B} ; I_{A \\cup B} ; I_{A} c ; I_{\\Omega} \\] 2.6.0.1.1 Solución \\[ \\begin{gathered} I_{A \\cap B}=I_{A} \\cdot I_{B} \\\\ I_{A \\cup B}=I_{A}+I_{B}-I_{A \\cap B} \\\\ I_{A} c=1-I_{A} \\\\ \\Omega=1 \\end{gathered} \\] 2.6.1 Caracterización de las v.a. discretas Una variable aleatoria discreta puede caracterizarse a través de la función que asocia cada elemento del recorrido su probabilidad. Dicha función recibe varios nombres según los autores: - función de probabilidad - ley de probabilidad, - función de densidad de la variable aleatoria discreta. - función de masa de probabilidad. Aunque es habitual encontrar, en muchos libros el término función de densidad para variables (absolutamente) contínuas y el término función de masa de probabilidad para variables discretas, también lo es referirse a ambas como “función de densidad”. La función de probabilidad de una variable discreta se puede representar de la manera siguiente: \\[ \\begin{array}{rll} f: & \\mathbb{R} & \\rightarrow[0,1] \\\\ & x & \\rightarrow f(x)=P(X=x)=P\\{\\omega \\in \\Omega \\mid X(\\omega)=x\\} \\end{array} \\] Obsérvese que, a diferencia de la función de distribución que toma valores para cualquier valor real, la función definida anteriormente es nula en todo punto que no pertenezca al recorrido. En cambio, siguiendo con la análogía, y dado que se trata de una probabilidad, la función de densidad discreta está acotada \\(0 \\leq f(x) \\leq 1\\). Toda función de densidad discreta puede expresarse de manera explícita a través de una tabla que asocie directamente puntos del recorrido con sus probabilidades. Ejemplo: Función de densidad de una variable indicadora Consideremos la variable indicadora del suceso \\(A\\) : \\[ \\begin{aligned} I_{A}: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow I_{A}(\\omega)=\\left\\{\\begin{array}{lll} 1 & \\text { si } & \\omega \\in A \\\\ 0 & \\text { si } & A \\end{array}\\right. \\end{aligned} \\] La función de densidad de esta variable sería la siguiente: \\(x\\) 0 1 \\(f(x)=P(X=x)\\) \\(1-P(A)=P\\left(A^{\\mathrm{c}}\\right)\\) \\(P(A)\\) El recorrido está formado por dos valores: 1 y 0 , con las mismas probabilidades que las del suceso \\(A\\) y su complementario, respectivamente. En muchos casos será posible expresar la función de probabilidadmediante una fórmula matemática que define una regla de asignación de probabilidades para los valores del recorrido. Ejemplo: Un modelo matemático para la función de probabilidad \\[ P(X=x)=0,2 \\cdot 0,8^{x-1}, \\quad x=1,2, \\ldots \\] es la función de densidad de una variable aleatoria discreta con recorrido numerable. 2.6.2 Propiedades de la función de densidad discreta \\[ 0 \\leq f(x) \\leq 1 \\] \\(\\sum_{i=1}^{n} f\\left(x_{i}\\right)=1\\), si el recorrido es finito. \\(\\sum_{i=1}^{\\infty} f\\left(x_{i}\\right)=1\\), si el recorrido es numerable. 2.6.3 Relaciones entre la función de distribución y la función de densidad discreta. Probabilidad de intervalos. Existe una relación muy importante entre las funciones de distribución \\(F(x)\\) y de densidad \\(f(x)\\) de una variable aleatoria discreta. La función de distribución en un punto se obtiene acumulando el valor de la función de densidad para todos los valores del recorrido menores o iguales al punto en cuestión. \\[ F(x)=\\sum_{x_{i} \\leq x} f\\left(x_{i}\\right) \\quad \\text { para todo } \\mathrm{x}_{\\mathrm{i}} \\text { perteneciente al recorrido de la variable. } \\] En efecto, supongamos que el recorrido de una variable discreta \\(X\\) es \\(\\left\\{x_{1}, x_{2}, \\ldots, x_{k}, \\ldots\\right\\}\\) y que deseamos conocer el valor de la función de distribución en un punto \\(x\\) tal que \\(x_{i} \\leq x<x_{i+1}\\), entonces es inmediato que \\[ F(x)=P(X \\leq x)=P\\left(X=x_{1}\\right)+P\\left(X=x_{2}\\right)+\\ldots+P\\left(X=x_{i}\\right)=f\\left(x_{1}\\right)+f\\left(x_{2}\\right)+f\\left(x_{3}\\right)+\\ldots+f\\left(x_{i}\\right) \\] Por ejemplo, para una variable indicadora de un suceso \\(A\\), tenemos la relación siguiente: Valor de \\(\\boldsymbol{x}\\) \\(\\boldsymbol{f}(\\boldsymbol{x})\\) \\(\\boldsymbol{F}(\\boldsymbol{x})\\) \\((-\\infty, 0)\\) 0 0 \\(P\\left(A^{c}\\right)\\) \\(P\\left(A^{\\mathrm{c}}\\right)\\) \\((0,1)\\) \\(P\\left(A^{\\mathrm{c}}\\right)\\) 1 \\(P(A)\\) \\(P\\left(A^{\\mathrm{c}}\\right)+P(A)=1\\) \\((1,+\\infty)\\) 1 A partir de las funciones de densidad y de distribución es posible expresar las probabilidades para cualquier posible intervalo de valores de la variable. Por ejemplo: Intervalo \\(P(X \\leq a)=F(a)\\) \\(P(X<a)=F(a)-f(a)\\) \\(P(X>a)=1-F(a)=1-P(X \\leq a)\\) \\(P(X \\geq a)=1-F(a)+f(a)=1-P(X>a)\\) \\(P(a<X \\leq b)=F(b)-F(a)\\) \\(P(a<X<b)=F(b)-f(b)-F(a)\\) \\(P(a \\leq X \\leq b)=F(b)-F(a)+f(a)\\) \\(P(a \\leq X<b)=F(b)-f(b)-F(a)+f(a)\\) 2.7 Variables aleatorias continuas Una variable aleatoria \\(X\\) diremos que es continua si su función de distribución es una función continua. En la práctica, se corresponden con variables asociadas con experimentos en los cuales la variable medida puede tomar cualquier valor en un intervalo: mediciones biométricas, intervalos de tiempo, áreas, etc. Ejemplo: Variables aleatorias continuas Resultado de un generador de números aleatorios entre 0 y 1. Es el ejemplo más sencillo que podemos considerar, es un caso particular de una familia de variables aleatorias que tienen una distribución uniforme en un intervalo \\([a, b]\\). Se corresponde con la elección al azar de cualquier valor entre \\(a\\) y \\(b\\). Estatura de una persona elegida al azar en una población. El valor que se obtenga será una medición en cualquier unidad de longitud ( m , cm , etc.) dentro de unos límites condicionados por la naturaleza de la variable. El resultado es impredecible con antelación, pero existen intervalos de valores más probables que otros debido a la distribución de alturas en la población. Más adelante veremos que, generalmente, variables biométricas como la altura se adaptan un modelo de distribución denominado distribución Normal y representado por una campana de Gauss. Dentro de las variables aleatorias continuas tenemos las variables aleatorias absolutamente continuas. Diremos que una variable aleatoria \\(X\\) continua tiene una distribución absolutamente continua si existe una función real \\(f\\), positiva e integrable en el conjunto de números reales, tal que la función de distribución \\(F\\) de \\(X\\) se puede expresar como \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] Una variable aleatoria con distribución absolutamente continua, por extensión, se clasifica como variable aleatoria absolutamente continua. En cuanto a nuestro manual, todas las variables aleatorias continuas con las que trabajemos pertenecen al grupo de las variables absolutamente continuas, en particular, los ejemplos y casos expuestos. 2.7.1 Función de densidad continua La función que caracteriza las variables continuas es aquella función \\(f\\) positiva e integrable en los reales, tal que acumulada desde \\(-\\infty\\) hasta un punto \\(x\\), nos proporciona el valor de la función de distribución en \\(x, F(\\mathrm{x})\\). Recibe el nombre de función de densidad de la variable aleatoria continua. \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] Las funciones de densidad discreta y continua tienen, por tanto, un significado análogo, ambas son las funciones que acumuladas (en forma de sumatorio en el caso discreto o en forma de integral en el caso continuo) dan como resultado la función de distribución. La diferencia entre ambas, sin embargo, es notable. La función de densidad discreta toma valores positivos únicamente en los puntos del recorrido y se interpreta como la probabilidad de la que la variable tome ese valor \\(f(x)=P(X=x)\\). La función de densidad continua toma valores en el conjunto de números reales y no se interpreta como una probabilidad. No está acotada por 1, puede tomar cualquier valor positivo. Es más, en una variable continua se cumple que probabilidades definidas sobre puntos concretos siempre son nulas. \\[ P(X=x)=0 \\text { para todo } x \\text { real. } \\] ¿Cómo se interpreta, entonces, la función de densidad continua? Las probabilidades son las áreas bajo la función de densidad. El área bajo la función de densidad entre dos puntos a y b se interpreta como la probabilidad de que la variable aleatoria tome valores comprendidos entre \\(a\\) y \\(b\\). Por tanto, siempre se cumple lo siguiente: \\[ \\int_{-\\infty}^{+\\infty} f(x) d x=1 \\] La función de densidad se expresa a través de una función matemática. La forma específica de la función matemática generalmente pasa por considerar a la variable aleatoria como miembro de una determinada familia de distribuciones, un determinado modelo de probabilidad. Estas familias generalmente dependen de uno o más parámetros y serán objeto de un estudio específico en un capítulo posterior. La atribución a una determinada familia depende de la naturaleza de la variable en cuestión. Podemos ver, únicamente con ánimo ilustrativo, la expresión analítica y la gráfica para los ejemplos comentados con anterioridad: Resultado de un generador de números aleatorios entre \\(\\boldsymbol{a}\\) y \\(\\boldsymbol{b}\\). Modelo Uniforme. \\(f(x)=\\left\\{\\begin{array}{cc}\\frac{1}{b-a} & x \\in[a, b] \\\\ 0 & x \\notin[a, b]\\end{array}\\right\\}\\) Estatura de una persona elegida al azar en una población. Modelo Normal. \\[ f(x)=\\frac{1}{\\sqrt{2 \\pi}} e^{\\frac{-(x-170)^{2}}{2}}-\\infty<x<\\infty \\] 2.7.2 Relaciones entre la función de distribución y la función de densidad. Para una variable continua, la relación entre las funciones de distribución y de densidad viene dada directamente a través de la definición. La función de distribución en un punto se obtiene integrando el valor de la función de densidad desde menos infinito hasta el punto en cuestión. Por ejemplo: \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] 2.7.2.1 Probabilidad de intervalos A partir de las funciones de densidad y de distribución, y teniendo en cuenta que \\(P(X=x)=0\\) para todo \\(x\\) real, es posible expresar las probabilidades para cualquier posible intervalo de valores de la variable. Por ejemplo: Intervalo \\(P(X \\leq a)=P(X<a)=F(a)=\\int_{-\\infty}^{a} f(x) d x\\) \\(P(X \\geq a)=P(X>a)=1-F(a)=\\int_{a}^{+\\infty} f(x) d x\\) \\(P(a<X \\leq b)=P(a<X<b)=P(a \\leq X \\leq b)=P(a \\leq X<b)\\) \\(=F(b)-F(a)=\\int^{b} f(x) d x\\) Fijémonos que la probabilidad de los intervalos se corresponde con el área bajo la función de densidad dentro del intervalo considerado. 2.8 Caracterización de una variable aleatoria a través de parámetros Hasta el momento hemos visto que toda variable aleatoria viene caracterizada a través de unas determinadas funciones matemáticas, las funciones de distribución y de densidad. Una vez caracterizada, y por tanto conocida, la distribución de una variable aleatoria, podemos obtener cualquier probabilidad asociada. En ocasiones podemos acotar más el problema y reducir el estudio de una variable aleatoria a determinar una serie de características numéricas asociadas con la distribución de la variable. Dichas características tienen como propiedad fundamental el hecho de resumir gran parte de las propiedades de la variable aleatoria y juegan un papel muy destacado en las técnicas estadísticas que desarrollaremos a lo largo del curso. Por ejemplo, supuesta la pertenencia de una variable aleatoria a una determinada familia de distribuciones de probabilidad, bien sea discreta o continua, los diferentes miembros de la familia diferirán en el valor de esas características numéricas. En este caso, denominaremos a tales características los parámetros de la distribución. Existe un buen número de tales características, pero nos centraremos en las dos más importantes: la esperanza y la varianza. La primera nos informa sobre la localización de los valores de la variable y la segunda, sobre el grado de dispersión de estos valores. 2.9 Esperanza de una variable aleatoria discreta La esperanza matemática de una variable aleatoria es una característica numérica que proporciona una idea de la localización de la variable aleatoria sobre la recta real. Decimos que es un parámetro de centralización o de localización. Su interpretación intuitiva o significado se corresponde con el valor medio teórico de los posibles valores que pueda tomar la variable aleatoria, o también con el centro de gravedad de los valores de la variable supuesto que cada valor tuviera una masa proporcional a la función de densidad en ellos. La definición matemática de la esperanza en el caso de las variables aleatorias discretas se corresponde directamente con las interpretaciones proporcionadas en el párrafo anterior. Efectivamente, supuesta una variable aleatoria discreta \\(X\\) con recorrido \\(\\left\\{x_{1}, x_{2}, \\ldots, x_{k}, \\ldots\\right\\}\\) y con función de densidad \\(f(x)\\), se define la esperanza matemática de \\(X\\) como el valor \\[ E(X)=\\sum_{x_{i} \\in X(\\Omega)} x_{i} f\\left(x_{i}\\right) \\] donde el sumatorio se efectúa para todo valor que pertenece al recorrido de \\(X\\). En caso de que el recorrido sea infinito la esperanza existe si la serie resultante es absolutamente convergente, condición que no siempre se cumple. La definición se corresponde con un promedio ponderado según su probabilidad de los valores del recorrido y, por tanto, se corresponde con la idea de un valor medio teórico. 2.10 Esperanza de una variable aleatoria continua La idea intuitiva que más nos puede ayudar en la definición de la esperanza matemática de una variable aleatoria continua es la idea del centro de gravedad de los valores de la variable, donde cada valor tiene una masa proporcional a la función de densidad en ellos. Dada una variable aleatoria absolutamente continua \\(X\\) con función de densidad \\(f(x)\\), se define la esperanza matemática de \\(X\\) como el valor \\[ E(X)=\\int_{-\\infty}^{+\\infty} x f(x) d x \\] suponiendo que la integral exista. 2.11 Propiedades de la esperanza matemática Esperanza de una función de una variable aleatoria Variable discreta \\[ E(h(X))=\\sum_{x_{i} \\in X(\\Omega)} h\\left(x_{i}\\right) f\\left(x_{i}\\right) \\] Variable continua \\[ E(h(X))=\\int_{-\\infty}^{+\\infty} h(x) f(x) d x \\] 2.11.1 Linealidad de la esperanza matemática \\(E(X+Y)=E(X)+E(Y)\\) \\(E(k \\cdot X)=k \\cdot E(X)\\) para todo número real \\(k\\). \\(E(k)=k\\) para todo número real \\(k\\). \\(E(a \\cdot X+b)=a \\cdot E(X)+b\\) para todo par de números reales \\(a\\) y \\(b\\). 2.11.2 Esperanza del producto \\(E(X \\cdot Y)=E(X) \\cdot E(Y)\\) únicamente en el caso de que \\(X\\) e \\(Y\\) sean variables aleatorias independientes. 2.12 Varianza de una variable aleatoria La varianza de una variable aleatoria es una característica numérica que proporciona una idea de la dispersión de la variable aleatoria respecto de su esperanza. Decimos que es un parámetro de dispersión. La definición es la siguiente: \\[ \\operatorname{Var}(X)=E\\left((X-E(X))^{2}\\right) \\] Es, por tanto, el promedio teórico de las desviaciones cuadráticas de los diferentes valores que puede tomar la variable respecto de su valor medio teórico o esperanza. En el caso de las variables discretas, la expresión se convierte en: \\[ \\operatorname{Var}(X)=\\sum_{x_{i} \\in X(\\Omega)}\\left(x_{i}-E(X)\\right)^{2} f\\left(x_{i}\\right) \\] mientras que para las variables continuas tenemos: \\[ \\operatorname{Var}(X)=\\int_{-\\infty}^{+\\infty}(x-E(X))^{2} f(x) d x \\] En ambos casos existe una expresión equivalente alternativa y generalmente de cálculo más fácil: \\[ \\operatorname{Var}(X)=E\\left(X^{2}\\right)-(E(X))^{2} \\] Una de las características de la varianza es que viene expresada en unidades cuadráticas respecto de las unidades originales de la variable. Un parámetro de dispersión derivado de la varianza y que tiene las mismas unidades de la variable aleatoria es la desviación típica, que se define como la raíz cuadrada de la varianza. \\[ \\sigma_{X}=\\sqrt{\\operatorname{Var}(X)}=\\sqrt{E\\left((X-E(X))^{2}\\right)} \\] 2.12.1 Propiedades de la varianza \\(\\operatorname{Var}(X) \\geq 0\\) \\(\\operatorname{Var}(k \\cdot X)=k^{2} \\cdot \\operatorname{Var}(X)\\) para todo numero real \\(k\\). \\(\\operatorname{Var}(k)=0\\) para todo numero real \\(k\\). \\(\\operatorname{Var}(a \\cdot X+b)=a^{2} \\cdot \\operatorname{Var}(X)\\) para todo par de números reales \\(a\\) i \\(b\\). \\(\\operatorname{Var}(X+Y)=\\operatorname{Var}(X)+\\operatorname{Var}(Y)\\) únicamente en el caso que \\(X\\) y \\(Y\\) sean independientes. 2.13 Momentos (de orden \\(k\\)) de una variable aleatoria Dada una variable aleatoria \\(X\\), definimos el momento de orden \\(k\\) como: \\[ m_{k}=E\\left(X^{k}\\right) \\] suponiendo que tal esperanza exista. Podemos ver que la esperanza es el momento de orden \\(1, E(X)=m_{1}\\). Definimos el momento central de orden \\(k\\) como: \\[ \\mu_{k}=E\\left((X-E(X))^{k}\\right) \\] Con la denominación anterior, la varianza es el momento central de orden \\(2, \\operatorname{Var}(X)=\\mu_{2}\\). Es posible también definir momentos mixtos de dos variables aleatorias. Dadas dos variables aleatorias \\(X\\) e \\(Y\\) definimos el momento mixto de orden \\((r, k)\\) como \\[ m_{r k}=E\\left(X^{r} \\cdot Y^{k}\\right) \\] y el momento mixto central de orden \\((r, k)\\) como \\[ \\left.\\mu_{r k}=E(X-E(X))^{r} \\cdot(Y-E(Y))^{k}\\right) \\] El momento mixto central más importante es el \\(\\mu_{11}\\), denominado la covarianza de \\(X\\) e \\(Y\\), y con una interpretación en el sentido de cuantificar el grado de dependencia entre dos variables aleatorias, puesto que si \\(X\\) e \\(Y\\) son independientes se verifica que \\(\\mu_{11}=0\\), mientras que si \\(\\mu_{11} \\neq 0\\) entonces las variables son dependientes. 2.14 Definición formal de variable aleatoria Tal como hemos comentado, la definición formal de variable aleatoria impone una restricción matemática en la formulación vista hasta el momento. Definiremos una variable aleatoria como una aplicación de \\(\\Omega\\) en el conjunto de números reales \\[ \\begin{aligned} X: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow X(\\omega) \\end{aligned} \\] que verifique la propiedad siguiente \\[ \\forall x \\in \\mathbb{R} \\quad \\text { el conjunto } \\mathrm{A}=\\{a \\mid \\mathrm{X}(a) \\leq \\mathrm{x}\\} \\text { es un suceso observable } \\] es decir, para todo número real \\(x\\), el conjunto de resultados elementales tales que la variable aleatoria toma sobre ellos valores inferiores o iguales a \\(x\\) ha de ser un suceso sobre el cual podamos definir una probabilidad. Dicha propiedad recibe el nombre de medibilidad y por tanto podríamos decir que una variable aleatoria es una función medible de \\(\\Omega\\) en los reales. Esta condición nos asegura que podremos calcular sin problemas, probabilidades sobre intervalos de la recta real a partir de las probabilidades de los sucesos correspondientes. \\[ P(X \\leq x)=P\\{\\omega \\mid X(\\omega) \\leq x\\} \\] La expresión anterior se leería de la manera siguiente: La probabilidad de que la variable aleatoria tome valores inferiores o iguales a \\(x\\) es igual a la probabilidad del suceso formado por el conjunto de resultados elementales sobre los que el valor de la variable es menor o igual que \\(x\\). La probabilidad obtenida de esta manera se denomina probabilidad inducida. Se puede comprobar que, a partir de la condición requerida, se pueden obtener probabilidades sobre cualquier tipo de intervalo de la recta real. Por ejemplo: \\[ P(a<X \\leq b)=P(X \\leq b)-P(X \\leq a) \\] La condición exigida para ser variable aleatoria discreta ahora puede ser expresada como: \\[ \\forall k=1,2, \\ldots \\text { el conjunto } \\mathrm{A}=\\left\\{\\omega \\mid \\mathrm{X}(\\omega)=\\mathrm{x}_{\\mathrm{k}}\\right\\}=\\mathrm{X}^{-1}\\left(\\left\\{\\mathrm{x}_{\\mathrm{k}}\\right\\}\\right) \\text { es un suceso observable } \\] Toda variable aleatoria definida sobre un espacio de probabilidad finito es necesariamente discreta. La suma y el producto de variables aleatorias discretas, definido por: \\[ (X+Y)(w)=X(w)+Y(w) \\text { y }(X \\cdot Y)(w)=X(w) \\cdot Y(w) \\] es también una variable aleatoria discreta. 2.15 Caso práctico: Lanzamiento de dos dados 2.15.1 Espacio muestral Supongamos que estamos realizando un experimento consistente en el lanzamiento simultáneo de dos dados y en la observación del resultado obtenido. El conjunto de resultados posibles forma el espacio muestral \\(\\Omega\\) asociado a dicho experimento. Sus elementos serán como los que se muestran a continuación: En total, el espacio muestral estaría formado por 36 resultados posibles que, en principio y suponiendo los dados regulares, son todos ellos equiprobables con probabilidad \\(1 / 36\\). Nótese que consideramos diferentes resultados del tipo: un uno en el primer dado y un dos en el segundo o un dos en el primer dado y un uno en el segundo. Una vez fijados los enunciados anteriores, es fácil asignar probabilidades a diferentes sucesos observables, por ejemplo: Suceso Probabilidad Que aparezcan dos cifras iguales \\(6 \\cdot 1 / 36=1 / 6\\) Que la suma sea 10 \\(3 \\cdot 1 / 36=1 / 12\\) No entramos en detalles de la obtención de las probabilidades dado que se ha estudiado suficientemente en el tema anterior. 2.15.2 Representación numérica Continuando con el experimento anterior, podemos representar los resultados obtenidos al lanzar dos dados por valores numéricos. ¿Cómo hacerlo? Definiendo una regla de asignación numérica para cada resultado. Una posible regla sería, por ejemplo, asignar a cada resultado la suma de puntos de las caras. Este enunciado nos define una variable que representa cada suceso elemental por un valor numérico. Los 36 posibles resultados del experimento se transforman en 11 posibles valores numéricos para la variable: \\(2,3,4,5,6,7,8,9,10,11\\) y 12 . Este conjunto de valores forman el recorrido de la variable suma de puntos de las caras. A partir de las probabilidades definidas sobre los sucesos observables es fácil extender las probabilidades a los diferentes resultados de la variable. Por ejemplo, la probabilidad de que la variable tome el valor 10 es equivalente a la probabilidad del suceso observable que la suma sea 10 , calculada anteriormente e igual a \\(1 / 12\\). La variable considerada hasta el momento es sólo una de las múltiples variables que podríamos definir sobre el mismo experimento. Por ejemplo, podemos estar interesados no en la suma de puntos sino en el punto más bajo de cada tirada, de forma que podríamos construir una nueva variable a partir del enunciado o regla de asignación asignar a cada resultado el menor de los puntos de las dos caras. Tenemos una nueva variable sobre el mismo espacio anterior. El recorrido, en este caso, está formado por los valores: \\(1,2,3,4,5\\) y 6 . Las dos variables estudiadas y otras muchas que se podrían definir sobre este experimento son ejemplos absolutamente equivalentes desde el punto de vista formal. 2.15.3 Algunas probabilidades En el ejemplo de los dados vamos a centrarnos en la variable aleatoria \\[ X=\\text { Suma de puntos de las caras } \\] El recorrido de la variable está formado por los números \\(\\{2,3,4,5,6,7,8,9,10,11\\) i 12\\(\\}\\). Vamos a calcular algunas probabilidades: \\(P(X \\leq 1)=P\\{\\varnothing\\}=0\\) (Ningún resultado tiene asignado un valor menor o igual a 1) \\(P(X \\leq 2)=P\\{(1,1)\\}=1/36\\) (Sólo hay un caso al que se le asigne un valor inferior o igual a 2). \\(P(X \\leq 3.5)=P\\{(1,1), (1,2), (2,1)\\}=3/36\\) (Tres resultados elementales tienen asignado un valor menor o igual a 3.5) Ahora podéis intentar calcular por vosotros mismos algunas probabilidades: (a) \\(P(X \\leq 6)\\) (b) \\(P(X \\leq 8,2)\\); (c) \\(P(X \\leq 12)\\); (d) \\(P(X \\leq 20)\\) i (e) \\(P(2,2<X \\leq 7)\\) 2.15.4 Función de distribución Para calcular la función de distribución de la variable X \\(=\\) Suma de puntos de las caras : necesitamos conocer el recorrido de la variable, que es: \\(\\{2,3,4,5,6,7,8,9,10,11, 12\\}\\) y, utilizando este recorrido como pauta, determinar para todo punto \\(x\\) de la recta real la probabilidad \\(P(X \\leq x)\\). En nuestro ejemplo: \\[ F(x)=P(X \\leq x)= \\begin{cases}0 & x<2 \\\\ 1 / 36 & 2 \\leq x<3 \\\\ 3 / 36 & 3 \\leq x<4 \\\\ 6 / 36 & 4 \\leq x<5 \\\\ 10 / 36 & 5 \\leq x<6 \\\\ 15 / 36 & 6 \\leq x<7 \\\\ 21 / 36 & 7 \\leq x<8 \\\\ 26 / 36 & 8 \\leq x<9 \\\\ 30 / 36 & 9 \\leq x<10 \\\\ 33 / 36 & 10 \\leq x<11 \\\\ 35 / 36 & 11 \\leq x<12 \\\\ 36 / 36=1 & x \\geq 12\\end{cases} \\] Acabamos de construir la función de distribución de la variable suma de la puntuación al lanzar dos dados. Vamos a ver su representación gráfica: Ejercicio : Haced lo mismo para la variable aleatoria el menor de los puntos de las dos caras al lanzar dos dados. 2.15.5 Clasificación de las variables En el experimento que estamos considerando, lanzar simultáneamente dos dados, cualquiera de las dos variables aleatorias que hemos considerado hasta el momento: \\[ X=\\text {Suma los puntos de las dos caras } \\] \\[ Y=\\text { El menor de los puntos de las dos caras } \\] se clasifican dentro del tipo de variables aleatorias discretas, puesto que en ambos casos el recorrido es finito: \\(\\{2,3,4,5,6,7,8,9,10,11, 12\\}\\) para la variable \\(X\\) y \\(\\{1,2,3,4,5, 6\\}\\) para la variable \\(Y\\). También son discretas aquellas variables aleatorias con recorrido infinito numerable. Ejercicio: ¿Sabríais construir una variable aleatoria discreta con recorrido infinito numerable basada en el experimento que consiste en el lanzamiento de dos dados? 2.15.6 Función de densidad discreta Para calcular la función de densidad de la variable \\[ X=\\text { suma de puntos de las caras } \\] necesitamos conocer el recorrido de la variable, es decir: \\(\\{2,3,4,5,6,7,8,9,10,11, 12\\}\\) y, a partir del recorrido, determinar para todo punto del recorrido la probabilidad \\(P(X=x)\\). En nuestro ejemplo \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] Acabamos de construir la función de densidad de la variable suma de la puntuación al lanzar dos dados. Vamos a ver su representación gráfica: Hemos optado por la representación con barras en lugar de puntos para permitir una visualización de la función óptima. Ejercicio: Haced lo mismo para la variable aleatoria el menor de los puntos de las dos caras al lanzar dos dados. 2.15.7 Probabilidad de intervalos Vamos a centrarnos en la variable \\[ X=\\text { Suma de puntos de las caras } \\] Las funciones de distribución y de densidad son, respectivamente, \\[ F(x)=P(X \\leq x)=\\left\\{\\begin{array}{ll} 0 & x<2 \\\\ 1 / 36 & 2 \\leq x<3 \\\\ 3 / 36 & 3 \\leq x<4 \\\\ 6 / 36 & 4 \\leq x<5 \\\\ 10 / 36 & 5 \\leq x<6 \\\\ 15 / 36 & 6 \\leq x<7 \\\\ 21 / 36 & 7 \\leq x<8 \\\\ 26 / 36 & 8 \\leq x<9 \\\\ 30 / 36 & 9 \\leq x<10 \\\\ 33 / 36 & 10 \\leq x<11 \\\\ 35 / 36 & 11 \\leq x<12 \\\\ 36 / 36=1 & x \\geq 12 \\end{array} \\quad f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases}\\right. \\] Puede observarse cómo los valores de la función de distribución se obtienen acumulando los valores de la función de densidad correspondientes. Vamos a calcular algunas probabilidades utilizando las funciones anteriores. Compárese con los resultados obtenidos con anterioridad basados directamente en los resultados elementales. \\(P(X \\leq 1)=F(1)=0\\) \\(P(X \\leq 3,5)=F(3,5)=3 / 36=f(2)+f(3)\\) \\(P(X<6)=F(6)-f(6)=15 / 36-5 / 36=10 / 36=f(2)+f(3)+f(4)+f(5)\\) \\(P(2,2<X \\leq 7)=F(7)-F(2,2)=21 / 36-1 / 36=20 / 36=f(3)+f(4)+f(5)+f(6)+f(7)\\) \\(P(2<X<7)=F(7)-f(7)-F(2)=21 / 36-6 / 36-1 / 36=14 / 36=f(3)+f(4)+f(5)+f(6)\\) 2.15.8 Esperanza Supongamos que estamos interesados en determinar cual sería el valor medio teórico de la variable \\[ X=\\text { Suma de puntos de las caras } \\] La función de densidad es: \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] La misma función de densidad nos da información sobre el recorrido de la variable. Calcular el valor medio teórico de la variable quiere decir calcular la esperanza. A partir de la fórmula de la esperanza para variables discretas, tenemos \\[ \\begin{aligned} E(X) &=2 \\cdot 1 / 36+3 \\cdot 2 / 36+4 \\cdot 3 / 36+5 \\cdot 4 / 36+6 \\cdot 5 / 36+\\\\ & + 7 \\cdot 6 / 36+8 \\cdot 5 / 36+9 \\cdot 4 / 36+\\\\ &+ 10 \\cdot 3 / 36+ 11 \\cdot 2 / 36+12 \\cdot 1 / 36=\\\\ & =7 \\end{aligned} \\] Por tanto, 7 es la esperanza de la variable \\(X=\\) Suma de puntos de las caras. Fijaos que la esperanza para la variable Puntuación de un dado sería \\[ 1 \\cdot 1 / 6+2 \\cdot 1 / 6+3 \\cdot 1 / 6+4 \\cdot 1 / 6+5 \\cdot 1 / 6+6 \\cdot 1 / 6=3,5 \\] y que se puede considerar la variable Suma de puntos de las dos caras como la suma de dos variables que representen la puntuación de cada dado. La esperanza de la suma es, efectivamente, la suma de las esperanzas de cada variable sumada. En la aplicación siguiente, podéis calcular la esperanza de la variable Puntuación de un dado y modificar las probabilidades de las diferentes caras, de este modo se modifica la esperanza. Ejercicio: ¿Podríais hacer lo mismo para la variable \\(X=\\) El menor de los puntos de las dos caras al lanzar dos dados? 2.15.9 Esperanza de un juego Imaginemos que alguien os propone el juego siguiente: lanzad dos dados, si la suma obtenida es menor o igual a 6 ganáis 100 euros, sin embargo, si la suma obtenida es mayor que 6 tenéis que pagar 100 euros. ¿Nos conviene jugar a este juego? Veamos, podemos considerar el resultado del juego como una variable aleatoria discreta que toma dos valores: +100 si ganamos y -100 si perdemos. Nos interesa conocer las probabilidades de los diferentes resultados. Consideremos la variable \\(X=\\) Suma de puntos de las caras, cuya función de densidad conocemos: \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] A partir de aquí es fácil ver que la función de densidad de la variable \\(Y=\\) Resultado del juego será la siguiente: \\[ f(100)=15 / 36 ; f(-100)=21 / 36 \\] Por tanto, la esperanza del juego, que puede ser interpretada como la ganancia media por jugada, será \\[ E(Y)=100 \\cdot 15 / 36-100 \\cdot 21 / 36=-100 / 6 \\approx-16,667 \\] Es decir, la ganancia media por jugada es negativa, por tanto no es favorable dicho juego para el jugador, es un juego no equitativo. 2.15.10 Esperanza con recorrido infinito Vamos a tratar de calcular la esperanza de la siguiente variable aleatoria: \\(X=\\) Número de lanzamientos que hemos de hacer para conseguir que aparezca un doble seis La variable que acabamos de definir es una variable discreta con recorrido infinito numerable. El recorrido sería el siguiente: \\[ \\{1,2,3,4, \\ldots\\} \\] Vamos a ver como calculamos la función de densidad: \\(P(X=1)=\\) Probabilidad de que aparezca un doble seis en el primer lanzamiento \\(=1 / 36\\) \\(P(X=2)=\\) Probabilidad de que el doble seis no aparezca en el primer lanzamiento y sí en el segundo = \\(35 / 36 \\cdot 1 / 36=35 / 36^{2}\\) \\(P(X=3)=\\) Probabilidad de que el doble seis no aparezca ni en el primer ni en el segundo lanzamientos y sí en el tercero \\(=35 / 36 \\cdot 35 / 361 / 36=35^{2} / 36^{3}\\) En general, \\(P(X=k)=35^{k-1} / 36^{k}\\) Para simplificar, vamos a llamar \\(p=1 / 36\\) y \\(q=1-p=35 / 36\\), con esta nomenclatura \\(P(X=\\mathrm{k})=q^{k-1} p\\). Por tanto, la esperanza será: \\[ \\begin{aligned} E(X)& =\\sum_{i=1}^{\\infty} i q^{i-1} p=p \\sum_{i=1}^{\\infty} i q^{i-1}=p \\frac{d}{d q} \\sum_{i=1}^{\\infty} q^{i}= \\\\ &= p \\frac{d}{d q}\\left(\\frac{q}{1-q}\\right)=p \\frac{1}{(1-q)^{2}}=\\\\ & = \\frac{1}{p} \\end{aligned} \\] En nuestro ejemplo el número medio de tiradas antes de salir un doble seis será 36 . 2.15.11 Esperanza infinita Ahora calcularemos la esperanza del juego siguiente: lanzamos un dado hasta que aparece un número par, el jugador gana \\(2^{n}\\) unidades monetarias si aparece un número par por primera vez en la tirada nésima. El recorrido de la variable aleatoria \\(X=\\) Ganancia del juego, está formado por todos los números de la forma \\(2^{n}\\) con \\(n=1,2,3, \\ldots\\) La probabilidad de cada valor del recorrido es la probabilidad de que aparezca un número par por primera vez en la tirada nésima, es decir \\((1 / 2)^{n-1} \\cdot(1 / 2)=(1 / 2)^{n}\\). Por tanto, la esperanza del juego es la siguiente: \\[ E(X)=\\sum_{n=1}^{\\infty} 2^{n}(1 / 2)^{n}=\\sum_{n=1}^{\\infty} 1=\\infty \\] Como vemos, la variable aleatoria \\(X\\) no tiene esperanza finita. El enunciado presentado es una versión del problema presentado alrededor de 1730 por el matemático Daniel Bernouilli a la Academia de San Petersburgo y conocido como la paradoja de San Petersburgo, dado que la esperanza del juego es aparentemente infinita. 2.15.12 Varianza Si ahora queremos calcular la varianza de la variable \\[ X=\\text { Suma de puntos de las caras } \\] con función de densidad: \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] Podemos aplicar la fórmula \\[ \\operatorname{Var}(X)=E\\left(X^{2}\\right)-(E(X))^{2} \\] La esperanza ya la tenemos calculada con anterioridad \\[ \\begin{aligned} E(X) & =2 \\cdot 1 / 36+3 \\cdot 2 / 36+4 \\cdot 3 / 36+5 \\cdot 4 / 36+\\\\ & +6 \\cdot 5 / 36+7 \\cdot 6 / 36+8 \\cdot 5 / 36+9 \\cdot 4 / 36+\\\\ & +10 \\cdot 3 / 36+ 11 \\cdot 2 / 36+12 \\cdot 1 / 36=\\\\ & =7 \\end{aligned} \\] Necesitamos calcular la esperanza de la variable al cuadrado, que en este caso resulta: \\[ \\begin{aligned} E\\left(X^{2}\\right)& =2^{2} \\cdot 1 / 36+3^{2} \\cdot 2 / 36+4^{2} \\cdot 3 / 36+5^{2} \\cdot 4 / 36+6^{2} \\cdot 5 / 36+\\\\ & + 7^{2} \\cdot 6 / 36+8^{2} \\cdot 5 / 36+9^{2} \\cdot 4 / 36+ 10^{2} \\cdot 3 / 36+\\\\ & + 11^{2} \\cdot 2 / 36+12^{2} \\cdot 1 / 36=329 / 6 \\\\ &\\approx 54,833 \\end{aligned} \\] Con lo que la varianza resulta ser \\[ \\operatorname{Var}(X)=329 / 6-7^{2}=35 / 6 \\approx 5,833 \\] Nuevamente, para la variable Puntuación de un dado, la varianza se obtendría de la manera siguiente: \\[ \\begin{aligned} E(X)& =1 \\cdot 1 / 6+2 \\cdot 1 / 6+3 \\cdot 1 / 6+4 \\cdot 1 / 6+5 \\cdot 1 / 6+6 \\cdot 1 / 6= \\\\& =3,5\\\\ E \\left(X^{2}\\right)&=1^{2} \\cdot 1 / 6+2^{2} \\cdot 1 / 6+3^{2} \\cdot 1 / 6+4^{2} \\cdot 1 / 6+\\\\ & + 5^{2} \\cdot 1 / 6+6^{2} \\cdot 1 / 6=91 / 6\\\\ & \\approx 15,167 \\\\ \\operatorname{Var}(X)&=91 / 6-3,5^{2}=35 / 12 \\approx 2,9167 \\end{aligned} \\] y se cumple que la varianza de la variable Suma de puntos de las dos caras es la suma de las varianzas de las puntuaciones de cada dado por separado. Recordemos que esto sólo sucede si las variables sumadas son independientes, como así ocurre con las puntuaciones de cada dado por separado. "],["distribuciones-notables.html", "Capítulo 3 Distribuciones Notables 3.1 Distribuciones discretas 3.2 Distribuciones Continuas 3.3 Distribuciones con R (y Python) 3.4 La familia exponencial de distribuciones", " Capítulo 3 Distribuciones Notables 3.1 Distribuciones discretas 3.1.1 La distribución de Bernouilli Es el modelo discreto más sencillo en que podamos pensar. Hace referencia a situaciones en las que el resultado de un experimento sólo puede ser: se ha dado el suceso \\(A\\) ó no se ha dado el suceso \\(A\\). Por ejemplo, en el lanzamiento de una moneda sólo puede darse el suceso sale cara o su complementario no sale cara (sale cruz). Por lo tanto, definimos la variable aleatoria \\(X\\) de la siguiente manera: \\(X=1\\) si se ha dado \\(A\\). \\(X=0\\) si no se ha dado \\(A\\), es decir, se ha dado el complementario \\(A^{c}\\). Si además, conocemos la probabilidad de que suceda \\(A\\) : \\[ P[A]=p \\] y, por tanto, \\[ P\\left[A^{c}\\right]=1-p \\] ya podemos definir la distribución de la variable aleatoria \\(X\\). En estas condiciones diremos que \\(X\\) sigue una distribución de Bernouilli de parámetro \\(p\\), que abreviaremos así \\(X \\sim \\operatorname{Bernouilli}(p)\\), y su función de densidad se define así: \\[ f(k)=P[X=k]=\\left\\{\\begin{array}{cc} p & \\text { si } k=1(\\text { se ha dado } A) \\\\ 1-p & \\text { si } k=0\\left(\\text { se ha dado } A^{c}\\right) \\end{array}\\right\\} \\] Gráficamente: Mientras que la función de distribución será: \\[ F(k)=P[X \\leq k]=\\left\\{\\begin{array}{lc} 0 & \\text { si } \\mathbf{k}<0 \\\\ \\mathbf{p} & \\text { si } 0 \\leq \\mathbf{k}<1 \\\\ 1 & \\text { si } \\mathbf{p} \\geq 1 \\end{array}\\right\\} \\] Gráficamente: 3.1.1.1 Propiedades del modelo de Bernouilli La esperanza vale \\(E(X)=p\\). La varianza vale \\(V(X)=p(1-p)\\). 3.1.2 La distribución Binomial Al igual que el modelo de Bernouilli, hace referencia a experiencias con resultados dicotómicos (el resultado sólo puede ser \\(A\\) o \\(A^{\\mathcal{C}}\\) ). Sin embargo en este modelo estamos interesados en la repetición de \\(n\\) veces una experiencia de este tipo en condiciones independientes. Tomemos el ejemplo del contaje del número de caras en el lanzamiento \\(n\\) veces de una moneda regular. Para concretar, vamos a suponer que disponemos de una moneda regular \\((P[\\) cara \\(]=P[c r u z]=1 / 2)\\) que lanzamos cuatro veces. Es evidente que, en estas condiciones, la variable X: número de caras en cuatro lanzamientos independientes de una moneda regular es una variable aleatoria discreta que sólo puede tomar cinco posibles valores: \\[ x=0,1,2,3,4 \\] Pasemos ahora a calcular la probabilidad de cada valor (en terminología estadística, vamos a calcular la función de densidad de la variable \\(X\\) ). Es evidente que la \\(P[X=0]\\) es igual a la probabilidad de salgan cuatro cruces seguidas: \\[ P[X=0]=P[c r u z, c r u z, c r u z, c r u z]=\\mathrm{P}[c r u z]^{4}=(1 / 2)^{4}=0,0625 \\] ya que la moneda es regular y, por tanto, \\(P[\\) cara \\(]=P[\\) cruz \\(]=1 / 2\\). La \\(P[X=3]\\) corresponde al suceso de que salgan tres caras ( \\(c\\) en adelante) y una cruz ( + en adelante). Sin embargo, en este caso tenemos hasta cuatro posibles maneras de obtener dicho resultado, según el orden en que aparezcan las tres caras y la cruz: +ccc \\(\\mathrm{c}+\\mathrm{cc}\\) \\(\\mathrm{cc}+\\mathrm{c}\\) \\(\\mathrm{ccc}+\\) También debería resultar evidente que la probabilidad de cada uno de estos sucesos es la misma: \\[ P[+\\mathrm{ccc}]=P[\\mathrm{c}+\\mathrm{cc}]=P[\\mathrm{cc}+\\mathrm{c}]=P[\\mathrm{ccc}+]=(1 / 2)^{4}=(1 / 2)^{4}=0,0625 \\] de manera que, finalmente, la probabilidad de que salgan tres caras y una cruz es la suma de las probabilidades de los 4 casos anteriores: \\[ P[X=3]=4(1 / 2)^{4}=0,25 \\] Y así podríamos ir calculando el resto de casos. Podemos ver que, en este ejemplo, todos los casos tienen la misma probabilidad \\((0,0625)\\) y que el número total de casos posibles es 16 . En términos de combinatoria dicho número se obtendría como variaciones con repetición de dos valores (cara o cruz) tomados de cuatro en cuatro (el número de lanzamientos de la moneda): \\[ V R_{2}{ }^{4}=2^{4}=16 \\] En la siguiente tabla se muestran los dieciséis posibles resultados: \\(k=\\) número de caras Casos 0 +++++ 1 +++c \\(++\\mathrm{c}+\\) \\(+\\mathrm{c}++\\) \\(\\mathrm{c}+++\\) ++cc \\(+\\mathrm{c}+\\mathrm{c}\\) \\(\\mathrm{c}++\\mathrm{c}+\\) \\(\\mathrm{c}+\\mathrm{c}+\\) cc++ \\(\\mathrm{ccc}+\\) \\(\\mathrm{c}+\\mathrm{cc}\\) Si hacemos uso de nuestros conocimientos de combinatoria, comprobamos que el número de casos para cada posible valor \\(k(k=0,1,2,3,4)\\) puede calcularse como permutaciones con repetición de cuatro elementos tomado de \\(k\\) y \\(4-k\\) : \\[ R P_{4}^{k, 4-k}=\\frac{4!}{k!(4-k)!}=\\binom{4}{k} \\] y obtenemos finalmente el número combinatorio 4 sobre \\(k\\). En efecto, para el caso \\(k=3\\), tendríamos: \\[ \\binom{4}{3}=\\frac{4!}{3!1!}=4 \\] que son los cuatro posibles casos que nos dan tres caras y una cruz. Finalmente, recordando que todos los casos tienen la misma probabilidad, se construye la siguiente tabla: \\(k=\\) número de caras Número de casos \\(P[X=k]\\) 0 1 0,0625 1 4 0,2500 2 6 0,3750 3 4 0,2500 4 1 0,0625 Total 16 1 3.1.2.1 Los parámetros de la distribución Binomial La última tabla de la página anterior es, justamente, la función de densidad de nuestra variable \\(X\\). Función de densidad de \\(X\\) \\(k\\) \\(P[X=k]\\) 0 0,0625 1 0,2500 2 0,3750 3 0,2500 4 0,0625 En otro caso 0 Como hemos visto, para obtener los resultados anteriores, hemos tenido que definir dos valores: \\(n\\) : el número de lanzamientos (repeticiones de la experiencia aleatoria en condiciones independientes), en nuestro caso \\(n=4\\). \\(p\\) : la probabilidad de que salga cara \\((P[c])\\), en nuestro caso \\(p=1 / 2\\). Se dice, por tanto, que la distribución Binomial depende de dos parámetros: \\(n\\) y \\(p\\). En nuestro ejemplo, diremos que \\(X\\) sigue una distribución Binomial de parámetros \\(n=4\\) i \\(p=1 / 2\\). De forma abreviada: \\[ X \\sim B(n=4 ; p=1 / 2) \\] En el ejemplo que hemos visto, suponíamos que la moneda era regular y, por tanto, \\[ P[c]=P[+]=1 / 2 \\] Si tenemos una moneda trucada con las siguientes probabilidades: \\[ P[c]=2 / 3 \\quad \\text { i } \\quad P[+]=1 / 3 \\] diremos que en este caso la variable \\(X\\) : número de caras en cuatro lanzamientos independientes de nuestra moneda trucada sigue una distribución Binomial de parámetros: \\[ X \\sim B(n=4 ; p=2 / 3) \\] El problema se nos complica levemente ya que ahora no todos los posibles resultados tienen la misma probabilidad. Veamos dos ejemplos: La probabilidad de obtener cuatro caras es: \\[ P[c c c c]=(2 / 3)^{4}=0,1975 \\] La probabilidad de que el primer lanzamiento sea cara y el resto sean cruces valdrá: \\[ P\\left[c^{+++}\\right]=(2 / 3)^{\\prime}(1 / 3)^{3}=0,0247 \\] Sin embargo sí se cumplirá que la probabilidad de que todos los caso que resulten en el mismo número de caras y cruces tendrán la misma probabilidad. Por ejemplo, para los cuatro casos en los que el número total de caras es 1 y el de cruces 3 : \\[ P[c+++]=P[+c++]=P[++c+]=P[+++c]=(2 / 3)^{\\prime}(1 / 3)^{3}=0,0247 \\] Y, por tanto, la probabilidad de obtener una sola cara en el lanzamiento de nuestra moneda trucada será: \\[ P[X=1]=4^{\\prime} 0,0247=0,0988 \\] O, generalizando, si \\(P[A]=p\\) y \\(P\\left[A^{c}\\right]=1-p\\) tenemos que \\[ P[X=k]=c(n, k) p^{k}(1-\\mathrm{p})^{n-k} \\quad \\text { si } k=0,1, \\ldots, n \\] donde \\(c(n, k)\\) representa el número de posibles resultados en los que obtenemos \\(k\\) caras y \\(n-k\\) cruces en \\(n\\) lanzamientos. Tal como hemos visto, dicho número se puede calcular como permutaciones con repetición de \\(n\\) unidades tomadas de \\(k\\) y \\(n-k\\). Todo lo anterior nos lleva a formular el model binoial a traves de la siguiente función de densidad: \\[ f(k)=P[X=k]=\\left\\{\\begin{array}{ll} \\binom{\\mathbf{n}}{\\mathbf{k}} p^{k}(1-p)^{n-k} & \\text { si } \\quad k=0, \\ldots, n \\\\ 0 & \\text { en caso contrario } \\end{array}\\right\\} \\] con lo que la función de distribución se calcularía: \\[ F(k)=P[X \\leq k]=\\left\\{\\begin{array}{cc} 0 & \\text { si } k<0 \\\\ \\sum_{i=0}^{k}\\binom{\\mathbf{i}}{\\mathbf{n}} p^{i}(\\mathbf{1}-p)^{n-i} \\\\ \\mathbf{1} & \\text { si } k \\geq n \\end{array}\\right\\} \\] 3.1.2.2 Propiedades del modelo Binomial La esperanza vale \\(E(X)=n p\\). La varianza es \\(V(X)=n p(1-p)\\). Es una generalización del modelo de Bernouilli. En efecto, la Binomial con \\(n=1\\) (una sola realización) coincide con la distribución de Bernouilli. La suma de dos variables aleatorias binomiales independientes con igual parámetro \\(p\\) también sigue una distribución Binomial: \\[ X_{1} \\sim B\\left(n=n_{1} ; p=p_{0}\\right) \\quad \\text { i } \\quad X_{2} \\sim B\\left(n=n_{2} ; p=p_{0}\\right) \\] Si definimos \\(Z=X_{1}+X_{2}\\) entonces, \\[ Z \\sim B\\left(n=n_{1}+n_{2} ; p=p_{0}\\right) \\] 3.1.3 La distribución de Poisson Se trata de un modelo discreto, pero en el que el conjunto de valores con probabilidad no nula no es finito, sino numerable. Se dice que una variable aleatoria \\(X\\) sigue la distribución de Poisson si su función de densidad viene dada por: \\[ f(k)=P[X=k]=\\left\\{\\begin{array}{ll} e^{-\\lambda \\frac{\\lambda^{k}}{k!}} & \\text { si } k=0,12, \\ldots \\\\ 0 & \\text { en caso contrario } \\end{array}\\right\\} \\] Como vemos, este modelo se caracteriza por un sólo parámetro \\(\\lambda\\), que debe ser positivo. Esta distribución suele utilizarse para contajes del tipo número de individuos por unidad de tiempo, de espacio, etc. 3.1.3.1 Propiedades del modelo de Poisson Esperanza: \\(E(X)=\\lambda\\). Varianza: \\(V(X)=\\lambda\\). En esta distribución la esperanza y la varianza coinciden. La suma de dos variables aleatorias independientes con distribución de Poisson resulta en una nueva variable aleatoria, también con distribución de Poisson, de parámetro igual a la suma de parámetros: \\[ X_{1} \\sim P\\left(\\lambda=\\lambda_{1}\\right) \\quad \\text { y } \\quad X_{2} \\sim P\\left(\\lambda=\\lambda_{2}\\right) \\] y definimos \\(Z=X_{1}+X_{2}\\), entonces, \\[ Z \\sim P\\left(\\lambda=\\lambda_{1}+\\lambda_{2}\\right) \\] Este resultado se extiende inmediatamente al caso de \\(n\\) variables aleatorias independientes con distribución de Poisson. En este caso, la variable suma de todas ellas sigue una distribución de Poisson de parámetro igual a la suma de los parámetros. 3.1.4 La distribución Uniforme discreta Tenemos esta distribución cuando el resultado de una experiencia aleatoria puede ser un conjunto finito de \\(n\\) posibles resultados, todos ellos igualmente probables. Un ejemplo puede ser la variable \\(X\\), puntuación en el lanzamiento de un dado regular. Esta variable toma seis valores posibles, todos con la misma probabilidad \\(p=1 / 6\\). La función de densidad de esta variable será: \\[ f(k)=P[X=k]=1 / 6 \\quad k=1,2,3,4,5,6 \\] En general, si la variable \\(X\\) puede tomar \\(n(k=1,2, \\ldots, n)\\) valores, todos con igual probabilidad, su función de densidad será: \\[ f(k)=P[X=k]=1 / n \\quad k=1,2, \\ldots, n \\] 3.1.4.1 Propiedades del modelo Uniforme discreto Sea \\(n\\) el número de valores equiprobables posibles: 3.1.4.2 Esperanza: \\[ E(X)=\\frac{n+1}{2} \\] 3.1.4.3 Varianza: \\[ V(X)=\\frac{(n+1)[2(2 n+1)-3(n+1)]}{12} \\] 3.1.5 La distribución Hipergeométrica Este modelo presenta similitudes con el Binomial, pero sin la suposición de independencia de éste último. Veámoslo: Partimos de un conjunto formado por \\(N\\) individuos divididos en dos categorías mutuamente excluyentes: \\(A\\) y \\(A^{c}\\); de manera que \\(N_{1}\\) individuos pertenecen a la categoría \\(A\\) y \\(N_{2}\\) individuos, a la categoría \\(A^{c}\\). Por tanto, se cumple que \\[ N=N_{1}+N_{2} \\] Si del conjunto anterior extraemos \\(n\\) individuos sin reemplazamiento \\((n \\leq N)\\), la variable \\(X\\) que representa el número k de individuos que pertenecen a la categoría A (de los n extraídos) tiene por función de densidad: \\[ f(k)=P[X=k]=\\frac{\\binom{\\mathbf{N}_{1}}{\\mathbf{k}}\\binom{\\mathrm{N}_{2}}{\\mathbf{n}-\\mathbf{k}}}{\\binom{\\mathbf{N}}{\\mathbf{n}}} \\] si \\(\\operatorname{max}\\left\\{0, \\mathrm{n}-N_{2}\\right\\} \\leq \\mathrm{k} \\leq \\min \\left\\{N_{1}, n\\right\\}\\) La dependencia se debe al hecho de que \\(N\\) es finito y las extracciones se efectúan sin reemplazamiento. El caso de extracciones con reemplazamiento sería equivalente al de \\(N\\) infinito y se resolvería mediante el modelo Binomial. 3.1.5.1 Propiedades del modelo hipergeométrico Esperanza: \\(\\mathrm{E}(\\mathrm{X})=\\mathrm{n} \\mathrm{N}_{1} / \\mathrm{N}_{2}\\). Varianza: \\(V(X)=\\left(n N_{1} N_{2}(N-n)\\right) /\\left(N_{2}(N-1)\\right)\\) 3.1.6 La distribución Geométrica o de Pascal Definamos una experiencia aleatoria cuyo resultado sólo puede ser el suceso \\(A\\) o su complementario \\(A^{c}\\), y que se repite secuencialmente hasta que aparece el suceso \\(A\\) por primera vez. Definamos la variable aleatoria \\(X\\) como el número de veces que repetimos la experiencia en condiciones independientes hasta que se dé A por primera vez. Bajo estas condiciones, decimos que la variable \\(X\\) sigue una distribución geométrica o de Pascal de parámetro \\(p=P(A)\\). La función de densidad puede deducirse fácilmente de la definición: \\[ f(k)=P[X=k]=(1-p)^{k} p \\quad k=0,1,2, \\ldots \\] En el programa siguiente podéis ver su forma y obtener los valores de la función de densidad y de la de distribución: Algunas puntualizaciones de la definición de \\(X\\) : Notése que, en esta definición, condiciones independientes significa que \\(p\\), la probabilidad de \\(A\\), y \\(1-p\\), la de su complementario \\(A^{c}\\), no varían a lo largo de las sucesivas repeticiones de la experiencia. Tal y como la hemos definido, \\(X\\) se refiere al número de lanzamientos hasta que se produce \\(A\\), pero sin contabilizar el último caso en que se da \\(A\\). Por dicha razón \\(X\\) puede tomar los valores \\(k=\\) \\(0,1,2, \\ldots\\) con probabilidad no nula. Un ejemplo de este modelo podría ser la experiencia consistente en lanzar sucesivamente un dado regular hasta que aparezca el número 6 . Si definimos la variable aleatoria \\(X\\) como el número de lanzamientos de un dado regular hasta que aparezca un 6 , queda claro que \\(X\\) sigue una distribución geométrica de parámetro \\(p=1 / 6\\). 3.1.6.1 Propiedades del modelo Geométrico o de Pascal Esperanza: \\(E(X)=(1-p) / p\\) Varianza: \\(V(X)=(1-p) / p^{2}\\) 3.1.6.2 Preguntas: ¿A que suceso nos referimos cuando decimos \\(X=0\\) ? Respuesta. Cuando decimos que \\(X=0\\) nos referimos al caso en que el 6 aparece en el primer lanzamiento. La probabilidad de que esto suceda, suponiendo un dado regular, es de \\(1 / 6\\) : \\[ P[X=0]=1 / 6 \\] ¿Cuál es la probabilidad de que el primer 6 aparezca en el cuarto lanzamiento? Respuesta. La probabilidad de que el primer 6 aparezca en el cuarto lanzamiento corresponde a: \\[ P[X=3]=(5 / 6)^{3 \\cdot} 1 / 6=0,0965 \\] Fijémonos en que, si definimos \\(A\\) como el suceso sale un 6, la probabilidad anterior corresponde a la del suceso: \\(\\left\\{A^{c} A^{c} A^{c} A\\right\\}\\) (en este orden). 3.1.7 La distribución Binomial negativa Puede definirse como una generalización del modelo Geométrico o de Pascal. Así, dado un suceso \\(A\\) y su complementario \\(A^{c}\\), cuando \\(X\\) representa el número de veces que se da \\(\\mathrm{A}^{\\mathrm{c}}\\) (ausencias, fallos, etc.) hasta que se produce r veces el suceso A , en una serie de repeticiones de la experiencia aleatoria en condiciones independientes, decimos que \\(X\\) sigue la distribución Binomial negativa. Nótese que, cuando \\(r=1\\), tenemos exactamente el modelo geométrico. Este modelo queda definido por dos parámetros \\(p\\) (la probabilidad de \\(A: p=P(A)\\) ) y \\(r\\) (el número de veces que debe producirse \\(A\\) para que detengamos la experiencia). La función de densidad viene dada por: \\[ f(k)=P[X=k]=\\binom{\\mathbf{k}+\\mathbf{r}-\\mathbf{1}}{\\mathbf{r}-\\mathbf{1}} \\mathbf{p}^{\\mathbf{r}} \\mathbf{q}^{\\mathbf{k}} \\quad \\mathbf{k}=\\mathbf{0}, \\mathbf{1}, \\mathbf{2}, \\ldots \\] donde \\(q\\) representa el complementario de \\(p: q=1-p\\). 3.1.7.1 Propiedades del modelo Binomial negativo Esperanza: \\(E(X)=r^{\\prime} q / p\\) Varianza: \\(V(X)=r^{\\prime} q / p^{2}\\) Se cumplen las siguientes propiedades respecto la función de densidad: \\[ f(0)=p^{r} \\quad \\text { y } \\quad f(k+1)=\\frac{(1-p)(k+r)}{k+1} f(k) \\] Este modelo se ajusta bien a contajes (números de individuos por unidad de superficie) cuando se produce una distribución contagiosa (los individuos tienden a agruparse). La distribución Binomial negativa puede definirse con mayor generalidad si tomamos \\(r\\) como un número real positivo cualquiera (no necesariamente entero). Pero, en dicho caso, se pierde el carácter intuitivo del modelo y se complican ligeramente los cálculos. Por dichas razones, se ha excluido dicha posibilidad en esta presentación. 3.1.8 Tabla resumen de las distribuciones discretas principales Distribución Parámetros Función de densidad Esperanza Varianza Bernouilli \\(0 \\leq p \\leq 1\\) \\(p^{k}(1-p)^{1-k}\\) \\(k=0,1\\) \\(p\\) \\(p(1-p)\\) Binomial \\(0 \\leq p \\leq 1\\) \\(n=1,2, \\ldots\\) \\(\\binom{\\mathbf{n}}{\\mathbf{k}} p^{k}(1-p)^{n-k}\\) \\(k=0,1, \\ldots, n\\) \\(n p\\) \\(n p(1-p)\\) Poisson \\(\\lambda>0\\) \\(e^{-\\lambda} \\frac{\\lambda^{k}}{k!}\\) \\(k=012, \\ldots\\) \\(\\lambda\\) \\(\\lambda\\) Multinomial \\(0 \\leq p_{1}, \\ldots\\) \\(p_{r} \\leq 1\\) \\(\\left(p_{1}+\\ldots+\\right.\\) \\(\\left.p_{\\mathrm{r}}=1\\right)\\) \\(n=1,2\\) \\(\\frac{n!}{k_{1}!k_{2}!\\cdots k_{r}!} p_{1}^{k_{1}} p_{2}^{k_{2}} \\cdots p_{r}^{k_{r}}\\) \\(\\sum_{i=1}^{r} k_{i}=n\\) \\(\\left(\\begin{array}{c}n p_{1} \\\\ n p_{2} \\\\ \\vdots \\\\ n p_{r}\\end{array}\\right)\\) \\(\\boldsymbol{\\sigma}_{i i}=n p_{i}\\left(1-p_{i}\\right)\\) \\(\\boldsymbol{\\sigma}_{i j}=n p_{i} p_{j} \\quad i \\neq j\\) Uniforme discreta \\(n=1,2, \\ldots\\) \\(\\frac{1}{n}\\) \\(k=1,2, \\ldots . n\\) \\(\\frac{n+1}{2}\\) \\(\\frac{(n+1)[2(2 n+1)-3(n+1)}{12}\\) Hipergeométrica \\(\\left\\{\\begin{array}{c}N=N_{1}+ \\\\ N_{2} \\\\ p=N_{1} / N\\end{array}\\right.\\) \\(\\frac{\\binom{\\mathrm{N}_{1}}{\\mathrm{k}}\\binom{\\mathrm{N}_{2}}{\\mathrm{n}-\\mathrm{k}}}{\\binom{\\mathrm{N}}{\\mathrm{n}}}\\) \\(\\operatorname{max}\\left\\{0, \\mathrm{n}-N_{2}\\right\\} \\leq \\mathrm{k} \\leq \\min \\left\\{N_{1}, n\\right\\}\\) \\(n p\\) \\(n p(1-p) \\frac{N-n}{N-1}\\) Pascal \\(0 \\leq p \\leq 1\\) \\(p(1-p)^{k}\\) \\(k=0,1,2, \\ldots\\) \\(\\frac{1-p}{p}\\) \\(\\frac{1-p}{p^{2}}\\) Binomial negativa \\(0 \\leq p \\leq 1\\) \\(r>0\\) \\(\\frac{r(1-p)}{p}\\) \\(\\frac{r(1-p)}{p^{2}}\\) 3.2 Distribuciones Continuas 3.2.1 La distribución Uniforme La distribución Uniforme es el modelo (absolutamente) continuo más simple. Corresponde al caso de una variable aleatoria que sólo puede tomar valores comprendidos entre dos extremos \\(a\\) y \\(b\\), de manera que todos los intervalos de una misma longitud (dentro de \\((a, b)\\) ) tienen la misma probabilidad. También puede expresarse como el modelo probabilístico correspondiente a tomar un número al azar dentro de un intervalo \\((a, b)\\). De la anterior definición se desprende que la función de densidad debe tomar el mismo valor para todos los puntos dentro del intervalo \\((a, b)\\) (y cero fuera del intervalo). Es decir, \\[ f_{X}(x)=\\left\\{\\begin{array}{ll} \\frac{1}{b-a} & \\text { si } x \\in(a, b) \\\\ 0 & \\text { si } x \\notin(a, b) \\end{array}\\right\\} \\] Gráficamente: La función de distribución se obtiene integrando la función de densidad y viene dada por: \\[ F_{X}(x)=P(X \\leq x)=\\left\\{\\begin{array}{ll} 0 & \\text { si } x \\leq a \\\\ \\frac{x-a}{b-a} & \\text { si } x \\in(a, b) \\\\ 1 & \\text { si } x \\geq b \\end{array}\\right\\} \\] Gráficamente: Función de distribución del modelo uniforme 3.2.1.1 Propiedades del modelo Uniforme Su esperanza vale \\((b+a) / 2\\) Su varianza es \\((b-a)^{2} / 12\\) 3.2.1.2 Una aplicación del modelo Uniforme: el muestreo de Montecarlo En ciertos casos es útil simular el muestreo de una variable aleatoria con una distribución dada. El muestreo de Montecarlo es un procedimiento general para obtener muestras aleatorias de cualquier tipo de variable (discreta o continua) si su función de distribución es conocida o se puede calcular. Supongamos que queremos generar una muestra procedente de una variable aleatoria \\(X\\) con función de distribución \\(F(x)\\). El proceso comprende los siguientes pasos: Obtener un valor aleatorio \\(y\\) entre cero y uno. Es decir, obtener una muestra de una distribución Uniforme entre cero y uno. La mayoría de lenguajes de programación incorporan un generador de este tipo. Considerar el valor obtenido como el valor de la función de distribución a generar: \\(y=F(x)\\). El valor \\(x=F^{-1}(y)\\) (la inversa de la función de distribución en el punto \\(y\\) ) es un valor procedente de la distribución de la que deseábamos generar la muestra. Si queremos obtener una muestra con \\(n\\) individuos debemos repetir los pasos anteriores \\(n\\) veces. 3.2.1.3 Generación de una muestra procedente de una distribución Binomial Supongamos que queremos simular el experimento de contar el número de caras obtenidas en 5 lanzamientos de una moneda trucada con probabilidad de cara igual a 0,75 . Es decir, queremos obtener una muestra de una distribución Binomial con \\(n=5\\) y \\(p=0,75\\). Siguiendo los pasos anteriores deberemos obtener un número al azar entre 0 y 1 (un valor procedente de una distribución Uniforme entre 0 y 1) y si este valor es menor o igual a 0,75 diremos que ha salido cara y, si es superior a 0,75 , cruz. Utiliza el siguiente programa para simular cinco lanzamientos con nuestra moneda trucada: 3.2.2 La distribución Exponencial Este modelo suele utilizarse para variables que describen el tiempo hasta que se produce un determinado suceso. Su función de densidad es de la forma: \\[ f(x)=\\left\\{\\begin{array}{lll} \\frac{1}{\\alpha} \\exp \\left(-\\frac{x}{\\alpha}\\right) & \\text { si } & x>0 \\\\ 0 & \\text { si } & x \\leq 0 \\end{array}\\right\\} \\] Como vemos este modelo depende de un único parámetro \\(\\alpha\\) que debe ser positivo: \\(\\alpha>0\\). A continuación se muestra un programa que nos permite ver cómo cambia la forma de la función de densidad según el parámetro \\(\\alpha\\). La función de distribución se obtiene integrando la de densidad y es de la forma: \\[ F(x)=\\left\\{\\begin{array}{lll} 1-\\exp \\left(-\\frac{x}{\\alpha}\\right) & \\text { si } & x>0 \\\\ 0 & \\text { si } & x \\leq 0 \\end{array}\\right\\} \\] Podemos utilizar el programa siguiente para calcular dicha función de distribución: 3.2.2.1 Propiedades del modelo Exponencial Su esperanza es \\(\\alpha\\). Su varianza es \\(\\alpha^{2}\\). Una propiedad importante es la denominada carencia de memoria, que podemos definir así: si la variable \\(X\\) mide el tiempo de vida y sigue una distribución Exponencial, significará que la probabilidad de que siga con vida dentro de 20 años es la misma para un individuo que a fecha de hoy tiene 25 años que para otro que tenga 60 años. Cuando el número de sucesos por unidad de tiempo sigue una distribución de Poisson de parámetro \\(\\lambda\\) (proceso de Poisson), el tiempo entre dos sucesos consecutivos sigue una distribución Exponencial de parámetro \\(\\alpha=1 / \\lambda\\). 3.2.3 La distribución Normal Se trata, sin duda, del modelo continuo más importante en estadística, tanto por su aplicación directa, veremos que muchas variables de interés general pueden describirse por dicho modelo, como por sus propiedades, que han permitido el desarrollo de numerosas técnicas de inferencia estadística. En realidad, el nombre de Normal proviene del hecho de que durante un tiempo se creyó, por parte de médicos y biólogos, que todas las variables naturales de interés seguían este modelo. Su función de densidad viene dada por la fórmula: \\[ f(x)=\\frac{1}{\\sqrt{2 \\pi} \\sigma} \\exp \\left\\{-\\frac{(x-\\mu)^{2}}{2 \\sigma^{2}}\\right\\} \\quad \\text { donde }-\\infty<x<+\\infty \\] que, como vemos, depende de dos parámetros \\(\\mu\\) (que puede ser cualquier valor real) y \\(\\sigma\\) (que ha de ser positiva). Por esta razón, a partir de ahora indicaremos de forma abreviada que una variable \\(X\\) sigue el modelo Normal así: \\(X \\sim N(\\mu, \\sigma)\\). Por ejemplo, si nos referimos a una distribución Normal con \\(\\mu=0\\) y \\(\\sigma\\) \\(=1\\) lo abreviaremos \\(N(0,1)\\). A continuación vemos gráfica de esta función de densidad (podeis probar a cambiar los parámetros): Como puedes ver, la función de densidad del modelo Normal tiene forma de campana, la que habitualmente se denomina campana de Gauss. De hecho, a este modelo, también se le conoce con el nombre de distribución gaussiana. 3.2.3.1 Propiedades del modelo Normal Su esperanza es \\(\\mu\\). Su varianza es \\(\\sigma^{2} \\mathrm{y}\\), por tanto, su desviación típica es \\(\\sigma\\). Es simétrica respecto a su media \\(\\mu\\), como puede apreciarse en la representación anterior. Media, moda y mediana coinciden \\((\\mu)\\). Cualquier transformación lineal de una variable con distribución Normal seguirá también el modelo Normal. Si \\(X \\sim N(\\mu, \\sigma)\\) y definimos \\(Y=a X+b(\\operatorname{con} a \\neq 0)\\), entonces \\(Y \\sim N(a \\mu+b,|a| \\sigma)\\). Es decir, la esperanza de \\(Y\\) será \\(a \\mu+b\\) y su desviación típica, \\(|a| \\sigma\\). Cualquier combinación lineal de variables normales independientes sigue también una distribución Normal. Es decir, dadas \\(n\\) variables aleatorias independientes con distribución \\(X_{i} \\sim\\) \\(N\\left(\\mu_{i}, \\sigma_{i}\\right)\\) para \\(i=1,2, \\ldots, n\\) la combinación lineal: \\(Y=a_{n} X_{n}+a_{n-1} X_{n-1}+\\ldots+a_{1} X_{1}+\\mathrm{a}_{0}\\) sigue también el modelo Normal: \\[ Y \\approx N\\left(a_{0}+\\sum_{i=1}^{n} a_{i} \\boldsymbol{\\mu}_{i}, \\sqrt{\\sum_{i=1}^{n} a_{i}^{2} \\boldsymbol{\\sigma}^{2}}\\right) \\] ###La función de distribución del modelo Normal La función de distribución del modelo Normal se debería calcular, como en el resto de distribuciones continuas, integrando la función de densidad: \\[ F(x)=P[X \\leq x]=\\int_{-\\infty}^{x} \\frac{1}{\\sqrt{2 \\pi} \\sigma} \\exp \\left\\{-\\frac{(t-\\mu)^{2}}{2 \\sigma^{2}}\\right\\} \\mathrm{dt} \\] Pero nos encontramos con el problema de que no existe ninguna primitiva conocida para esta función, es decir, no sabemos resolver la anterior integral. Sin embargo, si somos incapaces de calcular la función distribución no podremos efectuar ningún cálculo con este modelo. ¿Cómo solucionamos el problema? Una primera solución podría consistir en aproximar la integral a través de técnicas de cálculo numérico. Sin embargo, dado que el conjunto de valores que pueden tomar los parámetros \\(\\mu\\) y \\(\\sigma\\) son infinitos, deberíamos repetir el proceso para cada valor diferente de algún parámetro. Afortunadamente, podemos ahorrarnos el esfuerzo aprovechando la propiedad de que cualquier transformación lineal de una variable Normal sigue también el modelo Normal. Por tanto, replantearemos cualquier problema en términos de una Normal concreta, que suele ser la \\(\\mathrm{N}(0,1)\\), de la siguiente manera: Si \\(X \\sim N(\\mu, \\sigma)\\) y entonces definimos \\(Z=(\\mathrm{X}-\\mu) / \\sigma\\) se cumplirá que \\(Z \\sim N(0,1)\\) \\[ \\begin{gathered} \\text { y, por tanto: } \\\\ F_{X}(x)=P[X \\leq x]=P\\left[\\frac{X-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}} \\leq \\frac{x-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}}\\right]=P\\left[Z \\leq \\frac{x-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}}\\right]=F_{Z}\\left(\\frac{x-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}}\\right) \\end{gathered} \\] A la distribución \\(N(0,1)\\), es decir, la que tiene por media cero y por desviación típica uno, se le denomina Normal reducida o tipificada. En cambio, al proceso de transformación del cálculo de la función de distribución de una Normal cualquiera a través de la Normal tipificada, se le denomina tipificación. Debemos remarcar que el proceso de tipificación no resuelve el problema de la inexistencia de la función primitiva correspondiente. Sin embargo, sí es posible, mediante técnicas de cálculo numérico, obtener la integral numérica correspondiente y elaborar unas tablas que podemos consultar. Naturalmente, la tipificación permite que con una sola tabla, la de la \\(N(0,1)\\), tengamos suficiente. Hoy en día, cada vez se utilizan menos tablas como la mencionada anteriormente, ya que los ordenadores, junto con los abundantes programas estadísticos existentes nos resuelven este problema. Sin embargo, la imposibilidad de integrar analíticamente la función de densidad persiste y, aunque nosotros no seamos conscientes, los programas informáticos realizan el proceso de tipificación para simplificar el problema. 3.2.4 La distribución Gamma Este modelo es una generalización del modelo Exponencial ya que, en ocasiones, se utiliza para modelar variables que describen el tiempo hasta que se produce p veces un determinado suceso. Su función de densidad es de la forma: \\[ f(x)=\\left\\{\\begin{array}{lll} \\frac{1}{\\alpha^{p} \\Gamma(p)} e^{-\\frac{x}{\\alpha}} x^{p-1} & \\text { si } & x>0 \\\\ 0 & \\text { si } & x \\leq 0 \\end{array}\\right\\} \\] Como vemos, este modelo depende de dos parámetros positivos: \\(\\alpha\\) y p. La función \\(\\Gamma(p)\\) es la denominada función Gamma de Euler que representa la siguiente integral: \\[ \\Gamma(p)=\\int_{0}^{\\infty} x^{p-1} e^{-x} d x \\] que verifica \\(\\Gamma(p+1)=p \\Gamma(p)\\), con lo que, si \\(p\\) es un número entero positivo, \\(\\Gamma(p+1)=p\\). 3.2.4.1 Propiedades de la distribución Gamma Su esperanza es \\(p \\alpha\\). Su varianza es \\(p \\alpha^{2}\\) La distribución Gamma \\((\\alpha, p=1)\\) es una distribución Exponencial de parámetro \\(\\alpha\\). Es decir, el modelo Exponencial es un caso particular de la Gamma \\(\\operatorname{con} p=1\\). Dadas dos variables aleatorias con distribución Gamma y parámetro \\(\\alpha\\) común \\[ X \\sim G\\left(\\alpha, p_{1}\\right) \\text { y } Y \\sim G\\left(\\alpha, p_{2}\\right) \\] se cumplirá que la suma también sigue una distribución Gamma \\[ X+Y \\sim G\\left(\\alpha, p_{1}+p_{2}\\right) \\] Una consecuencia inmediata de esta propiedad es que, si tenemos \\(k\\) variables aleatorias con distribución Exponencial de parámetro \\(\\alpha\\) (común) e independientes, la suma de todas ellas seguirá una distribución \\(G(\\alpha, k)\\). 3.2.5 La distribución de Cauchy Se trata de un modelo continuo cuya función de densidad es: \\[ f(x)=\\frac{1}{\\pi\\left(1+x^{2}\\right)} \\quad \\text { para } \\quad-\\infty<x<\\infty \\] Cuya integral nos proporciona la función de distribución: \\[ F(x)=\\int_{-\\infty}^{x} \\frac{1}{\\pi\\left(1+t^{2}\\right)} d t=\\frac{1}{\\pi}[\\arctan (t)]_{t=-\\infty}^{t=x}=\\frac{1}{2}+\\frac{\\arctan (x)}{\\pi} \\] El siguiente programa permite visualizar la forma de la función de densidad de este modelo y el valor de la función de distribución: 3.2.5.1 Propiedades de la distribución de Cauchy Se trata de un ejemplo de variable aleatoria que carece de esperanza (y, por tanto, también de varianza o cualquier otro momento), ya que la integral impropia correspondiente no es convergente: \\[ E(X)=\\int_{-\\infty}^{\\infty} \\frac{x}{\\pi\\left(1+x^{2}\\right)} d x=\\frac{1}{2 \\pi} \\int_{-\\infty}^{\\infty} \\frac{2 x}{1+x^{2}} d x=\\frac{1}{2 \\pi}\\left[\\lim _{x \\rightarrow \\infty} \\ln \\left(x^{2}\\right)-\\lim _{x \\rightarrow-\\infty} \\ln \\left(x^{2}\\right)\\right]=\\frac{1}{2 \\pi}[\\infty-\\infty] \\] y nos queda una indeterminación. Por tanto, la esperanza de una distribución de Cauchy no existe. Cabe señalar que la función de densidad es simétrica respecto al valor cero (que sería la mediana y la moda), pero al no existir la integral anterior, la esperanza no existe. 3.2.6 La distribución de Weibull Se trata de un modelo continuo asociado a variables del tipo tiempo de vida, tiempo hasta que un mecanismo falla, etc. La función de densidad de este modelo viene dada por: \\[ f(x)=\\left\\{\\begin{array}{ll} \\frac{\\beta}{\\alpha}\\left(\\frac{x}{\\alpha}\\right)^{\\beta-1} e^{-\\left(\\frac{x}{\\alpha}\\right)^{\\beta}} & \\text { si } x \\geq 0 \\\\ 0 & \\text { si } x<0 \\end{array}\\right\\} \\] que, como vemos, depende de dos parámetros: \\(\\alpha>0\\) y \\(\\beta>0\\), donde \\(\\alpha\\) es un parámetro de escala y \\(\\beta\\) es un parámetro de forma (lo que proporciona una gran flexibilidad a este modelo). La función de distribución se obtiene por la integración de la función de densidad y vale: \\[ F(x)=1-e^{-\\left(\\frac{x}{\\alpha}\\right)^{\\beta}} \\] El siguiente programa permite visualizar la forma de la función de densidad de este modelo y el valor de la función de distribución: 3.2.6.1 Propiedades de la distribución Weibull Si tomamos \\(\\beta=1\\) tenemos una distribución Exponencial. Su esperanza vale: \\[ E(X)=\\alpha \\Gamma\\left(\\frac{1}{\\boldsymbol{\\beta}}+\\mathbf{1}\\right) \\] Su varianza vale: \\[ V(X)=\\alpha^{2}\\left\\{\\Gamma\\left(\\frac{2}{\\beta}+1\\right)-\\left[\\Gamma\\left(\\frac{1}{\\beta}+1\\right)\\right]^{2}\\right\\} \\] donde \\(\\Gamma(x)\\) representa la función Gamma de Euler definida anteriormente. 3.2.7 Tabla resumen de las principales distribuciones continuas Distribución Parámetros Función de densidad Esperanza Varianza Uniforme \\(a, b\\) \\(\\frac{1}{b-a}\\) \\(a<x<b\\) \\(\\frac{a+b}{2}\\) \\(\\frac{(b-a)^{2}}{12}\\) Exponencial \\(\\alpha>0\\) \\(\\frac{1}{\\alpha} \\exp \\left(-\\frac{x}{\\alpha}\\right)\\) \\(x>0\\) \\(\\alpha\\) \\(\\alpha^{2}\\) Normal \\(-\\infty<\\mu<\\infty\\) \\(\\sigma>0\\) \\(\\frac{1}{\\sqrt{2 \\pi} \\sigma} \\exp \\left\\{-\\frac{(x-\\mu)^{2}}{2 \\sigma^{2}}\\right\\}\\) \\(-\\infty<x<+\\infty\\) \\(\\mu\\) \\(\\sigma^{2}\\) Cauchy | - | \\(\\frac{1}{\\pi\\left(1+x^{2}\\right)}\\) \\(-\\infty<\\mathbf{x}<\\infty\\) | – | – | Weibull | \\(\\alpha>0\\) \\(\\beta>0\\) | \\(\\frac{\\boldsymbol{\\beta}}{\\boldsymbol{\\alpha}}\\left(\\frac{x}{\\boldsymbol{\\alpha}}\\right)^{\\beta-1} e^{-\\left(\\frac{x}{\\alpha}\\right)^{\\beta}}\\) \\(x \\geq 0\\) | \\(\\alpha \\Gamma\\left(\\frac{1}{\\beta}+1\\right)\\) | \\(\\alpha^{2}\\left\\{\\Gamma\\left(\\frac{2}{\\beta}+1\\right)-\\left[\\Gamma\\left(\\frac{1}{\\beta}+1\\right)\\right]^{2}\\right\\}\\) | 3.3 Distribuciones con R (y Python) El lenguaje estadístico R es muy potente en cuanto al cálculo con distribuciones de probabilidad. Dado que el trabajo con distribucines de probabilidad usando R está muy estandarizado y explicado en múltiples fuentes no repetiremos aquí estas explicaciones. Tan solo os referimos a dos buenas fuentes de información que podéis utilizar para aprender como hacer los cálculos con R y también una aplicación que os permite visualizar casi cualquier distribución conocida. R Tutorials Explicación detallada y de nivel básico del manejo de las principales distribuciones con R https://www.r-tutor.com/elementary-statistics/probability-distributions The distribution Zoo Permite visualizar de forma interactiva distintas distribuciones y proporciona información diversa sobre sus propiedades e incluso su aplicación. https://ben18785.shinyapps.io/distribution-zoo/ Distribution explorer Más completo que los anteriores. No se basa en R sino en python. https://distribution-explorer.github.io/index.html 3.4 La familia exponencial de distribuciones En el estudio de las propiedades de los estimadores, vemos que algunas distribuciones se comportan mejor que otras. Muchas veces, este buen comportamiento refleja una estructura común que proviene de pertenecer a una misma familia de distribuciones llamada familia exponencial. Definición: Sea \\(f_{\\theta}\\) una familia de probabilidades que depende de un parámetro unidimensional \\(\\left\\{f_{\\theta}(x), \\theta \\in \\Theta \\subseteq \\mathbb{R}\\right\\}\\) tal que el soporte \\(S(\\theta)=\\left\\{x \\mid f_{\\theta}(x)>0\\right\\}\\) no depende de \\(\\theta\\). Si existen funciones de los parámetros \\(Q(\\theta)\\) y \\(C(\\theta)\\) y funciones de las muestras, \\(T(x)\\) y \\(h(x)\\), tales que la función de densidad puede escribirse como: \\[f_{\\theta}(x)=C(\\theta) h(x) \\exp\\{Q(\\theta) \\cdot T(x)\\}\\] diremos que \\(f_{\\theta}(x)\\) pertenece a la familia exponencial de distribuciones. La familia exponencial no representa un nuevo tipo de distribuciones, sino la constatación de que muchas distribuciones comunes, que pueden reformularse para ajustarse a la expresión anterior, pertenecen a esta familia. Veamos algunos ejemplos de que esto es efectivamente así. 3.4.1 Ejemplos de distribuciones de esta familia 3.4.1.1 Distribución de Poisson La ley de Poisson pertenece a la familia exponencial uniparamétrica. Efectivamente, \\[f_{\\lambda}(x)=e^{-\\lambda} \\frac{\\lambda^{x}}{x!}=\\exp\\{-\\lambda+x \\log \\lambda-\\log(x!)\\}\\] y si hacemos \\[Q(\\lambda)=\\log(\\lambda) \\quad T(x)=x \\quad D(\\lambda)=-\\lambda \\quad S(x)=-\\log(x!)\\] se hace evidente que \\(f_{\\lambda}\\) pertenece a la familia exponencial. 3.4.1.2 Distribución normal uniparamétrica La ley normal depende de dos parámetros \\(\\mu\\) y \\(\\sigma\\). Fijado uno de ellos, nos queda una distribución que depende de un solo parámetro, y de aquí la denominación “normal uniparamétrica”. Si, con el subíndice “0”, indicamos el parámetro fijado, tenemos: \\[ \\begin{aligned} &f_{\\sigma}=\\left\\{N\\left(\\mu_0, \\sigma\\right), \\sigma>0\\right\\} \\text{ Normal uniparamétrica, de parámetro } \\sigma^2, \\\\ &f_{\\mu}=\\left\\{N\\left(\\mu, \\sigma_0\\right), \\mu \\in \\mathbb{R}\\right\\} \\text{ normal uniparamétrica, de parámetro } \\mu. \\end{aligned} \\] Si queremos considerar ambos parámetros a la vez, debemos extender la definición al caso de parámetros \\(k\\)-dimensionales. En estos materiales no trataremos esta extensión. 3.4.1.2.1 Caso 1: Fijando la media \\(\\mu_0\\) Consideramos la distribución normal \\(N(\\mu_0, \\sigma^2)\\), donde fijamos \\(\\mu = \\mu_0\\) y \\(\\sigma^2\\) es el parámetro libre. La función de densidad de probabilidad es \\[f_{\\sigma}(x) = \\frac{1}{\\sqrt{2\\pi\\sigma^2}} \\exp\\left\\{-\\frac{(x - \\mu_0)^2}{2\\sigma^2}\\right\\}\\] Vamos a reescribir esta función en forma de la familia exponencial. Primero, reorganizamos los términos de la densidad: \\[f_{\\sigma}(x) = \\frac{1}{\\sqrt{2\\pi}} \\cdot \\sigma^{-1} \\exp\\left\\{-\\frac{1}{2\\sigma^2}(x - \\mu_0)^2\\right\\}\\] Ahora identificamos las funciones que se corresponden con la forma de la familia exponencial \\(f_{\\theta}(x) = C(\\theta) h(x) \\exp\\{Q(\\theta) T(x)\\}\\): \\(Q(\\sigma) = -\\frac{1}{2\\sigma^2}\\) \\(T(x) = (x - \\mu_0)^2\\) \\(C(\\sigma) = \\frac{1}{\\sqrt{2\\pi}\\sigma}\\) \\(h(x) = 1\\) Esto confirma que la distribución normal, con \\(\\mu_0\\) fijo, pertenece a la familia exponencial. 3.4.1.2.2 Caso 2: Fijando la varianza \\(\\sigma_0^2\\) Ahora consideramos la distribución \\(N(\\mu, \\sigma_0^2)\\), donde la varianza está fijada y el parámetro libre es \\(\\mu\\). La función de densidad es \\[f_{\\mu}(x) = \\frac{1}{\\sqrt{2\\pi\\sigma_0^2}} \\exp\\left\\{-\\frac{(x - \\mu)^2}{2\\sigma_0^2}\\right\\}\\] Vamos a reescribir esta función de la misma manera: \\[f_{\\mu}(x) = \\frac{1}{\\sqrt{2\\pi\\sigma_0^2}} \\exp\\left\\{-\\frac{1}{2\\sigma_0^2}(x^2 - 2\\mu x + \\mu^2)\\right\\}\\] Identificamos las funciones correspondientes: \\(Q(\\mu) = \\frac{\\mu}{\\sigma_0^2}\\) \\(T(x) = x\\) \\(D(\\mu) = -\\frac{\\mu^2}{2\\sigma_0^2}\\) \\(S(x) = -\\frac{x^2}{2\\sigma_0^2}\\) Esto prueba que la distribución normal con \\(\\sigma_0\\) fijo pertenece a la familia exponencial. 3.4.2 Distribución Binomial La distribución binomial es un ejemplo interesante, puesto que, a priori, no parece tener la estructura propia de la distribución exponencial, cosa que si pasa con la distribución de Poisson o con la Normales uniparamétricas que acabamos de ver. Sin embargo, tras aplicar algunas transformaciones se puede ver como, también esta distribución pertenece a la familia exponencial La función de masa de probabilidad para la distribución binomial es \\[f(x; n, p) = \\binom{n}{x} p^x (1 - p)^{n - x}, \\quad x = 0, 1, \\dots, n\\] Reescribimos esta función en términos exponenciales: \\[f(x; n, p) = \\binom{n}{x} \\exp\\{x \\log(p) + (n - x) \\log(1 - p)\\}\\] Agrupamos los términos dependientes de \\(x\\): \\[f(x; n, p) = \\binom{n}{x} \\exp\\left\\{x \\log\\left(\\frac{p}{1 - p}\\right) + n \\log(1 - p)\\right\\}\\] Identificamos las funciones correspondientes a la familia exponencial: \\(Q(p) = \\log\\left(\\frac{p}{1 - p}\\right)\\) \\(T(x) = x\\) \\(D(p) = n \\log(1 - p)\\) \\(S(x) = \\log \\binom{n}{x}\\) Por lo tanto, la distribución binomial pertenece a la familia exponencial. 3.4.3 Importancia y utilidad de la familia exponencial Muchas de las distribuciones usadas para modelar gran cantidad de situaciones prácticas pertenecen a esta familia. Esto significa que es posible estudiar sus propiedades en conjunto. Es decir, si establecemos que una propiedad se verifica en una distribución que pertenece a la familia exponencial, automáticamente sabemos que todos los miembros de la familia verifican esa propiedad. A continuación, se describen tres ventajas importantes de trabajar con esta familia: 3.4.4 Los modelos lineales generalizados (GLMs) Una de las aplicaciones más importantes de la familia exponencial es su uso en los Modelos Lineales Generalizados (GLMs). Estos modelos nos permiten extender la regresión lineal clásica a diferentes tipos de datos, como los resultados binarios (por ejemplo, éxito o fracaso), mediante la regresión logística, recuentos de eventos (como el número de llamadas recibidas en una hora) mediante la regresión de Poisson, y muchos otros. Gracias a la estructura de la familia exponencial, podemos conectar la media de la variable que estamos modelando con las variables explicativas de forma flexible, lo que hace posible aplicar GLMs en una amplia variedad de situaciones. 3.4.5 Estimación en la familia exponencial Otra ventaja importante es que, al trabajar con distribuciones de la familia exponencial, los métodos que usamos para hacer inferencias estadísticas suelen tener buenas propiedades. Esto, que se explicará con más detalle en capítulos siguientes, implica que los estimadores que obtenemos con estos modelos suelen ser precisos y reflejar correctamente la información que contienen los datos. Naturalmente esto se puede ver al revés: Si podemos trabajar con distribuciones de la familia exponencial, solemos tener, de entrada, una serie de ventajas, como el buen comportamiento de los etimadores, por lo que siempre es una buena opción intentar utilizarlas en nuestros modelos. "],["distribuciones-de-probabilidad-multidimensionales.html", "Capítulo 4 Distribuciones de probabilidad multidimensionales 4.1 Distribuciones conjuntas de probabilidades 4.2 Variable aleatorias bivariantes discretas 4.3 La distribución multinomial 4.4 Distribuciones marginales 4.5 Distribuciones condicionales 4.6 Vectores aleatorios absolutamente continuos 4.7 Independencia de variables aleatorias 4.8 Momentos de vectores aleatorios", " Capítulo 4 Distribuciones de probabilidad multidimensionales En este capítulo se extiende el concepto de variable aleatoria a un conjunto de variables que pueden interpretarse asociadas a un conjunto de medidas distintas y que pueden estar, o no relacionadas. Tras introducir los conceptos de distribuciones multidimensionales, condicionales y marginales, se pasa a considerar el caso más habitual en inferencia estadística en el que las componentes de los vectrores son independientes entre ellas. Este es, de hecho, el punto de partida de muchos modelos y métodos en estadística. 4.1 Distribuciones conjuntas de probabilidades A menudo nos interesa estudiar múltiples características de un fenómeno aleatorio: La altura, el peso y el sexo de un individuo. La expresión coordinada de los genes que participan en una determinada via metabólica. El número de nucleótidos A, C, G, T en una región del genoma de tamaño \\(n\\). Estas características numéricas que, de forma análoga al caso univariante, podemos suponer asociadas a los resultados de experimentos aleatorios se denominan variables aleatorias multidimensionales o, atendiendo a sus componentes, vectores aleatorios. Las distribuciones de probabilidad que, siguiendo con la analogía, asociaremos a los vectores aleatorios se denominan distribuciones de probabilidades conjuntas o multivariantes. Antes de desarrollar el tema es importante remarcar que consideraremos dos escenarios: El primero, el “natural” es considerar que si trabajamos con distintas variables asociadas a un mismo fenómeno, es razonable suponer que varien de alguna forma coordinada. De ahí la expresión distribución conjnta. En ocasiones, sin embargo, dispondremos de vectores aleatorios que varian independientemente los unos de los otros. En este caso su distribución conjunta será de un tipo especial que se conoce independencia. 4.1.1 Variable aleatoria bivariante Empezaremos por el caso más sencillo que, sin embargo permite estudiar la mayoría de los conceptos quenos interesas: Las distribuciones conjuntas de dos variables aleatorias. Una variable aleatoria bivariante es una aplicación que, a cada resultado de un experimento, le asocia dos números: \\[ (X, Y): \\Omega \\to \\mathbb{R}^2 \\] \\[ w \\mapsto (X(w), Y(w)) \\] De modo que, para todo par de valores numéricos, \\((x, y) \\in \\mathbb{R}^2\\), se tiene \\[ \\{w \\in \\Omega \\mid X(w) \\leq x,\\quad Y(w) \\leq y\\} \\in \\mathcal{A} \\] donde \\(\\mathcal{A}\\) representa el conjunto de sucesos observables definido en el capítulo 1. Lo que viene a significar esta definición es que una variable aleatoria bidimensional es un conjunto de medidas (números reales) a los que, por el ehecho de poderse asociar con sucesos observables a traves de los intérvalos \\(X(w) \\leq x,\\quad Y(w) \\leq y\\) se les puede asociar (calcular) una probabilidad. Fijémonos también que, como en el caso univariante, la función que transporta la probabilidad, del espació de probabilidad al conjunto de los reales, será la función de distribución, que se define a continuación. 4.1.2 Función de distribución bivariante La función de distribución conjunta de \\(X\\) y \\(Y\\), \\(F\\), es una generalización inmediata del caso univariado y se define como: \\[ F(x, y) = P\\{w \\in \\Omega \\mid X(w) \\leq x, Y(w) \\leq y\\} = P[X \\leq x, Y \\leq y] \\] Como en el caso univariante, esta es la función que define la forma en que podemos calcular probabilidades sobre los valores de las variables, en este caso de dimensión 2. 4.1.3 Ejemplo: Distribución conjunta del estado de infección y activación de células Supongamos que estamos observando dos características de células en un experimento de inmunología. Las variables que describen las células son: \\(X\\): La célula está infectada (\\(X = 1\\)) o no infectada (\\(X = 0\\)). \\(Y\\): La célula está activada (\\(Y = 1\\)) o no activada (\\(Y = 0\\)). La siguiente tabla muestra la probabilidad conjunta de observar cada combinación de infección y activación en una célula: \\(X \\backslash Y\\) \\(Y = 0\\) (No activada) \\(Y = 1\\) (Activada) \\(X = 0\\) (No infectada) 0.4 0.2 \\(X = 1\\) (Infectada) 0.1 0.3 4.1.3.1 1. Función de distribución conjunta La función de distribución conjunta \\(F(x, y)\\) para esta situación se calcula como: \\[ F(x, y) = P(X \\leq x, Y \\leq y) \\] Los valores para los pares posibles de \\(x\\) y \\(y\\) son: \\(F(0, 0) = P(X = 0, Y = 0) = 0.4\\) \\(F(0, 1) = P(X = 0, Y \\leq 1) = P(X = 0, Y = 0) + P(X = 0, Y = 1) = 0.4 + 0.2 = 0.6\\) \\(F(1, 0) = P(X \\leq 1, Y = 0) = P(X = 0, Y = 0) + P(X = 1, Y = 0) = 0.4 + 0.1 = 0.5\\) \\(F(1, 1) = P(X \\leq 1, Y \\leq 1) = 1\\) 4.1.3.2 2. Cálculo de la probabilidad de eventos específicos Por ejemplo, la probabilidad de que una célula esté infectada pero no activada es: \\[ P(X = 1, Y = 0) = 0.1 \\] 4.1.4 Implementación en R Podemos visualizar esta distribución conjunta con un gráfico en R. library(ggplot2) # Crear los datos de la distribución conjunta data <- expand.grid(X = c(0, 1), Y = c(0, 1)) data$Prob <- c(0.4, 0.2, 0.1, 0.3) # Crear el gráfico p <- ggplot(data, aes(x = factor(X, labels = c("No infectada", "Infectada")), y = factor(Y, labels = c("No activada", "Activada")))) + geom_tile(aes(fill = Prob), color = "white") + scale_fill_gradient(low = "white", high = "blue") + geom_text(aes(label = round(Prob, 2)), size = 5) + labs(x = "Estado de infección (X)", y = "Estado de activación (Y)", title = "Distribución Conjunta de Infección y Activación Celular") + theme_minimal() # Guardar el gráfico en el subdirectorio imagenes ggsave("images/distribucion_conjunta.png", plot = p, width = 6, height = 4, dpi = 300) knitr::include_graphics("images/distribucion_conjunta.png") 4.2 Variable aleatorias bivariantes discretas Una vez introducidos los conceptos de forma general pasamos a estudiar el problema en el caso discreto, que es muy intuitivo y, a la vez permite introducir todos los conceptos relevantes. Un vector aleatorio discreto, \\((X, Y)\\) es aquel cuyo recorrido o conjunto de valores posibles es finito o numerable. En este caso, toda probabilidad \\[ P\\{(X, Y) \\in B\\}, \\quad \\text{donde } B \\text{ es un conjunto de posibles valores de } X, Y, \\] se puede calcular a partir de la función de masa de probabilidad discreta bivariante. 4.2.1 Función de masa de probabilidad discreta (fmp) La funcion de masa de probabilidad de los vectores aleatorios generaliza la función del mismo nombre en el caso univariante, es decir, es una función: \\[ f: \\mathbb{R}^2 \\to [0, 1] \\] Que asigna la probabilidad a cada punto del plano: para todo \\((x, y) \\in \\mathbb{R}^{2}\\): \\[ f(x, y) = P\\{w \\in \\Omega \\mid X(w) = x, Y(w) = y\\} = P[X = x, Y = y] \\] 4.2.2 Propiedades de la fmp bivariante La masa total de probabilidad sobre el plano es 1: \\[ \\sum_{(x_i, y_j) \\in \\mathbb{R}^{2}} f(x_i, y_j) = 1 \\] Para todo subconjunto \\(B \\subseteq \\mathbb{R}^2\\), se verifica: \\[ F(x, y) = P[X \\leq x, Y \\leq y] = \\sum_{x_i \\leq x, y_j \\leq y} f(x_i, y_j) \\] Es decir, como en el caso univariante la función de distribución se puede calcular a partir de la función de masa de probabilidad. 4.2.2.1 Intuición frente a construcción La presentación de los conceptos anteriores suele generar cierto desasosiego entre los estudiantes que afrontan estos conceptos por primera (o siguientes) vez. El motivo de este desasosiego es que el papel de la función de distribución no suele ser tan intuitivo como el de la función de masa de probabilidad. Es decir, es más intuitivo pensar en como calcular lña probabilidad que la variable tome un valor concreto (\\(P[X=x]\\)) , que la probabilidad de que no alcance cierto valor (\\(P[X\\leq x]\\)). Sin embargo, la función que realmente permite transportar la probabilidad no es la función de masa de probabilidad (fmp) sino la función de distribución (fdd). De ahí el contraste entre intuición (fmp) y construcción (fdd) 4.2.3 Ejemplo de distribución bivariante discreta Supongamos que un estudio mide el número de células infectadas y el número de linfocitos activados en un campo microscópico. Dado el tamaño del campo y el grado de infección los valores observados de cada variables son: \\(X\\): Número de células infectadas (\\(X \\in \\{0, 1, 2, 3, 4, 5\\}\\))). \\(Y\\): Número de linfocitos activados (\\(Y \\in \\{0, 1, 2, 3\\}\\))). La distribución conjunta se refleja en la siguiente tabla de probabilidades conjuntas: \\(P[X=x]\\) \\(P[Y = 0]\\) \\(P[Y = 1]\\) \\(P[Y = 2]\\) \\(P[Y = 3]\\) 0 0.12 0.06 0.02 0.00 1 0.10 0.10 0.04 0.01 2 0.06 0.12 0.08 0.02 3 0.03 0.12 0.10 0.05 4 0.01 0.08 0.12 0.06 5 0.00 0.03 0.10 0.07 Puede comprobarse como la suma de todos los valores de la tabla es 1, y calcular probabilidades de sucesos como Probabilidad de que hayan dos células infectadas y un linfocito: Para calcular la probabilidad de que haya exactamente 2 células infectadas y 1 linfocito activado, se puede usar el valor directamente de la tabla. \\[ P(X = 2, Y = 1) = 0.12 \\] Probabilidad de que hayan menos de tres celulas infectadas y menos de dos linfocitos: Esta probabilidad es la suma de todas las combinaciones de \\(X\\) y \\(Y\\)) que cumplen con la condición de \\(X < 3\\)) y \\(Y < 2\\)). Es decir, sumamos las probabilidades de los casos \\((X = 0, Y = 0)\\)), \\((X = 0, Y = 1)\\)), \\((X = 1, Y = 0)\\)), \\((X = 1, Y = 1)\\)), \\((X = 2, Y = 0)\\)), y \\((X = 2, Y = 1)\\)). \\[ P(X < 3, Y < 2) = P(X = 0, Y = 0) + P(X = 0, Y = 1) + P(X = 1, Y = 0) + P(X = 1, Y = 1) + P(X = 2, Y = 0) + P(X = 2, Y = 1) \\] \\[ P(X < 3, Y < 2) = 0.12 + 0.06 + 0.10 + 0.10 + 0.06 + 0.12 = 0.56 \\] Recordemos que, al tratarse de variables discretas, no es lo mismo \\(P[X < x]\\) que \\(P[X \\leq x]\\), por lo que si la pregunta fuera “Probabilidad de que hayan al menos tres celulas infectadas y al menos dos linfocitos” deberíamos calcular: \\[ P(X \\leq 3, Y \\leq 2) \\] Esta última expresión se corresponde con la función de distribución evaluada en \\((3,2)\\). 4.2.3.1 Código R para el cálculo de la pmf Podemos hacer los cálculos usando R: prob_table <- matrix(c(0.12, 0.06, 0.02, 0.00, 0.10, 0.10, 0.04, 0.01, 0.06, 0.12, 0.08, 0.02, 0.03, 0.12, 0.10, 0.05, 0.01, 0.08, 0.12, 0.06, 0.00, 0.03, 0.10, 0.07), nrow = 6, byrow = TRUE) # Asignar nombres a las filas y columnas rownames(prob_table) <- 0:5 colnames(prob_table) <- 0:3 # Mostrar la tabla prob_table ## 0 1 2 3 ## 0 0.12 0.06 0.02 0.00 ## 1 0.10 0.10 0.04 0.01 ## 2 0.06 0.12 0.08 0.02 ## 3 0.03 0.12 0.10 0.05 ## 4 0.01 0.08 0.12 0.06 ## 5 0.00 0.03 0.10 0.07 # Calcular la probabilidad de (X = 2, Y = 1) prob_X2_Y1 <- prob_table["2", "1"] cat("P(X = 2, Y = 1) =", prob_X2_Y1, "\\n") ## P(X = 2, Y = 1) = 0.12 # Calcular la probabilidad de (X < 3, Y < 2) prob_X_lt_3_Y_lt_2 <- sum(prob_table[1:3, 1:2]) cat("P(X < 3, Y < 2) =", prob_X_lt_3_Y_lt_2, "\\n") ## P(X < 3, Y < 2) = 0.56 4.2.3.2 Código R para visualizar la distribución conjunta Para visualizar la distribución conjunta, podemos usar el código siguiente; # Es preciso instalar y cargar el paquete scatterplot3d si no lo tienes instalado # install.packages("scatterplot3d") library(scatterplot3d) # Crear una matriz con los datos de la tabla de probabilidades X_vals <- as.numeric(rownames(prob_table)) Y_vals <- as.numeric(colnames(prob_table)) # Crear un grid de valores X e Y X_grid <- rep(X_vals, each = length(Y_vals)) Y_grid <- rep(Y_vals, times = length(X_vals)) # Extraer las probabilidades como un vector Z_vals <- as.vector(prob_table) # Enviar el gráfico 3D de barras simuladas a pdf png("images/pmfTrinomial.png") scatterplot3d(X_grid, Y_grid, Z_vals, type = "h", color = "lightblue", pch = 16, lwd = 5, cex.symbols = 1, angle=60, xlab = "Celulas Infectadas (X)", ylab = "Linfocitos Activados (Y)", zlab = "Probabilidad", main = "Distribución Conjunta de \\n Celulas Infectadas y Linfocitos Activados") dev.off() ## png ## 2 # Añadir texto con los valores de las probabilidades en la parte superior de las barras # s3d$text(X_grid, Y_grid, Z_vals, labels = round(Z_vals, 2), pos = 3, col = "black") knitr::include_graphics("images/pmfTrinomial.png", rel_path = TRUE ) 4.3 La distribución multinomial Antes de seguir con el estudio de las distribuciones discretas presentamos un caso importante de distribucion multivariante discreta, la distribución multinomial. 4.3.1 Generación de las observaciones Supongamos un experimentoaleatorio que puede producir \\(k\\) resultados posibles \\(A_1, A_2, \\dots, A_k\\) con probabilidades \\(p_1, p_2, \\dots, p_k\\), tales que \\(p_1 + p_2 + \\dots + p_k = 1\\). Repetimos el experimento \\(n\\) veces y llamamos \\(X_1, X_2, \\dots, X_k\\) al número de veces que se presenta \\(A_1, A_2, \\dots, A_k\\). La distribución conjunta de \\(X_1, X_2, \\dots, X_k\\) recibe el nombre de multinomial. 4.3.2 Funcion de masa de probabilidad de la distribución multinomial El vector \\(\\mathbf{X} = (X_1, \\dots, X_k)\\) tiene distribución multinomial de parámetros \\(n\\) y \\(\\mathbf{p} = (p_1, \\dots, p_k),\\) denotado por \\(\\mathbf{X} \\sim \\mathrm{M}(n, \\mathbf{p})\\), con \\(n\\) entero positivo, \\(p_i \\geq 0\\) y \\(\\sum_{i=1}^{k} p_i = 1\\). Su función de densidad conjunta es: \\[ f(\\mathbf{x}) = P[\\mathbf{X} = \\mathbf{x}] = \\frac{n!}{x_1!x_2!\\cdots x_k!} p_1^{x_1} p_2^{x_2} \\dots p_k^{x_k} \\] donde \\(x_i\\) son enteros no negativos tales que \\(\\sum_{i=1}^{k} x_i = n\\). 4.3.3 Relación con la distribución binomial Esta distribución puede verse como una generalización de la distribución binomial en el que, en lugar de tener dos posibles resultados, tenemos \\(r\\) resultados posibles. 4.3.4 Un caso particular: La distribución trinomial Veamos un ejemplo propio del análisis de secuencias en el que se aplica esta distribución: Si consideramos el alineamiento de dos secuencias \\(x, y\\) de tamaño \\(n\\), podemos observar: $A_1 $: \\(x_i\\) alineado con $y_i $, con $P(A_1) = p_1 $ $A_2 $: \\(x_i\\) alineado con “-”, con $P(A_2) = p_2 $ $A_3 $: “-” alineado con $y_i $, con $P(A_3) = 1 - p_1 - p_2 $ La variable $(X_1, X_2) $, que cuenta el número de veces que se observa \\(A_1, A_2\\) (con $X_3 = n - X_1 - X_2 $), sigue una distribución trinomial de parámetros \\(n\\), $p_1 $, $p_2 $. Obsérvese que, dado que el total de observaciones \\(n\\) está prefijado, aunque haya tres categorías, \\(A_1\\), \\(A_2\\), \\(A_3\\) el número de observaciones de \\(A_3\\) es el total menos la suma de las observaciones de \\(A_1+A_2\\). O dicho de otra forma el número de probabilidades que són parámetros de la distribución es \\(n-1=2\\), lo que junto con \\(n\\) que es otyro parámetro determina que “trinomial” se refiera tanto al total de categorías como al número de parámetros, aunque, en realidad tan sólo hay dos componentes \\(X_1\\) y \\(X_2\\) independientes (concepto este que se definirá con precisión más adelante). Estudiamos los posibles alineamientos de dos secuencias de 5 nucleótidos, en un contexto en el que las probabilidades de \\(A_1\\) y \\(A_2\\) son, respectivamente 0.6 y 0.2, es decir una Trinomial M(5; 0.6, 0.2) que dan lugar a la tabla siguiente. \\(X_{1} \\backslash X_{2}\\) 0 1 2 3 4 5 0 (0,0,5) (0,1,4) (0,2,3) (0,3,2) (0,4,1) (0,5,0) 1 (1,0,4) (1,1,3) (1,2,2) (1,3,1) (1,4,0) 2 (2,0,3) (2,1,2) (2,2,1) (2,3,0) 3 (3,0,2) (3,1,1) (3,2,0) 4 (4,0,1) (4,1,0) 5 (5,0,0) A partir de la tabla anterior podemos determinar las probabilidades conjuntas: \\(X_{1} \\backslash X_{2}\\) 0 1 2 3 4 5 0 0.0003 0.0016 0.0032 0.0032 0.0016 0.0003 1 0.0048 0.0192 0.0288 0.0192 0.0048 2 0.0288 0.0864 0.0864 0.0288 3 0.0864 0.1728 0.0864 4 0.1296 0.1296 5 0.0778 4.4 Distribuciones marginales Dado un vector aleatorio, puede interesar el comportamiento individual de una o cada una de sus componentes \\(X_i\\). La distribución de la componente \\(i\\)-ésima se denomina distribución marginal de \\(X_i\\). Representa el comportamiento de \\(X_i\\) sin tener en cuenta las otras componentes, es decir, como si fuera una variable aleatoria unidimensional. 4.4.1 Las marginales están en los márgenes El nombre de distribución marginal proviene del hecho de que en una distribución bivariada discreta como la trinomial, los valores de una fila coinciden con los valores de \\(X_2\\), y todos los de una columna con los de \\(X_1\\). Los valores en la fila 0 o columna 0 (los márgenes) representan precisamente las distribuciones marginales. 4.4.2 Densidades marginales discretas La densidad marginal de \\(X\\) es: \\[ f_X(x) = f_1(x) = \\sum_j f(x, y_j) \\] y la de \\(Y\\) es: \\[ f_Y(y) = f_2(y) = \\sum_i f(x_i, y) \\] 4.4.3 Trinomial M(5; 0.6, 0.2): Distribuciones marginales \\(X_1 \\backslash X_2\\) 0 1 2 3 4 5 \\(X_2\\) \\(P[X_2 = x]\\) 0 (0,0,5) (0,1,4) (0,2,3) (0,3,2) (0,4,1) (0,5,0) 0 0.0102 1 (1,0,4) (1,1,3) (1,2,2) (1,3,1) (1,4,0) 1 0.0768 2 (2,0,3) (2,1,2) (2,2,1) (2,3,0) 2 0.2304 3 (3,0,2) (3,1,1) (3,2,0) 3 0.3456 4 (4,0,1) (4,1,0) 4 0.2592 5 (5,0,0) 5 0.0778 X_2 0 1 2 3 4 5 1.0000 \\(P[X_2 = x]\\) 0.3277 0.4096 0.2048 0.0512 0.0064 0.0003 1.0000 4.5 Distribuciones condicionales A veces nos interesa la distribución de una componente si conocemos que la otra ha tomado un valor determinado. En el ejemplo de los alineamientos, podríamos querer conocer los posibles valores y probabilidades de un alineamiento, si sabemos que hay exactamente un “gap” en la secuencia de prueba. 4.5.1 Densidad condicional ¿Qué podemos decir de la distribución de \\(Y\\) si conocemos el valor de \\(X\\)? \\[ f(y \\mid X = x) = P[Y = y \\mid X = x] = \\frac{P[X = x, Y = y]}{P[X = x]} = \\frac{f(x, y)}{f_X(x)} \\] siempre que \\(f_X(x) > 0\\). 4.5.2 Trinomial M(5; 0.6, 0.2): Distribución condicional Distribución de \\(X_1\\) condicionada a que \\(X_2 = 1\\). \\((X_1, 1)\\) \\(P(X_1, 1)\\) \\(P_{X_2}(1)\\) \\(P(X_1 \\mid X_2 = 1)\\) (0,1,4) 0.002 0.41 0.004 (1,1,3) 0.019 0.41 0.047 (2,1,2) 0.086 0.41 0.211 (3,1,1) 0.173 0.41 0.422 (4,1,0) 0.13 0.41 0.316 Total 1 4.6 Vectores aleatorios absolutamente continuos Diremos que \\((X, Y)\\) es absolutamente continua si existe una función \\(f(x, y)\\), llamada función de densidad conjunta absolutamente continua o bivariada, tal que, para todo \\((x, y) \\in \\mathbb{R}^2\\), \\[ F(x, y) = \\int_{-\\infty}^{x} \\int_{-\\infty}^{y} f(u, v)\\, du \\, dv \\] Si existe, la función de densidad absolutamente continua es única. 4.6.1 Propiedades de la función de densidad conjunta \\(f(x, y) \\geq 0\\) La masa total de probabilidad es 1: \\[ \\int_{-\\infty}^{\\infty} \\int_{-\\infty}^{\\infty} f(x, y)\\, dx\\,dy = 1 \\] Para cualquier conjunto \\(S\\): \\[ P\\{(X, Y) \\in S\\} = \\int_S f(x, y) \\, dx \\, dy \\] En particular, la probabilidad de que \\((X, Y)\\) esté en un rectángulo: \\[ P(a_1 < X \\leq a_2, b_1 < Y \\leq b_2) = \\int_{a_1}^{a_2} \\int_{b_1}^{b_2} f(x, y) \\, dx \\, dy \\] 4.6.2 Densidades marginales en el caso continuo Las densidades marginales son: \\[ f_X(x) = \\int_{-\\infty}^{\\infty} f(x, y) \\, dy \\] \\[ f_Y(y) = \\int_{-\\infty}^{\\infty} f(x, y) \\, dx \\] 4.6.3 Densidad condicional en el caso continuo La densidad de \\(Y\\) condicionada a un valor de \\(X\\) es: \\[ f(y \\mid X = x) = \\frac{f(x, y)}{f_X(x)} \\] siempre que \\(f_X(x) > 0\\). 4.6.4 La Distribución Normal Bivariante El ejemplo más importante de una distribución de probabilidad absolutamente continua para vectores aleatorios es la distribución normal bivariante. Esta distribución describe dos variables aleatorias continuas, \\(X\\) y \\(Y\\), cuya relación está modelada por una correlación lineal y tiene forma de campana (gaussiana) en dos dimensiones. 4.6.4.1 Función de Densidad Conjunta La función de densidad conjunta de la distribución normal bivariante con medias \\(\\mu_X\\), \\(\\mu_Y\\), desviaciones estándar \\(\\sigma_X\\), \\(\\sigma_Y\\) y coeficiente de correlación \\(\\rho\\) es: \\[ f(x, y) = \\frac{1}{2 \\pi \\sigma_X \\sigma_Y \\sqrt{1 - \\rho^2}} \\exp \\left( -\\frac{1}{2(1 - \\rho^2)} \\left[ \\frac{(x - \\mu_X)^2}{\\sigma_X^2} + \\frac{(y - \\mu_Y)^2}{\\sigma_Y^2} - \\frac{2\\rho(x - \\mu_X)(y - \\mu_Y)}{\\sigma_X \\sigma_Y} \\right] \\right) \\] Esta expresión se generaliza fácilmente de la distribución normal univariante, pero en este caso incluye términos adicionales que representan la interacción entre \\(X\\) y \\(Y\\). 4.6.4.2 Ejemplo En vez de proporcionar un código para visualizar la distribución normal bivariante podéis seguir este enlace: https://datasciencegenie.com/3d-contour-plots-of-bivariate-normal-distribution/ en donde se extiende lo que acabamos de discutir y se proporciona algunos ejemplos con R. 4.6.4.3 Distribuciones Marginales Para obtener las distribuciones marginales a partir de una normal bivariante, debemos integrar la densidad conjunta sobre una de las variables. Dado que estamos trabajando con una distribución normal bivariante, su densidad conjunta está dada por: \\[ f_{X,Y}(x, y) = \\frac{1}{2 \\pi \\sigma_X \\sigma_Y \\sqrt{1 - \\rho^2}} \\exp\\left( -\\frac{1}{2(1 - \\rho^2)} \\left[ \\frac{(x - \\mu_X)^2}{\\sigma_X^2} + \\frac{(y - \\mu_Y)^2}{\\sigma_Y^2} - \\frac{2\\rho(x - \\mu_X)(y - \\mu_Y)}{\\sigma_X \\sigma_Y} \\right] \\right) \\] Para obtener la marginal de \\(X\\), debemos integrar sobre \\(Y\\): \\[ f_X(x) = \\int_{-\\infty}^{\\infty} f_{X,Y}(x, y) \\, dy \\] Al realizar esta integral, se obtiene que la distribución marginal de \\(X\\) es: \\[ f_X(x) = \\frac{1}{\\sqrt{2 \\pi \\sigma_X^2}} \\exp\\left( -\\frac{(x - \\mu_X)^2}{2 \\sigma_X^2} \\right) \\] Esto muestra que \\(X\\) sigue una distribución normal con media \\(\\mu_X\\) y varianza \\(\\sigma_X^2\\), es decir, \\(X \\sim N(\\mu_X, \\sigma_X^2)\\). Del mismo modo, para la marginal de \\(Y\\), integramos sobre \\(X\\): \\[ f_Y(y) = \\int_{-\\infty}^{\\infty} f_{X,Y}(x, y) \\, dx \\] La solución de esta integral da: \\[ f_Y(y) = \\frac{1}{\\sqrt{2 \\pi \\sigma_Y^2}} \\exp\\left( -\\frac{(y - \\mu_Y)^2}{2 \\sigma_Y^2} \\right) \\] Lo que significa que \\(Y\\) sigue una distribución normal con media \\(\\mu_Y\\) y varianza \\(\\sigma_Y^2\\), es decir, \\(Y \\sim N(\\mu_Y, \\sigma_Y^2)\\). 4.6.4.4 Ejemplo Supongamos que tenemos una distribución normal bivariante con los siguientes parámetros: \\(\\mu_X = 100\\), \\(\\sigma_X = 15\\) \\(\\mu_Y = 50\\), \\(\\sigma_Y = 10\\) \\(\\rho = 0.5\\) La densidad conjunta es: \\[ f_{X,Y}(x, y) = \\frac{1}{2 \\pi (15)(10) \\sqrt{1 - 0.5^2}} \\exp\\left( -\\frac{1}{2(1 - 0.5^2)} \\left[ \\frac{(x - 100)^2}{15^2} + \\frac{(y - 50)^2}{10^2} - \\frac{2(0.5)(x - 100)(y - 50)}{(15)(10)} \\right] \\right) \\] Integrando sobre \\(Y\\), obtenemos la distribución marginal de \\(X\\): \\[ f_X(x) = \\frac{1}{\\sqrt{2 \\pi (15^2)}} \\exp\\left( -\\frac{(x - 100)^2}{2 \\cdot 15^2} \\right) \\] De manera análoga, la marginal de \\(Y\\) es: \\[ f_Y(y) = \\frac{1}{\\sqrt{2 \\pi (10^2)}} \\exp\\left( -\\frac{(y - 50)^2}{2 \\cdot 10^2} \\right) \\] 4.6.5 Distribuciones Condicionales La distribución condicional de una variable dado un valor específico de la otra también es normal univariante. Por ejemplo, la distribución condicional de \\(X\\) dado \\(Y = y\\) es: \\[ X \\mid Y = y \\sim N \\left( \\mu_X + \\rho \\frac{\\sigma_X}{\\sigma_Y} (y - \\mu_Y), (1 - \\rho^2)\\sigma_X^2 \\right) \\] De forma análoga, la distribución condicional de \\(Y\\) dado \\(X = x\\) es: \\[ Y \\mid X = x \\sim N \\left( \\mu_Y + \\rho \\frac{\\sigma_Y}{\\sigma_X} (x - \\mu_X), (1 - \\rho^2)\\sigma_Y^2 \\right) \\] 4.6.5.1 Ejemplo Podemos calcular la distribución condicional de \\(X\\) dado que \\(Y = 180\\) cm, y mostrar cómo cambia la distribución de \\(X\\) bajo esta condición: # Valores originales mu <- c(100, 50) sigma <- c(15, 10) rho <- 0.5 # Condicionar X dado Y = 180 y_cond <- 180 mu_cond <- mu[1] + 0.6 * (10/7) * (y_cond - mu[2]) sigma_cond <- sqrt(1 - 0.6^2) * 10 # Mostrar la media y desviación estándar condicionales mu_cond ## [1] 211.4286 sigma_cond ## [1] 8 Esto nos dice que el peso medio de una persona con altura de 180 cm es mayor que el peso medio de la población total, y su desviación estándar es menor debido a la correlación positiva entre peso y altura. 4.7 Independencia de variables aleatorias Una vez introducido el concepto de distribución conjunta pasamos a estudiar un caso particularmente importante de distribución conjunta, la independencia. De forma aparentemente contradictoria, en este caso, las variables se caracterizan por el hecho de que no varían conjuntamente sino que lo hacen independientemente las unas de las otras. De manera intuitiva podemos decir que dos variables aleatorias son independientes si los valores que toma una de ellas no afectan a los de la otra ni a sus probabilidades. En muchas ocasiones la independencia será evidente a partir del experimento, por ejemplo, es independiente el resultado del lanzamiento de un dado y el de una moneda tres veces. Por tanto las variables: \\(X_1\\): “Puntuación obtenida con el dado” y \\(X_2\\): “Número de caras obtenidas al lanzar tres veces una moneda” serán variables independientes. En otras ocasiones tenemos una dependencia clara, por ejemplo, al lanzar un dado consideremos las variables \\(Y_1=\\): puntuación del dado, \\(Y_2=\\): variable indicadora de puntuación par. Es evidente que existe una clara dependencia, si sabemos que \\(Y=1\\), la variable \\(X\\) sólo puede tomar los valores 2 , 4 o 6 ; si sabemos que \\(X=3\\), entonces, \\(Y=0\\) forzosamente. Algunas veces podemos suponer la existencia de una cierta relación entre variables, aunque sea en forma algo abstracta y sin concretar. Por ejemplo si realizamos unas mediciones sobre unos individuos, las variables altura en cm y peso en Kg probablemente estarán relacionadas, los valores de una influirán en los valores de la otra. Intentar determinar la naturaleza exacta de la relación entre ambas es lo que en estadística conocemos como un problema de correlación (si nos interesa unicamente la asociación) o de regresión (si uqeremos modelizar una variable en función d ela otra). Si queremos una definición algo más formal, basta con que recordemos que dos sucesos son independientes si la probabilidad de la intersección es igual al producto de probabilidades, aplicando esta definición a sucesos del tipo \\(X \\leq a\\) tenemos la definición siguiente: 4.7.1 Primera caracterización de la independencia Diremos que dos variables aleatorias \\(X\\) e \\(Y\\) son independientes si y sólo si su función de distribución conjunta puede expresarse como el producto de las funciones de distribución marginales, es decir si \\[ F_{X,Y}(x,y)= P\\left( (X \\leq x) \\cap (Y \\leq b)\\right)=P(X \\leq x) \\times P(Y \\leq y)=F_{X}(x) \\times F_{Y}(y) \\] Fijémonos que, como en otros casos, la función que nos permite caracterizar una condición de forma general es la función de distribución. 4.7.1.1 Variables discretas independientes En el caso de las variables discretas la caracterización de la independencia puede hacerse, además, por las funciones de masa de probabilidad: Diremos que dos variables aleatorias discretas \\(X\\) e \\(Y\\) son independientes si y sólo si su función de masa de probabilidad conjunta puede expresarse como el producto de las funciones de masa de probabilidad marginales, es decir si \\[ f_{X,Y}(x,y)= P\\left( (X = x) \\cap (Y = y)\\right)=P(X = x) \\times P(Y = y)=f_{X}(x) \\times f_{Y}(y) \\] 4.7.2 Propiedades de las variables independientes Como consecuencia inmediata de la independencia de \\(X\\) e \\(Y\\), se cumple lo siguiente: \\[ P(a<X \\leq c \\cap b<Y \\leq d)=P(a<X \\leq c) \\cdot P(b<Y \\leq d) \\] Que podría re-enunciarse diciendo que la probabilidad conjunta en un rectangulo definido por los valores “a, c, b, d” es el producto de las probabilidades marginales en los segmentos “ac”, para \\(X\\) y “bd” para \\(Y\\). 4.8 Momentos de vectores aleatorios Una vez hemos introducido los vectores aleatorios, que como hemos señalado, son variables aleatorias bi, tri o \\(n\\)-dimensionales tiene sentido preguntarse como se extienden a dichos vectores los conceptos y propiedades que introdujimos para variables aleatorias unidimensionales. Ya hemos visto como, para las funciones de probabilidad, la función de densidad o la función de distribución, existen extensiones imediatas, la función de densidad conjunta o la función de distribución conjunmta. Hemos visto también que, además de dichas extensiones, aparecen nuevos conceptos, que sólo tienen sentido en dos o más dimensiones, como las funciones de densidad condicionales o funciones de densidad marginales. Al considerar conceptos como la media o la varianza veremos que sucede algo similar: Por un lado conceptos como el de esperanza se extiende imediatamente al vector de medias. Por otro, conceptos como la varianza, han de tener en cuenta ahora, la posibilidad de variación conjunta entre dos o más variables lo que lleva a introducir magnitudes como la covarianza y la correlación. La extensión del concepto de varianza pasa ahora a combinar extensiones y conceptos nuevos en lo que se conoce como matriz de varianzas-covarianzas. 4.8.1 Esperanza de un vector aleatorio o vector de medias La esperanza matemática de un vector aleatorio es un vector que contiene las esperanzas matemáticas de cada una de las componentes de dicho vector. Si tenemos un vector aleatorio bivariante \\(\\mathbf{X}=(X_1,X_2)\\), su esperanza \\(\\mathbb{E}(\\mathbf{X})\\) está dada por: \\[ \\mathbb{E}(\\mathbf{X})= \\begin{pmatrix} \\mathbb{E}(X_1)\\\\ \\mathbb{E}(X_2) \\end{pmatrix} \\] Consideremos un experimento en el que estamos midiendo el nivel de expresión génica de dos genes \\(X_1\\) y \\(X_2\\) en una muestra de células. Si los niveles promedio de expresión son \\(\\mu_1=5\\) y \\(\\mu_2=8\\), entonces la esperanza del vector aleatorio sería: \\[ \\mathbb{E}(\\mathbf{X})= \\begin{pmatrix} 5\\\\ 8 \\end{pmatrix} \\] 4.8.2 Covarianza entre dos variables aleatorias La covarianza entre dos variables aleatorias \\(X_1\\) y \\(X_2\\) es una medida del grado de dependencia lineal entre ellas. La covarianza se define como \\[ \\text{Cov}(X_1,X_2)=\\mathbb{E}[(X_1-\\mathbb{E}(X_1))(X_2-\\mathbb{E}(X_2))] \\] Supongamos que estamos midiendo la cantidad de dos metabolitos \\(X_1\\) y \\(X_2\\) en una muestra, y queremos saber si sus concentraciones tienden a aumentar o disminuir juntas. Si obtenemos una covarianza de 0.5, y conocemos la escala en que varían los datos, podemos concluir que existe ligera tendencia a que los aumentos en \\(X_1\\) estén asociados con aumentos en \\(X_2\\). 4.8.3 Covarianza y correlación El ejemplo anterior es claramente insatisfactorio, puesto que valores de 0.5 pueden sugerir una gran dependencia o cas ninguna, segun cual sea la escala o el rango de variación de los valores que se consideran. Para evitar esta arbitrariedad se introduce la correlación lineal. La correlación entre dos variables aleatorias es una medida estandarizada del grado de dependencia lineal entre dos variables (es decir de lacovarianza), que toma valores entre -1 y 1 y que se define como: \\[ \\text{Corr}(X_1,X_2)=\\frac{\\text{Cov}(X_1,X_2)}{\\sqrt{\\text{Var}(X_1)\\text{Var}(X_2)}} \\] En el caso de los metabolitos mencionados anteriormente, si \\(\\text{Cov}(X_1,X_2)=0.5\\), \\(\\text{Var}(X_1)=2\\) y \\(\\text{Var}(X_2)=3\\), podemos calcular la correlación, que valdría: \\[ \\text{Corr}(X_1,X_2)=\\frac{0.5}{\\sqrt{2\\times 3}}=\\frac{0.5}{\\sqrt{6}}\\approx 0.204 \\] Esto indica una correlación positiva débil entre las concentraciones de los dos metabolitos. Obsérvese, sin embargo que si en vez de los valores anteriores para las varianzas de \\(X\\) e \\(Y\\) hubiéramos tenido \\(\\text{Var}(X_1)=1\\) y \\(\\text{Var}(X_2)=.5\\) el valor de la correlación habría sido: \\[ \\text{Corr}(X_1,X_2)=\\frac{0.5}{\\sqrt{1\\times 0.5}}=\\frac{0.5}{\\sqrt{0.5}}\\approx 0.7071 \\] Este ejemplo muestra como la correlación aporta más información sobre la dependencia lineal, puesto que, además de tener en cuenta la variación conjunta, tiene en cuenta la variabilidad individual de cada componente. 4.8.4 Matriz de varianzas-covarianzas La matriz de varianzas-covarianzas de un vector aleatorio \\(\\mathbf{X}=(X_1,X_2)\\) es una matriz que contiene las varianzas de las componentes en la diagonal y las covarianzas fuera de la diagonal. Está definida como: \\[ \\text{Cov}(\\mathbf{X})= \\begin{pmatrix} \\text{Var}(X_1)&\\text{Cov}(X_1,X_2)\\\\ \\text{Cov}(X_2,X_1)&\\text{Var}(X_2) \\end{pmatrix} \\] Siguiendo con el ejemplo de los metabolitos, si \\(\\text{Var}(X_1)=2\\), \\(\\text{Var}(X_2)=3\\), y la covarianza es \\(0.5\\), la matriz de covarianzas sería: \\[ \\text{Cov}(\\mathbf{X})= \\begin{pmatrix} 2&0.5\\\\ 0.5&3 \\end{pmatrix} \\] Esto nos indica la dispersión de cada variable y la relación entre ambas. La distribución normal bivariante Una de las distribuciones más importantes que describe el comportamiento conjunto de dos variables aleatorias es la distribución normal bivariante. Un vector aleatorio \\(\\mathbf{X}=(X_1,X_2)\\) tiene una distribución normal bivariante si su función de densidad conjunta está dada por: \\[ f(x_1,x_2)=\\frac{1}{2\\pi\\sigma_1\\sigma_2\\sqrt{1-\\rho^2}}\\exp\\left(-\\frac{1}{2(1-\\rho^2)}\\left[\\frac{(x_1-\\mu_1)^2}{\\sigma_1^2}-2\\rho\\frac{(x_1-\\mu_1)(x_2-\\mu_2)}{\\sigma_1\\sigma_2}+\\frac{(x_2-\\mu_2)^2}{\\sigma_2^2}\\right]\\right) \\] Aquí, \\(\\mu_1\\) y \\(\\mu_2\\) son las medias de \\(X_1\\) y \\(X_2\\), \\(\\sigma_1^2\\) y \\(\\sigma_2^2\\) son las varianzas, y \\(\\rho\\) es el coeficiente de correlación. 4.8.5 Matriz de correlaciones La matriz de correlaciones de un vector aleatorio bivariante \\(\\mathbf{X}=(X_1,X_2)\\) es una matriz simétrica \\(2\\times 2\\) que contiene los coeficientes de correlación entre las componentes \\(X_1\\) y \\(X_2\\). La correlación mide la relación lineal entre las variables y se define como: \\[ \\text{Corr}(X_1,X_2)=\\frac{\\text{Cov}(X_1,X_2)}{\\sqrt{\\text{Var}(X_1)\\text{Var}(X_2)}} \\] La matriz de correlaciones \\(\\text{Corr}(\\mathbf{X})\\) está dada por: \\[ \\text{Corr}(\\mathbf{X})= \\begin{pmatrix} 1 & \\text{Corr}(X_1,X_2)\\\\ \\text{Corr}(X_2,X_1) & 1 \\end{pmatrix} \\] Dado que \\(\\text{Corr}(X_1,X_2)=\\text{Corr}(X_2,X_1)\\), la matriz es simétrica, y los elementos diagonales son siempre \\(1\\) porque la correlación de una variable consigo misma es \\(1\\). 4.8.5.1 Relación con la matriz de covarianzas La matriz de correlaciones está relacionada con la matriz de covarianzas de la forma siguiente: Si \\(\\Sigma\\) es la matriz de covarianzas de \\(\\mathbf{X}=(X_1,X_2)\\), con \\(\\Sigma=\\begin{pmatrix} \\text{Var}(X_1) & \\text{Cov}(X_1,X_2)\\\\ \\text{Cov}(X_2,X_1) & \\text{Var}(X_2) \\end{pmatrix}\\), la matriz de correlaciones se obtiene “normalizando” cada covarianza dividiendo por el producto de las desviaciones estándar de las respectivas variables: \\[ \\text{Corr}(\\mathbf{X})= \\begin{pmatrix} 1 & \\frac{\\text{Cov}(X_1,X_2)}{\\sigma_1\\sigma_2}\\\\ \\frac{\\text{Cov}(X_2,X_1)}{\\sigma_1\\sigma_2} & 1 \\end{pmatrix} \\] donde \\(\\sigma_1=\\sqrt{\\text{Var}(X_1)}\\) y \\(\\sigma_2=\\sqrt{\\text{Var}(X_2)}\\). Supongamos que medimos dos variables, como la altura \\(X_1\\) y el peso \\(X_2\\) de un grupo de personas. Sabemos que: \\(\\text{Var}(X_1)=25\\) (varianza de la altura), \\(\\text{Var}(X_2)=100\\) (varianza del peso), \\(\\text{Cov}(X_1,X_2)=40\\) (covarianza entre altura y peso). La matriz de covarianzas sería: \\[ \\Sigma= \\begin{pmatrix} 25 & 40\\\\ 40 & 100 \\end{pmatrix} \\] La correlación entre \\(X_1\\) y \\(X_2\\) se calcula como: \\[ \\text{Corr}(X_1,X_2)=\\frac{40}{\\sqrt{25 \\times 100}}=\\frac{40}{50}=0.8 \\] Por lo tanto, la matriz de correlaciones será: \\[ \\text{Corr}(\\mathbf{X})= \\begin{pmatrix} 1 & 0.8\\\\ 0.8 & 1 \\end{pmatrix} \\] Esto indica una fuerte correlación positiva entre la altura y el peso de las personas en este grupo. La matriz de correlaciones nos proporciona una forma normalizada de comparar la dependencia entre las variables, sin depender de las unidades de medida. 4.8.6 Segunda caracterización de la independencia La independencia entre dos variables aleatorias \\(X_1\\) y \\(X_2\\) puede caracterizarse también a través de sus esperanzas de la siguiente manera: Dos variables son independientes si la esperanza del producto de ambas es igual al producto de las esperanzas de cada una por separado. Es decir si se verifica que: \\[ \\mathbb{E}[X_1 X_2] = \\mathbb{E}[X_1] \\mathbb{E}[X_2] \\] Esta propiedad refleja que, cuando las variables son independientes, el valor esperado del producto no se ve afectado por la interacción entre ellas, lo que implica que no hay dependencia entre las dos. Una consecuencia importante de esta propiedad es cómo afecta a la covarianza entre \\(X_1\\) y \\(X_2\\). Si \\(X_1\\) y \\(X_2\\) son independientes, entonces, por la propiedad anterior, \\(\\mathbb{E}[X_1 X_2] = \\mathbb{E}[X_1] \\mathbb{E}[X_2]\\) lo que, a su vez, significa que la covarianza es cero: \\[ \\text{Cov}(X_1, X_2) = \\mathbb{E}[X_1]\\mathbb{E}[X_2] - \\mathbb{E}[X_1]\\mathbb{E}[X_2] = 0 \\] Por lo tanto, si dos variables son independientes, necesariamente su covarianza es cero. Sin embargo, la inversa no es cierta: el hecho de que la covarianza sea cero no implica que las variables sean independientes. 4.8.7 Relación entre incorrelación e independencia Cuando la covarianza entre dos variables es cero, se dice que las variables son incorreladas. Aunque la independencia implica que las variables son incorreladas, lo contrario no siempre es verdad: dos variables pueden ser incorreladas (tener covarianza cero) pero no independientes. Un ejemplo clásico es el siguiente: si consideramos una variable aleatoria \\(X\\) y definimos \\(Y = X^2\\), entonces, aunque la covarianza entre \\(X\\) y \\(Y\\) puede ser cero (especialmente si \\(X\\) tiene una distribución simétrica alrededor de 0, como la normal estándar), \\(X\\) y \\(Y\\) no son independientes, porque el valor de \\(Y\\) está completamente determinado por \\(X\\). Consideremos dos variables aleatorias \\(X_1\\) y \\(X_2\\) que siguen una distribución normal conjunta bivariante con media cero: \\[ (X_1, X_2) \\sim \\mathcal{N}\\left(\\mathbf{0}, \\Sigma \\right) \\] Si la matriz de covarianzas \\(\\Sigma\\) es diagonal, es decir, \\(\\text{Cov}(X_1, X_2) = 0\\), entonces \\(X_1\\) y \\(X_2\\) son incorreladas. En este caso particular, cuando las variables son normales, la incorrelación sí implica independencia, porque en distribuciones normales la ausencia de correlación (covarianza cero) también implica que no hay ninguna dependencia entre las variables. Sin embargo, en otras distribuciones que no son normales, la incorrelación no garantiza la independencia, lo que subraya la importancia de distinguir entre los dos conceptos. "],["grandes-muestras.html", "Capítulo 5 Grandes muestras 5.1 Introducción: Aproximaciones asintóticas 5.2 Ley de los Grandes Números (Ley débil) 5.3 El teorema central del límite", " Capítulo 5 Grandes muestras 5.1 Introducción: Aproximaciones asintóticas En estadística y teoría de la probabilidad, el estudio de las grandes muestras juega un papel crucial debido a su relevancia tanto en la definición frecuentista de probabilidad como en la construcción de estimadores en la práctica estadística. Desde la perspectiva de la probabilidad frecuentista, la probabilidad se define como el límite de la frecuencia relativa de un evento cuando el número de ensayos tiende a infinito. En el contexto de la estadística, las grandes muestras sirven como base para muchas aproximaciones importantes, como las distribuciones de muestreo, las estimaciones de parámetros y la validación de inferencias. La ley de los grandes números y el teorema central del límite son ejemplos clave de teoremas que se fundamentan en el comportamiento de las muestras grandes, proporcionando las bases para muchos de los métodos estadísticos utilizados en la inferencia moderna. 5.2 Ley de los Grandes Números (Ley débil) La ley de los grandes números establece que, a medida que el tamaño de la muestra aumenta, la media muestral se aproxima a la media de la población. Formalmente, la ley de los grandes números en su versión débil se enuncia de la siguiente manera: Sea \\(X_1, X_2, \\dots, X_n\\) una secuencia de variables aleatorias independientes e idénticamente distribuidas (i.i.d.) con esperanza \\(\\mu = \\mathbb{E}[X_i]\\) y varianza \\(\\sigma^2 = \\text{Var}(X_i)\\), entonces para cualquier \\(\\epsilon > 0\\), \\[ \\lim_{n \\to \\infty} P \\left( \\left| \\frac{1}{n} \\sum_{i=1}^n X_i - \\mu \\right| \\geq \\epsilon \\right) = 0. \\] Esto significa que, con alta probabilidad, la media muestral \\(\\frac{1}{n} \\sum_{i=1}^n X_i\\) se aproxima a \\(\\mu\\) a medida que \\(n\\) crece. 5.2.1 Ejemplo Imaginemos un dado equilibrado. Sabemos que la esperanza de cada lanzamiento es el valor promedio de los números en el dado, que es \\[ \\mu = \\frac{1+2+3+4+5+6}{6} = 3.5. \\] Ahora, supongamos que lanzamos el dado repetidamente y calculamos la media de los resultados. Al principio, con pocos lanzamientos, la media puede estar alejada de 3.5, pero a medida que aumentan los lanzamientos, la media se acercará más y más a 3.5, como lo predice la ley de los grandes números. Es decir, a medida que lanzamos más veces el dado, la probabilidad de que la media de los resultados se aleje de 3.5 por más de una cantidad arbitraria disminuye. Podemos ilustrarlo con el siguiente código de R # Definir la función para simular lanzamientos de un dado simular_dado <- function(max_n) { medias <- numeric(max_n) # Vector para almacenar las medias muestrales for (n in 1:max_n) { lanzamientos <- sample(1:6, n, replace = TRUE) # Lanzar el dado n veces medias[n] <- mean(lanzamientos) # Calcular la media de los lanzamientos } return(medias) } # Simular para un tamaño máximo de muestra de 10000 lanzamientos max_n <- 10000 medias <- simular_dado(max_n) # Graficar las medias muestrales a medida que n aumenta png("images/LLN1.png") plot(1:max_n, medias, type = "l", col = "blue", lwd = 2, xlab = "Número de lanzamientos (n)", ylab = "Media muestral", main = "Ley de los Grandes Números\\n Media de los lanzamientos de un dado", cex.main=0.7) abline(h = 3.5, col = "red", lwd = 2, lty = 2) # Línea horizontal en 3.5 dev.off() ## png ## 2 knitr::include_graphics("images/LLN1.png",rel_path = TRUE) Este comportamiento es una manifestación intuitiva de la ley débil de los grandes números, ya que nos garantiza que la media muestral se acercará a la media poblacional a medida que el número de observaciones aumente. 5.3 El teorema central del límite El teorema central del límite (a partir de ahora, TCL) presenta un doble interés. Por un lado, proporciona a la estadística un resultado crucial para abordar el estudio de la distribución asintótica de muchos tipos de variables aleatorias. Como se verá en próximos capítulos, va a resultar básico en la construcción de contrastes de hipótesis y de intervalos de confianza, dos herramientas esenciales en estadística aplicada. Además, el TCL proporciona una explicación teórica fundamentada a un fenómeno habitual en experimentos reales: las variables estudiadas presentan muchas veces una distribución empírica aproximadamente normal. El TCL forma parte de un conjunto de propiedades relativas a las convergencias de variables aleatorias. En este tema se estudia sólo un tipo de convergencia, la convergencia en ley, ya que es necesaria para entender el enunciado del TCL. Se descarta, pues, en este documento el estudio de los otros tipos de convergencias (en probabilidad, casi segura, etc.) y el estudio de las leyes de los grandes números. Posiblemente el lector con poca formación en análisis matemático hallará alguna dificultad en la primera lectura de la definición de convergencia en ley y en el enunciado del TCL. Si es este el caso, los ejemplos incluidos han de ayudar en su comprensión. Consideramos al TCL un resultado básico con el que hay que familiarizarse, ya que se aplicará repetidamente en los próximos temas. 5.3.1 Sumas de variables aleatorias El TCL estudia el comportamiento de las sumas de variables aleatorias. En temas anteriores se han visto ya ejemplos de sumas de variables aleatorias. Formalmente, la suma de dos variables aleatorias corresponde a la siguiente aplicación: si \\(X_{1}\\) y \\(X_{2}\\) son dos variables aleatorias definidas sobre \\(\\Omega\\), la suma es: \\[ \\begin{aligned} X_{1}+X_{2}: & \\Omega \\rightarrow \\mathbb{R} \\\\ & \\omega \\mapsto X_{1}(\\omega)+X_{2}(\\omega) \\end{aligned} \\] La suma de dos variables puede extenderse sin dificultad a sumas de tres, cuatro,… y, en general, \\(n\\) variables aleatorias. El TCL se ocupa de las sucesiones de variables aleatorias. En el contexto del TCL una sucesión corresponde a un conjunto donde el primer elemento es una variable aleatoria, el segundo elemento es la suma de dos variables aleatorias, el tercero es la suma de tres variables aleatorias, y así sucesivamente. Una sucesión es un conjunto de elementos infinitos, que se designan simbólicamente mediante \\(\\left\\{X_{n}\\right\\}\\). Cada uno de los elementos de la sucesión (que es una variable aleatoria) lleva asociada una determinada función de distribución: \\[ X_{n} \\rightarrow F_{n} \\] Así pues, la sucesión de variables aleatorias lleva asociada una secuencia paralela de funciones de distribución. 5.3.2 Definición de convergencia en ley La siguiente definición se ocupa del comportamiento de las sucesiones. Sea \\(\\left\\{X_{n}\\right\\}\\) una sucesión de variables aleatorias, y sea \\(\\left\\{F_{n}\\right\\}\\) la correspondiente sucesión de funciones de distribución. Se dice que \\(\\left\\{X_{n}\\right\\}\\) converge en ley a una variable aleatoria \\(X\\) de función de distribución \\(F\\) si: \\[ \\lim _{n \\rightarrow \\infty} F_{n}(x)=F(x) \\quad \\text { para todo } \\mathrm{x} \\text { donde } F \\text { es contínua. } \\] Se indica que la sucesión converge en ley mediante el símbolo: \\[ X_{n} \\stackrel{\\mathrm{L}}{\\rightarrow} X \\] El significado de la definición es que, al aumentar arbitrariamente \\(n\\), las sucesivas funciones de distribución de la secuencia se aproximan a la distribución \\(F\\) de la variable \\(X\\). En los ejemplos se presentan gráficamente algunas situaciones donde diferentes sucesiones de variables aleatorias convergen en ley a una variable aleatoria normal. 5.3.3 Enunciado del teorema central del límite A continuación se presenta el enunciado del TCL en la versión de Lindeberg y Lévy. Teorema: Sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\), un conjunto de variables aleatorias independientes idénticamente distribuidas, cada una de ellas con función de distribución \\(F\\), y supongamos que \\(E\\left(X_{k}\\right)\\) \\(=\\mu \\mathrm{y} \\operatorname{var}\\left(X_{k}\\right)=\\sigma^{2}\\) para cualquier elemento del conjunto. Si designamos a la suma normalizada de \\(n\\) términos con el símbolo: \\[ S_{n}^{*}=\\frac{X_{1}+X_{2}+\\cdots+X_{n}-n \\mu}{\\sigma \\sqrt{n}} \\] entonces la sucesión de sumas normalizadas converge en ley a la variable aleatoria normal tipificada \\(\\mathrm{Z} \\sim N(0,1)\\), es decir: \\[ S_{n}^{*} \\xrightarrow{\\mathrm{L}} \\] El teorema anterior tiene dos importantes corolarios: Si consideramos la suma ordinaria de las \\(n\\) variables aleatorias, es decir, \\(S_{n}=X_{1}+X_{2}+\\ldots+X_{n}\\), entonces la sucesión de sumas ordinarias converge en ley a una normal de media \\(n \\mu\\) y varianza \\(n \\sigma^{2}\\). Si consideramos el promedio de las \\(n\\) variables aleatorias, es decir, \\(n^{-1} S_{n}\\), entonces la sucesión de promedios converge en ley a una normal de media \\(\\mu\\) y varianza \\(n^{-1} \\sigma^{2}\\). 5.3.3.1 Comentarios al teorema: La convergencia a la normal tipificada se produce con cualquier tipo de variable que cumpla las condiciones del teorema, sea discreta o absolutamente continua. Un sinónimo para indicar que una sucesión converge en ley a una normal es señalar que es asintóticamente normal. El TCL presenta el comportamiento de sumas infinitas de variables aleatorias. Veremos posteriormente como interpretar el resultado para valores finitos. Existen otras versiones del TCL dónde se relajan las condiciones de la versión de Lindeberg y Lévy, que, como se ha visto, obliga a las variables aleatorias a tener idénticas medias y varianzas. Dichas versiones del TCL necesitan el conocimiento de conceptos matemáticos que exceden el nivel al que se orienta Statmedia, y por esta razón se omite su enunciado. 5.3.4 Algunos ejemplos de aplicación del TCL 5.3.4.1 Normalidad asintótica de la Binomial. # Parámetros de la distribución binomial n <- 1000 # Número de ensayos p <- 0.5 # Probabilidad de éxito size <- 10000 # Número de simulaciones # Generar una variable aleatoria binomial binomial_sample <- rbinom(size, n, p) # Estimación de la media y la desviación estándar de la distribución binomial mean_binom <- n * p sd_binom <- sqrt(n * p * (1 - p)) # Generar la distribución normal aproximada normal_sample <- rnorm(size, mean = mean_binom, sd = sd_binom) # Graficar los histogramas de la binomial y la normal par(mfrow = c(1, 2)) # Organizar gráficos en dos paneles # Histograma de la muestra binomial hist(binomial_sample, breaks = 50, probability = TRUE, col = rgb(0, 0, 1, 0.5), xlim = c(0, n), main = "Distribución Binomial", xlab = "Valor", ylab = "Densidad") lines(density(binomial_sample), col = "blue", lwd = 2) # Histograma de la distribución normal aproximada hist(normal_sample, breaks = 50, probability = TRUE, col = rgb(1, 0, 0, 0.5), xlim = c(0, n), main = "Distribución Normal Aproximada", xlab = "Valor", ylab = "Densidad") lines(density(normal_sample), col = "red", lwd = 2) 5.3.4.2 Normalidad asintótica de la suma de puntuaciones de un dado # Parámetros de la simulación num_simulaciones <- 10000 # Número de simulaciones num_lanzamientos <- c(10, 100, 1000, 10000) # Diferentes tamaños de muestra # Función para simular la suma de las puntuaciones de un dado simular_suma_dado <- function(n) { suma <- rowSums(matrix(sample(1:6, n * num_simulaciones, replace = TRUE), ncol = n)) # Simulación de las sumas return(suma) } # Graficar las distribuciones de las sumas para diferentes tamaños de muestra par(mfrow = c(2, 2)) # Organizar gráficos en 2x2 for (n in num_lanzamientos) { suma_dado <- simular_suma_dado(n) # Histograma de la suma de las puntuaciones del dado hist(suma_dado, breaks = 50, probability = TRUE, col = rgb(0, 0, 1, 0.5), xlim = c(min(suma_dado), max(suma_dado)), main = paste("Suma de", n, "lanzamientos de un dado"), xlab = "Suma de puntuaciones", ylab = "Densidad") # Superponer la curva de densidad normal (aproximación asintótica) mean_dado <- 3.5 * n # Media esperada de la suma (media de un dado es 3.5) sd_dado <- sqrt(n * (35 / 12)) # Desviación estándar de la suma (varianza de un dado es 35/12) curve(dnorm(x, mean = mean_dado, sd = sd_dado), col = "red", lwd = 2, add = TRUE) } 5.3.5 Casos particulares más notables Aunque el TCL tiene multitud de casos particulares interesantes, son especialmente relevantes para el desarrollo de los próximos temas los siguientes casos: 5.3.5.1 Promedio de \\(\\boldsymbol{n}\\) variables aleatorias Al considerar \\(n\\) variables independientes, todas con la misma distribución, cada una de ellas con esperanza igual a \\(\\mu\\) y varianza igual a \\(\\sigma^{2}\\), el promedio es asintóticamente normal con media \\(\\mu\\) y varianza \\(n^{-1} \\sigma^{2}\\). Este resultado proporciona una distribución asintótica a la media de \\(n\\) observaciones en el muestreo aleatorio simple que se estudiará en el próximo tema. 5.3.5.2 Binomial de parámetros \\(n\\) y \\(p\\) Es asintóticamente normal con media \\(n p\\) y varianza \\(n p\\) (1-p). Históricamente (de Moivre, 1733), es el primer resultado demostrado de convergencia a una normal. 5.3.5.3 Poisson de parámetro \\(n \\lambda\\) Es asintóticamente normal con media \\(n \\lambda\\) y varianza \\(n \\lambda\\). 5.3.6 Interpretación del teorema central del límite El TCL hace referencia a sucesiones infinitas, por tanto, la igualdad de las distribuciones se alcanza sólo en el límite, y hace mención a una distribución final teórica o de referencia. Sin embargo, puede utilizarse esta distribución final de referencia para aproximar distribuciones correspondientes a sumas finitas. Algunos casos particulares importantes (binomial, Poisson, etc.) alcanzan grados de aproximación suficientes para sumas con no demasiados términos. Los resultados que se indican a continuación son, por tanto, aproximaciones que se consideran usualmente suficientes, pero conllevan errores numéricos de aproximación. Binomial: aproximar si \\(n \\geq 30\\) y \\(0.1 \\leq p \\leq 0.9\\) a una normal de media \\(n p\\), varianza \\(n p(1-p)\\). Ver aquí más detalles. Poisson: aproximar si \\(\\lambda \\geq 10\\) a una normal de media \\(\\lambda\\) y varianza \\(\\lambda\\). Ver aquí más detalles. Para evaluar aproximadamente el error cometido en las aproximaciones, puede consultarse los cuadros gráficos de los ejemplos de este tema. El TCL permite aproximar funciones de distribución, independientemente del carácter (continuo o discreto) de las variables sumadas. No sirve, por tanto, para aproximar la funciones de densidad discretas por una normal. En el caso continuo sí puede establecerse también una convergencia de las densidades asociadas. Finalmente, es conveniente mencionar que existen resultados teóricos que permiten estudiar la velocidad de convergencia de una suma de variables aleatorias a la normal, sin embargo la dificultad técnica que conllevan trasciende el nivel marcado para el conjunto de documentos marcado para Statmedia. 5.3.7 Acerca de las variables aproximadamente normales En general, cuando se estudia en experimentos reales una determinada variable no se conoce su distribución teórica. Sin embargo, puede establecerse su distribución empirica a partir de una muestra más o menos amplia. Una forma habitual de presentar la distribución empírica es construir el histograma de clases de dicha variable. Es un hecho conocido desde el siglo XIX que esta distribución empírica presenta muchas veces una forma que es aproximadamente normal. Por ejemplo, al realizar un estudio sobre el peso de adultos varones de dieciocho años en Catalunya, se observó la distribución siguiente en la muestra: El TCL permite dar una explicación a este fenómeno. La variable peso de un adulto viene determinada en cada individuo por la conjunción de multitud de diferentes factores. Algunos de estos factores son ambientales (dietas, ejercicio, enfermedades, etc.) y otros son congénitos. Con el nivel actual de conocimiento no se pueden desglosar completamente todos los factores que intervienen, pero puede aceptarse en cambio que la variable peso es el resultante de la suma de diferentes variables primarias, congénitas o ambientales, y que posiblemente no todas tienen el mismo grado de influencia. Seguramente, estas variables primarias tampoco tienen la misma media, varianza o, incluso, la misma distribución. La versión del TCL que se ha presentado aquí exige estas condiciones para la convergencia a la normal, pero, como ya se ha comentado antes otras versiones más elaboradas del TCL permiten modelar la suma de variables de forma menos restringida. En este contexto, al considerar la variable peso como una suma más o menos extensa (pero finita) de diferentes variables primarias, es esperable que ocurra que la variable resultante, el peso, siga una distribución aproximadamente normal. De forma similar es explicable la normalidad aproximada que se observa en muchas variables biométricas (pesos, alturas, longitudes, concentraciones de metabolitos, distribuciones de edad, etc.) así cómo en muchos otros contextos (distribución de rentas, errores de medición, etc.). A pesar de esta ubicuidad de la distribución normal, el lector no debe inferir que es forzosamente, ni mucho menos, la distribución de referencia en todo estudio aplicado. "],["introducción-a-la-inferencia-estadística.html", "Capítulo 6 Introducción a la inferencia estadística 6.1 Inferencia estadística 6.2 Problemas de inferencia estadística 6.3 Distribución de la población 6.4 Muestra aleatoria simple 6.5 Estadísticos 6.6 Distribución en el muestreo de un estadístico 6.7 La distribución empírica 6.8 Los momentos muestrales 6.9 Distribución en el muestreo de los momentos muestrales 6.10 Propiedades asintóticas de los momentos muestrales 6.11 Muestreo en poblaciones normales", " Capítulo 6 Introducción a la inferencia estadística 6.1 Inferencia estadística Para comenzar, vamos a definir cuál es el ámbito de estudio de la inferencia estadística desde su relación con el cálculo de probabilidades. El cálculo de probabilidades proporciona una teoría matemática que permite analizar (o modelizar) las propiedades de los fenómenos donde interviene el azar. El cálculo de probabilidades utiliza como modelo básico para cualquier situación aleatoria el concepto de espacio de probabilidades \\((\\Omega, \\mathcal{A}, P)\\) y una variable aleatoria \\(X: \\Omega \\rightarrow \\mathbb{R}\\) definida sobre él. El conocimiento de la distribución de la variable aleatoria permite: Análisis deductivo de situaciones. Por ejemplo: si asumimos que el peso de los recién nacidos se distribuye según una distribución \\(N(\\mu=\\) \\(3 \\mathrm{~kg}, \\sigma=0.25 \\mathrm{~kg}\\) ), nos puede interesar calcular la probabilidad de que un recién nacido pese entre 2.9 y 3.1 kg , o encontrar unos valores centrados en la media entre los cuales esperemos que se encuentren el \\(10 \\%(25 \\%, 50 \\%, 95 \\%, \\ldots)\\) de los recién nacidos. Modelización de situaciones aleatorias. Por ejemplo: si asumimos que el tiempo, en años, hasta que se estropea un componente de un ordenador se distribuye según una distribución exponencial \\(T \\sim \\xi(\\lambda=\\) \\(0.3)\\), nos puede interesar calcular la probabilidad de que un componente dado dure más de 4 años. En los casos anteriores nos encontramos en una situación muy común, donde ya disponemos de un modelo sobre el cual efectuamos los cálculos, pero del cual desconocemos la procedencia. Parece razonable, y de hecho es precisamente así, que si queremos adaptar un modelo a una situación debamos basarnos únicamente en las observaciones del fenómeno. Si queremos saber cómo se distribuyen los pesos de los recién nacidos tomaremos unos cuantos, los pesaremos y después observaremos la distribución de estos. Puede que no sea necesario pesar a todos los recién nacidos (jde hecho, no es posible!), pero tampoco es posible deducir la ley por consideraciones puramente teóricas. Ahora, en lugar de partir de un espacio de probabilidades, partiremos de unas observaciones \\(\\left(x_{1}, \\ldots, x_{n}\\right)\\) y el objetivo que perseguiremos será obtener información sobre la distribución de probabilidades de un fenómeno a partir de una observación no exhaustiva del mismo. 6.2 Problemas de inferencia estadística Hemos presentado como objetivo de la inferencia estadística inducir propiedades del modelo probabilístico que representa la población a partir de un conjunto de observaciones. Según el tipo de conclusión que queramos extraer, diferenciaremos diferentes tipos de problemas: Si queremos utilizar la información proporcionada por la muestra para obtener un pronóstico numérico único (es decir, una única aproximación numérica) de una o más características de la población, tenemos un problema de estimación puntual. Si queremos obtener información sobre un rango de valores dentro del cual podamos afirmar, con un cierto grado de confianza, que podemos capturar un parámetro desconocido de la distribución, hablamos de estimación por intervalo. Si lo que queremos hacer es decidir si podemos aceptar o debemos rechazar una afirmación sobre la distribución de probabilidad del fenómeno estudiado, hablamos de contraste de hipótesis. Este contraste puede ser: Paramétrico: si la afirmación (la hipótesis) se refiere a los parámetros de la distribución. No paramétrico: si la afirmación es sobre la forma de la distribución. 6.3 Distribución de la población Todo problema de inferencia está motivado por un cierto grado de desconocimiento de la ley de probabilidades que rige un determinado fenómeno aleatorio. El caso más sencillo que encontramos es cuando nos interesa una cierta variable \\(X\\) con una función de distribución \\(F\\) desconocida en mayor o menor grado. La distribución que teóricamente sigue la variable de interés \\(X\\) en la población recibe el nombre de distribución teórica o distribución de la población. La distribución de la población es importante ya que, a menudo, se utiliza para determinar la distribución de alguna característica de los individuos de una población. En los modelos de la inferencia estadística indicamos el relativo grado de desconocimiento sobre la distribución \\(F\\) en función de su pertenencia a una familia \\(\\mathcal{F}\\) de distribuciones. Por ello, en lugar de explicar que \\(X \\sim F=F_{0}\\) indicaremos que \\(X \\sim F \\in \\mathcal{F}\\), donde \\(\\mathcal{F}\\) puede ser un conjunto más o menos amplio de distribuciones de probabilidad, como todas las distribuciones normales o las distribuciones simétricas o las distribuciones discretas sobre \\(\\mathbb{N}\\). Muchas veces, la distribución poblacional \\(F\\) está completamente especificada excepto por el valor de algún parámetro o parámetros. En este caso, podemos concretar más la forma de la familia de distribuciones: \\[ X \\sim F \\in \\mathcal{F}=\\left\\{F_{\\theta}: \\theta \\in \\Theta \\subset \\mathbb{R}^{k}\\right\\} \\] donde \\(\\Theta\\) es el espacio de los \\(k\\) parámetros. La familia de posibles distribuciones de probabilidad para \\(X\\) se denomina, genéricamente, modelo estadístico y se indica como: \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\). Veamos algunos ejemplos. Ejemplo 1.3.1 Supongamos que \\(X\\) representa la duración de un componente electrónico que no envejece, solo se estropea. Es decir, si en un instante \\(t\\) está funcionando, su estado es el mismo que en cualquier momento del pasado y la distribución del tiempo hasta que se estropee es la misma que al principio. Esta propiedad se denomina falta de memoria. Un modelo razonable para esta situación lo da la distribución de Weibull que, en este caso, podemos definir a través de la siguiente función de densidad: \\[ f_{\\theta}(x)= \\begin{cases}\\alpha \\beta x^{\\beta-1} e^{-\\alpha x^{\\beta}} & \\text { si } x \\geq 0 \\\\ 0 & \\text { si } x<0\\end{cases} \\] La familia de distribuciones asociada es \\[ \\mathcal{F}=\\left\\{F_{\\theta}: \\theta=(\\alpha, \\beta) \\in(0, \\infty) \\times(0, \\infty)\\right\\} \\] Ejemplo 1.3.2 Supongamos que queremos determinar la masa de un cierto tipo de partículas elementales a partir de las observaciones en una cámara de burbujas. En cada observación obtenemos un dato de la masa de la partícula \\(x_{i}\\) y asociado con ella un cierto error de medida \\(\\varepsilon\\). Si la masa común de cada una de ellas es \\(\\mu\\), entonces podemos escribir: \\[ x_{i}=\\mu+\\varepsilon_{i} \\quad i=1, \\ldots, n \\] donde la distribución \\(\\varepsilon_{i} \\sim F\\) es desconocida. Nuestro objetivo es obtener información sobre \\(F\\). Si admitimos que \\(P\\left(\\varepsilon_{i}<0\\right)=P\\left(\\varepsilon_{i}>0\\right)\\), según el grado de exigencia que queramos tener, podemos suponer: Con un enfoque de inferencia paramétrica: \\[ X \\sim F \\in \\mathcal{F}=\\left\\{N(0, \\sigma): \\sigma \\in \\mathbb{R}^{+}\\right\\} \\] Con un enfoque de inferencia no paramétrica: \\[ X \\sim F \\in \\mathcal{F}=\\{\\text { Distribuciones simétricas }\\} \\] 6.4 Muestra aleatoria simple 6.4.1 Definición Para estudiar un problema de inferencia estadística analizamos una muestra de tamaño \\(n\\). Se trata de escoger \\(n\\) individuos o elementos de la población \\(\\Omega\\) \\[ \\omega_{1}, \\omega_{2}, \\ldots, \\omega_{n} \\] que sean representativos. El valor de \\(n\\) y la forma de elección de los individuos de la muestra es una materia de Estadística llamada Muestreo estadístico. Por ahora y para simplificar, solo hace falta decir que la elección se hace de forma que todos los individuos tienen la misma probabilidad de estar presentes en la muestra, si es necesario con reemplazo, y que el valor de \\(n\\) está dado. En realidad, lo que nos interesa verdaderamente no son los individuos de la muestra sino las mediciones de una característica \\(X\\) sobre ellos. Es decir, los valores de una variable aleatoria \\(X\\) sobre estos individuos \\[ X\\left(\\omega_{1}\\right)=x_{1}, X\\left(\\omega_{2}\\right)=x_{2}, \\ldots, X\\left(\\omega_{n}\\right)=x_{n} \\] También podemos pensar que los valores muestrales \\(x_{1}, x_{2}, \\ldots, x_{n}\\) son generados directamente desde la variable aleatoria. En todo caso, los valores muestrales no son únicos y podemos generar varias muestras \\[ \\begin{array}{ccccc} x_{1}^{1} & x_{2}^{1} & x_{3}^{1} & \\ldots & x_{n}^{1} \\\\ x_{1}^{2} & x_{2}^{2} & x_{3}^{2} & \\ldots & x_{n}^{2} \\\\ \\vdots & \\vdots & \\vdots & & \\vdots \\\\ x_{1}^{s} & x_{2}^{s} & x_{3}^{s} & \\ldots & x_{n}^{s} \\end{array} \\] Si todos los valores son independientes, de la misma forma que \\(x_{1}, x_{2}, x_{3}, \\ldots, x_{n}\\) es una muestra generada por \\(X\\), podemos considerar todos los \\(x_{1}^{i} \\quad i=1, \\ldots, s\\) provenientes de una variable aleatoria \\(X_{1}\\) con la misma distribución que \\(X\\) \\(X_{1} \\stackrel{d}{=} X\\) y que genera los primeros valores, los \\(x_{i}^{2}\\) provenientes de una variable aleatoria \\(X_{2} \\stackrel{d}{=} X\\) que genera los segundos y así sucesivamente. Todo esto nos lleva a definir el concepto de muestra aleatoria de una forma muy conveniente para trabajar con ella: Definició 1.1 Una muestra aleatoria simple de tamaño \\(n\\) de una variable aleatoria \\(X\\) con distribución \\(F\\) es una colección de \\(n\\) variables aleatorias independientes \\(X_{1}, X_{2}, \\ldots, X_{n}\\) con la misma distribución \\(F\\) que \\(X\\). Esto se suele indicar como: \\[ \\mathbf{X}=X_{1}, X_{2}, \\ldots, X_{n} \\stackrel{i . i . d}{\\sim} X \\] Definició 1.2 El conjunto \\(\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right) \\in \\mathbb{R}^{n}\\) de observaciones concretas de \\(X_{1}, X_{2}, \\ldots, X_{n}\\) se denomina realización de la muestra. 6.4.2 Distribución de la muestra Una muestra aleatoria simple, como vector aleatorio \\(n\\)-dimensional que es, tiene una distribución conjunta o distribución de la muestra que depende de \\(F\\), pero que obviamente es diferente, ya que en particular \\(X\\) y \\(\\mathbf{X}\\) tienen dimensiones diferentes. Sin embargo, gracias a la independencia de las variables \\(X_{1}, X_{2}, \\ldots, X_{n}\\), la función de distribución conjunta de \\(\\mathbf{X}\\), que podría ser muy complicada, toma una forma muy sencilla. En resumen: Definició 1.3 Se llama distribución de la muestra de una variable aleatoria \\(X \\sim F\\) a la distribución del vector aleatorio \\(n\\)-dimensional \\(\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\) \\[ G\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right)=F\\left(x_{1}\\right) F\\left(x_{2}\\right) \\cdots F\\left(x_{n}\\right) \\] En los casos particulares en que \\(X\\) sea discreta o absolutamente continua, la distribución conjunta de la muestra suele expresarse mediante la función de masa de probabilidad o la función de densidad: Para variables discretas: \\[ \\begin{aligned} p_{G}\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right) & =P\\left(X_{1}=x_{1}, X_{2}=x_{2}, \\ldots, X_{n}=x_{n}\\right) \\\\ & =\\prod_{i=1}^{n} P\\left(X=x_{i}\\right)=\\prod_{i=1}^{n} p_{F}\\left(x_{i}\\right), \\end{aligned} \\] Para variables absolutamente continuas: \\[ g\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right)=\\prod_{i=1}^{n} f\\left(x_{i}\\right) \\] Ejemplo 1.4.1 Una moneda tiene una probabilidad \\(\\theta\\) de salir cara. Queremos estudiar la variable aleatoria: \\[ X= \\begin{cases}1 & \\text { si sale cara } \\\\ 0 & \\text { si sale cruz }\\end{cases} \\] con densidad \\(P\\{X=1\\}=\\theta, P\\{X=0\\}=1-\\theta\\). Es decir \\[ X \\sim F_{\\theta} \\in \\mathcal{F}=\\left\\{F_{\\theta}=B(1, \\theta): \\theta \\in(0,1)\\right\\} \\] Supongamos que hacemos tres lanzamientos. Las posibles muestras son: \\(X_{1}\\) \\(X_{2}\\) \\(X_{3}\\) Probabilidad 1 1 1 \\(\\theta^{3}\\) 1 0 0 \\(\\theta(1-\\theta)^{2}\\) 0 1 0 \\(\\theta(1-\\theta)^{2}\\) 0 0 1 \\(\\theta(1-\\theta)^{2}\\) 1 0 1 \\(\\theta^{2}(1-\\theta)\\) 1 1 0 \\(\\theta^{2}(1-\\theta)\\) 0 1 1 \\(\\theta^{2}(1-\\theta)\\) 0 0 0 \\((1-\\theta)^{3}\\) El muestreo ha especificado la distribución conjunta de la muestra a través de la distribución desconocida \\(F_{\\theta}\\). Si escribimos la función de probabilidades de la variable aleatoria como \\(f_{\\theta}(x)=\\theta^{x}(1-\\theta)^{1-x}\\), entonces la función de probabilidades de la muestra la podemos expresar como: \\[ g_{\\theta}\\left(x_{1}, x_{2}, x_{3}\\right)=\\theta^{x_{1}+x_{2}+x_{3}}(1-\\theta)^{3-\\left(x_{1}+x_{2}+x_{3}\\right)} \\] 6.5 Estadísticos 6.5.1 Definición Para lograr el objetivo de realizar inferencias sobre la población a partir de la muestra, solemos basarnos en la realización de cálculos sobre la muestra para tratar de obtener la información que deseamos. En este proceso aparecen los conceptos de estadístico y el caso particular, que más nos interesa a nosotros, de estimador. Un estadístico es una función de la muestra que no depende del valor del parámetro. Definició 1.4 Dada una muestra aleatoria simple \\(X_{1}, X_{2}, \\ldots, X_{n}\\) y una función medible \\(T: \\mathbb{R}^{n} \\longrightarrow \\mathbb{R}^{k}\\), entonces \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\) es un vector aleatorio (variable aleatoria cuando \\(k=1\\) ). Si \\(T\\) no depende de \\(\\theta\\) (donde \\(\\theta\\) es un parámetro a especificar en \\(F_{\\theta}\\) ), entonces \\(T\\) recibe el nombre de estadístico. Solo por su nombre, parece evidente que un estimador de un parámetro \\(\\theta\\) será alguna función de la muestra que sirva para aproximar, en algún sentido, el valor desconocido de \\(\\theta\\). Si añadimos la condición razonable de que un estimador no pueda tomar valores que no puede tomar el parámetro, podemos dar la siguiente definición. Definició 1.5 Un estimador de un parámetro \\(\\theta\\) es un estadístico \\(T\\) cuyo recorrido es el espacio de los parámetros, es decir: \\[ \\begin{array}{ccc} T: & \\mathbb{R}^{n} & \\longrightarrow \\\\ \\left(x_{1}, x_{2}, \\ldots, x_{n}\\right) & \\longrightarrow \\\\ \\left(t_{1}, \\ldots, t_{k}\\right) \\quad \\in \\Theta \\subset \\mathbb{R}^{k} \\end{array} \\] Aquí tienes el texto traducido al castellano manteniendo toda la notación en LaTeX: 6.6 Distribución en el muestreo de un estadístico Dado un estadístico \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\) nos interesa conocer su distribución de probabilidad, ya que para hacer inferencia necesitaremos hacer cálculos del tipo \\[ P\\left[T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)>t_{0}\\right] \\] La distribución de probabilidad del estadístico se denomina distribución muestral o distribución en el muestreo del estadístico. Encontrarla es un problema que puede ser desde bastante sencillo hasta extremadamente complicado. Algunas de las técnicas utilizadas para intentar resolverlo son las siguientes: Uso de la técnica de cambio de variable. Uso de la función generadora de momentos. Aplicación del Teorema Central del Límite. Ejemplo 1.5.1 Sea \\(X \\sim F_{\\theta}\\) una variable aleatoria absolutamente continua con densidad \\[ f_{\\theta}(x)=e^{-(x-\\theta)} e^{-e^{-(x-\\theta)}} \\quad \\theta \\in \\mathbb{R} \\] y consideremos el estadístico \\[ T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)=\\sum_{i=1}^{n} e^{-X_{i}} \\] Si aplicamos el teorema de cambio de variable unidimensional, se obtiene fácilmente que la variable aleatoria \\(Y=e^{-X}\\) sigue una distribución exponencial de parámetro \\(e^{-\\theta}\\), de donde la suma seguirá una distribución gamma \\(T \\sim \\Gamma\\left(e^{-\\theta}, n\\right)\\). Ejemplo 1.5.2 Supongamos que \\(X\\) representa el número de averías en una máquina al cabo de un mes. Este valor varía mes a mes. Sea \\(\\bar{X}\\) la media de averías en \\(n\\) meses. Si \\(X\\) sigue una distribución de Poisson \\(P(\\lambda)\\), ¿cuál es la distribución de \\(\\bar{X}\\) ? Como la suma de Poisson i.i.d. es \\(\\sum_{i=1}^{n} X_{i} \\sim P(n \\lambda)\\) \\[ P[\\bar{X}=r]=P\\left[\\sum_{i=1}^{n} X_{i}=n r\\right]=\\frac{e^{-n \\lambda}(n \\lambda)^{n r}}{(n r)!} \\] Como ocurre en este ejemplo, uno de los estadísticos para el cual a menudo deseamos calcular la distribución en el muestreo es la media aritmética. Una manera útil de hacerlo es con la función generadora de momentos y la aplicación del siguiente lema. Lema 1 Si \\(X\\) es una v.a. con \\(M_{X}(t)\\) como función generadora de momentos, entonces la f.g.m. de \\(\\bar{X}_{n}=\\frac{1}{n} \\sum_{i=1}^{n} X_{i}\\) es \\[ M_{\\bar{X}_{n}}(t)=\\left[M_{X}(t / n)\\right]^{n} \\] 6.6.1 Demostración: La demostración es inmediata a partir de la definición o por las propiedades de la función generadora de momentos. Si aplicamos directamente la definición de la f.g.m tenemos: \\[ \\begin{aligned} E\\left(e^{t \\bar{X}_{n}}\\right) & =E\\left(e^{t \\frac{1}{n} \\sum_{i=1}^{n} X_{i}}\\right)=E\\left(\\prod_{i=1}^{n} e^{\\frac{t}{n} X_{i}}\\right)=\\prod_{i=1}^{n} E\\left(e^{\\frac{t}{n} X_{i}}\\right) \\\\ & =\\prod_{i=1}^{n} M_{X_{i}}(t / n)=\\left[M_{X}(t / n)\\right]^{n} \\end{aligned} \\] Si usamos las propiedades de la f.g.m tenemos: Dado que \\(M_{a X}(t)=M_{X}(a t)\\) y si \\(a=\\frac{1}{n}\\), entonces \\(M_{\\bar{X}}(t)=M_{\\sum_{i=1}^{n} X_{i}}(t / n)\\). \\(M_{\\sum_{i=1}^{n} X_{i}}(t / n) \\stackrel{\\text { ind }}{=} \\prod_{i=1}^{n} M_{X_{i}}(t / n) \\stackrel{\\text { id }}{=}\\left[M_{X}(t / n)\\right]^{n}\\). Ejemplo 1.5.3 Para una variable aleatoria \\(X \\sim N(\\mu, \\sigma)\\) y por tanto \\(M_{X}(t)=\\) \\(\\exp \\left(t \\mu+\\frac{t^{2} \\sigma^{2}}{2}\\right)\\), entonces \\[ \\begin{aligned} M_{\\bar{X}_{n}}(t) & =\\left[\\exp \\left(\\frac{t \\mu}{n}+\\frac{t^{2} \\sigma^{2}}{n^{2} 2}\\right)\\right]^{n} \\\\ & =\\exp \\left[n\\left(\\frac{t \\mu}{n}+\\frac{t^{2} \\sigma^{2}}{n^{2} 2}\\right)\\right] \\\\ & =\\exp \\left[t \\mu+\\frac{1}{2} t^{2}\\left(\\frac{\\sigma}{\\sqrt{n}}\\right)^{2}\\right] \\end{aligned} \\] que es la función generadora de momentos de una variable \\(N(\\mu, \\sigma / \\sqrt{n})\\). 6.7 La distribución empírica 6.7.1 Definición En el apartado anterior hemos visto que a partir de una muestra \\(X_{1}, X_{2}, \\ldots, X_{n}\\) es interesante considerar la distribución muestral como la distribución conjunta del vector aleatorio \\(\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\), sin que intervenga una realización concreta de la muestra \\(x_{1}, x_{2}, \\ldots, x_{n}\\). Un enfoque diferente consiste en asociar una distribución particular directamente a las observaciones \\(x_{1}, x_{2}, \\ldots, x_{n}\\) con la intención de que, en tanto que la muestra “representa” la v.a. \\(X\\), esta distribución asociada a la muestra \\(F_{n}(x)\\) emule la distribución de la población. Esta distribución se denomina distribución empírica o distribución muestral y se define así: \\[ F_{n}(x)=\\frac{k(x)}{n} \\] donde \\(k(x)\\) es el número de datos muestrales menores o iguales que \\(x\\). En la práctica se construye por ordenación de la muestra \\[ x_{1}, x_{2}, \\ldots, x_{n} \\longrightarrow x_{(1)} \\leq x_{(2)} \\leq \\cdots \\leq x_{(n)} \\] y con la siguiente definición: \\[ F_{n}(x)= \\begin{cases}0 & \\text { si } x<x_{(1)} \\\\ \\frac{k}{n} & \\text { si } x_{(k)} \\leq x<x_{(k+1)} \\\\ 1 & \\text { si } x_{(n)} \\leq x\\end{cases} \\] Ejemplo 1.6.1 Extraemos una muestra y obtenemos: \\(x_{1}\\) \\(x_{2}\\) \\(x_{3}\\) \\(x_{4}\\) \\(x_{5}\\) \\(x_{6}\\) \\(x_{7}\\) 5.1 3.4 1.2 17.6 2.1 16.4 4.3 Una vez ordenada queda: \\(x_{(1)}\\) \\(x_{(2)}\\) \\(x_{(3)}\\) \\(x_{(4)}\\) \\(x_{(5)}\\) \\(x_{(6)}\\) \\(x_{(7)}\\) \\(x_{3}\\) \\(x_{5}\\) \\(x_{2}\\) \\(x_{7}\\) \\(x_{1}\\) \\(x_{6}\\) \\(x_{4}\\) 1.2 2.1 3.4 4.3 5.1 16.4 17.6 y si hacemos la representación gráfica: x <- c(5.1 , 3.4 , 1.2 , 17.6 , 2.1 , 16.4 , 4.3, 1.2 , 2.1 , 3.4 , 4.3 , 5.1 , 16.4 , 17.6 ) plot(ecdf(x)) Figura 1.1: Función de distribución empírica con los datos del ejemplo La distribución empírica refleja exclusivamente los valores observados en la muestra y, por lo tanto, no se relaciona directamente ni con la distribución conjunta de la muestra \\(G\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right)\\) ni con la distribución de la población \\(F\\). 6.8 Los momentos muestrales 6.8.1 Definición Sea \\(F_{n}\\) la v.a. que tiene \\(F_{n}(x)\\) por distribución. La función de densidad de probabilidad de \\(F_{n}\\) es una densidad discreta que asigna probabilidades \\(1 / n\\) a cada una de las observaciones muestrales \\(x_{1}, x_{2}, \\ldots, x_{n}\\). Así pues, tiene sentido calcular sus momentos, que se conocen como momentos muestrales \\(a_{k}\\), y también sus momentos muestrales centrados respecto a la media \\(b_{k}\\). \\[ \\begin{aligned} a_{k} & =E\\left(F_{n}^{k}\\right)=\\sum_{i=1}^{n} x_{i}^{k} \\cdot P\\left(F_{n}=x_{i}\\right)=\\sum_{i=1}^{n} x_{i}^{k} \\cdot \\frac{1}{n}=\\frac{1}{n} \\sum_{i=1}^{n} x_{i}^{k} \\\\ b_{k} & =\\frac{1}{n} \\sum_{i=1}^{n}\\left(x_{i}-\\bar{x}\\right)^{k} \\end{aligned} \\] Observamos que dos medidas conocidas de la estadística descriptiva adquieren un significado diferente: Media muestral \\(=\\) Media de la distribución muestral \\[ a_{1}=\\frac{1}{n} \\sum_{i=1}^{n} x_{i} \\] Varianza muestral \\(=\\) Varianza de la distribución muestral \\[ b_{2}=\\frac{1}{n} \\sum_{i=1}^{n}\\left(x_{i}-\\bar{x}\\right)^{2} \\] 6.9 Distribución en el muestreo de los momentos muestrales Dada una m.a.s. \\(X_{1}, X_{2}, \\ldots, X_{n}\\), los momentos muestrales son estadísticos y, como tales, tienen su distribución en el muestreo. Por ejemplo, \\(a_{k}=\\) \\(\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{k}\\). La distribución en cada caso puede ser compleja y depender de la distribución poblacional subyacente. Lo que sí es posible calcular son los momentos de los momentos muestrales o, mejor dicho, los momentos de las distribuciones en el muestreo de los momentos muestrales. Si consideramos \\(a_{k}=\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{k}\\) y escribimos \\(\\alpha_{k}=E\\left(X^{k}\\right)\\) como el momento poblacional de orden \\(k\\), tenemos: \\[ \\begin{aligned} E\\left(a_{k}\\right) & =E\\left(\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{k}\\right)=\\frac{1}{n} \\cdot n \\cdot \\alpha_{k}=\\alpha_{k} \\\\ \\operatorname{var}\\left(a_{k}\\right) & =\\operatorname{var}\\left(\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{k}\\right)=\\frac{1}{n^{2}} \\sum_{i=1}^{n} \\operatorname{var}\\left(X_{i}^{k}\\right)=\\frac{1}{n} \\operatorname{var}\\left(X^{k}\\right) \\\\ & =\\frac{1}{n}\\left[E\\left(X^{2 k}\\right)-\\left(E\\left(X^{k}\\right)\\right)^{2}\\right]=\\frac{\\alpha_{2 k}-\\alpha_{k}^{2}}{n} \\end{aligned} \\] Si consideramos \\(s^{2}=b_{2}=\\frac{1}{n} \\sum_{i=1}^{n}\\left(X_{i}-\\bar{X}\\right)^{2}=\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{2}-\\bar{X}^{2}\\), podemos calcular: \\[ \\begin{aligned} E\\left(s^{2}\\right) & =\\frac{1}{n} \\sum_{i=1}^{n} E\\left(X_{i}^{2}\\right)-E(\\bar{X})^{2}=\\alpha_{2}-\\left(\\frac{\\sigma^{2}}{n}+\\mu^{2}\\right) \\\\ & =\\left(\\sigma^{2}+\\mu^{2}\\right)-\\left(\\frac{\\sigma^{2}}{n}+\\mu^{2}\\right)=\\frac{n-1}{n} \\sigma^{2} \\end{aligned} \\] El cálculo de la varianza de \\(s^{2}\\) es laborioso \\({ }^{1}\\) y no lo haremos aquí. Su valor es \\[ \\operatorname{var}\\left(s^{2}\\right)=\\frac{\\mu_{4}-\\mu_{2}^{2}}{n}-\\frac{2\\left(\\mu_{4}-2 \\mu_{2}^{2}\\right)}{n^{2}}+\\frac{\\mu_{4}-3 \\mu_{2}^{2}}{n^{3}} \\] donde \\(\\mu_{k}\\) es el momento poblacional centrado de orden \\(k\\). 6.10 Propiedades asintóticas de los momentos muestrales 6.10.1 Convergencia de los momentos muestrales Los momentos muestrales, tanto respecto al origen como respecto a la media, convergen hacia los momentos poblacionales. Es posible establecer la convergencia basándose en la ley fuerte de los grandes números (convergencia casi [^0]segura) o en la ley débil (convergencia en probabilidad). Si nos limitamos a esta última podemos afirmar que \\[ a_{k} \\xrightarrow{P} \\alpha_{k} \\quad \\text { es decir } \\quad \\lim _{n \\rightarrow \\infty} P\\left[\\left|a_{k}-\\alpha_{k}\\right| \\geq \\epsilon\\right]=0 \\] La prueba se basa en la desigualdad de Tchebychev. Si suponemos que \\(\\alpha_{2 k}<\\infty\\), tenemos \\[ P\\left[\\left|a_{k}-\\alpha_{k}\\right| \\geq \\epsilon\\right] \\leq \\frac{E\\left|a_{k}-\\alpha_{k}\\right|^{2}}{\\epsilon^{2}}=\\frac{\\operatorname{var}\\left(a_{k}\\right)}{\\epsilon^{2}}=\\frac{\\alpha_{2 k}-\\alpha_{k}^{2}}{n \\epsilon^{2}} \\longrightarrow 0 \\] Esta propiedad es importante porque hará posible el concepto de estimador consistente y en ella se basa un método de estimación llamado método de los momentos. 6.10.2 Distribución asintótica Si consideramos el momento muestral \\(a_{k}=\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{k}\\), entonces \\(n \\cdot a_{k}\\) es una suma de variables aleatorias i.i.d. a la que podemos aplicar el Teorema Central del Límite. Como hemos visto: \\[ E\\left(n a_{k}\\right)=n \\alpha_{k} \\quad \\operatorname{var}\\left(n a_{k}\\right)=n^{2} \\operatorname{var}\\left(a_{k}\\right)=n^{2} \\frac{\\alpha_{2 k}-\\alpha_{k}^{2}}{n} \\] y por el Teorema Central del Límite de Lindeberg-Levy la variable \\[ \\frac{n a_{k}-E\\left(n a_{k}\\right)}{\\sqrt{\\operatorname{var}\\left(n a_{k}\\right)}}=\\frac{n a_{k}-n \\alpha_{k}}{n \\sqrt{\\operatorname{var}\\left(a_{k}\\right)}}=\\frac{a_{k}-\\alpha_{k}}{\\sqrt{\\operatorname{var}\\left(a_{k}\\right)}} \\] verifica \\[ \\frac{a_{k}-\\alpha_{k}}{\\sqrt{\\operatorname{var}\\left(a_{k}\\right)}} \\xrightarrow{\\mathcal{L}} N(0,1) \\] es decir \\[ a_{k} \\sim A N\\left(\\alpha_{k}, \\sqrt{\\frac{\\alpha_{2 k}-\\alpha_{k}^{2}}{n}}\\right) \\] 6.11 Muestreo en poblaciones normales Como hemos visto, a partir de una m.a.s. \\(X_{1}, X_{2}, \\ldots, X_{n}\\) y si consideramos un estadístico \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\), puede resultar complicado obtener su distribución en el muestreo. Esta distribución depende de: La forma funcional de \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\). La distribución subyacente de \\(X\\), es decir, la distribución de la población. Hay un caso especial en el que el problema se ha estudiado en profundidad para algunos estadísticos de gran importancia práctica. Si \\(X \\sim N(\\mu, \\sigma)\\) es posible encontrar la distribución de los estadísticos más utilizados como \\(\\bar{X}\\) y \\(S^{2}=\\sum_{i=1}^{n}\\left(X_{i}-\\bar{X}\\right)^{2}\\). De hecho, obtendremos la distribución de funciones de estos estadísticos como \\[ \\frac{\\bar{X}-\\mu}{s / \\sqrt{n-1}} ; \\quad \\frac{n s^{2}}{\\sigma^{2}} ; \\quad \\bar{X}_{1}-\\bar{X}_{2} ; \\quad \\frac{S_{1}^{2} /\\left(n_{1}-1\\right)}{S_{2}^{2} /\\left(n_{2}-1\\right)} \\] donde \\(s^{2}=(1 / n) S^{2}\\). En el estudio de las distribuciones de estos estadísticos aparecen algunas distribuciones de probabilidad que han resultado ser de gran utilidad. Son las llamadas “distribuciones derivadas de la normal” y se conocen por el nombre del investigador que las formuló: la \\(\\chi^{2}\\) chi-cuadrado de Pearson la \\(t\\) de Student (Gosset) la \\(F\\) de Fisher-Snedecor 6.11.1 La distribución chi-cuadrado Sean \\(X_{1}, X_{2}, \\ldots, X_{k}\\) un conjunto de v.a. independientes sobre un mismo espacio de probabilidad \\((\\Omega, \\mathcal{A}, P)\\) y con distribución común \\(N(0,1)\\). Consideremos la variable \\[ Y=X_{1}^{2}+X_{2}^{2}+\\cdots+X_{k}^{2} \\] La distribución de la variable \\(Y\\) se llama chi-cuadrado con \\(k\\) grados de libertad. La función de densidad de la variable aleatoria \\(Y\\) es \\[ f(x)=\\frac{1}{\\Gamma(k / 2) 2^{k / 2}} e^{-x / 2} x^{k / 2-1} \\quad \\text { si } x>0 \\] De modo que resulta que \\(Y=\\sum_{i=1}^{k} X_{i}^{2}\\) tiene una distribución gamma \\(G\\left(\\frac{1}{2}, \\frac{k}{2}\\right)\\) y su f.g.m. es \\[ M(t)=(1-2 t)^{-k / 2} \\quad \\text { si } t<1 / 2 \\] 6.11.1.1 Propiedades Si recordamos que para \\(X \\sim G(p, \\alpha)\\) entonces \\(E(X)=\\frac{p}{\\alpha} \\mathrm{y} \\operatorname{var}(X)=\\) \\(\\frac{p}{\\alpha^{2}}\\), resulta \\[ E(Y)=\\frac{k / 2}{1 / 2}=k \\quad \\operatorname{var}(Y)=\\frac{k / 2}{1 / 4}=2 k \\] De la aditividad (reproductividad) de las leyes gamma se deduce también la reproductividad de la chi-cuadrado \\(\\chi^{2}\\), es decir \\[ Y_{1}^{2} \\sim \\chi_{n_{1}}^{2}, Y_{2}^{2} \\sim \\chi_{n_{2}}^{2} \\quad \\text { indep. } \\longrightarrow Y_{1}^{2}+Y_{2}^{2} \\sim \\chi_{n_{1}+n_{2}}^{2} \\] Como \\(Y\\) es la suma de v.a. independientes \\(X_{i}^{2} \\sim \\chi_{1}^{2}\\) se verifica \\[ \\frac{Y-k}{\\sqrt{2 k}} \\xrightarrow{\\mathcal{L}} N(0,1) \\] Pero es mejor la aproximación de Fisher \\[ \\sqrt{2 \\chi_{k}^{2}}-\\sqrt{2 k-1} \\xrightarrow{\\mathcal{L}} N(0,1) \\] de donde se obtiene para valores de \\(k \\geq 30\\) \\[ \\chi_{k}^{2} \\stackrel{\\text { aprox }}{=} \\frac{1}{2}(Z+\\sqrt{2 k-1})^{2} \\] donde \\(Z \\sim N(0,1)\\). 6.11.2 Distribución \\(t\\) de Student Sean \\(Y, Z\\) dos variables aleatorias independientes con distribuciones \\(Z \\sim\\) \\(N(0,1)\\) y \\(Y \\sim \\chi_{m}^{2}\\), entonces se dice que la variable aleatoria \\[ t=\\frac{Z}{\\sqrt{Y / m}} \\] tiene una distribución \\(t\\) de Student con \\(m\\) grados de libertad. Su función de densidad es \\[ f(t)=\\frac{\\Gamma\\left(\\frac{m+1}{2}\\right)}{\\Gamma\\left(\\frac{m}{2}\\right) \\sqrt{m \\pi}}\\left(1+\\frac{t^{2}}{m}\\right)^{-(m+1) / 2} \\quad t \\in \\mathbb{R} \\] Esta expresión se obtiene de la resolución del correspondiente problema de cambio de variable para encontrar la distribución de un cociente. Se trata de una distribución unimodal y simétrica respecto al cero. La distribución depende de \\(m\\), que llamamos los grados de libertad (g.l.). A medida que \\(m\\) crece, la forma acampanada se va “cerrando”, acercándose a la ley normal: \\[ \\left(1+\\frac{t^{2}}{m}\\right)^{-(m+1) / 2} \\xrightarrow{m \\rightarrow \\infty} e^{-t^{2} / 2} \\] Este hecho es muy relevante en inferencia estadística. 6.11.2.1 Propiedades Si \\(m=1\\), entonces la \\(t\\) es una Cauchy y, en particular, no tiene esperanza. Para \\(m>1, E(t)=0\\) y para \\(m>2, \\operatorname{var}(t)=m /(m-2)\\). Cuando \\(m \\rightarrow \\infty\\), entonces \\(t \\xrightarrow{P} N(0,1)\\). 6.11.3 La distribución \\(F\\) de Fisher Esta distribución aparece cuando se considera un cociente entre dos distribuciones chi-cuadrado \\(U \\sim \\chi_{m}^{2}, V \\sim \\chi_{n}^{2}\\) con \\(m\\) y \\(n\\) g.l. respectivamente. En concreto decimos que la variable aleatoria \\[ F=\\frac{U / m}{V / n} \\] sigue una distribución \\(F\\) de Fisher con \\(m\\) y \\(n\\) grados de libertad. La función de densidad tiene la forma: \\[ f(x)=\\frac{m^{m / 2} n^{n / 2} \\Gamma[(m+n) / 2]}{\\Gamma(m / 2) \\Gamma(n / 2)} \\cdot \\frac{x^{m / 2-1}}{(m x+n)^{(m+n) / 2}} \\quad \\text { para } x>0 \\] 6.11.3.1 Propiedades La esperanza y la varianza son \\[ E(F)=\\frac{n}{n-2} \\quad \\operatorname{var}(F)=\\frac{2 n^{2}(m+n-2)}{m(n-2)^{2}(n-4)} \\] Esta distribución tiene una moda en \\(x=\\frac{m-2}{m} \\cdot \\frac{n}{n+2}\\), siempre que \\(m>2\\). Si \\(F \\sim F_{m, n}\\), entonces resulta que \\(1 / F \\sim F_{n, m}\\) y por lo tanto: \\[ P(F \\leq x)=P\\left(\\frac{1}{F} \\geq \\frac{1}{x}\\right)=1-P\\left(\\frac{1}{F} \\leq \\frac{1}{x}\\right) \\] Esta propiedad es de gran utilidad en el uso de las tablas. 4. Cuando \\(n \\rightarrow \\infty, F_{m, \\infty} \\xrightarrow{\\mathcal{L}} \\chi_{m}^{2}\\). 5. Cuando \\(m \\rightarrow \\infty\\) y \\(n \\rightarrow \\infty\\), entonces \\(F_{m, n} \\xrightarrow{\\mathcal{L}} 1\\). "],["estimación-puntual.html", "Capítulo 7 Estimación puntual 7.1 El problema de la estimación puntual 7.2 Estudio de las propiedades deseables de los estimadores 7.3 Propiedades de los estimadores consistentes 7.4 Información de Fisher y cota de CramerRao 7.5 Información y verosimilitud de un modelo estadístico 7.6 Información de Fisher 7.7 La desigualdad de Cramer-Rao 7.8 Caracterización del estimador eficiente 7.9 Estadísticos suficientes", " Capítulo 7 Estimación puntual 7.1 El problema de la estimación puntual Informalmente, la estimación de parámetros consiste en buscar aproximaciones a los valores de estos, calculables a partir de una muestra, que sean lo más precisas posible. El problema, claro, es que para medir cuán precisas son estas aproximaciones sería necesario conocer los valores de los parámetros y, como estos son siempre desconocidos, debemos basarnos en el uso de estimadores con buenas propiedades que, en algún sentido, nos garanticen esa proximidad. Más formalmente podemos plantear el problema de la siguiente manera: Sea \\(X\\) una v.a. con distribución \\(F_{\\theta}\\) donde \\(\\theta=\\left(\\theta_{1}, \\ldots, \\theta_{k}\\right) \\in \\Theta \\subset \\mathbb{R}^{k}\\) y sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una muestra de \\(n\\) v.a. de \\(X\\). El problema de la estimación puntual consiste en obtener alguna aproximación de \\(\\theta\\) en base a la información disponible en la muestra mediante un estimador de \\(\\theta\\) que definimos a continuación. Definició 2.1 Sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una muestra aleatoria simple de \\(X\\) con distribución \\(F_{\\theta}\\) donde \\(\\theta \\in \\Theta \\subset \\mathbb{R}^{k}\\). Un estadístico \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\) se denomina un estimador puntual de \\(\\theta\\) si \\(T\\) es una aplicación de \\(\\mathbb{R}^{n}\\) en \\(\\Theta\\), es decir, si toma valores sobre el mismo conjunto que los parámetros. Ejemplo 2.1.1 Sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una muestra aleatoria simple de una v.a. de Poisson \\(X \\sim P(\\lambda)\\). Para estimar \\(\\lambda\\) podemos utilizar: \\[ \\begin{aligned} & T_{1}=\\bar{X}=\\frac{1}{n} \\sum_{i=1}^{n} X_{i} \\\\ & T_{2}=s^{2}=\\frac{1}{n} \\sum_{i=1}^{n}\\left(X_{i}-\\bar{X}\\right)^{2} \\end{aligned} \\] ya que \\(E(X)=\\operatorname{var}(X)=\\lambda\\), pero también \\[ \\begin{aligned} T_{3} & =\\frac{2}{n(n+1)} \\sum_{i=1}^{n} X_{i} \\cdot i \\\\ T_{4} & =X_{i} \\end{aligned} \\] Ejemplo 2.1.2 Sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una m.a.s. de \\(X \\sim B(1, p)\\), con \\(p\\) desconocido. Podemos estimar p de las siguientes maneras: \\[ \\begin{aligned} & T_{1}=\\bar{X}=(1 / n) \\sum_{i=1}^{n} X_{i} \\\\ & T_{2}=1 / 2 \\\\ & T_{3}=\\left(X_{1}+X_{2}\\right) / 2 \\end{aligned} \\] En cada caso resulta claro que algunos estimadores no son muy razonables mientras que la decisión entre los otros no está necesariamente clara. Básicamente debemos ocuparnos de dos problemas: Dado un modelo estadístico \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\), ¿cómo podemos obtener estimadores de \\(\\theta\\) que tengan “buenas” propiedades? Dado varios estimadores para un mismo parámetro ¿cómo podemos escoger el mejor en base a algún criterio? Para poder alcanzar estos dos objetivos empezaremos por estudiar las propiedades de los estimadores, así como las medidas de optimalidad que podremos utilizar para decidir entre varios estimadores. De entrada nos restringiremos al caso en que \\(\\Theta \\subseteq \\mathbb{R}\\) o en que queremos aproximar alguna función \\(g(\\theta)\\) de los parámetros donde \\(g\\) es del tipo \\(g: \\Theta \\rightarrow\\) \\(\\mathbb{R}\\). 7.1.1 Criterios de optimalidad de estimadores. El Riesgo Una forma de poder comparar entre diversos estimadores consiste en definir una función de pérdida que nos permita cuantificar de alguna manera la pérdida, o coste asociado, al estimar el valor real del parámetro, es decir, \\(\\theta\\), mediante la aproximación que proporciona un estimador, es decir, \\(t\\). Definició 2.2 Una función de pérdida es una aplicación \\[ \\begin{aligned} L: & \\Theta \\times \\Theta \\rightarrow \\mathbb{R} \\\\ & (\\theta, t) \\rightarrow L(\\theta, t) \\end{aligned} \\] que verifica: a) \\(L(\\theta, t) \\geq 0, \\quad \\forall \\theta, t \\in \\Theta\\) b) \\(L(\\theta, t)=0\\), si \\(\\theta=t\\) c) \\(L(\\theta, t) \\leq L\\left(\\theta, t^{\\prime}\\right)\\), si \\(d(\\theta, t) \\leq d\\left(\\theta, t^{\\prime}\\right)\\) donde \\(d\\) es una distancia en \\(\\Theta\\). Por ejemplo, son funciones de pérdida: \\[ \\begin{gathered} L_{1}(\\theta, t)=|\\theta-t| \\quad L_{2}(\\theta, t)=(\\theta-t)^{2} \\\\ L_{3}(\\theta, t)=\\left|\\frac{\\theta-t}{\\theta}\\right| \\quad L_{4}(\\theta, t)=\\left(\\frac{\\theta-t}{\\theta}\\right)^{2} \\\\ L_{5}(\\theta, t)= \\begin{cases}c>0 & \\text { si }|\\theta-t|>\\epsilon \\\\ 0 & \\text { si }|\\theta-t| \\leq \\epsilon\\end{cases} \\end{gathered} \\] 7.1.2 El error cuadrático medio Una de las funciones de pérdida más usuales es la función de pérdida cuadrática \\(L_{2}(\\theta, t)=(\\theta-t)^{2}\\). Uno de los motivos de su uso es que el riesgo asociado a esta función de pérdida \\(E_{\\theta}\\left[(\\theta-T)^{2}\\right]\\), que llamamos error cuadrático medio \\(E Q M_{T}\\), representa una medida de la variabilidad del estimador \\(T\\) en torno a \\(\\theta\\) semejante a la medida de dispersión en torno a la media que representa la varianza. Además, del desarrollo de esta expresión se obtiene un interesante resultado que muestra cuáles pueden ser las propiedades más interesantes para un estimador. Sea \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\) y sea \\(T\\) un estimador de \\(\\theta\\). El error cuadrático medio de \\(T\\) para estimar \\(\\theta\\) vale \\[ E Q M_{T}(\\theta)=E_{\\theta}\\left[(\\theta-T)^{2}\\right]=E\\left[\\theta^{2}-2 \\theta T+T^{2}\\right]=\\theta^{2}-2 \\theta E_{\\theta}(T)+E_{\\theta}\\left(T^{2}\\right) \\] Ahora, sumando y restando \\(\\left(E_{\\theta}(T)\\right)^{2}\\), obtenemos \\[ \\begin{aligned} E Q M_{T}(\\theta) & =E_{\\theta}\\left(T^{2}\\right)-\\left(E_{\\theta}(T)\\right)^{2}+\\left(E_{\\theta}(T)\\right)^{2}+\\theta^{2}-2 \\theta E_{\\theta}(T)= \\\\ & =\\operatorname{var}(T)+\\left(E_{\\theta}(T)-\\theta\\right)^{2} \\end{aligned} \\] El término \\(\\left(E_{\\theta}(T)-\\theta\\right)^{2}\\) es el cuadrado del sesgo de \\(T\\), que se define como \\[ b_{\\theta}(T)=E_{\\theta}(T)-\\theta \\] Definició 2.5 El error cuadrático medio \\(E Q M_{T}(\\theta)\\), o simplemente \\(E Q M\\), de un estimador \\(T\\) para estimar el parámetro \\(\\theta\\) es la suma de su varianza más el cuadrado de la diferencia entre su valor medio y el verdadero valor del parámetro, que llamamos sesgo. Si en la búsqueda de estimadores de mínimo riesgo nos basamos en la función de pérdida cuadrática, parece que los estimadores más deseables deberían ser aquellos en los que la varianza y el sesgo sean lo más pequeños posibles. Idealmente, quisiéramos reducir ambas cantidades a la vez. En la práctica, sin embargo, observamos que, en general, no suele ser posible reducir simultáneamente la varianza y el sesgo. Además, incluso si fuera práctico calcular el \\(E Q M\\) para cada estimador, encontraríamos que, para la mayoría de las familias de probabilidad \\(P_{\\theta}\\), no existiría ningún estimador que minimizase el \\(E Q M\\) para todos los valores de \\(\\theta\\). Es decir, que un estimador puede tener un \\(E Q M\\) mínimo para algunos valores de \\(\\theta\\), mientras que otro lo tendrá en otros valores de \\(\\theta\\). Ejemplo 2.1.4 Sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una muestra aleatoria simple de \\(X \\sim\\) \\(N(\\mu, \\sigma)\\), donde suponemos \\(\\sigma\\) conocida, y sean \\[ T_{1}=\\bar{X} \\quad T_{2}=\\frac{\\sum_{i=1}^{n} X_{i}}{n+1} \\] Calculando la media y la varianza de los estimadores, tenemos \\[ \\begin{array}{lll} E_{\\mu}\\left(T_{1}\\right)=\\mu & \\Rightarrow b_{T_{1}}(\\mu)=0 & \\operatorname{var}_{\\mu}\\left(T_{1}\\right)=\\frac{\\sigma^{2}}{n} \\\\ E_{\\mu}\\left(T_{2}\\right)=\\frac{n}{n+1} \\mu & \\Rightarrow b_{T_{2}}(\\mu)=\\frac{-1}{n+1} \\mu & \\operatorname{var}_{\\mu}\\left(T_{2}\\right)=\\frac{n}{(n+1)^{2}} \\sigma^{2} \\end{array} \\] de donde \\[ \\begin{aligned} & E Q M_{\\mu}\\left(T_{1}\\right)=\\operatorname{var}\\left(T_{1}\\right)=\\frac{\\sigma^{2}}{n} \\\\ & E Q M_{\\mu}\\left(T_{2}\\right)=\\frac{1}{(n+1)^{2}} \\mu^{2}+\\frac{n}{(n+1)^{2}} \\sigma^{2} \\end{aligned} \\] que son respectivamente una recta y una parábola. De manera que para algunos valores de \\(\\mu\\) tenemos que \\(E Q M_{\\mu}\\left(T_{1}\\right)<E Q M_{\\mu}\\left(T_{2}\\right)\\) y para otros, al revés. La figura 2.1 muestra esta diferencia. Ejemplo 2.1.5 Un ejemplo trivial bastante interesante es el siguiente. Para estimar un parámetro \\(\\theta\\), el estimador que consiste en un valor fijo \\(\\theta_{0}\\), tiene riesgo 0 en \\(\\theta=\\theta_{0}\\). Sin embargo, el riesgo aumenta considerablemente al alejarnos del valor real de \\(\\theta\\). Por lo tanto, no resulta un estimador razonable, aunque su riesgo pueda ser mínimo para algún (único) valor de \\(\\theta\\). Figura 2.1: Comparación del riesgo de dos estimadores Los ejemplos anteriores nos muestran que los criterios de preferencia entre estimadores basados en el riesgo o en el \\(E Q M\\) no son de gran utilidad general ya que muchos estimadores pueden ser incomparables. Ante este hecho nos planteamos si es posible completar el criterio de minimizar el riesgo mediante alguna propiedad o criterio adicional. Las posibles soluciones obtenidas a esta cuestión siguen dos vías: Restringir la clase de estimadores considerados a aquellos que cumplan alguna propiedad adicional de interés, eliminando estimadores indeseables para que el criterio de minimizar el riesgo permita seleccionar uno preferible a los demás. Este criterio lleva a considerar las propiedades deseables de los estimadores como falta de sesgo, consistencia, eficiencia y analizar cómo combinarlas con el criterio de mínimo riesgo. Este proceso culmina con el estudio de los Estimadores Sin Sesgo Uniformemente de Mínima Varianza (ESUMV). Reforzar el criterio de preferencia de estimadores mediante la reducción de toda la función de riesgo \\(R_{T}(\\theta)\\) a un único valor representativo que permita ordenar linealmente todos los estimadores. Este criterio nos lleva a los Estimadores Bayes y a los Estimadores Minimax. 7.2 Estudio de las propiedades deseables de los estimadores 7.2.1 El sesgo Supongamos que tenemos un modelo estadístico \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\) y un estimador \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\) de una función medible \\(g(\\theta)\\) del parámetro. Una forma razonable de valorar qué tan próximos son los valores de \\(T\\) a los de \\(g(\\theta)\\) es ver si, en promedio, los valores de \\(T\\) coinciden con el valor medio de \\(g(\\theta)\\). Definició 2.6 Bajo las condiciones mencionadas, si \\(E_{\\theta}(T)\\) es la esperanza de \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\) y \\(g(\\theta)\\) es una función del parámetro (en particular la identidad), la diferencia \\[ b_{T}(\\theta)=b_{T}(\\theta)=E_{\\theta}(T)-g(\\theta) \\] se denomina sesgo del estimador \\(T\\) para estimar \\(g(\\theta)\\). Si el sesgo es nulo, es decir, si: \\[ E_{\\theta}(T)=g(\\theta), \\quad \\forall \\theta \\in \\Theta \\] diremos que \\(T\\) es un estimador insesgado de \\(g(\\theta)\\). Ejemplo 2.2.1 Los dos ejemplos más conocidos son el de la media y la varianza muestrales. La media muestral es un estimador insesgado de \\(\\mu\\). La varianza muestral es un estimador con sesgo de la varianza poblacional. En concreto, su sesgo vale: \\[ b_{s^{2}}\\left(\\sigma^{2}\\right)=E_{\\sigma^{2}}\\left(s^{2}\\right)-\\sigma^{2}=\\frac{n-1}{n} \\sigma^{2}-\\sigma^{2}=\\frac{-1}{n} \\sigma^{2} \\] El uso de estimadores insesgados es conveniente en muestras de tamaño grande. En estas, \\(\\operatorname{var}_{\\theta}(T)\\) es a menudo pequeña y entonces, como \\(E_{\\theta}(T)=\\) \\(g(\\theta)+b_{T}(\\theta)\\), es muy probable obtener estimaciones centradas en este valor en lugar de en el entorno de \\(g(\\theta)\\). Ejemplo 2.2.2 Sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una muestra aleatoria simple de \\(X \\sim\\) \\(U(0, \\theta)\\). Tomemos \\(T=\\max \\left\\{X_{1}, X_{2}, \\ldots, X_{n}\\right\\}\\) como el estimador del máximo de la distribución. Obviamente podemos decir que \\(T<\\theta\\) y, por lo tanto, la estimación siempre está sesgada. Como hemos visto en el ejemplo ??, la distribución en el muestreo de \\(T\\) es \\[ H_{\\theta}(t)=P_{\\theta}[T \\leq t]=\\left(\\frac{t}{\\theta}\\right)^{n} \\] y su función de densidad es \\[ f_{\\theta}(\\theta)=H_{\\theta}^{\\prime}(\\theta)=\\frac{n}{\\theta}\\left(\\frac{t}{\\theta}\\right)^{n-1} \\] Su esperanza (ver ejemplo ??) vale \\[ E_{\\theta}(T)=\\int_{0}^{\\theta} t \\cdot\\left[\\frac{n}{\\theta}\\left(\\frac{t}{\\theta}\\right)^{n-1}\\right] d t=\\frac{n}{n+1} \\theta \\] de donde el sesgo de \\(T\\) para estimar \\(\\theta\\) es \\[ b_{T}(\\theta)=\\frac{n}{n+1} \\theta-\\theta=-\\frac{1}{n+1} \\theta \\] Podemos preguntarnos si podríamos mejorar este estimador corrigiendo el sesgo de forma análoga a lo que hacíamos con \\(\\hat{s}^{2}\\), es decir, tomando un estimador corregido para el sesgo \\[ T^{\\prime}=\\frac{n+1}{n} T \\text { que, por construcción, verifica: } E\\left(T^{\\prime}\\right)=\\theta \\text {. } \\] Consideremos el estimador de mínimo riesgo en el sentido del error cuadrático medio, es decir, el estimador que minimiza \\(E\\left[(\\theta-T)^{2}\\right]\\). De hecho, como hemos visto en el ejemplo ??, conviene elegir el que minimice \\(E\\left[(\\theta-T)^{2} / \\theta^{2}\\right]\\), porque también minimiza el EQM, pero alcanza un mínimo absoluto. Este estimador es \\[ T^{\\prime \\prime}=\\frac{n+2}{n+1} T \\] y, por tanto, es más adecuado que \\(T^{\\prime}\\), ya que tiene un menor riesgo respecto al error cuadrático medio. Cuando, como aquí, nos encontramos con que dado un estimador podemos encontrar otro de menor riesgo, decimos que el primero no es admisible respecto de la función de pérdida. En este caso decimos que \\(T^{\\prime}\\) no es admisible respecto al EQM. ¡Cuidado! Esto no significa que no podamos usarlo, sino que existe otro con menor riesgo, ya que existe otro \\(T^{\\prime \\prime}\\) preferible a él que, por cierto, no es centrado. Efectivamente \\[ E_{\\theta}\\left(T^{\\prime \\prime}\\right)=\\frac{n+2}{n+1} E_{\\theta}(T)=\\frac{(n+2) n}{(n+1)^{2}} \\theta \\] El ejemplo anterior muestra que, debido a la descomposición \\(E Q M_{T}(\\theta)=\\) \\(\\operatorname{var}_{\\theta}(T)+b_{T}^{2}(\\theta)\\), puede ser preferible un estimador con sesgo a otro que no lo tenga. En general, sin embargo, eliminar el sesgo no es una mala estrategia, sobre todo porque al restringirnos a la clase de los estimadores insesgados obtenemos una solución constructiva que permitirá obtener estimadores insesgados de mínima varianza en condiciones bastante generales. Los siguientes ejemplos ilustran dos propiedades interesantes del sesgo. Por un lado, muestran que no siempre existe un estimador insesgado. Por otro lado, vemos cómo a veces, incluso teniendo un estimador insesgado para un parámetro \\(E_{\\theta}(T)=\\theta\\), una función \\(g(T)\\) no es necesariamente un estimador insesgado de \\(g(\\theta)\\). Ejemplo 2.2.3 Consideremos una variable \\(X\\) con distribución de Bernoulli \\(B(1, p)\\). Supongamos que deseamos estimar \\(g(p)=p^{2}\\) con una única observación. Para que un estimador \\(T\\) no tenga sesgo para estimar \\(p^{2}\\) sería necesario que \\[ p^{2}=E_{p}(T)=p \\cdot T(1)+(1-p) \\cdot T(0), \\quad 0 \\leq p \\leq 1 \\] es decir, para cualquier valor de \\(p \\in[0,1]\\) se debería verificar \\[ p^{2}=p \\cdot(T(1)-T(0))+T(0) \\] Esto claramente no es posible, ya que la única forma en que una función lineal y una función parabólica coincidan en todo el intervalo \\([0,1]\\) es cuando los coeficientes \\(T(0)\\) y \\(T(1)\\) valen cero. Ejemplo 2.2.4 El parámetro \\(\\alpha\\) de una ley exponencial con función de densidad \\[ f(x)=\\alpha e^{-\\alpha x} \\mathbf{1}_{(0, \\infty)}(x) \\] es el inverso de la media de la distribución, es decir, \\(\\alpha=1 / E(X)\\). Un estimador razonable de \\(\\alpha=g(\\mu)\\) puede ser \\(\\hat{\\alpha}=g(\\hat{\\mu})\\), es decir, \\(\\hat{\\alpha}=\\) \\(1 / \\bar{X}\\). Si aplicamos la propiedad de que la suma de variables aleatorias i.i.d. exponenciales sigue una ley gamma de parámetros \\(n\\) y \\(\\alpha\\), se obtiene que este estimador tiene sesgo. Su esperanza es \\[ E(\\hat{\\alpha})=\\frac{n}{n-1} \\alpha \\] El sesgo se corrige simplemente con \\[ \\hat{\\alpha}^{\\prime}=\\frac{n-1}{n} \\hat{\\alpha} \\] 7.2.2 Consistencia La consistencia de un estimador es una propiedad bastante intuitiva que indica, de manera informal, que cuando aumenta el tamaño muestral, el valor del estimador se aproxima cada vez más al verdadero valor del parámetro. Definició 2.7 Sea \\(X_{1}, X_{2}, \\ldots, X_{n}, \\ldots\\) una sucesión de variables aleatorias i.i.d. \\(X \\sim F_{\\theta}, \\theta \\in \\Theta\\). Una sucesión de estimadores puntuales \\(T_{n}=\\) \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\) se denomina consistente para \\(g(\\theta)\\) si \\[ T_{n} \\xrightarrow[n \\rightarrow \\infty]{P} g(\\theta) \\] para cada \\(\\theta \\in \\Theta\\), es decir, si \\[ \\forall \\varepsilon>0 \\quad \\lim _{n \\rightarrow \\infty} P\\left\\{\\left|T_{n}-g(\\theta)\\right|>\\varepsilon\\right\\}=0 \\] Observemos que: Se trata de un concepto asintótico: Hablamos de ?sucesiones de estimadores consistentes? más que de estimadores propiamente dichos. La definición puede reforzarse si, en lugar de considerar convergencia en probabilidad (consistencia débil), consideramos convergencia casi segura o en media cuadrática: \\(T_{n}\\) es fuertemente consistente si \\(T_{n} \\xrightarrow{\\text { c.s. }} g(\\theta)\\) \\(T_{n}\\) es consistente en media- \\(r\\) si \\(E_{\\theta}\\left[\\left|T_{n}-g(\\theta)\\right|^{r}\\right] \\longrightarrow 0\\) Ejemplo 2.2.5 Muchos estimadores consistentes lo son como consecuencia de las leyes de los grandes números. Recordemos que la Ley débil de los Grandes Números (Tchebychev) afirma que, dada una sucesión de v.a. independientes e idénticamente distribuidas con medias \\(\\mu<\\infty\\) y varianzas \\(\\sigma^{2}<\\infty\\), entonces \\[ \\bar{X}_{n} \\xrightarrow{P} \\mu \\] Como consecuencia de esta ley y dado que una muestra aleatoria simple es i.i.d., por definición, podemos afirmar que \\(\\bar{X}_{n}\\) es consistente para estimar \\(\\mu\\). Ejemplo 2.2.6 La sucesión \\(T_{n}=\\max _{1 \\leq i \\leq n}\\left\\{X_{i}\\right\\}\\) es consistente para estimar el máximo de una distribución uniforme en \\([0, \\theta]\\) : \\[ P\\left[\\left|\\max _{1 \\leq i \\leq n}\\left\\{X_{i}\\right\\}-\\theta\\right|>\\varepsilon\\right]=P\\left[\\theta-\\max _{1 \\leq i \\leq n}\\left\\{X_{i}\\right\\}>\\varepsilon\\right] \\] ya que \\(X_{i} \\in[0, \\theta] y\\), por lo tanto, podemos escribir: \\[ \\begin{aligned} P\\left[\\theta-\\varepsilon>\\max _{1 \\leq i \\leq n}\\left\\{X_{i}\\right\\}\\right] & =P\\left[\\max _{1 \\leq i \\leq n}\\left\\{X_{i}\\right\\}<\\theta-\\varepsilon\\right] \\\\ & =\\left(\\frac{\\theta-\\varepsilon}{\\theta}\\right)^{n}=\\left(1-\\frac{\\varepsilon}{\\theta}\\right)^{n} \\underset{n \\rightarrow \\infty}{\\longrightarrow} 0 \\end{aligned} \\] Es inmediato comprobar que \\[ E\\left[\\left(\\theta-T_{n}\\right)^{2}\\right]=\\left(1-\\frac{2 n}{n+1}+\\frac{n}{n+2}\\right) \\theta^{2} \\] que también tiende a cero cuando \\(n \\rightarrow \\infty\\), y por lo tanto \\(T_{n}=\\max _{1 \\leq i \\leq n}\\left\\{X_{i}\\right\\}\\) también es consistente en media cuadrática. Normalmente, cuando se habla de consistencia, se hace referencia a la convergencia en probabilidad, es decir, \\(T_{n}\\) es consistente si \\(\\lim _{n \\rightarrow \\infty} P\\left(\\left|T_{n}-g(\\theta)\\right|>\\right.\\) \\(\\varepsilon)=0\\). Si el estimador no tiene sesgo, estamos en la situación de aplicar la desigualdad de Tchebychev \\({ }^{1}\\) : Si \\(E\\left(T_{n}\\right)=g(\\theta)\\), entonces \\[ P\\left(\\left|T_{n}-g(\\theta)\\right|>\\varepsilon\\right)=P\\left(\\left|T_{n}-E\\left(T_{n}\\right)\\right|>\\varepsilon\\right) \\underset{\\text { Tchebychev }}{\\leq} \\frac{\\operatorname{var}\\left(T_{n}\\right)}{\\varepsilon^{2}} \\] Así, para intentar establecer la consistencia de \\(T\\), debemos probar que \\[ \\frac{\\operatorname{var}\\left(T_{n}\\right)}{\\varepsilon^{2}} \\underset{n \\rightarrow \\infty}{\\longrightarrow} 0 \\] Ejemplo 2.2.7 Sea \\(M_{n}=\\sum_{i=1}^{n} a_{i} X_{i}\\) una combinación lineal de los valores de la muestra con coeficientes tales que \\(\\sum_{i=1}^{n} a_{i}=1\\) y algún \\(a_{i}>0\\). ¿Es consistente \\(M_{n}\\) para estimar \\(E(X)\\) ? Comencemos por ver que \\(M_{n}\\) no tiene sesgo \\[ \\begin{aligned} E\\left(M_{n}\\right) & =E\\left(\\sum_{i=1}^{n} a_{i} X_{i}\\right)=\\sum_{i=1}^{n} E\\left(a_{i} X_{i}\\right) \\\\ & =\\sum_{i=1}^{n} a_{i} E\\left(X_{i}\\right) \\stackrel{\\text { i.i.d. }}{=} \\sum_{i=1}^{n} a_{i} E(X)=E(X) \\end{aligned} \\] [^1]Calculemos la varianza \\[ \\begin{aligned} \\operatorname{var}\\left(M_{n}\\right) & =\\operatorname{var}\\left(\\sum_{i=1}^{n} a_{i} X_{i}\\right)=\\sum_{i=1}^{n} \\operatorname{var}\\left(a_{i} X_{i}\\right) \\\\ & =\\sum_{i=1}^{n} a_{i}^{2} \\operatorname{var}\\left(X_{i}\\right)=\\operatorname{var}(X) \\sum_{i=1}^{n} a_{i}^{2} \\end{aligned} \\] Si aplicamos ahora la desigualdad de Tchebychev tenemos: \\[ P\\left(\\left|M_{n}-\\mu\\right|>\\varepsilon\\right) \\leq \\frac{\\sigma^{2} \\sum a_{i}^{2}}{\\varepsilon^{2}} \\] lo cual no tiene por qué tender a 0 cuando \\(n \\rightarrow \\infty\\), y por lo tanto no podemos afirmar que el estimador es consistente. Por ejemplo, si \\(a_{1}=\\frac{1}{2}, a_{2}=a_{3}=\\) \\(\\cdots=a_{n}=\\frac{1}{2(n-1)}\\) tendremos que \\(\\lim _{n \\rightarrow \\infty} \\sum a_{i}^{2}=\\frac{1}{4}\\). Observamos que el resultado obtenido no puede asegurar la consistencia de \\(M_{n}\\) para cualquier familia de coeficientes \\(a_{1}, \\ldots, a_{n}\\), aunque, obviamente, el estimador es consistente para alguno (caso \\(a_{i}=1 / n\\) ). 7.3 Propiedades de los estimadores consistentes Muchas de las propiedades de los estimadores son consecuencia directa de las propiedades de la convergencia en probabilidad, que se pueden revisar, por ejemplo, en Martin Pliego (1998a) capítulo 11. Si \\(T_{n}\\) es consistente para estimar \\(\\theta\\) y \\(g: \\mathbb{R} \\rightarrow \\mathbb{R}\\) es una función continua, entonces \\(g\\left(T_{n}\\right)\\) es consistente para estimar \\(g(\\theta)\\). Si \\(T_{1 n}\\) y \\(T_{2 n}\\) son consistentes para estimar \\(\\theta_{1}\\) y \\(\\theta_{2}\\) respectivamente, entonces \\(a T_{1 n} \\pm b T_{2 n}\\) es consistente para estimar \\(a \\theta_{1} \\pm b \\theta_{2}\\) \\(T_{1 n} \\cdot T_{2 n}\\) es consistente para estimar \\(\\theta_{1} \\cdot \\theta_{2}\\) \\(T_{1 n} / T_{2 n}\\) es consistente para estimar \\(\\theta_{1} / \\theta_{2}\\), si \\(\\theta_{2} \\neq 0\\). Sea \\(a_{r}=(1 / n) \\sum X_{i}^{r}\\) el momento muestral de orden \\(r\\). Como se ha visto en el capítulo 1 , la esperanza de \\(a_{r}\\) es \\[ E\\left(a_{r}\\right)=E\\left[\\frac{1}{n} \\sum X_{i}^{r}\\right]=\\frac{1}{n} \\sum E\\left(X^{r}\\right)=\\frac{1}{n} n \\alpha_{r}=\\alpha_{r} \\] donde \\(\\alpha_{r}\\) es el momento poblacional de orden \\(r\\). Así pues, \\(a_{r}\\) no tiene sesgo para estimar \\(\\alpha_{r}\\). Su varianza es \\[ \\begin{aligned} \\operatorname{var}\\left(a_{r}\\right) & =\\operatorname{var}\\left(\\frac{1}{n} \\sum X_{i}^{r}\\right)=\\frac{1}{n^{2}} \\sum \\operatorname{var}\\left(X^{r}\\right)=\\frac{1}{n} E\\left[X^{r}-E\\left(X^{r}\\right)\\right]^{2} \\\\ & =\\frac{1}{n} E\\left[X^{r}-\\alpha_{r}\\right]^{2}=\\frac{1}{n} E\\left(X^{2 r}+\\alpha_{r}^{2}-2 \\alpha_{r} X^{r}\\right) \\\\ & =\\frac{1}{n}\\left(\\alpha_{2 r}-\\alpha_{r}^{2}\\right) . \\end{aligned} \\] Y si aplicamos la desigualdad de Tchebychev, se obtiene \\[ P\\left(\\left|a_{r}-\\alpha_{r}\\right| \\geq \\varepsilon\\right) \\leq \\frac{E\\left(a_{r}-\\alpha_{r}\\right)^{2}}{\\varepsilon^{2}}=\\frac{\\operatorname{var}\\left(a_{r}\\right)}{\\varepsilon^{2}}=\\frac{\\alpha_{2 r}-\\alpha_{r}^{2}}{n \\varepsilon^{2}} \\underset{n \\rightarrow \\infty}{\\longrightarrow} 0 \\] Así pues, hemos visto que los momentos muestrales son estimadores consistentes de los momentos poblacionales. 7.3.1 Eficiencia Como ya hemos visto, un objetivo deseable en la búsqueda de estimadores óptimos es considerar estimadores de “mínimo riesgo” o, si nos basamos en la función de pérdida cuadrática, estimadores que minimicen el error cuadrático medio \\(E(\\theta-T)^{2}\\). En general, es difícil encontrar estimadores que hagan mínimo el EQM para todos los valores de \\(\\theta\\); sin embargo, si nos restringimos a los estimadores sin sesgo, el problema tiene solución en una gama más amplia de situaciones. Supongamos que \\(T_{1}, T_{2}\\) son dos estimadores sin sesgo de un parámetro \\(\\theta\\). Para estos estimadores tenemos que \\[ \\begin{aligned} & E Q M_{T_{1}}(\\theta)=\\operatorname{var}_{\\theta}\\left(T_{1}\\right)+b_{T_{1}}^{2}(\\theta) \\\\ & E Q M_{T_{2}}(\\theta)=\\operatorname{var}_{\\theta}\\left(T_{2}\\right)+b_{T_{2}}^{2}(\\theta) \\end{aligned} \\] Si los estimadores no tienen sesgo \\(b_{T_{1}}(\\theta)=b_{T_{2}}(\\theta)=0\\), el que tenga menor varianza tendrá el menor riesgo para estimar \\(\\theta\\). Si, por ejemplo, \\(\\operatorname{var}\\left(T_{1}\\right) \\leq\\) \\(\\operatorname{var}\\left(T_{2}\\right)\\), diremos que \\(T_{1}\\) es más eficiente que \\(T_{2}\\) para estimar \\(\\theta\\). Para dos estimadores con sesgo cero \\(b_{T_{i}}(\\theta)=0\\), el cociente \\[ E R=\\frac{E Q M_{T_{1}}(\\theta)}{E Q M_{T_{2}}(\\theta)}=\\frac{\\operatorname{var}_{\\theta}\\left(T_{1}\\right)}{\\operatorname{var}_{\\theta}\\left(T_{2}\\right)} \\] se denomina eficiencia relativa de \\(T_{1}\\) respecto a \\(T_{2}\\). Si solo hay dos estimadores de \\(\\theta\\) puede ser fácil ver cuál es el más eficiente. Si hay más, la cosa se complica. El “más eficiente”, en caso de que exista, se llamará el estimador sin sesgo de mínima varianza. Figura 2.2: Comparación de la eficiencia de dos estimadores para un \\(\\theta\\) dado Definició 2.8 Sea \\(\\mathcal{S}(\\theta)\\) la clase de los estimadores sin sesgo de \\(\\theta\\) y con varianza. Si para todos los estimadores de esta clase \\(T \\in \\mathcal{S}(\\theta)\\) se verifica que \\[ \\operatorname{var}_{\\theta}(T) \\leq \\operatorname{var}_{\\theta}\\left(T^{*}\\right) \\quad \\forall T \\in \\mathcal{S}(\\theta) \\] diremos que \\(T^{*}\\) es un estimador sin sesgo de mínima varianza de \\(\\theta\\). Si la desigualdad es cierta \\(\\forall \\theta \\in \\Theta\\), diremos que \\(T^{*}\\) es un estimador sin sesgo uniforme de mínima varianza (ESUMV) \\({ }^{2}\\). 7.4 Información de Fisher y cota de CramerRao Obviamente, en un problema de estimación lo ideal es disponer de un ESUMV, pero esto no siempre es posible. Nos enfrentamos a varios problemas: ¿Existen ESUMV para un parámetro \\(\\theta\\) en un modelo dado? En caso de que exista el ESUMV, ¿sabremos cómo encontrarlo? Este problema tiene solución, bajo ciertas condiciones, utilizando los teoremas de Lehmann-Scheffé y Rao-Blackwell y el concepto de suficiencia, que se discute más adelante. [^2]Una solución parcial aparece gracias al Teorema de Cramer-Rao, que permite establecer una cota mínima para la varianza de un estimador. Cuando un estimador alcanza esta cota, sabemos que es un estimador de varianza mínima. Informalmente, este resultado sugiere que, bajo ciertas condiciones de regularidad, si \\(T\\) es un estimador insesgado de un parámetro \\(\\theta\\), su varianza está acotada por una expresión que llamamos cota de Cramer-Rao \\(\\operatorname{CCR}(\\theta)\\) \\[ \\operatorname{var}(T) \\geq \\operatorname{CCR}(\\theta) \\] Antes de establecer con precisión este teorema, consideremos el concepto de información de un modelo estadístico introducido por Fisher. 7.5 Información y verosimilitud de un modelo estadístico Una idea bastante razonable es esperar que un estimador funcione mejor en su intento de aproximarse al valor de un parámetro cuanto más información tenga para hacerlo. Por este motivo, la varianza del estimador y la información se presentan como cantidades opuestas: a mayor información, menor error (varianza) en la estimación: \\[ \\operatorname{var}\\left(T_{n}\\right) \\propto \\frac{1}{I_{n}(\\theta)} \\] Ahora nos encontramos con el problema de cómo definir la cantidad de información (contenida en una muestra/de un modelo), para que se ajuste a la idea intuitiva de información. Fisher lo hizo a través de la función de verosimilitud. Sea un modelo estadístico \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\) y una m.a.s. \\(\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\), que toma valores \\(\\mathbf{x}=\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right)\\). Si \\(X\\) es discreta, la función de masa de probabilidad indica, en términos generales, la probabilidad de observar la muestra, dado un valor del parámetro. Si \\(X\\) es absolutamente continua, esta interpretación ya no es tan directa. \\[ f\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\theta\\right)= \\begin{cases}P_{\\theta}\\left[X=x_{1}\\right] \\cdots P_{\\theta}\\left[X=x_{n}\\right], & \\text { si } X \\text { es discreta } \\\\ f_{\\theta}\\left(x_{1}\\right) \\cdots f_{\\theta}\\left(x_{n}\\right), & \\text { si } X \\text { es abs. continua }\\end{cases} \\] La función de verosimilitud se obtiene si consideramos, en la expresión anterior, que lo que queda fijado es la muestra y no el parámetro. Es decir, fijada una muestra x, la función de verosimilitud indica qué tan verosímil resulta, para cada valor del parámetro, que el modelo la haya generado. Ejemplo 2.3.1 Supongamos que tenemos una m.a.s. \\(x_{1}, x_{2}, \\ldots, x_{n}\\) de tamaño n de una variable aleatoria \\(X\\), que sigue una ley de Poisson de parámetro \\(\\lambda\\) desconocido. \\[ X \\sim F_{\\lambda}=P(\\lambda), \\quad \\lambda>0 \\] La función de probabilidad de la muestra, fijado \\(\\lambda\\), es: \\[ g_{\\lambda}\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right)=\\prod_{i=1}^{n} e^{-\\lambda} \\frac{\\lambda^{x_{i}}}{x_{i}!}=e^{-n \\lambda} \\frac{\\lambda^{\\sum x_{i}}}{\\prod_{i=1}^{n} x_{i}!} \\] y la función de verosimilitud del modelo, fijada \\(\\mathbf{x}\\), es: \\[ L\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\lambda\\right)=\\prod_{i=1}^{n} e^{-\\lambda} \\frac{\\lambda^{x_{i}}}{x_{i}!}=e^{-n \\lambda} \\frac{\\lambda^{\\sum x_{i}}}{\\prod_{i=1}^{n} x_{i}!} \\] Aunque la forma funcional de \\(g_{\\lambda}(\\mathbf{x})\\) y \\(L(\\mathbf{x} ; \\lambda)\\) es la misma, su aspecto es diferente, como se puede comprobar en la figura 2.3, donde damos valores a \\(g_{\\lambda}(\\mathbf{x})\\), variando \\(\\mathbf{x}\\) o a \\(L(\\lambda ; \\mathbf{x})\\) variando \\(\\lambda\\). 7.6 Información de Fisher Para calcular la cantidad de información de Fisher contenida en una muestra sobre un parámetro, es necesario considerar modelos estadísticos regulares, es decir, donde se cumplen las siguientes condiciones de regularidad. Definició 2.9 Diremos que \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\) es un modelo estadístico regular si se verifican las siguientes condiciones: La población de donde proviene la muestra presenta un ?campo de variación? o soporte \\(S_{\\theta}=\\{x \\mid f(x ; \\theta)>0\\}=S\\) que no depende de \\(\\theta\\). La función \\(L(\\mathbf{x} ; \\theta)\\) admite, al menos, las dos primeras derivadas. Las operaciones de derivación e integración son intercambiables. Definició 2.10 Sea \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\) un modelo estadístico regular, es decir, donde se verifican las condiciones de regularidad 1-3 anteriores. Si \\(Z=\\frac{\\partial}{\\partial \\theta} \\log L(\\mathbf{X} ; \\theta)\\), la cantidad de información de Fisher es \\[ I_{n}(\\theta)=\\operatorname{var}_{\\theta}(Z)=\\operatorname{var}_{\\theta}\\left(\\frac{\\partial}{\\partial \\theta} \\log L(\\mathbf{X} ; \\theta)\\right) \\] Figura 2.3: Probabilidad de la suma de \\(n=5\\) valores muestrales para 10 muestras de la ley de Poisson con \\(\\lambda=3\\) versus la función de verosimilitud para una muestra observada. Las condiciones de regularidad son necesarias para calcular \\(E_{\\theta}\\left(Z^{2}\\right)\\). A continuación, presentamos algunas propiedades de la información de Fisher. Puedes ver la demostración en Ruiz-Maya y Pliego (1995). La información de Fisher se puede expresar como: \\[ I_{n}(\\theta)=E_{\\theta}\\left[\\left(\\frac{\\partial \\log L(\\mathbf{X} ; \\theta)}{\\partial \\theta}\\right)^{2}\\right] \\] Esto se puede comprobar, ya que si aplicamos las condiciones de regularidad \\[ \\begin{aligned} E(Z) & =E\\left(\\frac{\\partial \\log L(\\mathbf{X} ; \\theta)}{\\partial \\theta}\\right)=\\int_{S^{n}} \\frac{\\partial \\log L(\\mathbf{x} ; \\theta)}{\\partial \\theta} L(\\mathbf{x} ; \\theta) d \\mathbf{x} \\\\ & =\\int_{S^{n}} \\frac{\\frac{\\partial L(\\mathbf{x} ; \\theta)}{\\partial \\theta}}{L(\\mathbf{x} ; \\theta)} L(\\mathbf{x} ; \\theta) d \\mathbf{x}=\\int_{S^{n}} \\frac{\\partial L(\\mathbf{x} ; \\theta)}{\\partial \\theta} d \\mathbf{x} \\\\ & =\\frac{\\partial}{\\partial \\theta}\\left(\\int_{S^{n}} L(\\mathbf{x} ; \\theta) d \\mathbf{x}\\right)=\\frac{\\partial}{\\partial \\theta} 1=0 \\end{aligned} \\] De forma que \\(E(Z)=0\\), y por lo tanto, tendremos que \\(\\operatorname{var}_{\\theta}(Z)=\\) \\(E_{\\theta}\\left(Z^{2}\\right)\\). 2. \\(I_{n}(\\theta)=0\\) si y solo si \\(L(\\mathbf{x} ; \\theta)\\) no depende de \\(\\theta\\). 3. Dadas dos m.a.s. \\(\\mathbf{x}_{1}, \\mathbf{x}_{2}\\) de tamaños \\(n_{1}, n_{2}\\) de la misma población, se verifica: \\[ I_{n_{1}, n_{2}}(\\theta)=I_{n_{1}}(\\theta)+I_{n_{2}}(\\theta) \\] De manera que podemos considerar una muestra de tamaño \\(n\\) como \\(n\\) muestras de tamaño 1 : \\[ I_{n}(\\theta)=\\sum_{i=1}^{n} I_{1}(\\theta)=n \\cdot i(\\theta), \\text { siendo } i(\\theta)=I_{1}(\\theta) \\] Es decir \\[ E\\left(\\frac{\\partial \\log (L(\\mathbf{X} ; \\theta))}{\\partial \\theta}\\right)=n E\\left(\\frac{\\partial \\log f(X ; \\theta)}{\\partial \\theta}\\right) \\] Se verifica la siguiente relación: \\[ I_{n}(\\theta)=E\\left[\\left(\\frac{\\partial \\log L(\\mathbf{X} ; \\theta)}{\\partial \\theta}\\right)^{2}\\right]=-E\\left[\\frac{\\partial^{2} \\log L(\\mathbf{X} ; \\theta)}{\\partial^{2} \\theta}\\right] \\] Ejemplo 2.3.2 Vamos a calcular la cantidad de información de Fisher contenida en una m.a.s. extraída de una población \\(N(\\mu, \\sigma)\\) con \\(\\sigma=\\sigma_{0}\\) conocida. La función de verosimilitud es \\[ L(\\mathbf{x} ; \\mu)=\\prod_{i=1}^{n} \\frac{1}{\\sqrt{2 \\pi} \\sigma_{0}} e^{-\\frac{\\left(x_{i}-\\mu\\right)^{2}}{2 \\sigma_{0}^{2}}}=\\left(2 \\pi \\sigma_{0}^{2}\\right)^{-n / 2} \\exp \\left(-\\sum_{i=1}^{n} \\frac{\\left(x_{i}-\\mu\\right)^{2}}{2 \\sigma_{0}^{2}}\\right) \\] y su logaritmo \\[ \\log L(\\mathbf{x} ; \\mu)=-\\frac{n}{2} \\log \\left(2 \\pi \\sigma_{0}^{2}\\right)-\\frac{1}{2 \\sigma_{0}^{2}} \\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)^{2} \\] Si derivamos respecto a \\(\\mu\\) \\[ \\frac{\\partial \\log L(\\mathbf{x} ; \\mu)}{\\mu}=\\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)}{\\sigma_{0}^{2}} \\] de donde \\[ \\begin{aligned} I_{n}(\\mu) & =E\\left(\\frac{\\partial \\log L(\\mathbf{X} ; \\mu)}{\\partial \\mu}\\right)^{2}=E\\left(\\frac{\\sum_{i=1}^{n}\\left(X_{i}-\\mu\\right)}{\\sigma_{0}^{2}}\\right)^{2} \\\\ & =\\frac{1}{\\sigma_{0}^{4}} E\\left[\\sum_{i=1}^{n}\\left(X_{i}-\\mu\\right)^{2}+\\sum_{i \\neq j}\\left(X_{i}-\\mu\\right)\\left(X_{j}-\\mu\\right)\\right] \\\\ & =\\frac{1}{\\sigma_{0}^{4}} n \\sigma_{0}^{2}=\\frac{n}{\\sigma_{0}^{2}} \\end{aligned} \\] Este cálculo también puede hacerse a partir de la tercera propiedad de la información de Fisher: \\[ I_{n}(\\mu)=n E\\left[\\frac{\\partial \\log f(X ; \\mu)}{\\partial \\mu}\\right]=n \\frac{1}{\\sigma_{0}^{2}}=\\frac{n}{\\sigma_{0}^{2}} \\] 7.7 La desigualdad de Cramer-Rao Una vez establecidas las condiciones de regularidad y características anteriores podemos enunciar el teorema de Cramer-Rao (1945). Teorema 2.1 Dado un modelo estadístico regular \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\), es decir, un modelo donde se verifican las condiciones de regularidad enunciadas, cualquier estimador \\(T \\in \\mathcal{S}(\\theta)\\) de la clase de los estimadores no sesgados y con varianza verifica \\[ \\operatorname{var}_{\\theta}(T) \\geq \\frac{1}{I_{n}(\\theta)} \\] Demostración: El estimador \\(T \\in \\mathcal{S}(\\theta)\\) no tiene sesgo, es decir que \\[ E(T)=\\int_{S^{n}} T(\\mathbf{x}) \\cdot L(\\mathbf{x} ; \\theta) d \\mathbf{x}=\\theta \\] Si derivamos e introducimos la derivada bajo el signo de la integral, obtenemos \\[ \\begin{aligned} \\frac{\\partial}{\\partial \\theta} E(T) & =\\int_{S^{n}} \\frac{\\partial}{\\partial \\theta}(T(\\mathbf{x}) \\cdot L(\\mathbf{x} ; \\theta)) d \\mathbf{x}=\\int_{S^{n}} T(\\mathbf{x}) \\frac{\\partial}{\\partial \\theta} L(\\mathbf{x} ; \\theta) d \\mathbf{x} \\\\ & =\\int_{S^{n}} T(\\mathbf{x})\\left(\\frac{\\frac{\\partial}{\\partial \\theta} L(\\mathbf{x} ; \\theta)}{L(\\mathbf{x} ; \\theta)}\\right) L(\\mathbf{x} ; \\theta) d \\mathbf{x} \\end{aligned} \\] Así pues \\[ 1=\\frac{\\partial}{\\partial \\theta} \\theta=\\frac{\\partial}{\\partial \\theta} E(T)=E(T Z)=\\int_{S^{n}} T(\\mathbf{x}) \\cdot Z L(\\mathbf{x} ; \\theta) d \\mathbf{x} \\] En resumen \\[ E(T)=\\theta, E(T Z)=1, E(Z)=0, \\operatorname{var}(Z)=I_{n}(\\theta) \\] Si ahora consideramos el coeficiente de correlación al cuadrado entre \\(T\\) y \\(Z\\), tenemos \\[ \\rho^{2}(T, Z)=\\frac{[\\operatorname{cov}(T, Z)]^{2}}{\\operatorname{var}(T) \\cdot \\operatorname{var}(Z)}=\\frac{[E(T Z)-E(T) E(Z)]^{2}}{\\operatorname{var}(T) \\cdot \\operatorname{var}(Z)} \\leq 1 \\] Si sustituimos los resultados hallados antes, obtenemos \\[ \\frac{1}{\\operatorname{var}(T) \\cdot I_{n}(\\theta)} \\leq 1 \\] de donde se deduce la desigualdad enunciada. Definició 2.11 Si un estimador alcanza la CCR (Cota de Cramer-Rao), diremos que es un estimador eficiente. Todo estimador eficiente es de mínima varianza en la clase \\(\\mathcal{S}(\\theta)\\). Sin embargo, también puede suceder que exista un estimador de mínima varianza sin alcanzar necesariamente la CCR. Ejemplo 2.3.3 Sea \\(X \\sim F_{\\theta}=P(\\lambda), \\lambda>0\\) (Poisson). Buscamos la \\(C C R\\) de los estimadores de \\(\\lambda\\). \\[ \\begin{aligned} L(\\mathbf{x} ; \\lambda) & =\\prod_{i=1}^{n} e^{-\\lambda} \\frac{\\lambda^{x_{i}}}{x_{i}!}=e^{-n \\lambda} \\frac{\\lambda^{\\sum x_{i}}}{\\prod_{i=1}^{n} x_{i}!} \\\\ \\log L(\\mathbf{x} ; \\lambda) & =-n \\lambda+\\left(\\sum x_{i}\\right) \\log \\lambda-\\log \\left(\\prod_{i=1}^{n} x_{i}!\\right) \\\\ \\frac{\\partial \\log (L(\\mathbf{x} ; \\lambda))}{\\partial \\lambda} & =-n+\\frac{\\sum x_{i}}{\\lambda} \\\\ E\\left[\\frac{\\partial \\log L(\\mathbf{x} ; \\lambda)}{\\partial \\lambda}\\right]^{2} & =E\\left[n^{2}+\\left(\\frac{\\sum X_{i}}{\\lambda}\\right)^{2}-\\frac{2 n \\sum X_{i}}{\\lambda}\\right] \\\\ & =n^{2}+\\frac{1}{\\lambda^{2}} E\\left(\\sum X_{i}\\right)^{2}-\\frac{2 n}{\\lambda} n E(X) \\end{aligned} \\] Aquí recordamos que la suma de variables de Poisson también es una Poisson, es decir: \\[ \\sum X_{i} \\sim P(n \\lambda) \\] por lo que \\[ E\\left(\\sum X_{i}\\right)^{2}=\\operatorname{var}\\left(\\sum X_{i}\\right)+\\left[E\\left(\\sum X_{i}\\right)\\right]^{2}=n \\lambda+(n \\lambda)^{2} \\] Finalmente, se obtiene: \\[ E\\left(Z^{2}\\right)=n^{2}+\\frac{n \\lambda}{\\lambda^{2}}+\\frac{n^{2} \\lambda^{2}}{\\lambda^{2}}-2 n^{2}=\\frac{n}{\\lambda} \\] De esta forma, \\[ I_{n}(\\lambda)=\\frac{n}{\\lambda} \\quad \\Longrightarrow \\quad \\operatorname{var}(T) \\geq \\frac{\\lambda}{n} \\] Sabemos que la media aritmética verifica \\[ \\operatorname{var}\\left(\\bar{X}_{n}\\right)=\\frac{\\lambda}{n} \\] lo cual coincide con la cota de Cramer-Rao, indicando que \\(\\bar{X}_{n}\\) es el estimador eficiente de \\(\\lambda\\). Ejemplo 2.3.4 Para calcular la CCR o, dicho de otro modo, para que el inverso de \\[ E\\left[\\frac{\\partial \\log L(\\mathbf{x} ; \\theta)}{\\partial \\theta}\\right]^{2} \\] sea realmente la cota minima de \\(\\operatorname{var}(\\widehat{\\theta})\\) en la clase \\(\\mathcal{S}(\\theta)\\), es necesario que se verifiquen las condiciones de regularidad. De lo contrario, se pueden obtener resultados absurdos. Consideremos, por ejemplo, una variable aleatoria \\(X\\) con función de densidad \\[ f(x ; \\theta)=\\frac{3}{\\theta^{3}} x^{2} \\mathbf{1}_{[0, \\theta]}(x) \\] y esperanza \\[ E(X)=\\int_{0}^{\\theta} x \\cdot \\frac{3}{\\theta^{3}} x^{2} d x=\\frac{3}{4} \\theta \\] Ya que \\(\\theta=\\frac{4}{3} E(X)\\), esto sugiere estimar \\(\\theta\\) mediante \\(\\widehat{\\theta}=\\frac{4}{3} \\bar{X}\\), que no tiene sesgo. Por otro lado, si calculamos la varianza de \\(X\\), tenemos \\[ \\operatorname{var}(X)=E\\left(X^{2}\\right)-E(X)^{2}=\\frac{3}{80} \\theta^{2} \\] Sabemos que \\(E(\\widehat{\\theta})=\\theta, y\\) además \\[ \\operatorname{var}(\\widehat{\\theta})=\\operatorname{var}\\left(\\frac{4}{3} \\bar{X}\\right)=\\frac{\\theta^{2}}{15 n} \\] Si evaluamos \\(I_{n}(\\theta)\\) en su forma más sencilla, obtenemos \\[ I_{n}(\\theta)=n I(\\theta)=n \\frac{9}{\\theta^{2}} \\] Así, la CCR resulta ser mayor que la varianza de este estimador: \\[ \\operatorname{var}(\\widehat{\\theta})=\\frac{\\theta^{2}}{15 n}<\\frac{\\theta^{2}}{9 n} \\] lo cual es un resultado absurdo. Este error se debe a no considerar que el soporte de \\(X\\) depende de \\(\\theta\\), por lo que no se cumplen las condiciones de regularidad, y la cota de Cramer-Rao no existe. También ocurre que la varianza de un estimador es inferior a la CCR aunque esta exista. Esto puede pasar, por ejemplo, con algún estimador sesgado. 7.8 Caracterización del estimador eficiente Calcular la cota de Cramer-Rao es una cosa; encontrar el estimador que alcanza esta cota y, en consecuencia, tiene varianza mínima es otra. La siguiente caracterización permite, en algunos casos, obtener directamente la forma del estimador eficiente. Teorema 2.2 Sea \\(T\\) el estimador eficiente de \\(\\theta\\), entonces se verifica \\[ \\sum_{i=1}^{n} \\frac{\\partial}{\\partial \\theta} \\log f\\left(X_{i} ; \\theta\\right)=K(\\theta, n)(T-\\theta) \\] donde \\(K(\\theta, n)\\) es una función que depende de \\(\\theta\\) y de \\(n\\) y que suele coincidir con la información de Fisher. Demostración: Si \\(T\\) es el estimador eficiente, entonces \\[ \\operatorname{var}(T)=\\frac{1}{I_{n}(\\theta)} \\] y, por lo tanto, \\(\\rho^{2}(T, Z)=1\\). En general, dadas dos variables aleatorias \\(X\\) e \\(Y\\), se sabe que si \\(\\rho(X, Y)=1\\), entonces \\[ Y-E(Y)=\\beta(X-E(X)) \\] Si aplicamos este resultado a \\(T\\) y \\(Z\\), tenemos \\[ \\begin{aligned} Z-E(Z) & =\\beta(T-E(T)) \\\\ \\frac{\\partial \\log L(\\mathbf{x} ; \\theta)}{\\partial \\theta} & =K(\\theta, n)(T-\\theta) \\end{aligned} \\] Ejemplo 2.3.5 En el caso de la distribución de Poisson, tenemos \\[ \\begin{aligned} f(x ; \\lambda) & =e^{-\\lambda} \\frac{\\lambda^{x}}{x!} \\\\ \\log f(x ; \\lambda) & =-\\lambda+x \\log (\\lambda)-\\log (x!) \\\\ \\frac{\\partial \\log f(x ; \\lambda)}{\\partial \\lambda} & =-1+x \\frac{1}{\\lambda} \\\\ Z=\\sum_{i=1}^{n} \\frac{\\partial \\log f\\left(X_{i} ; \\lambda\\right)}{\\partial \\lambda} & =\\sum_{i=1}^{n}\\left(-1+\\frac{X_{i}}{\\lambda}\\right) \\end{aligned} \\] Queremos ver que \\[ \\sum_{i=1}^{n}\\left(\\frac{X_{i}}{\\lambda}-1\\right)=K(\\theta, n)(T-\\theta) \\] Si reescribimos esta expresión, obtenemos \\[ \\frac{1}{\\lambda} \\sum_{i=1}^{n} X_{i}-n=\\frac{1}{\\lambda}\\left(\\sum_{i=1}^{n} X_{i}-n \\lambda\\right)=\\frac{n}{\\lambda}\\left(\\frac{1}{n} \\sum_{i=1}^{n} X_{i}-\\lambda\\right) \\] Así, \\(K(\\lambda, n)=\\frac{n}{\\lambda}\\), que coincide con la información de Fisher \\(I_{n}(\\lambda)\\). Por el teorema anterior, se deduce que \\(T=\\bar{X}\\) es el estimador eficiente \\(y\\), por lo tanto, de mínima varianza. 7.9 Estadísticos suficientes En un problema de inferencia puede suceder que los datos contengan información superflua o irrelevante a la hora de estimar el parámetro. También puede ocurrir lo contrario, que intentemos hacer la estimación sin utilizar toda la información disponible en la muestra. Ambas situaciones son indeseables. Parece razonable que, para estimar un parámetro, dada la dificultad derivada de disponer de varios estimadores entre los que queremos elegir el óptimo, nos basemos únicamente en aquellos que utilizan (solo) toda la información relevante. Ejemplo 2.4.1 Supongamos que queremos estimar la proporción de piezas defectuosas \\(\\theta\\) en un proceso de fabricación. Para ello, examinamos \\(n\\) piezas extraídas al azar a lo largo de una jornada y asignamos un 1 a las piezas defectuosas y un 0 a las que no lo son. Así, obtenemos una muestra aleatoria simple \\(X_{1}, X_{2}, \\ldots, X_{n}\\) donde \\[ X_{i}= \\begin{cases}1 & \\text { con probabilidad } \\theta \\\\ 0 & \\text { con probabilidad }(1-\\theta)\\end{cases} \\] Intuitivamente, está claro que para estimar \\(\\theta\\) solo nos interesa el número de ceros y unos, es decir, el valor del estadístico \\[ T(\\mathbf{X})=\\sum_{i=1}^{n} X_{i} \\] En este caso, un estadístico que considere la posición de los unos y los ceros en la muestra no aportaría nada relevante. En cambio, un estadístico que no considere todos los valores, como por ejemplo \\(T(\\mathbf{X})=X_{1}\\), sería claramente menos adecuado. Las observaciones del ejemplo anterior se justifican al observar que todas las muestras de tamaño \\(n\\) con el mismo número \\(t\\) de unos (1) tienen la misma probabilidad. En concreto, la función de probabilidad de una muestra \\(x_{1}, x_{2}, \\ldots, x_{n}\\) es \\[ f_{\\theta}\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right)=\\theta^{t}(1-\\theta)^{n-t} \\] donde \\(t=\\sum_{i=1}^{n} x_{i}, x_{i} \\in\\{0,1\\}, i=1,2, \\ldots, n\\). Como se puede ver, la probabilidad de la muestra solo depende del número de unos (o ceros) y no del orden en que aparecen en la muestra. El hecho de que la posición de los unos y los ceros en la muestra no aporte información relevante equivale a decir que el estadístico \\[ T(\\mathbf{X})=\\sum_{i=1}^{n} X_{i} \\] contiene la misma información que \\(X_{1}, X_{2}, \\ldots, X_{n}\\) para estimar \\(\\theta\\). Observamos, sin embargo, varias diferencias entre basarse en \\(T(\\mathbf{X})\\) o en \\(X_{1}, X_{2}, \\ldots, X_{n}\\) : Al pasar de \\(X_{1}, X_{2}, \\ldots, X_{n}\\) a \\(\\sum_{i=1}^{n} X_{i}\\) hay una reducción de los datos que no implica pérdida de información. Muchas muestras diferentes dan lugar al mismo valor de \\(T\\). Fisher formalizó esta idea con el cálculo de la probabilidad condicionada de la observación muestral con \\(T(\\mathbf{X})=\\sum_{i=1}^{n} X_{i}\\) y para todo \\(t=0,1, \\ldots, n\\) : \\[ \\begin{aligned} P_{\\theta}[\\mathbf{X}=\\mathbf{x} \\mid T=t] & =\\frac{P_{\\theta}[\\mathbf{X}=\\mathbf{x}, T=t]}{P_{\\theta}(T=t)} \\\\ & =\\frac{\\theta^{t}(1-\\theta)^{n-t}}{\\binom{n}{t} \\theta^{t}(1-\\theta)^{n-t}}=\\frac{1}{\\binom{n}{t}} \\end{aligned} \\] Es decir, dados \\(\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right) \\in\\{0,1\\}^{n} \\mathrm{y} t \\in\\{0,1, \\ldots, n\\}\\), tenemos \\[ P_{\\theta}[\\mathbf{X}=\\mathbf{x} \\mid T=t]=\\left\\{\\begin{array}{cc} 0 & \\text { si } t \\neq \\sum_{i=1}^{n} x_{i} \\\\ \\frac{1}{\\binom{n}{t}} & \\text { si } t=\\sum_{i=1}^{n} x_{i} \\end{array}\\right. \\] Obviamente, \\(P_{\\theta}[\\mathbf{X}=\\mathbf{x}]\\) depende de \\(\\theta\\), que es el parámetro que queremos estimar. Sin embargo, la probabilidad condicionada \\(P_{\\theta}[\\mathbf{X}=\\mathbf{x} \\mid T=t]\\) no depende de \\(\\theta\\). Tenemos entonces la siguiente expresión de la función de probabilidad de la muestra: \\[ P_{\\theta}(\\mathbf{X}=\\mathbf{x})=P_{\\theta}(T=t) \\cdot P_{\\theta}[\\mathbf{X}=\\mathbf{x} \\mid T=t] \\] Esta expresión muestra que \\(P_{\\theta}(\\mathbf{X})\\) se puede descomponer en dos factores, uno que depende de \\(\\theta, P_{\\theta}(T=t)\\), y otro que no depende de \\(\\theta\\), \\[ P_{\\theta}[\\mathbf{X}=\\mathbf{x} \\mid T=t] . \\] Una forma de ver esta descomposición es pensar que el estadístico \\(T=\\) \\(\\sum_{i=1}^{n} X_{i}\\) ?acumula? o ?absorbe? toda la información relativa a \\(\\theta\\), lo que se refleja en que la probabilidad de la muestra, dado \\(T=t\\), ya no depende de \\(\\theta\\). Es decir, podemos imaginar la construcción de la muestra en dos etapas: En una primera etapa se elige el valor \\(t\\) para \\(T\\) con distribución \\(B(n, \\theta)\\). A continuación, se sitúan aleatoriamente \\(t\\) unos y \\(n-t\\) ceros en las \\(n\\) posiciones. Cuando la estructura del estadístico \\(T(\\mathbf{X})\\) hace que el segundo factor en la expresión anterior no dependa de \\(\\theta\\), significa que la observación adicional de la muestra es irrelevante. En este caso diremos que \\(T(\\mathbf{X})\\) es suficiente para la estimación de \\(\\theta\\). Dado que esta propiedad de \\(T\\) queda caracterizada por la independencia de \\(P_{\\theta}[\\mathbf{X}=\\mathbf{x} \\mid T=t]\\) respecto a \\(\\theta\\), se utiliza esta independencia para definir la suficiencia. 7.9.1 Definició de estadísticop suficiente Dado un modelo estadístico \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\) y un estadístico \\(T\\), diremos que \\(T\\) es suficiente para \\(\\theta\\) si, dada una muestra \\(\\mathbf{X}=\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\), se verifica que la distribución de \\(\\mathbf{X}\\) condicionada por el valor de \\(T\\) no depende de \\(\\theta\\). No es necesario que \\(F_{\\theta}\\) sea discreta, como en el ejemplo introductorio, o que la muestra sea una muestra aleatoria simple. El estadístico suficiente para un parámetro puede ser \\(k\\)-dimensional. Ejemplo 2.4.2 Dada una muestra \\(X_{1}, X_{2}, \\ldots, X_{n}\\) de una distribución de Poisson, la función de probabilidad de la muestra es \\[ P_{\\theta}\\left(X_{1}=x_{1}, \\ldots, X_{n}=x_{n}\\right)=\\frac{e^{-n \\lambda} \\lambda \\sum x_{i}}{x_{1}!\\cdots x_{n}!} \\] Calculemos la probabilidad de la muestra condicionada por el valor del estadístico \\(T=\\sum_{i=1}^{n} X_{i}\\) : \\[ \\begin{aligned} & P_{\\theta}\\left[X_{1}=x_{1}, \\ldots, X_{n}=x_{n} \\mid T=t\\right]=\\frac{P_{\\theta}\\left(X_{1}=x_{1}, \\ldots, X_{n}=x_{n}, T=t\\right)}{P_{\\theta}(T=t)} \\end{aligned} \\] \\[ \\begin{aligned} & =\\frac{t!}{x_{1}!\\cdots x_{n}!}\\left(\\frac{1}{n}\\right)^{t} \\mathbf{1}_{\\left\\{\\sum x_{i}=t\\right\\}}\\left(x_{1}, \\ldots, x_{n}\\right) \\end{aligned} \\] La probabilidad condicional no depende de \\(\\lambda y\\), por lo tanto, \\(T\\) es suficiente para \\(\\lambda\\). Conviene observar que, en este ejemplo, no todas las muestras tienen la misma probabilidad. 7.9.2 Teorema de factorización La justificación de la suficiencia de un estadístico mediante la definición no siempre es sencilla, ya que la distribución condicional puede ser intratable con las herramientas disponibles. El teorema que se presenta a continuación proporciona un método sencillo para comprobar la suficiencia de un estadístico y, a menudo, sugiere cuál es el estadístico suficiente de menor dimensión posible. Teorema 2.3 Neyman-Fisher. Sea \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\) un modelo estadístico y \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una muestra aleatoria simple de \\(X\\). Sea \\(f_{\\theta}(\\mathbf{x})\\) la función de probabilidad o la función de densidad de la muestra, según si \\(X\\) es discreta o absolutamente continua. Un estadístico \\(T\\) es suficiente para \\(\\theta\\) si y solo si existen dos funciones medibles \\(g_{\\theta}\\) y \\(h\\) tales que \\[ f_{\\theta}(\\mathbf{x})=g_{\\theta}(T(\\mathbf{x})) \\cdot h(\\mathbf{x}) \\] donde \\(h\\) no depende de \\(\\theta\\) y g depende de \\(\\theta\\) y, además, solo depende de la muestra a través de \\(T\\). Veamos ahora la demostración del teorema de factorización, restringida al caso de variables discretas. Demostración: Comenzaremos suponiendo que \\(T\\) es suficiente y concluiremos que es posible la factorización. Si \\(T(\\mathbf{X})\\) es suficiente para la familia de distribuciones \\(\\left\\{F_{\\theta} ; \\theta \\in \\Theta\\right\\}\\), la función de probabilidad de la muestra condicionada por \\(T\\) no depende de \\(\\theta\\). Dado que \\[ f_{\\theta}(\\mathbf{x})=P_{\\theta}[T=T(\\mathbf{x})] \\cdot f_{\\theta}[\\mathbf{x} \\mid T=T(\\mathbf{x})] \\] solo es necesario tomar \\(g_{\\theta}(t)=P_{\\theta}[T=T(\\mathbf{x})=t]\\) y \\(h(\\mathbf{x})=f_{\\theta}[\\mathbf{x} \\mid T=T(\\mathbf{x})]\\) para obtener el resultado. Ahora supongamos que es posible la factorización y deduzcamos la suficiencia. Si \\(f_{\\theta}(\\mathbf{x})=g_{\\theta}(T(\\mathbf{x})) \\cdot h(\\mathbf{x})\\) y llamamos \\(A_{t}=\\left\\{\\mathbf{x} \\in X(\\Omega)^{n} \\mid T(\\mathbf{x})=t\\right\\}\\), entonces \\[ P_{\\theta}[T(\\mathbf{x})=t]=\\sum_{A_{t}} g_{\\theta}(T(\\mathbf{x})) \\cdot h(\\mathbf{x})=g_{\\theta}(t) \\cdot \\sum_{A_{t}} h(\\mathbf{x}) \\] Consideremos ahora la distribución de la muestra condicionada a \\(T=t\\). El Teorema de Bayes para densidad permite escribir: \\[ \\begin{aligned} f_{\\theta}(\\mathbf{x} \\mid T=t) & =\\frac{f_{\\theta}(\\mathbf{x}, T=t)}{P_{\\theta}(T=t)} \\\\ & = \\begin{cases}\\frac{g_{\\theta}(t) \\cdot h(\\mathbf{x})}{g_{\\theta}(t) \\cdot \\sum_{A_{t}} h(\\mathbf{x})}=\\frac{h(\\mathbf{x})}{\\sum_{A_{t}} h(\\mathbf{x})} & \\text { si } T(\\mathbf{x})=t \\\\ 0 & \\text { si } T(\\mathbf{x}) \\neq t\\end{cases} \\end{aligned} \\] De modo que la distribución de \\(\\mathbf{X}\\) condicionada por el valor de \\(T\\) no depende de \\(\\theta\\), y, en consecuencia, \\(T\\) es suficiente. Ejemplo 2.4.3 Si X sigue una distribución de Bernoulli, tenemos: \\[ f_{\\theta}(\\mathbf{x})=\\theta^{\\sum_{i=1}^{n} x_{i}}(1-\\theta)^{n-\\sum_{i=1}^{n} x_{i}}=g_{\\theta}\\left(\\sum_{i=1}^{n} x_{i}\\right) . \\] Si tomamos \\(h(\\mathbf{x})=1\\), queda probado que \\(T=\\sum_{i=1}^{n} X_{i}\\) es suficiente. Ejemplo 2.4.4 Si consideramos una muestra de una distribución de Poisson \\[ f_{\\lambda}(\\mathbf{x})=e^{-n \\lambda} \\frac{\\lambda^{\\sum_{i=1}^{n} x_{i}}}{x_{1}!x_{2}!\\cdots x_{n}!} \\] \\(y\\) tomamos \\(T(\\mathbf{x})=\\sum_{i=1}^{n} x_{i}\\), podemos escribir \\[ f_{\\lambda}(\\mathbf{x})=e^{-n \\lambda} \\lambda^{T(\\mathbf{x})} \\cdot\\left(x_{1}!x_{2}!\\cdots x_{n}!\\right)^{-1}=g_{\\lambda}(T(\\mathbf{x})) \\cdot h(\\mathbf{x}) \\] donde \\[ g_{\\lambda}(T(\\mathbf{x}))=e^{-n \\lambda} \\lambda^{T(\\mathbf{x})}, \\quad h(\\mathbf{x})=\\left(x_{1}!x_{2}!\\cdots x_{n}!\\right)^{-1} \\] De modo que \\(g_{\\lambda}(t)=e^{-n \\lambda} \\lambda^{t}\\) depende de la muestra solo a través de \\(T=\\) \\(\\sum_{i=1}^{n} x_{i}\\) y \\(h(\\mathbf{x})=\\left(x_{1}!x_{2}!\\cdots x_{n}!\\right)^{-1}\\) no depende de \\(\\lambda\\). Ejemplo 2.4.5 Supongamos que \\(\\mathbf{X}\\) es una muestra aleatoria simple de una población \\(X \\sim N(\\mu, \\sigma)\\), cuya función de densidad es \\[ f_{\\mu, \\sigma^{2}}\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right)=\\frac{1}{\\left(\\sqrt{2 \\pi \\sigma^{2}}\\right)^{n}} \\exp \\left\\{-\\frac{1}{2 \\sigma^{2}} \\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)^{2}\\right\\} \\] Para evidenciar la factorización, utilizamos que \\[ \\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)^{2}=\\sum_{i=1}^{n}\\left(x_{i}-\\bar{x}\\right)^{2}+n(\\bar{x}-\\mu)^{2} . \\] Entonces, \\[ \\begin{aligned} f_{\\mu, \\sigma^{2}}\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right) & =\\frac{1}{\\left(\\sqrt{2 \\pi \\sigma^{2}}\\right)^{n}} \\exp \\left\\{-\\frac{1}{2 \\sigma^{2}}\\left(\\sum_{i=1}^{n}\\left(x_{i}-\\bar{x}\\right)^{2}+n(\\bar{x}-\\mu)^{2}\\right)\\right\\} \\\\ & =\\frac{1}{\\left(\\sqrt{2 \\pi \\sigma^{2}}\\right)^{n}} \\exp \\left\\{-\\frac{1}{2 \\sigma^{2}}\\left(n s^{2}+n(\\bar{x}-\\mu)^{2}\\right)\\right\\} \\\\ & =g_{\\mu, \\sigma^{2}}\\left(\\bar{x}, s^{2}\\right) \\cdot 1 \\end{aligned} \\] Así, vemos que el estadístico \\(\\left(\\bar{X}, s^{2}\\right)\\) es suficiente para la estimación de \\(\\left(\\mu, \\sigma^{2}\\right)\\). Si suponemos conocido uno de los dos parámetros \\(\\sigma^{2}\\) o \\(\\mu\\), podemos obtener una factorización en la que se ve que \\(\\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)^{2}\\) es suficiente para \\(\\sigma^{2}\\) (conocido \\(\\mu\\) ) o \\(\\bar{x}\\) es suficiente para \\(\\mu\\) (conocido \\(\\sigma^{2}\\) ). En el ejemplo anterior se observa que el estadístico suficiente para un problema puede tener una dimensión superior a 1. En general, buscaremos el estadístico suficiente de menor dimensión posible, ya que a menor dimensión se elimina más información superflua. Si no es posible encontrarlo así, siempre podemos basarnos en el estadístico \\(T=\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\), que es suficiente pero de dimensión máxima y, por lo tanto, no aporta ninguna reducción al problema de información. Estas reflexiones llevan a enunciar el principio de suficiencia, que aconseja condensar al máximo la información relevante en un estadístico suficiente \\(T\\) de la menor dimensión posible (“mínima”) y seleccionar un estimador \\(T^{\\prime}\\) entre los estadísticos que sean función de la muestra a través de \\(T: T^{\\prime}(\\mathbf{X})=\\varphi(T(\\mathbf{X}))\\). 7.9.3 Propiedades de los estadísticos suficientes Las siguientes propiedades se prueban de manera sencilla utilizando el teorema de factorización: Si \\(T\\) es un estadístico suficiente para \\(\\theta\\) y \\(\\varphi\\) es una función inyectiva (o monótona diferenciable), entonces \\(T_{1}=\\varphi(T)\\) también es suficiente para \\(\\theta\\). Ejemplo 2.4.6 En la familia de la Poisson hemos visto que \\(\\sum_{i=1}^{n} X_{i}\\) es suficiente para \\(\\lambda\\). Entonces \\(\\bar{X}=\\varphi\\left(\\sum_{i=1}^{n} X_{i}\\right)\\), donde \\(\\varphi(z)=(1 / n) z\\) es inyectiva, es suficiente para \\(\\lambda\\). 2. Si \\(T\\) es un estadístico suficiente para \\(\\theta\\) y \\(\\varphi\\) es una función paramétrica monótona diferenciable, entonces \\(\\varphi(T)\\) también es suficiente para \\(\\varphi(\\theta)\\). 3. Si \\(T_{1}, T_{2}\\) son dos estadísticos suficientes para \\(\\theta\\), entonces \\(T_{1}\\) es función de \\(T_{2}\\). "],["métodos-de-obtención-de-estimadores.html", "Capítulo 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES 8.1 El método de los momentos 8.2 El método del máximo de verosimilitud", " Capítulo 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES En el capítulo anterior hemos analizado el problema de la estimación puntual desde el punto de vista de, dado un estimador, ver ?qué tan bueno es? para estimar un parámetro. Otra cuestión que nos podemos plantear, de hecho la primera cuestión que hay que plantearse en la práctica, es cómo obtener un estimador ?razonablemente bueno? de un parámetro. De hecho, desde el punto de vista práctico parece razonable empezar por ver cómo se obtiene un estimador y, una vez obtenido, analizar ?cuán bueno resulta?. Existen muchos métodos para obtener estimadores, cada uno de los cuales puede llevarnos a unos resultados de diferente calidad. Los principales métodos de estimación son: Método de los momentos Método de la máxima verosimilitud Método de Bayes Otros métodos 8.1 El método de los momentos Este método fue introducido por K. Pearson a finales del siglo XIX y es el principio en que nos basamos cuando hacemos una estimación de la media o de la varianza poblacional a partir de la media o la varianza muestrales. La idea del método de los momentos es bastante intuitiva. Si lo que queremos estimar (uno o varios parámetros) es una función de los momentos poblacionales, entonces una estimación razonable puede consistir en tomar como estimador la misma función en la que los momentos poblacionales han sido sustituidos por los momentos muestrales. Dado que estos últimos son estimadores consistentes de los momentos poblacionales, en condiciones bastante generales se puede garantizar que los estimadores obtenidos serán estimadores consistentes para las funciones de los momentos poblacionales estimadas. Algunos ejemplos típicos de estimadores basados en el método de los momentos son: \\[ \\widehat{\\mu}=\\bar{X}_{n} \\quad \\widehat{\\sigma}=\\sqrt{S^{2}} \\quad \\widehat{\\sigma^{2}}=S^{2} \\] Sea un modelo estadístico, \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\), y \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una muestra aleatoria simple de \\(X\\). Sean \\(m_{1}, m_{2}, ?, m_{k}\\) los momentos poblacionales de orden \\(1,2, ?, k\\) de \\(X\\), que suponemos que existen, \\[ m_{k}=E\\left(X^{k}\\right) \\] y \\(a_{1}, a_{2}, ?, a_{k}\\) los momentos muestrales respectivos \\[ a_{k}\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)=\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{k} \\] Suponemos que estamos interesados en estimar: \\[ \\theta=h\\left(m_{1}, m_{2}, \\ldots, m_{p}\\right), \\] donde \\(h\\) es una función conocida. Definició 3.1 El método de los momentos consiste en estimar \\(\\theta\\) por el estadístico \\[ T(\\mathbf{X})=h\\left(a_{1}, a_{2}, \\ldots, a_{p}\\right) \\] 8.1.1 Observaciones El método se extiende de forma sencilla a la estimación de momentos conjuntos. Podemos usar \\(\\frac{1}{n} \\sum_{i=1}^{n} X_{i} Y_{i}\\) para estimar \\(E(X Y)\\), etc. Por la ley débil de los grandes números, \\[ a_{k}\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)=\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{k} \\xrightarrow{P} E\\left(X^{k}\\right), \\] de modo que si lo que queremos es estimar los momentos muestrales, el método garantiza que los estimadores son consistentes y sin sesgo. En este caso, además, los estimadores son asintóticamente normales. Si lo que se desea estimar es una función \\(h\\) continua de los momentos, entonces el método garantiza que el estimador \\(T(\\mathbf{X})\\) es consistente y, bajo ciertas condiciones de regularidad, también es asintóticamente normal. Ejemplo 3.1.1 Sea \\(X \\sim \\Gamma(p, \\alpha)\\). Queremos estimar \\(p\\) y \\(\\alpha\\). En lugar de conocer la función \\(h\\left(\\theta_{1}, \\theta_{2}\\right)\\) sabemos que: \\[ \\begin{aligned} m_{1} & =\\frac{p}{\\alpha}=E(X) \\\\ m_{2} & =\\frac{p(p+1)}{\\alpha^{2}}=E\\left(X^{2}\\right) \\\\ & =V(X)+[E(X)]^{2}=\\frac{p}{\\alpha^{2}}+\\left(\\frac{p}{\\alpha}\\right)^{2}=\\frac{p^{2}+p}{\\alpha^{2}}= \\end{aligned} \\] De modo que podemos obtener las funciones deseadas ?aislando? p y \\(\\alpha\\) como funciones de \\(m_{1}\\) y \\(m_{2}\\) : \\[ \\begin{aligned} \\alpha^{2} & =\\frac{p^{2}}{m_{1}^{2}} \\\\ \\alpha^{2} & =\\frac{p(p+1)}{m_{2}} \\end{aligned} \\] Procediendo por igualación: \\[ \\begin{aligned} & \\frac{p^{2}}{m_{1}^{2}}=\\frac{p(p+1)}{m_{2}} \\\\ & \\frac{p}{m_{1}}=\\frac{p+1}{m_{2}} \\\\ & p m_{2}=p m_{1}^{2}+m_{1}^{2} \\\\ & p\\left(m_{2}-m_{1}^{2}\\right)=m_{1}^{2} \\\\ & p=\\frac{m_{1}^{2}}{m_{2}-m_{1}^{2}} \\\\ & \\alpha=\\frac{m_{1}^{2}}{m_{2}-m_{1}^{2}} \\\\ & m_{1} \\end{aligned} \\frac{m_{1}}{m_{2}-m_{1}^{2}} . \\] Los estimadores por el método de los momentos se obtendrán ahora sustituyendo \\(p\\) y \\(\\alpha\\) por \\(\\hat{p}\\) y \\(\\hat{\\alpha}\\) en la expresión anterior, es decir: \\[ \\widehat{p}=\\frac{a_{1}^{2}}{a_{2}-a_{1}^{2}} \\] Hacemos lo mismo para el parámetro \\(\\alpha\\) : \\[ \\widehat{\\alpha}=\\frac{a_{1}}{a_{2}-a_{1}^{2}} \\] 8.2 El método del máximo de verosimilitud 8.2.0.1 Introducción El método de la máxima verosimilitud, introducido por Fisher, es un método de estimación que se basa en la función de verosimilitud, presentada en el capítulo anterior. Básicamente consiste en tomar como estimadores de los parámetros aquellos valores que hagan más probable observar precisamente lo que se ha observado, es decir, que hagan que la muestra observada resulte más verosímil. Ejemplo 3.2.1 Tomemos 5 papeles. En cada uno de ellos ponemos o bien un ?+? o bien un ?-?, sin que se sepa qué hay en cada papel, y los guardamos en una bolsa. Nuestro objetivo es estimar el número de papeles con el signo ?? escrito. Extraemos tres papeles, devolviéndolos a la bolsa después de cada extracción, y observamos que ha salido lo siguiente: ?++-?. Los valores posibles para la probabilidad de ?-?, llamémosla p, son: En la bolsa hay \\(p\\) \\(4 ?+\\) ?, 1 ?-? 0,2 \\(3 ?+\\) ?, 2 ?-? 0,4 \\(2 ?+\\) ?, 3 ?-? 0,6 \\(1 ?+\\) ?, 4 ?-? 0,8 Supongamos que la variable \\(X\\) mide el número de ?-? en tres extracciones consecutivas y que, por tanto, sigue una distribución binomial: \\[ X \\sim B(3, p(?-?)) \\] La probabilidad de sacar un ?-? es: \\[ P_{p}[X=1]=\\binom{3}{1} \\cdot p^{1}(1-p)^{2} \\] Para cada uno de los valores de p, las probabilidades quedan asi: \\(p\\) \\(P_{p}[X=1]\\) 0.2 \\(3 \\cdot 0.2 \\cdot 0.8^{2}=0.384\\) 0.4 \\(3 \\cdot 0.4 \\cdot 0.6^{2}=0.432\\) 0.6 \\(3 \\cdot 0.6 \\cdot 0.4^{2}=0.288\\) 0.8 \\(3 \\cdot 0.8 \\cdot 0.2^{2}=0.096\\) El valor de p que da una probabilidad mayor a la muestra, es decir, que la hace más verosímil, es \\(p=0.4\\). El método del máximo de verosimilitud consiste precisamente en tomar este valor como estimación de \\(p\\). 8.2.0.2 La función de verosimilitud Una vez introducido el método con un ejemplo, podemos pasar a definirlo con mayor precisión. Para ello, comenzaremos con el concepto de función de verosimilitud. En el capítulo anterior presentamos la función de verosimilitud como la función que resulta de considerar que, en la función de probabilidad de la muestra, el parámetro es variable y la muestra queda fija. Es decir: \\[ \\underbrace{f\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\theta\\right)}_{\\mathbf{x} \\text { variable, } \\theta \\text { fijo }} \\longrightarrow \\underbrace{L\\left(\\theta ; x_{1}, x_{2}, \\ldots, x_{n}\\right)}_{\\mathbf{x} \\text { fija, } \\theta \\text { variable }} \\] Esta definición es básicamente correcta. En el caso de las variables discretas, donde \\(f\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\theta\\right)\\) representa la probabilidad de la muestra, fijado \\(\\theta\\), resulta intuitivamente claro decir que la verosimilitud representa la ?probabilidad de la muestra para cada valor del parámetro?. Refiriéndonos al ejemplo introductorio, resulta sencillo ver que se trata de ?dos puntos de vista? sobre la misma función. Fijado un valor del parámetro, por ejemplo, 0.4 , podemos considerar la probabilidad de diversas muestras posibles, como \\(x=0, x=1, \\ldots\\), hasta \\(x=3\\) : \\[ \\begin{aligned} f\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\theta\\right) & =P_{0.4}[X=x], x=0,1, \\ldots, 3 \\\\ & =\\binom{3}{x} \\cdot 0.4^{x}(0.6)^{3-x} . \\end{aligned} \\] Análogamente, fijada una muestra, por ejemplo, \\(x=1\\), podemos considerar la probabilidad de esta para diversos valores del parámetro, \\(p=0,0.2, \\ldots, 1\\). \\[ \\begin{aligned} L\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\theta\\right) & =P_{p}[X=1], x=0,0.2,0.4, \\ldots, 1 \\\\ & =3 \\cdot p(1-p)^{2} . \\end{aligned} \\] En el caso de las distribuciones absolutamente continuas, el significado de la función de verosimilitud ya no es intuitivamente tan claro como en el caso de las discretas. En este caso, la función de densidad de la muestra ya no representa la probabilidad de esta como en el caso de las discretas. Algunos autores intentan solucionar esto explicando que existe una conocida aproximación en que la función de densidad es la probabilidad de un suceso ?infinitesimal?. Lo que es importante en la función de verosimilitud, a la hora de hacer inferencias, es la parte que es función del parámetro. Esto hace que a menudo se considere que la expresión de la función de verosimilitud mantenga solo aquella parte de \\(f\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\theta\\right)\\) que depende de \\(\\theta\\), ignorando la parte que dependa solo de la muestra. Es decir, si podemos factorizar \\(f\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\theta\\right)\\) como \\[ f(\\mathbf{x} ; \\theta)=c(\\mathbf{x}) \\cdot g(\\mathbf{x} ; \\theta) \\] podremos prescindir de la ?constante? \\(c(x)\\) (constante porque no depende de \\(\\theta\\) ) al considerar la verosimilitud. \\[ L(\\theta ; \\mathbf{x})=g(\\mathbf{x} ; \\theta) \\propto f(\\mathbf{x} ; \\theta) \\] Esto implica que \\(L(\\theta ; \\mathbf{x})\\) no tiene por qué integrar a 1 , como en el caso de las probabilidades, y que depende de las unidades de medida. Ejemplo 3.2.2 Si \\(X\\) es discreta, \\(X \\sim \\mathcal{P}(\\lambda)\\), y suponemos \\(n=1\\) (muestras de tamaño 1), tenemos que la f.d.p. de la muestra es: \\[ P[x ; \\lambda]=e^{-\\lambda} \\frac{\\lambda^{x}}{x!} \\] con \\(x=0,1, \\ldots\\) Ahora, si hemos observado \\(x=5\\), la función de verosimilitud vale: \\[ L(\\lambda ; 5)=e^{-\\lambda} \\lambda^{5}\\left[\\frac{1}{5!}\\right] \\] Como solo nos interesa la parte que es función de \\(\\lambda\\), podemos ignorar \\(\\frac{1}{5!}\\), es decir: \\[ L(\\lambda ; 5)=e^{-\\lambda} \\lambda^{5} \\propto P[\\mathbf{x} ; \\lambda] . \\] Ejemplo 3.2.3 Si dada una muestra de tamaño 1, por ejemplo, \\(x=2\\), de una ley de Poisson \\(\\mathcal{P}(\\lambda)\\) queremos comparar sus verosimilitudes respecto de los valores del parámetro \\(\\lambda=1.5\\) o \\(\\lambda=3\\), lo que haremos será basarnos en la razón de verosimilitudes: \\[ \\begin{aligned} \\Lambda(\\mathbf{x}) & =\\frac{L\\left(\\lambda_{1} ; x\\right)}{L\\left(\\lambda_{2} ; x\\right)}=\\frac{L(1.5 ; 2)}{L(3 ; 2)} \\\\ & =\\frac{e^{-1.5} 1.5^{2}\\left[\\frac{1}{2!}\\right]}{e^{-3} 3^{2}\\left[\\frac{1}{2!}\\right]}=\\frac{e^{-1.5} 1.5^{2}}{e^{-3} 3^{2}}=\\frac{0.5020}{0.4481}=1.12 . \\end{aligned} \\] Como se observa, al basarnos en la razón de verosimilitudes, la parte correspondiente solo a la muestra no se toma en cuenta. La razón de verosimilitudes sugiere que el valor \\(\\lambda=1.5\\) hace la muestra más verosímil. 8.2.0.3 El método del máximo de verosimilitud Si partimos de las dos ideas que hemos visto en la introducción: Escoger como estimación el valor que maximice la probabilidad de la muestra observada. La verosimilitud de la muestra es una aproximación a la probabilidad de esta como función del valor del parámetro. Una forma razonable de definir el EMV es entonces como aquel que maximice la verosimilitud. Definició 3.2 Un estimador \\(T: \\Omega \\longrightarrow \\Theta\\) es un estimador del máximo de verosimilitud para el parámetro \\(\\theta\\) si cumple: \\[ L(T(\\mathbf{x}) ; \\mathbf{x})=\\sup _{\\theta \\in \\Theta} L(\\theta ; \\mathbf{x}) \\] Como suele ocurrir en problemas de maximización, este valor ni existe necesariamente ni tiene por qué ser único. Ahora bien, bajo ciertas condiciones (las habituales para los problemas de máximos y mínimos) el problema se podrá reducir a buscar un máximo para la función de verosimilitud. Ejemplo 3.2.4 Supongamos que \\(x_{1}, \\ldots, x_{n}\\) es una muestra de una población de Bernouilli, \\(X \\sim B e(p)\\), donde queremos estimar p. La función de masa de la probabilidad de \\(X\\) es: \\[ P\\left[X=x_{i}\\right]=P\\left(x_{i} ; p\\right)=p^{x_{i}}(1-p)^{1-x_{i}} \\text { donde } x_{i} \\in\\{0,1\\} ; i=1, \\ldots, n \\] La función de verosimilitud es: \\[ L(p ; \\mathbf{x})=\\prod_{i=1}^{n} p^{x_{i}}(1-p)^{1-x_{i}}=p^{\\sum_{i=1}^{n} x_{i}}(1-p)^{\\sum_{i=1}^{n}\\left(1-x_{i}\\right)} \\] Debemos buscar el máximo de \\(L(p ; \\mathbf{x})\\). En este caso, como en otros, es más sencillo buscar el máximo de su logaritmo, que, dado que es una función monótona, es el mismo que el máximo de \\(L\\) \\[ \\ln L(p ; x)=\\left(\\sum_{i=1}^{n} x_{i}\\right) \\cdot \\ln p+\\left(n-\\sum_{i=1}^{n} x_{i}\\right) \\cdot \\ln (1-p) \\] Derivamos respecto a p: \\[ \\frac{\\partial \\ln L(p ; x)}{\\partial p}=\\frac{\\sum_{i=1}^{n} x_{i}}{p}-\\frac{n-\\sum_{i=1}^{n} x_{i}}{1-p} \\] e igualamos a cero la derivada, planteando lo que se denomina la ecuación de verosimilitud, cuyas soluciones nos conducirán eventualmente al estimador del máximo de verosimilitud. \\[ \\frac{\\sum_{i=1}^{n} x_{i}-n \\hat{p}}{\\hat{p}(1-\\hat{p})}=0 \\Rightarrow \\hat{p}=\\frac{\\sum_{i=1}^{n} x_{i}}{n} \\] Si la segunda derivada es negativa en \\(\\widehat{p}\\) entonces será un máximo: \\[ \\begin{aligned} \\frac{\\partial^{2} \\ln L(p ; x)}{\\partial p^{2}} & =\\frac{\\partial}{\\partial p}\\left(\\frac{\\sum_{i=1}^{n} x_{i}-n p}{p(1-p)}\\right)=\\frac{-n[p(1-p)]-\\left(\\sum_{i=1}^{n} x_{i}-n p\\right) \\cdot(1-2 p)}{p^{2}\\left(1-p^{2}\\right)}= \\\\ & =\\frac{-n p+n p^{2}-\\sum_{i=1}^{n} x_{i}-n p-2 p \\sum_{i=1}^{n} x_{i}-2 n p^{2}}{p^{2}(1-p)^{2}}= \\\\ & =\\frac{\\left[\\sum_{i=1}^{n} x_{i}(1+2 p)-n p^{2}\\right]}{p^{2} \\cdot(1-p)^{2}} \\end{aligned} \\] que es negativa cuando \\(p=\\hat{p}\\), de forma que \\(\\hat{p}\\) es efectivamente un máximo. El método analítico expuesto en el ejemplo anterior, consistente en el cálculo de un extremo de una función, no se puede aplicar en todas las situaciones. En estos casos, una alternativa puede ser estudiar directamente la función de verosimilitud. Veamos un ejemplo: Ejemplo 3.2.5 Sea \\(X_{1}, \\ldots, X_{n} \\stackrel{i i d}{\\sim} X \\sim U(0, \\theta) \\quad \\theta>0\\) desconocido. Sabemos que: \\[ f(x ; \\theta)=\\left\\{\\begin{array}{c} \\frac{1}{\\theta} \\text { si } 0<\\min \\left\\{x_{i}\\right\\} \\leq \\max \\left\\{x_{i}\\right\\} \\leq \\theta \\\\ 0 \\quad \\text { en caso contrario } \\end{array}\\right\\} \\] La derivada respecto a \\(\\theta\\) es \\(-\\frac{n}{\\theta^{n-1}}\\), que se anula cuando \\(\\theta \\underset{n \\rightarrow \\infty}{\\longrightarrow} \\infty\\) que lleva a una solución sin sentido de la ecuación de verosimilitud. Una inspección de la gráfica de la función de verosimilitud revela que el EMV, en este caso, Figura 3.1: Función de verosimilitud para una distribución uniforme es \\(\\max \\left\\{X_{i}, \\ldots, X_{n}\\right\\}\\). Efectivamente, consideremos cualquier otro valor \\(\\theta^{*}\\) diferente del máximo: \\[ \\begin{aligned} & \\text { Si } \\theta^{*}>X_{(n)} \\Rightarrow \\frac{1}{\\left(\\theta^{*}\\right)^{n}}<\\frac{1}{\\left(X_{n}\\right)^{n}}, \\\\ & \\text { Si } \\theta^{*}<X_{(n)} \\Rightarrow L\\left(\\theta^{*} ; \\mathbf{x}\\right)=0 \\end{aligned} \\] ya que si un estimador toma un valor inferior al máximo de la muestra habrá algún valor muestral, \\(x_{i}\\) para el cual se verificará que \\(\\theta^{*}<x_{i}\\), lo que hace la muestra inverosímil, y por tanto el estimador no es admisible. A la vista de lo anterior, deducimos que el valor que maximiza \\(L(\\theta ; \\mathbf{x})\\) es el máximo de la muestra. Ejemplo 3.2.6 El método del máximo de verosimilitud se extiende de forma inmediata a los parámetros \\(K\\)-dimensionales. Consideremos el caso de la ley normal \\(X \\sim N\\left(\\mu, \\sigma^{2}\\right)\\). Aquí el parámetro \\(\\theta\\) es bidimensional, es decir: \\(\\theta=\\left(\\mu, \\sigma^{2}\\right) \\in \\Theta=\\mathbb{R} \\times \\mathbb{R}^{+}\\) La función de verosimilitud de una muestra de tamaño \\(n\\) es: \\[ L\\left(\\left(\\mu, \\sigma^{2}\\right) ; \\mathbf{x}\\right)=\\prod_{i=1}^{n} \\frac{1}{\\sqrt{2 \\pi \\sigma^{2}}} e^{-\\frac{\\left(x_{i}-\\mu\\right)^{2}}{2 \\sigma^{2}}}=\\frac{1}{(2 \\pi)^{n / 2}\\left(\\sigma^{2}(n / 2\\right.} e^{-\\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)^{2}}{2 \\sigma^{2}}} \\] Sacando logaritmos \\[ \\log L\\left(\\left(\\mu, \\sigma^{2}\\right) ; \\mathbf{x}\\right)=-\\frac{n}{2} \\log (2 \\pi)-\\frac{n}{2} \\log \\left(\\sigma^{2}\\right)-\\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)^{2}}{2 \\sigma^{2}} \\] La derivada de \\(L()\\) es la matriz de derivadas: \\[ D \\log L\\left(\\left(\\mu, \\sigma^{2}\\right) ; \\mathbf{x}\\right)=\\binom{\\frac{\\partial \\log L\\left(\\left(\\mu, \\sigma^{2}\\right) ; \\mathbf{x}\\right)}{\\partial \\mu}}{\\frac{\\partial \\log L\\left(\\left(\\mu, \\sigma^{2}\\right) ; \\mathbf{x}\\right)}{\\partial \\sigma^{2}}}=\\left\\{\\begin{array}{c} \\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)}{\\sigma^{2}} \\\\ \\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)^{2}}{2 \\sigma^{4}}-\\frac{n}{2 \\sigma^{2}} \\end{array}\\right. \\] Planteando y resolviendo la ecuación de verosimilitud tenemos: \\[ D \\log L\\left(\\left(\\hat{\\mu}, \\hat{\\sigma}^{2}\\right) ; \\mathbf{x}\\right)=\\left\\{\\begin{array}{c} \\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\hat{\\mu}\\right)}{\\hat{\\sigma}^{2}}=0 \\\\ \\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\hat{\\mu}\\right)^{2}}{2 \\hat{\\sigma}^{4}}=\\frac{n}{2 \\hat{\\sigma}^{2}} \\end{array}\\right. \\] de donde las raíces de la ecuación de verosimilitud son: \\[ \\hat{m} u=\\bar{x}, \\quad \\hat{\\sigma}^{2}=\\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\bar{x}\\right)^{2}}{n}=s^{2} . \\] Para decidir si las raíces de la ecuación de verosimilitud corresponden a un máximo, analizamos la matriz de derivadas segundas, denominada Hessiana. \\[ H=\\left(\\begin{array}{cc} \\frac{\\partial^{2} z}{\\partial x^{2}} & \\frac{\\partial^{2} z}{\\partial x \\partial y} \\\\ \\frac{\\partial^{2} z}{\\partial y \\partial x} & \\frac{\\partial^{2} z}{\\partial y^{2}} \\end{array}\\right) \\] Una condición suficiente para que un punto \\(\\left(x_{0}, y_{0}\\right)\\) sea un máximo es que el determinante de \\(H\\) sea positivo y el menor en la posición ?11? negativo, es decir: \\(S i|H|>\\left.0 y \\frac{\\partial^{2} z}{\\partial x^{2}}\\right|_{\\left(x_{0}, y_{0}\\right)}<0 \\Longrightarrow\\) Hay un máximo relativo en \\(\\left(x_{0}, y_{0}\\right)\\). Si evaluamos el Hessiano en el punto \\(\\left(\\bar{x}, s^{2}\\right)\\) tenemos: \\[ H=\\left(\\begin{array}{cc} -\\frac{n}{s^{2}} & 0 \\\\ 0 & -\\frac{n}{2 s^{4}} \\end{array}\\right) . \\] Las condiciones de extremo que hemos dado más arriba se verifican: \\(H_{11}<0 y|H|>0\\), de manera que podemos concluir que el estimador del máximo de verosimilitud de \\(\\left(\\mu, \\sigma^{2}\\right)\\) es, efectivamente, \\(\\left(\\bar{x}, s^{2}\\right)\\). "],["estimación-puntual-1.html", "Capítulo 9 Estimación puntual 9.1 Preliminares: estimación del error estándar e Introducción al bootstrap 9.2 Estimadores por intervalo: intervalos de confianza 9.3 Intervalos de confianza para características de una población normal (media, varianza), 9.4 Intervalos de confianza bootstrap. 9.5 Intervalos de confianza para proporciones binomiales 9.6 Intervalos de confianza para parámetros en muestra grandes y para casos generales (tasas, OR, …) 9.7 Aplicaciones: cálculo del tamaño muestral", " Capítulo 9 Estimación puntual Este capítulo está pendiente de ser introducido en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se plantea el problema de la estimación como una forma de aproximación a las características de las distribucionesa partir de muestras aleatorias simples. Se abordan las distintas filosofías para la construcción de estimadores. 9.1 Preliminares: estimación del error estándar e Introducción al bootstrap 9.2 Estimadores por intervalo: intervalos de confianza 9.3 Intervalos de confianza para características de una población normal (media, varianza), 9.4 Intervalos de confianza bootstrap. 9.5 Intervalos de confianza para proporciones binomiales 9.6 Intervalos de confianza para parámetros en muestra grandes y para casos generales (tasas, OR, …) 9.7 Aplicaciones: cálculo del tamaño muestral "],["pruebas-de-hipótesis.html", "Capítulo 10 Pruebas de hipótesis 10.1 Conceptos básicos: pruebas de hipótesis y de significación, pruebas unilaterales y bilaterales, tipos de error, valores críticos de test y p-valores 10.2 Potencia de un test. Cálculos de potencia y de tamaño de la muestra. Tamaño del efecto. 10.3 Métodos de construcción de tests. 10.4 Problemas asociados al uso de tests estadísticos. La crisis de la significación", " Capítulo 10 Pruebas de hipótesis Este capítulo está pendiente de ser introducida en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se plantea el problema de las pruebas de hipótesis. Se discuten las aproximaciones y los conceptos asociados. Se trata el problema de la crisis de la significación. 10.1 Conceptos básicos: pruebas de hipótesis y de significación, pruebas unilaterales y bilaterales, tipos de error, valores críticos de test y p-valores 10.2 Potencia de un test. Cálculos de potencia y de tamaño de la muestra. Tamaño del efecto. 10.3 Métodos de construcción de tests. 10.4 Problemas asociados al uso de tests estadísticos. La crisis de la significación "],["inferencia-aplicada.html", "Capítulo 11 Inferencia Aplicada 11.1 Pruebas de normalidad.Pruebas gráficas. El test de Shapiro-Wilks 11.2 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas paramètricas t-test y Anova 11.3 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas de hipótesis no paramétricas de Wilcoxon y Kruskal-Wallis 11.4 Contrastes para datos categóricos. Pruebas binomiales, ji cuadrado y test de Fisher. 11.5 Riesgo relativo y razón de «odds»", " Capítulo 11 Inferencia Aplicada Este capítulo está pendiente de ser introducida en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se muestra como deducir y aplicar algunos de los tests mas populares. 11.1 Pruebas de normalidad.Pruebas gráficas. El test de Shapiro-Wilks 11.2 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas paramètricas t-test y Anova 11.3 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas de hipótesis no paramétricas de Wilcoxon y Kruskal-Wallis 11.4 Contrastes para datos categóricos. Pruebas binomiales, ji cuadrado y test de Fisher. 11.5 Riesgo relativo y razón de «odds» "],["computación-intensiva-y-multiple-testing.html", "Capítulo 12 Computación Intensiva y Multiple Testing 12.1 Tests de permutaciones; ¿Qué?, ¿Cuándo?, ¿Cómo? 12.2 El bootstrap en contraste de hipótesis 12.3 El problema de las comparaciones múltiples 12.4 Métodos de control de error: FWER y FDR", " Capítulo 12 Computación Intensiva y Multiple Testing Este capítulo está pendiente de ser introducida en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se introducen distintos métodos cuyo nexo común es la computación intensiva. 12.1 Tests de permutaciones; ¿Qué?, ¿Cuándo?, ¿Cómo? 12.2 El bootstrap en contraste de hipótesis 12.3 El problema de las comparaciones múltiples 12.4 Métodos de control de error: FWER y FDR "],["404.html", "Page not found", " Page not found The page you requested cannot be found (perhaps it was moved or renamed). You may want to try searching to find the page's new location, or use the table of contents to find the page you are looking for. "]] +[["index.html", "Fundamentos de Inferencia Estadistica Presentación Objetivo Prerequisitos y organización del material Referencias", " Fundamentos de Inferencia Estadistica Alex Sanchez Pla y Santiago Pérez Hoyos 2024-11-17 Presentación Objetivo El objetivo de estas notas es presentar un material de soporte para la asignatura de “Inferencia Estadística” del Máster interuniversitario de Bioiestadística y Bioinformática impartido conjuntamente por la Universitat Oberta de Catalunya (UOC) y la Universidad de Barcelona (UB). Esta asignatura adolece de las características habituales de las asignaturas de posgrado, y especialmente de un posgrado de estadística (y bioinformática), que muestran algunas de las cosas que no debe de ser esta asignatura: No puede ser un primer curso de estadística, porque se supone que los estudiantes del máster ya lo han cursado en sus grados. Por no decir que, a quien viene a especializarse en estadística se le puede suponer una base mínima. Tampoco debe ser como los segundos cursos de estadística de algunos grados, que tratan temas como la regresión, el diseño de experimentos o el análisis multivariante, porque esto ya se trata en diversas asignaturas del máster. ¿Que debemos pues esperar que sea este curso? Puestos a pedir, este curso debería servir para repasar y consolidar los conceptos básicos que la mayoría de estudiantes traerán consigo. Además, y sobretodo, debe proporcionar una visión general, lo más completa posible dentro de las limitaciones de tiempo, del campo de la inferencia estadística Y, naturalmente, esto significa proporcionar aquellos conceptos sobre los que se apoyaran muchas de las restantes asignaturas como “Regresión modelos y métodos”, “Diseño de Experimentos”, “Análisis Multivariante”, “Análisis de la Supervivencia” o “Análisis de datos ómicos”. Prerequisitos y organización del material Uno de los problemas “eternos” en el estudio de la estadística ha sido siempre la falta de acuerdo, entre la comunidad de docentes, de cual debería ser el nivel matemático a que se impartan los cursos. En los cursos de pre-grado ha habido un cierto consenso, y con los años el nivel de formalismo ha disminuido, incluso en estudios de tipo “STEM”, tendiendo a centrarse en la aplicación de los conceptos, por ejemplo usando R, más que en un tratamiento formal (“matemático”) de los mismos. Aunque esto puede ser práctico para aquellos estudios en los que la estadística és una asignatura de un grado, es también obvio que dicha aproximación no permite profundizar en muchos de los puntos que se tratan. Es por ello que en este curso seguiremos la indicación habitual en cursos similares de asumir que el estudiante: Se siente comodo con el lenguaje algebráico, desarrollo de expresiones, sumatorios etc. Está familiarizado con el cálculo diferencial en una o varias variables, aunque esta familiaridad no será imprescindible para seguir la mayoría de los contenidos del curso. Conoce el lenguaje estadístico R, que en muchas ocasiones nos ofrecerá una solución directa a los problemas de cálculo. Referencias Los prerequisitos anteriores corresponden básicamente a las matemáticas del bachilerato. Algunas funetes adiconales pueden ser: Iniciación a las matemáticas para la ingeniería. M. Besalú y Joana Villalonga Colección de (100) videos de soporte a las matemáticas para la ingeniería "],["agradecimiento-y-fuentes-utilizadas.html", "Agradecimiento y fuentes utilizadas El proyecto Statmedia Otros materiales utilizados", " Agradecimiento y fuentes utilizadas Salvo que uno desee escribir un libro sobre algo muy extraño, siempre habran otros libros o manuales similares al que se está planteando. La respuesta a la pregunta, “Y entonces, ¿porque hacer un nuevo matrerial?” suele ser más una excusa que una explicación sólida. Una posible razón puede ser para ajustarlo al máximo al perfil del curso para al que se destinan dichos materiales, condición que otros textos, pensados para cursos y audiencias distintas, pueden no satisfacer. En este caso adoptaremos esta explicación y el tiempo decidirá si el objetivo se alcanza. Dicho esto, debemos agradecer a las distintas fuentes utilizadas, el que hayan puesto a disposición sus materiales para poder reutilizarlos. Entre estos destacamos: El proyecto Statmedia Statmedia es un grupo de innovación docente de la Universidad de Barcelona, cuyo objetivo es desarrollar nuevas herramientas que ayuden en la enseñanza de la estadística aplicada, mejorando así el rendimiento académico de los alumnos y su motivación hacia la estadística. Partiendo de la idea que el aprendizaje debe basarse en casos prácticos para motivar y fomentar la participación de los estudiantes. Se desarrolló primer proyecto, Statmedia I, un texto multimedia de estadística que además de los contenidos, relativamente ampliados, para un curso de introducción a la estadística, incorporaba: Una serie de casos para motivar e ilustrar los conceptos introducidos. Un conjunto de gadgets interactivos con los que interactuar y experimentar y Ejercicios de respuesta múltiple para verificar los conceptos trabajados. Aunque el proyecto Statmedia ha seguido evolucionando en múltiples direcciones, Statmedia I, como tantos otros, no sobrevivió al desarrollo tecnológico, y la evolución (o decadencia) del lenguaje Java lo llevó a dejar de ser funcional. Para estos apuntes hemos recuperado, y en ocasiones adaptado o modificado, algunos de los contenidos de Statmedia I, que habían estado escritos con gran pulcritud. Esto se ha hecho siguiendo las indicaciones de la licencia (CC-Share-alike) que permite adaptar contenidos atribuyendolo a sus autores y citando la fuente. Los gadgets originales ya no son funcionales pero muchos de ellos han sido re-escritos en R como aplicaciones Shiny (disponibles en: https://grbio.upc.edu/en/software/teaching_apps) y se enlazaran desde los puntos necesarios del texto. Dejando aparte (además) de la licencia, vaya nuestro agradecimiento explícito al equipo de profesores del Departamento de Estadística de la Universidad de Barcelona, redactor de la versión inicial del proyecto, que es la que hemos utilizado: Antonio Arcas Pons, Miquel calvo Llorca, Antonio Miñarro Alonso, Sergi Civit Vives y Angel Vilarroya del Campo. Antoni Arcas, Antonio Miñarro and Miguel Calvo (2008) Statmedia projects in Statistical Education Otros materiales utilizados Alex Sanchez y Francesc Carmona (2002). Apunts d’Estadística Matemàtica Licencia CC0 1.0 Universal Molina Peralta, I. and García-Portugués, E. (2024). A First Course on Statistical Inference. Version 2.4.1. ISBN 978-84-09-29680-4. Licencia CC BY-NC-ND 4.0 Peter K. Dunn (2024) The theory of distributions. Licencia CC BY-NC-ND 4.0 "],["probabilidad-y-experimentos-aleatorios.html", "Capítulo 1 Probabilidad y Experimentos aleatorios 1.1 Introducción 1.2 Función de probabilidad 1.3 ¿Cómo se calculan las probabilidades? 1.4 Sucesos elementales y sucesos observables 1.5 Propiedades inmediatas de la probabilidad 1.6 Espacios de probabilidad 1.7 Probabilidad condicionada 1.8 Dos Teoremas importantes 1.9 Introducción a los experimentos múltiples 1.10 Combinatoria 1.11 Frecuencia relativa y probabilidad 1.12 Caso de Estudio: Eficacia de una prueba diagnóstica", " Capítulo 1 Probabilidad y Experimentos aleatorios 1.1 Introducción 1.1.1 Fenómenos deterministas y fenómenos aleatorios Supongamos que disponemos de un dado regular con todas las caras pintadas de blanco y con un número, que irá de 1 a \\(6 \\sin\\) repetir ninguno, en cada una de las seis caras. Definamos los dos experimentos siguientes: Experimento 1: Tirar el dado y anotar el color de la cara resultante. Experimento 2: Tirar el dado y anotar el número de la cara resultante. ¿Qué diferencia fundamental observamos entre ambos experimentos? Muy simple! En el experimento 1, el resultado es obvio: saldrá una cara de color blanco. Es decir, es posible predecir el resultado. Se trata de un experimento o fenómeno determinista. En cambio, en el experimento 2 no podemos predecir cuál será el valor resultante. El resultado puede ser : \\(1,2,3,4,5\\) o 6 . Se trata de un experimento o fenómeno aleatorio. El conjunto de resultados se anotará con el símbolo: \\(\\Omega\\). En este caso, \\(\\Omega=\\{1,2,3,4,5,6\\}\\). En los fenómenos aleatorios, al hacer muchas veces la experiencia, la frecuencia relativa de cualquier elemento del conjunto de resultados debe aproximarse siempre hacia un mismo valor. 1.1.2 Sucesos Supongamos que se ejecuta un experimento aleatorio. Se nos puede ocurrir emitir un enunciado que, una vez realizada la experiencia, pueda decirse si se ha verificado o no se ha verificado. A dichos enunciados los denominamos sucesos. Por otro lado, los sucesos van asociados a subconjuntos del conjunto de resultados. Cada suceso se corresponderá exactamente con uno, y sólo con un, subconjunto del conjunto de resultados. Veamos un ejemplo: Experimento: Tirar un dado regular. Conjunto de resultados : \\(\\Omega=\\{1,2,3,4,5,6\\}\\) Enunciado: Obtener múltiplo de 3. Subconjunto al que se asocia el enunciado: \\(A=\\{3,6\\}\\) Nos referiremos habitualmente al suceso A. 1.1.2.1 Sucesos y conjuntos Al conjunto de resultados \\(\\Omega\\), se le denomina suceso seguro. Al conjunto Ø ( conjunto sin elementos), se le denomina suceso imposible. Al complementario del conjunto \\(\\mathrm{A}\\left(\\mathrm{A}^{\\mathrm{c}}\\right)\\), se le denomina suceso contrario o complementario de \\(A\\). A partir de dos sucesos A y B, podemos formar los sucesos siguientes: A intersección B, que anotaremos como: \\[ A \\cap B \\] A unión B, que anotaremos como: \\[ A \\cup B \\] A intersección B, significa que se verifican a la vez A y B. A unión B, significa que se verifica \\(A\\) o \\(B\\) ( se pueden verificar a la vez). 1.2 Función de probabilidad Lógicamente, una vez tenemos un suceso, nos preocupa saber si hay muchas o pocas posibilidades de que al realizar la experiencia se haya verificado. Por lo tanto, sería interesante el tener alguna función que midiera el grado de confianza a depositar en que se verifique el suceso. A esta función la denominaremos función de probabilidad. La función de probabilidad será, pues, una aplicación entre el conjunto de resultados y el conjunto de números reales, que asignará a cada suceso la probabilidad de que se verifique. La notación: \\(\\mathrm{P}(\\mathrm{A})\\) significará: probabilidad de que se verifique el suceso A . Pero claro, de funciones de probabilidad asociadas a priori a una experiencia aleatoria podrían haber muchas. Lo que se hace para decir qué es y qué no es una función de probabilidad es construir una serie de propiedades (denominadas axiomas) que se exigirán a una función para poder ser catalogada como función de probabilidad. Y, ¿cuáles son estos axiomas? Pues los siguientes: Sea S el conjunto de sucesos. Axioma 1: Para cualquier suceso A, la probabilidad debe ser mayor o igual que 0. Axioma 2: La probabilidad del suceso seguro debe ser 1: \\(\\mathrm{P}(\\Omega)=1\\) Axioma 3: Para sucesos \\(\\mathrm{A}_{\\mathrm{i}}\\), de modo que cada par de sucesos no tengan ningún resultado común, se verifica que: \\[ P\\left(\\bigcup_{i=1}^{\\infty} A_{i}\\right)=\\sum_{i=1}^{\\infty} P\\left(A_{i}\\right) \\] De este modo, pueden haber muchas funciones de probabilidad que se podrían asociar con la experiencia. El problema pasa entonces al investigador para decidir cual o cuales son las funciones de probabilidad más razonables asociadas con la experiencia que está manejando. 1.2.1 ¿Diferentes funciones de probabilidad para una misma experiencia aleatoria? Supongamos la experiencia de tirar un dado regular. A todo el mundo se le ocurriría pensar que la función de probabilidad se obtiene de contar el número de resultados que contiene el suceso dividido por 6 , que es el número total de resultados posibles. Así pues, la probabilidad de obtener un múltiplo de 3 sería igual a \\(2 / 6\\), la probabilidad de obtener el número 2 sería \\(1 / 6\\) i la probabilidad de obtener un número par sería 3/6. Es decir, parece inmediato construir la función de probabilidad que, además, parece única. A nadie se le ocurre decir, por ejemplo, que la probabilidad de obtener un número par es \\(5 / 6\\) ! En este caso, todo ha sido muy fácil. Hemos visto que existe una única función de probabilidad que encaje de forma lógica con la experiencia y, además, ha sido muy sencillo encontrarla. Pero esto, por desgracia, no siempre es así. En muchísimas ocasiones resulta muy complejo el decidir cuál es la función de probabilidad. En el tema de variables aleatorias y de función de distribución se explica el problema de la modelización de muchas situaciones reales. 1.3 ¿Cómo se calculan las probabilidades? No siempre es fácil conocer los valores de la función de probabilidad de todos los sucesos. Sin embargo, muchas veces se pueden conocer las probabilidades de algunos de estos sucesos. Con la ayuda de ciertas propiedades que se deducen de manera inmediata a partir de la axiomática es posible calcular las probabilidades de más sucesos. Por otro lado, en caso de que el número de resultados sea finito y de que todos los resultados tengan las mismas posibilidades de verificarse, la probabilidad de un suceso cualquiera se puede calcular a partir de la regla de Laplace: Si A es un suceso : \\[ \\text { Probabilidad }(A)=\\frac{\\text { Número de casos favorables }}{\\text { Número de casos posibles }} \\] donde: Número de casos favorables \\(=\\) Número de resultados contenidos en \\(\\mathrm{A}(\\) cardinal de A\\()\\) Número de casos posibles \\(=\\) Número total de resultados posibles (cardinal del conjunto total de resultados) En este caso, el contar número de resultados, ya sean favorables o posibles, debe hacerse por medio de la combinatoria. Veamos con unos ejemplos muy sencillos y visuales cómo se obtienen y qué representan los casos posibles y los casos favorables. También es posible obtener de manera aproximada la probabilidad de un suceso si se puede repetir muchas veces la experiencia: la probabilidad del suceso sería el valor al que tendería la frecuencia relativa del suceso. Podéis consultar más detalles acerca de esta aproximación. En este caso, la cuestión estriba en poder hacer muchas veces la experiencia en condiciones independientes. 1.4 Sucesos elementales y sucesos observables En el contexto de la probabilidad, es fundamental diferenciar entre los sucesos elementales y los sucesos observables. Los sucesos elementales son los resultados individuales que pueden ocurrir al realizar un experimento aleatorio, es decir, cada uno de los elementos que conforman el conjunto de resultados \\(\\Omega\\). En nuestro ejemplo del dado, los sucesos elementales son los números \\(1, 2, 3, 4, 5\\) y \\(6\\). Sin embargo, no todos los sucesos elementales son necesariamente observables. Un suceso observable es un subconjunto de estos sucesos elementales que permite formular afirmaciones verificables sobre el resultado del experimento. Ejemplo Podemos imaginar un dado en el que pintamos de blanco las caras pares y de negro las impares. En este caso los sucesos elementales serían los habituales 1, 2, 3,…6. Sin embargo tan solo “Par” (“blanco”) o impar (“negro”) se pueden observar. Si repintamos el dado de forma que las caras 1 y 2 esten blancas, las 3 y 4, azules y las 5 y 6 rojas podremos observar el suceso “Sale 1 o 2 (=Sale blanco)” o “sale blanco o azul”, pero no el suceso “sale par” dado que cada color contiene un número par y uno impar Para formalizar estos conceptos, definimos el espacio de probabilizable como el par de conjuntos formados por: \\((\\Omega, \\mathcal{A})\\) \\(\\Omega\\) es el conjunto de todos los resultados posibles (el conjunto de resultados o sucesos elementales). \\(\\mathcal{A}\\) es el conjunto de todos los sucesos observables, que vienen definidos por el nivel de observación del experimento. 1.5 Propiedades inmediatas de la probabilidad Veremos a continuación una serie de propiedades que se deducen de manera inmediata de la axiomática de la probabilidad. 1.5.1 Succeso imposible El suceso imposible se identifica con el conjunto vacío, puesto que no hay ningún resultado asociado a él. La probabilidad del suceso imposible es: \\[ P(\\varnothing)=0 \\] 1.5.2 Suceso implicado Decimos que un suceso, B, esta implicado por otro suceso A, si siempre que se presenta A, también lo hace B. Por ejemplo, si al tirar un dado se obtiene un dos (suceso A), ello implica que ha salido un número par (suceso B). En terminos de conjuntos, A es un suceso que está contenido en B (todos los resultados de A también pertenecen a B ), por lo que: \\[ \\mathrm{P}(\\mathrm{A}) \\leq \\mathrm{P}(\\mathrm{B}) \\] 1.5.3 Complementario de un suceso Sea \\(A^{\\mathrm{c}}\\) el suceso formado por todos los elementos de \\(\\Omega\\) que no pertenecen a A (Suceso complementario de A). La probabilidad de dicho suceso es igual a: \\[ \\mathrm{P}\\left(\\mathrm{A}^{\\mathrm{c}}\\right)=1-\\mathrm{P}(\\mathrm{A}) \\] 1.5.4 Ocurrencia de algun suceso La probabilidad de la unión de dos sucesos A y B es igual a: \\[ P(A \\cup B)=P(A)+P(B)-P(A \\cap B) \\] 1.5.5 Probabilidad de que ocurra algun suceso Si tenemos una colección de \\(k\\) sucesos, la probabilidad de la unión de dichos sucesos será: \\[ P\\left(\\bigcup_{i=1}^{k} A_{i}\\right)=\\sum_{i=1}^{k} P\\left(A_{i}\\right)-\\sum_{i<j} P\\left(A_{i} \\cap A_{j}\\right)+\\sum P\\left(A_{i} \\cap A_{j} \\cap A_{k}\\right)+\\ldots+(-1)^{k+1} \\cdot P\\left(A_{1} \\cap . . \\cap A_{k}\\right) \\] 1.5.6 Probabilidad de que ocurran dos (o más) sucesos a la vez No existe una expresión cerrada única para la probabilidad de que ocurran dos o más sucesos a la vez, pues esto depende de si los sucesos que consideramos son dependientes o independientes, conceptos éstos, que introduciremos en la próxima sección. Lo que si que existe es una cota para dicha probabilidad, es decir, podemos decir que valor alcanza dicha probabilidad, como mínimo. \\[ P\\left(\\bigcap_{i=1}^{n} A_{i}\\right) \\geq 1-\\sum_{i=1}^{n} P\\left(\\bar{A}_{i}\\right) \\] 1.6 Espacios de probabilidad Para concluir esta introducción introduciremos los espacio de probabilidad que, extienden los espacios probabilizables definidos en la sección anterior La terna \\((\\Omega, \\mathcal{A}, P)\\) donde: \\(Omega\\) es el conjunto de todos los resultados posibles (el conjunto de resultados o sucesos elementales), \\(\\mathcal{A}\\) es el conjunto de todos los sucesos observables, que vienen definidos por el nivel de observación del experimento y \\(P\\) es una función de probabilidad, que asigna a cada suceso observable \\(A \\in \\mathcal{A}\\) un número real \\(P(A)\\) que representa la probabilidad de que ocurra dicho suceso se conoce como espacio de probabilidad. Es importante destacar que la probabilidad se calcula exclusivamente para los sucesos observables, lo que garantiza que la medida sea coherente y verificada a través de experimentos. Los espacios de probabilidad proporcionan una estructura fundamental para analizar y medir las incertidumbres asociadas a los fenómenos aleatorios, facilitando el estudio de sus propiedades, la construcción, sobre ellos de diversos conceptos fundamentales como el de variables aleatorias, y, en general, la aplicación de teorías de la probabilidad a diversas áreas de conocimiento. 1.7 Probabilidad condicionada Imaginemos que en la experiencia de tirar un dado regular supiéramos de antemano que se ha obtenido un número par. Es decir, que se ha verificado el suceso: \\(\\{B = \\mbox{número par}\\}\\)“. Pregunta: ¿Cuál es ahora la probabilidad de que se verifique el suceso mayor o igual a cuatro? Lógicamente, el resultado sería : \\(2 / 3\\). Por lo tanto, la probabilidad del suceso \\(\\mathrm{A}=\\) mayor o igual a cuatro se ha modificado. Evidentemente, ha pasado de ser \\(1 / 2\\) ( cuando no tenemos ninguna información previa) a ser \\(2 / 3\\) (cuando sabemos que se ha verificado el suceso B). ¿Cómo podemos anotar esta última probabilidad \\((2 / 3)\\) ? Muy sencillo. Anotaremos \\(\\mathrm{P}(\\mathrm{A} / \\mathrm{B})\\), que se lee como probabilidad de A condicionada a B . Así, en este ejemplo, \\[ \\begin{gathered} \\mathrm{P}(\\mathrm{A} / \\mathrm{B})=2 / 3 \\\\ \\mathrm{P}(\\mathrm{A})=1 / 2 \\end{gathered} \\] En términos generales, estamos en condiciones de poder definir la probabilidad condicionada, y lo hacemos como: \\[ P(A / B)=\\frac{P(A \\cap B)}{P(B)} \\] Podemos ahora visualizar de una manera práctica y divertida el ejemplo anterior. Siguiendo con la notación utilizada, el suceso A será lo que denominamos suceso de obtención, mientras que el suceso B será lo que denominamos suceso condicionado. La pantalla nos proporcionará los casos posibles para el condicionante elegido y los casos favorables, calculando mediante la regla de Laplace la probabilidad del suceso. Elegid suceso a estudiar. Desplazad, si procede, las barras de puntos. Elegir suceso condicionante. Desplazad, si procede, las barras de puntos. Comprobad los sucesos posibles y los favorables. La probabilidad condicionada se comporta, entonces, como una función de probabilidad. Es decir, verifica los tres axiomas siguientes: Axioma 1: \\[ \\mathrm{P}(\\mathrm{A} / \\mathrm{B}) \\geq 0 \\] Axioma 2: \\[ P(\\Omega / B)=1 \\] Axioma 3: \\[ P\\left(\\bigcup_{i=1}^{\\infty} A_{i} / B\\right)=\\sum_{i=1}^{\\infty} P\\left(A_{i} / B\\right) \\] para sucesos \\(\\mathrm{A}_{\\mathrm{i}}\\) con intersección vacía dos a dos. 1.7.1 Sucesos dependientes y sucesos independientes Sean A y B dos sucesos con probabilidad mayor que 0 . Evidentemente, si \\[ \\mathrm{P}(\\mathrm{A} / \\mathrm{B})=\\mathrm{P}(\\mathrm{A}) \\] B no ha modificado la probabilidad de que suceda A. En este caso diremos que son sucesos independientes. En caso contrario diremos que son sucesos dependientes. En el ejemplo del apartado anterior, se observa que los sucesos son dependientes puesto que las probabilidades anteriores no coinciden. Se verifica que independencia de los sucesos A y B es equivalente a decir que la probabilidad de la intersección es igual a producto de probabilidades de los dos sucesos. Se verifica también que si A y B son independientes: a) El complementario del suceso A y el suceso B son independientes. b) El complementario del suceso A y el complementario del suceso B son independientes. c) El complementario del suceso B y el suceso A son independientes. 1.7.2 Incompatibilidad e independencia Dos sucesos con intersección vacía se denominan sucesos incompatibles. Esto, ¿qué implica? Pues, que si se verifica uno seguro que no se verifica el otro, ya que no tienen resultados en común. Por lo tanto es el caso extremo de dependencia. Obtenemos en este caso que: \\[ \\mathrm{P}(\\mathrm{A} / \\mathrm{B})=0 \\] y, en consecuencia, si \\(\\mathrm{P}(\\mathrm{A})\\) y \\(\\mathrm{P}(\\mathrm{B})\\) son diferentes de cero, la probabilidad condicionada anterior es diferente de \\(\\mathrm{P}(\\mathrm{A})\\), y así se deduce la dependencia. La única posibilidad de que se dé incompatibilidad e independencia a la vez, es que alguno de los dos sucesos tenga probabilidad igual a cero. 1.8 Dos Teoremas importantes 1.8.1 Teorema de las probabilidades totales Sea \\(\\Omega\\) el conjunto total formado por una partición (colección de sucesos con intersección vacía dos a dos): \\[ \\Omega=H_{1} \\cup \\ldots \\ldots \\cup H_{n} \\] La probabilidad de cualquier otro suceso A , se puede obtener a partir de las probabilidades de los sucesos de la partición y de las probabilidades de A condicionado a los sucesos de la partición, de la manera siguiente: \\[ P(A)=\\sum_{i=1}^{n} P\\left(A / H_{i}\\right) \\cdot P\\left(H_{i}\\right) \\] Esto es lo que se conoce como teorema de las probabilidades totales. 1.8.2 Teorema de Bayes Es una consecuencia del teorema de las probabilidades totales. Sea \\(\\Omega\\) el conjunto total formado por una partición (colección de sucesos con intersección vacía dos a dos). \\[ \\Omega=H_{1} \\cup \\ldots \\ldots \\cup H_{n} \\] Ahora el interés se centrará en la obtención de la probabilidad de cualquier suceso de la partición condicionada a un suceso A cualquiera. El resultado será: \\[ P\\left(\\mathrm{H}_{\\mathrm{i}} / \\mathrm{A}\\right)=\\frac{\\mathrm{P}\\left(\\mathrm{A} / \\mathrm{H}_{\\mathrm{i}}\\right) \\cdot \\mathrm{P}\\left(\\mathrm{H}_{\\mathrm{i}}\\right)}{\\sum_{i=1}^{n} \\mathrm{P}\\left(\\mathrm{A} / \\mathrm{H}_{\\mathrm{i}}\\right) \\cdot \\mathrm{P}\\left(\\mathrm{H}_{\\mathrm{i}}\\right)} \\] Esto es conocido como teorema o regla de Bayes. 1.9 Introducción a los experimentos múltiples Supongamos que tiramos a la vez un dado y una moneda. Tenemos una experiencia múltiple, puesto que la experiencia que se realiza es la composición de dos experiencias (experiencia \\(1=\\) tirar un dado regular; experiencia 2 = tirar una moneda regular). ¿Cuál es en este caso el conjunto de resultados? Si \\(\\Omega_{1}\\) es el conjunto de resultados asociado con la experiencia tirar un dado y \\(\\Omega_{2}\\) es el conjunto de resultados asociado con la experiencia tirar una moneda, el conjunto de resultados asociado a la experiencia múltiple será \\(\\Omega_{1} \\times \\Omega_{2}\\). Es decir, \\(\\Omega_{1}=\\{1,2,3,4,5,6\\}\\) \\(\\Omega_{2}=\\{\\) cara, cruz \\(\\}\\) \\(\\Omega_{1} \\times \\Omega_{2}=\\{(1\\), cara \\(),(2\\), cara \\(),(3\\), cara \\(),(4\\), cara \\(),(5\\), cara \\(),(6\\), cara \\(),(1\\), cruz ), ( 2 , cruz ), ( 3, cruz ), (4, cruz \\(),(5\\), cruz \\(),(6\\), cruz \\()\\}\\) Si \\(\\mathrm{P}_{1}\\) y \\(\\mathrm{P}_{2}\\) son, respectivamente, las funciones de probabilidad asociadas a las experiencias 1 y 2 , ¿es posible calcular probabilidades de la experiencia múltiple a partir de \\(\\mathrm{P}_{1}\\) y \\(\\mathrm{P}_{2}\\) ? Efectivamente! Pero hemos de distinguir dos situaciones: Experiencias independientes: cuando el resultado de una no influya en la otra. Experiencias dependientes: cuando el resultado de una influya en la otra. En nuestro caso se trata de experiencias independientes, puesto que el resultado que se obtenga al tirar el dado no influye sobre el resultado que se obtenga al lanzar la moneda y al revés. ¿Como se calculan, pues, las probabilidades de la experiencia múltiple? Sea un suceso de la experiencia múltiple: A x B. Caso de experiencias independientes: \\[ \\mathrm{P}(\\mathrm{A} \\times \\mathrm{B})=\\mathrm{P}_{1}(\\mathrm{~A}) \\times \\mathrm{P}_{2}(\\mathrm{~B}) \\] Caso de experiencias dependientes: \\[ \\mathrm{P}(\\mathrm{A} \\times \\mathrm{B})=\\mathrm{P}_{1}(\\mathrm{~A}) \\times \\mathrm{P}_{2}(\\mathrm{~B} / \\mathrm{A}) \\] Entendemos que existe una \\(\\mathrm{P}_{2}\\) para cada suceso A . Esto que hemos explicado se puede, lógicamente, generalizar a una experiencia múltiple formada por \\(n\\) experiencias. 1.10 Combinatoria Veamos algunas fórmulas simples que se utilizan en combinatoria y que nos pueden ayudar a calcular el número de casos posibles o el número de casos favorables. 1.10.1 Permutaciones Sea un conjunto de \\(n\\) elementos. A las ordenaciones que se pueden hacer con estos \\(n\\) elementos \\(\\sin\\) repetir ningún elemento y utilizándolos todos se las denomina permutaciones. El número de permutaciones que se pueden realizar coincide con el factorial de \\(n\\), y su cálculo es: \\[ n!=n \\cdot(n-1) \\cdot(n-2) \\ldots \\ldots .2 \\cdot 1 \\] Ejemplo: ¿De cuántas maneras distintas podemos alinear a seis personas en una fila? Respuesta De \\(6!=6 \\cdot 5 \\cdot 4 \\cdot 3 \\cdot 2 \\cdot 1=720\\) maneras (permutaciones de 6 elementos). 1.10.2 Variaciones Sea un conjunto de \\(n\\) elementos. Supongamos que deseamos ordenar \\(r\\) elementos de entre los \\(n\\). A cada una de estas ordenaciones la denominamos variación. El número de variaciones que se pueden hacer de los \\(n\\) elementos tomados de \\(r\\) en \\(r\\) es: \\[ V_{n}^{r}=n \\cdot(n-1) \\ldots \\ldots(n-r+1) \\] Ejemplo En una carrera de velocidad compiten diez atletas. ¿De cuántas maneras distintas podría estar formado el podio? (el podio lo forman el primer, el segundo y el tercer clasificado) Respuesta Cada podio posible es una variación de diez elementos tomado de tres en tres. Por tanto, el número posible de podios es: \\[ \\mathrm{V}_{10}^{3}=10.9 .8=720 \\] 1.10.3 Variaciones con repetición Sea un conjunto de \\(n\\) elementos. Supongamos que se trata de ordenar \\(r\\) elementos que pueden estar repetidos. Cada ordenación es una variación con repetición. El número de variaciones con repetición para un conjunto de \\(n\\) tomados de \\(r\\) en \\(r\\) es : \\[ \\mathrm{RV}_{\\mathrm{n}}^{\\mathrm{r}}=\\mathrm{n}^{\\mathrm{r}} \\] Ejemplo En una urna tenemos cinco bolas numeradas del 1 al 5 . Se extraen tres bolas sucesivamente con reposición (devolviendo cada vez la bola a la urna). ¿Cuántos resultados distintos es posible obtener? Respuesta: Se trata de variaciones con repetición de un conjunto de cinco bolas tomadas de tres en tres. En total tendremos: \\[ \\mathrm{RV}_{5}^{3}=5^{3}=125 \\] 1.10.4 Combinaciones Cuando se trata de contar el número de subconjuntos de \\(x\\) elementos en un conjunto de \\(n\\) elementos tenemos lo que se denomina combinaciones de x elementos en un conjunto de n . El cálculo del contaje se hace mediante el número combinatorio, de la manera siguiente: \\[ \\mathrm{C}_{\\mathrm{n}}^{\\mathrm{x}}=\\binom{n}{\\mathrm{x}}=\\frac{\\mathrm{n!}}{\\mathrm{x}!.(\\mathrm{n}-\\mathrm{x})!} \\] Ejemplo ¿De cuántas maneras podemos elegir, en la urna anterior (recordemos que había cinco bolas), tres bolas en una única extracción? Respuesta Serán combinaciones de cinco elementos tomados de tres en tres, por tanto, tendremos: \\[ \\mathrm{C}_{5}^{3}=\\binom{5}{3}=\\frac{5!}{3!(5-3)!}=10 \\] 1.10.5 Permutaciones con repetición Sea un conjunto de \\(n\\) elementos, de entre los cuales tenemos \\(a\\) elementos indistinguibles entre sí, \\(b\\) elementos indistinguibles entre sí, \\(c\\) elementos indistinguibles entre sí, etc. Cada ordenación de estos elementos se denominará permutación con repetición. El número de permutaciones con repetición es: \\[ R P{ }_{n}^{a, b, c, \\ldots}=\\frac{n!}{a!b!c!\\ldots} \\] Ejemplo ¿Cuantas palabras con sentido o sin él pueden formarse con las letras PATATA? Respuesta: Tenemos tres veces la letra A, dos veces la T y una vez la P. Por tanto, serán: \\[ \\mathrm{RP}_{6}^{3,2,1}=\\frac{6!}{3!2!!}=60 \\] 1.11 Frecuencia relativa y probabilidad La definición moderna de probabilidad basada en la axiomática de Kolmogorov (presentada anteriormente) es relativamente reciente. Históricamente hubo otros intentos previos de definir el escurridizo concepto de probabilidad, descartados por diferentes razones. Sin embargo conviene destacar aquí algunas ideas que aparecen en la antigua definición basada en la frecuencia relativa, ya que permiten intuir algunas profundas propiedades de la probabilidad. Recordemos antes que si en un experimento que se ha repetido \\(n\\) veces un determinado suceso A se ha observado en \\(k\\) de estas repeticiones, la frecuencia relativa \\(\\mathrm{f}_{\\mathrm{r}}\\) del suceso A es: \\[ \\mathrm{f}_{\\mathrm{r}}=k / n \\] El interés por la frecuencia relativa y su relación con el concepto de probabilidad aparece a lo largo de los siglos XVIII a XX al observar el comportamiento de numerosas repeticiones de experimentos reales. A título de ejemplo de un experimento de este tipo, supongamos que se dispone de una moneda ideal perfectamente equilibrada. Aplicando directamente la regla de Laplace resulta claro que el suceso \\(\\mathrm{A}=\\) obtener cara tiene probabilidad: \\[ \\mathrm{p}(\\mathrm{A})=1 / 2=0,5 \\] ### Ilustración por simulación En el enlace siguiente se accede a una simulación por ordenador de la ley de los grandes números en la que se basa precisamente la idea de asimilar “a la larga” (es decir a medida que crece el número de repeticiones) frecuencia relativa y probabilidad. Enlace a la simulación En la simulación podéis definir: La verdadera probabilidad” de que al tirar la moneda salga cara, EL número de tiradas. Como podréis comprobar, sea cual sea la probabilidad (una moneda justa es un 0.5) a la larga la frecuencia relativa converge hacia el valor que habéis fijado. Eso sí, observad lo que sucede si fijais probabilidades cercanas a 0.5 o muy alejadas de ell. ¿La idea de lo que sucede a la larga es la misma? ¿En que encontráis diferencias? Aunque no deje de llamar la atención el carácter errático del comportamiento de \\(\\mathrm{f}_{\\mathrm{r}}\\) entre los valores 0 y 1, estaréis seguramente de acuerdo que a mayor número de lanzamientos \\(n\\), más improbable es que \\(f_{r}\\) se aleje mucho de \\(p(A)\\). La teoría moderna de la probabilidad enlaza formalmente estas ideas con el estudio de las leyes de los grandes números, que se discutiran con más detalle en el capítulo dedicado a las “Grandes muestras”. 1.12 Caso de Estudio: Eficacia de una prueba diagnóstica Para decidir la presencia(E) o ausencia (A) de sordera profunda a la edad de seis meses, se está ensayando una batería de tests. Considerando el caso en que la prueba pueda dar positivo \\((+)\\) o negativo \\((-)\\), hay que tener en cuenta que en individuos con dicha sordera la prueba dará a veces positivo y a veces negativo, e igual ocurrirá con individuos que no presentan la sordera. En este contexto todas las probabilidades pueden ser interpretadas en terminos de resultados positivos o neghativos, correctamente o no y cada una ha recibe un nombre que la ha popularizado dentro de la literatura médica: Así tenemos: \\(\\mathrm{P}(+/ \\mathrm{E})\\) Probabilidad de test positivo en individuos que padecen la sordera. Este valor se conoce como sensibilidad del test. \\(\\mathrm{P}(+/ \\mathrm{A})=\\) Probabilidad de test positivo en individuos que no padecen la sordera. Este valor se conoce como probabilidad de falso-positivo. \\(\\mathrm{P}(-/ \\mathrm{E})=\\) Probabilidad de test negativo en individuos que padecen la sordera Este valor se conoce como probabilidad de falso-negativo. \\(P(-/ A)=\\) Probabilidad de test negativo en individuos que no padecen sordera. Este valor se conoce como especificidad del test. Finalmente a la probabilidad, \\(\\mathrm{P}(\\mathrm{E})\\), de presentar la enfermedad se le conoce como prevalencia de la enfermedad. Lógicamente, en un “buen test” nos interesa que la sensibilidad y la especificidad sean elevadas, mientras que los falsos-positivos y falsos-negativos sean valores bajos. Además no debemos olvidar que, el interés de aplicar el test, consiste en que sirva de elemento predictivo para diagnosticar la sordera. Por lo tanto, interesa que las probabilidades: \\(\\mathrm{P}(\\mathrm{E} /+)=\\) Probabilidad de padecer sordera si el test da positivo \\(\\mathrm{P}(\\mathrm{A} /-)=\\) Probabilidad de no padecer sordera si el test da negativo sean realmente altas. A las probabilidades anteriores se las conoce como: valores predictivos del test, en concreto: \\(\\mathrm{P}(\\mathrm{E} /+)=\\) es el valor predictivo positivo y \\(\\mathrm{P}(\\mathrm{A} /-)=\\) es el valor predictivo negativo 1.12.1 Aplicación del Teorema de Bayes Estamos en una situación en que, a partir de conocimiento de unas probabilidades, nos interesa calcular otras, para lo que utilizaremos el teorema de Bayes. Habitualmente, a partir de estudios epidemiológicos y muestras experimentales, se estiman: La prevalencia La sensibilidad del test La especificidad del test La probabilidad de falso positivo La probabilidad de falso negativo ¿Cómo se obtiene entonces el valor predictivo del test? Veamos como aplicar el teorema de Bayes a este problema: Si dividimos a la población global (en este caso, el conjunto de todos los bebés de seis meses) entre los que padecen sordera y los que no la padecen, aplicando el teorema de Bayes resulta que: \\[ \\mathrm{P}(\\mathrm{E} /+)=(\\mathrm{P}(+/ \\mathrm{E}) \\times \\mathrm{P}(\\mathrm{E})) /(\\mathrm{P}(+/ \\mathrm{E}) \\times \\mathrm{P}(\\mathrm{E})+\\mathrm{P}(+/ \\mathrm{A}) \\times \\mathrm{P}(\\mathrm{~A})) \\] y \\[ \\mathrm{P}(\\mathrm{~A} /-)=(\\mathrm{P}(-/ \\mathrm{A}) \\times \\mathrm{P}(\\mathrm{~A})) /(\\mathrm{P}(-/ \\mathrm{A}) \\times \\mathrm{P}(\\mathrm{~A})+\\mathrm{P}(-/ \\mathrm{E}) \\times \\mathrm{P}(\\mathrm{E})) \\] 1.12.2 Ejemplo numérico Supongamos que en el ejemplo de la sordera, se sabe que: Prevalencia \\(=0,003\\), Es decir, que un tres por mil padece sordera profunda a esta edad. Sensibilidad \\(=0,98\\) Especificidad \\(=0,95\\) Probabilidad de falso positivo \\(=0,05\\) Probabilidad de falso negativo \\(=0,02\\) ¿Cuál es el valor predictivo del test? \\[ \\begin{aligned} & \\mathrm{P}(\\mathrm{E} /+)=(0,98 \\times 0,003) /(0,98 \\times 0,003+0,05 \\times 0,997)=0,00294 / 0,05279=0,055692 \\\\ & \\mathrm{P}(\\mathrm{~A} /-)=(0,95 \\times 0,997) /(0,95 \\times 0,997+0,02 \\times 0,003)=0,94715 / 0,94721=0,999936 \\end{aligned} \\] En conclusión, Podemos afirmar que se trata de un test muy válido para decidir que no hay sordera en caso de que el resultado del test sea negativo. Sin embargo, el valor tan bajo de \\(\\mathrm{P}(\\mathrm{E} /+)\\) no permite poder considerar al test como un predictor válido para diagnosticar la sordera. Obsérvese que: Probabilidad de falso positivo \\(=1-\\) especificidad Probabilidad de falso negativo \\(=1-\\) sensibilidad "],["variables-aleatorias-y-distribuciones-de-probabilidad.html", "Capítulo 2 Variables aleatorias y Distribuciones de probabilidad 2.1 El espacio muestral y sus elementos 2.2 Representación numérica de los sucesos elementales. Variables aleatorias 2.3 Caracterización de una variable aleatoria a través de la probabilidad. Función de distribución 2.4 Propiedades de la función de distribución 2.5 Clasificación de las variables aleatorias 2.6 Variable aleatoria discretas 2.7 Variables aleatorias continuas 2.8 Caracterización de una variable aleatoria a través de parámetros 2.9 Esperanza de una variable aleatoria discreta 2.10 Esperanza de una variable aleatoria continua 2.11 Propiedades de la esperanza matemática 2.12 Varianza de una variable aleatoria 2.13 Momentos (de orden \\(k\\)) de una variable aleatoria 2.14 Definición formal de variable aleatoria 2.15 Caso práctico: Lanzamiento de dos dados", " Capítulo 2 Variables aleatorias y Distribuciones de probabilidad En el capítulo anterior hemos introducido el concepto de probabilidad y como calcular probabilidades asociadas a sucesos observables, formados por uno o mas sucesos elementales, resultado de un experimento aleatorio. En muchas ocasiones nos interesa representar los resultados de un experimento aleatorio mediante un valor numérico que lo caracterice. Por ejemplo si tiramos tres monedas y contamos el número de caras, nos será indiferente cuando salgan dos caras, en que monedas ha salido una cara y en cual ha salido una cruz. En la práctica, esto significa que en dichas ocasiones, aunque haya un experimento aleatorio detras de los valores que observamos, tan sólo nos interesan los resultados que expresamos a traves de valores numéricos. Las variables aleatorias son la forma que hemos desarrollado para trasladar la estructura proporcionada por los espacios de probabilidad el espacio muestral, el conjunto de sucesos elementales, al conjunto de los números, en concreto a la recta real, haciéndolo de tal forma que podamos seguir calculando probabilidades de sucesos observables. En este capítulo veremos que las variables aleatorias permiten pues transportar la probabilidad del espacio de probabilidad original a la recta real. Para ello, introduciremos una función que es la que se ocupa de ello, la función de distribución de probabilidad. 2.1 El espacio muestral y sus elementos Cuando llevamos a cabo un experimento aleatorio, el conjunto \\(\\Omega\\) de resultados posibles forman el denominado espacio muestral. Sus elementos \\(\\omega\\) (resultados o sucesos elementales) deben ser conocidos por el investigador que realiza la experiencia, aun cuando no podamos determinar a priori el resultado particular de una realización concreta. Supondremos que también conocemos la manera de asignar una probabilidad sobre el conjunto de enunciados o sucesos observables que se pueden construir a partir de \\(\\Omega\\). Es decir, supondremos la existencia de un espacio de probabilidad construido a partir de los resultados de \\(\\Omega\\). Generalmente, la estructura del espacio muestral no permite, o por lo menos no facilita, su tratamiento matemático. Pensemos en la inmensa variedad en la naturaleza de resultados posibles de diferentes experimentos. Además es bastante frecuente que no nos interesen los resultados en sí, sino una característica que, de alguna manera, resuma el resultado del experimento. 2.2 Representación numérica de los sucesos elementales. Variables aleatorias La forma de resumen que adoptaremos es la asignación a cada suceso elemental de un valor numérico, en particular, de un número real. En la práctica la asignación de un valor numérico a cada elemento del espacio muestral se hace siguiendo una regla o enunciado, según el interés concreto del experimentador. Evidentemente, podemos construir diversas maneras de asignar valores numéricos a los mismos resultados de un experimento. Hablando en términos coloquiales, podemos decir que cada regla de asignación corresponde a una determinada variable que se puede medir sobre los sucesos elementales. Nótese que es posible construir múltiples variables sobre un mismo espacio de probabilidad. En términos algo más formales, las reglas de asignación se pueden interpretar como una aplicación de \\(\\Omega\\) en el conjunto de números reales. \\[ \\begin{aligned} X: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow X(\\omega) \\end{aligned} \\] \\(X\\) representa la variable o regla de asignación concreta. El conjunto de valores numéricos que puede tomar una variable, y que depende de la naturaleza de la misma variable, recibe el nombre de recorrido de la variable. A partir de este momento, los sucesos elementales quedan substituidos por sus valores numéricos de acuerdo a una determinada variable y permiten un mayor tratamiento matemático en el marco de la teoría de la probabilidad. El apelativo aleatoria que reciben las variables hace referencia al hecho de que los posibles valores que toman dependen de los resultados de un fenómeno aleatorio que se presentan con una determinada probabilidad. Como un complemento al tema, al final del capítulo, presentamos la definición formal de variable aleatoria, donde se introducen las restricciones a las reglas de asignación numérica que posibilitan el tratamiento matemático de las variables. 2.3 Caracterización de una variable aleatoria a través de la probabilidad. Función de distribución Una vez que tenemos definida una variable aleatoria, ésta queda totalmente caracterizada en el momento en que somos capaces de determinar la probabilidad de que la variable tome valores en cualquier intervalo de la recta real. Dado que los posibles valores que puede tomar la variable, es decir, su recorrido, pueden ser muy grandes (infinitos de hecho), el problema de caracterizar una variable aleatoria se resuelve introduciendo una función especial, la función de distribución. Definición La función de distribución de una variable aleatoria \\(X\\) es la aplicación que, a cada punto de la recta real, le asigna la probabilidad del suceso formado por los resultados del experimento que tienen asignado un valor de la variable aleatoria menor o igual a dicho punto. \\[ \\begin{array}{rll} F: & \\mathbb{R} & \\rightarrow[0,1] \\\\ & x & \\rightarrow F(x)=P(X \\leq x)=P\\{\\omega \\in \\Omega \\mid X(\\omega) \\leq x\\} \\end{array} \\] También podemos decir que es la probabilidad inducida en el intervalo de la recta \\((-\\infty, x]\\) Hay que hacer notar que siempre será posible determinar dicha probabilidad gracias a los requerimientos exigidos en la definición formal de variable aleatoria. Por tanto, toda variable aleatoria tiene asociada una función de distribución. Nos referimos a esta función cuando decimos que conocemos la distribución de la variable aleatoria. 2.4 Propiedades de la función de distribución La forma en que hemos definido las funciones de distribución determina que dichas funciones deban de tener las siguientes propiedades: \\(0 \\leq F(x) \\leq 1. \\quad\\) Efectivamente, se trata de una probabilidad, por lo que toma valores entre 0 y 1 \\(\\lim _{x \\rightarrow+\\infty} F(x)=1. \\quad\\) A medida que un valor se hace más y más grande, la probabilidad de encontrar valores anteriores a él crece y, en el límite, valdrá uno (el valor máximo para una probabilidad). \\(\\lim _{x \\rightarrow-\\infty} F(x)=0. \\quad\\) A medida que un valor se hace más y más negativo, la probabilidad de encontrar valores anteriores a él disminuye, y en el límite es cero (el valor mínimo para una probabilidad). \\(x_{1}<x_{2} \\Rightarrow F\\left(x_{1}\\right) \\leq F\\left(x_{2}\\right). \\quad\\) Por construcción, es una función monótona, es decir, si un valor es inferior a otro, la probabilidad de encontrar valores inferiores al menor de los dos será menor o igual que la de encontrarlos inferiores al mayor de los dos. \\(\\lim _{x \\rightarrow a^{+}} F(x)=F(a) \\quad \\forall a \\in \\mathbb{R}. \\quad\\) Por la forma en que se ha definido, la función de distribución es contínua por la derecha. Toda función que verifique las propiedades anteriores es una función de distribución y toda función de distribución caracteriza una determinada variable aleatoria sobre algún espacio de probabilidad. Las propiedades anteriores determinan la forma de la función de distribución. En concreto, según la variable sea contínua o discreta, conceptos definidos a continuación en el capítulo, la forma de la función será: : Primer tipo (Variables contínuas) Segundo tipo (variables discretas) 2.5 Clasificación de las variables aleatorias Para su estudio, las variables aleatorias se clasifican en variables discretas o variables contínuas. 2.5.1 Variables aleatorias discretas Definición: Variable aleatoria discreta Diremos que una variable aleatoria es discreta si su recorrido, es decir, el conjunto de valores que puede tomar, es finito o infinito numerable. Generalmente, este tipo de variables van asociadas a experimentos en los cuales se cuenta el número de veces que se ha presentado un suceso o donde el resultado es una puntuación concreta. Los puntos del recorrido se corresponden con saltos en la gráfica de la función de distribución, que correspondería al segundo tipo de gráfica visto anteriormente. 2.5.2 Variables aleatorias continuas Definición: Variable aleatoria contínua Diremos que una variable aleatoria es continua si su función de distribución es una función continua. También puede definirse, de forma análoga a las variables discretas como aquellas cuyo recorrido, es decir, el conjunto de valores que puede tomar, es un intervalo o subconjunto no numerable de los números reales. En otras palabras, aquellas que pueden tomar cualquier valor dentro de un rango continuo, sin saltos entre los valores posibles. Se corresponde con el primer tipo de gráfica visto. Generalmente, se corresponden con variables asociadas a experimentos en los cuales la variable medida puede tomar cualquier valor en un intervalo; mediciones biométricas, por ejemplo. Un caso particular dentro de las variables aleatorias continuas y al cual pertenecen todos los ejemplos usualmente utilizados, son las denominadas variables aleatorias absolutamente continuas. Definición: Distribución absolutamente contínua Diremos que una variable aleatoria \\(X\\) continua tiene una distribución absolutamente continua si existe una función real \\(f\\), positiva e integrable en el conjunto de números reales, tal que la función de distribución \\(F\\) de \\(X\\) se puede expresar como \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] Una variable aleatoria con distribución absolutamente continua, por extensión, se la clasifica como variable aleatoria absolutamente continua. Definición: función de densidad de probabilidad A la función \\(f\\) se la denomina función de densidad de probabilidad de la variable \\(X\\). Hay que hacer notar que no toda variable continua es absolutamente continua, pero los ejemplos son complicados, algunos utilizan para su construcción el conjunto de Cantor, y quedan fuera del nivel y del objetivo de este curso. Igualmente indicaremos que los tipos de variables comentados anteriormente forman únicamente una parte de todos los posibles tipos de variables, sin embargo contienen prácticamente todas las variables aleatorias que encontramos usualmente. Tal como se estudiará más adelante, existen algunas familias de funciones de distribución, tanto dentro del grupo de las discretas como de las continuas, que por su importancia reciben un nombre propio y se estudiarán en los capítulos siguientes. En ocasiones encontramos variables de tipo mixto, es decir que se comportan como discretas o contínuas para distintos grupos de valores. 2.6 Variable aleatoria discretas Tal como se ha definido, una variable aleatoria \\(X\\) discreta toma valores en un conjunrto finito o numerables. Indicaremos el recorrido de la variable \\(X\\) como: \\(\\left\\{x_{1}, x_{2}, \\ldots, x_{\\mathrm{k}}, \\ldots\\right\\}\\). El ejemplo más sencillo de variable aleatoria discreta lo constituyen las variables indicadoras. Sea \\(A\\) un suceso observable, se llama indicador de \\(A\\) a la variable aleatoria definida por \\[ \\begin{aligned} I_{A}: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow I_{A}(\\omega)=\\left\\{\\begin{array}{lll} 1 & \\text { si } \\omega \\in A \\\\ 0 & \\text { si } & A \\end{array}\\right. \\end{aligned} \\] 2.6.0.1 Ejercicio propuesto Construir, a partir de las variables indicadoras de \\(A\\) y \\(B\\), las siguientes variables indicadoras \\[ I_{A \\cap B} ; I_{A \\cup B} ; I_{A} c ; I_{\\Omega} \\] 2.6.0.1.1 Solución \\[ \\begin{gathered} I_{A \\cap B}=I_{A} \\cdot I_{B} \\\\ I_{A \\cup B}=I_{A}+I_{B}-I_{A \\cap B} \\\\ I_{A} c=1-I_{A} \\\\ \\Omega=1 \\end{gathered} \\] 2.6.1 Caracterización de las v.a. discretas Una variable aleatoria discreta puede caracterizarse a través de la función que asocia cada elemento del recorrido su probabilidad. Dicha función recibe varios nombres según los autores: - función de probabilidad - ley de probabilidad, - función de densidad de la variable aleatoria discreta. - función de masa de probabilidad. Aunque es habitual encontrar, en muchos libros el término función de densidad para variables (absolutamente) contínuas y el término función de masa de probabilidad para variables discretas, también lo es referirse a ambas como “función de densidad”. La función de probabilidad de una variable discreta se puede representar de la manera siguiente: \\[ \\begin{array}{rll} f: & \\mathbb{R} & \\rightarrow[0,1] \\\\ & x & \\rightarrow f(x)=P(X=x)=P\\{\\omega \\in \\Omega \\mid X(\\omega)=x\\} \\end{array} \\] Obsérvese que, a diferencia de la función de distribución que toma valores para cualquier valor real, la función definida anteriormente es nula en todo punto que no pertenezca al recorrido. En cambio, siguiendo con la análogía, y dado que se trata de una probabilidad, la función de densidad discreta está acotada \\(0 \\leq f(x) \\leq 1\\). Toda función de densidad discreta puede expresarse de manera explícita a través de una tabla que asocie directamente puntos del recorrido con sus probabilidades. Ejemplo: Función de densidad de una variable indicadora Consideremos la variable indicadora del suceso \\(A\\) : \\[ \\begin{aligned} I_{A}: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow I_{A}(\\omega)=\\left\\{\\begin{array}{lll} 1 & \\text { si } & \\omega \\in A \\\\ 0 & \\text { si } & A \\end{array}\\right. \\end{aligned} \\] La función de densidad de esta variable sería la siguiente: \\(x\\) 0 1 \\(f(x)=P(X=x)\\) \\(1-P(A)=P\\left(A^{\\mathrm{c}}\\right)\\) \\(P(A)\\) El recorrido está formado por dos valores: 1 y 0 , con las mismas probabilidades que las del suceso \\(A\\) y su complementario, respectivamente. En muchos casos será posible expresar la función de probabilidadmediante una fórmula matemática que define una regla de asignación de probabilidades para los valores del recorrido. Ejemplo: Un modelo matemático para la función de probabilidad \\[ P(X=x)=0,2 \\cdot 0,8^{x-1}, \\quad x=1,2, \\ldots \\] es la función de densidad de una variable aleatoria discreta con recorrido numerable. 2.6.2 Propiedades de la función de densidad discreta \\[ 0 \\leq f(x) \\leq 1 \\] \\(\\sum_{i=1}^{n} f\\left(x_{i}\\right)=1\\), si el recorrido es finito. \\(\\sum_{i=1}^{\\infty} f\\left(x_{i}\\right)=1\\), si el recorrido es numerable. 2.6.3 Relaciones entre la función de distribución y la función de densidad discreta. Probabilidad de intervalos. Existe una relación muy importante entre las funciones de distribución \\(F(x)\\) y de densidad \\(f(x)\\) de una variable aleatoria discreta. La función de distribución en un punto se obtiene acumulando el valor de la función de densidad para todos los valores del recorrido menores o iguales al punto en cuestión. \\[ F(x)=\\sum_{x_{i} \\leq x} f\\left(x_{i}\\right) \\quad \\text { para todo } \\mathrm{x}_{\\mathrm{i}} \\text { perteneciente al recorrido de la variable. } \\] En efecto, supongamos que el recorrido de una variable discreta \\(X\\) es \\(\\left\\{x_{1}, x_{2}, \\ldots, x_{k}, \\ldots\\right\\}\\) y que deseamos conocer el valor de la función de distribución en un punto \\(x\\) tal que \\(x_{i} \\leq x<x_{i+1}\\), entonces es inmediato que \\[ F(x)=P(X \\leq x)=P\\left(X=x_{1}\\right)+P\\left(X=x_{2}\\right)+\\ldots+P\\left(X=x_{i}\\right)=f\\left(x_{1}\\right)+f\\left(x_{2}\\right)+f\\left(x_{3}\\right)+\\ldots+f\\left(x_{i}\\right) \\] Por ejemplo, para una variable indicadora de un suceso \\(A\\), tenemos la relación siguiente: Valor de \\(\\boldsymbol{x}\\) \\(\\boldsymbol{f}(\\boldsymbol{x})\\) \\(\\boldsymbol{F}(\\boldsymbol{x})\\) \\((-\\infty, 0)\\) 0 0 \\(P\\left(A^{c}\\right)\\) \\(P\\left(A^{\\mathrm{c}}\\right)\\) \\((0,1)\\) \\(P\\left(A^{\\mathrm{c}}\\right)\\) 1 \\(P(A)\\) \\(P\\left(A^{\\mathrm{c}}\\right)+P(A)=1\\) \\((1,+\\infty)\\) 1 A partir de las funciones de densidad y de distribución es posible expresar las probabilidades para cualquier posible intervalo de valores de la variable. Por ejemplo: Intervalo \\(P(X \\leq a)=F(a)\\) \\(P(X<a)=F(a)-f(a)\\) \\(P(X>a)=1-F(a)=1-P(X \\leq a)\\) \\(P(X \\geq a)=1-F(a)+f(a)=1-P(X>a)\\) \\(P(a<X \\leq b)=F(b)-F(a)\\) \\(P(a<X<b)=F(b)-f(b)-F(a)\\) \\(P(a \\leq X \\leq b)=F(b)-F(a)+f(a)\\) \\(P(a \\leq X<b)=F(b)-f(b)-F(a)+f(a)\\) 2.7 Variables aleatorias continuas Una variable aleatoria \\(X\\) diremos que es continua si su función de distribución es una función continua. En la práctica, se corresponden con variables asociadas con experimentos en los cuales la variable medida puede tomar cualquier valor en un intervalo: mediciones biométricas, intervalos de tiempo, áreas, etc. Ejemplo: Variables aleatorias continuas Resultado de un generador de números aleatorios entre 0 y 1. Es el ejemplo más sencillo que podemos considerar, es un caso particular de una familia de variables aleatorias que tienen una distribución uniforme en un intervalo \\([a, b]\\). Se corresponde con la elección al azar de cualquier valor entre \\(a\\) y \\(b\\). Estatura de una persona elegida al azar en una población. El valor que se obtenga será una medición en cualquier unidad de longitud ( m , cm , etc.) dentro de unos límites condicionados por la naturaleza de la variable. El resultado es impredecible con antelación, pero existen intervalos de valores más probables que otros debido a la distribución de alturas en la población. Más adelante veremos que, generalmente, variables biométricas como la altura se adaptan un modelo de distribución denominado distribución Normal y representado por una campana de Gauss. Dentro de las variables aleatorias continuas tenemos las variables aleatorias absolutamente continuas. Diremos que una variable aleatoria \\(X\\) continua tiene una distribución absolutamente continua si existe una función real \\(f\\), positiva e integrable en el conjunto de números reales, tal que la función de distribución \\(F\\) de \\(X\\) se puede expresar como \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] Una variable aleatoria con distribución absolutamente continua, por extensión, se clasifica como variable aleatoria absolutamente continua. En cuanto a nuestro manual, todas las variables aleatorias continuas con las que trabajemos pertenecen al grupo de las variables absolutamente continuas, en particular, los ejemplos y casos expuestos. 2.7.1 Función de densidad continua La función que caracteriza las variables continuas es aquella función \\(f\\) positiva e integrable en los reales, tal que acumulada desde \\(-\\infty\\) hasta un punto \\(x\\), nos proporciona el valor de la función de distribución en \\(x, F(\\mathrm{x})\\). Recibe el nombre de función de densidad de la variable aleatoria continua. \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] Las funciones de densidad discreta y continua tienen, por tanto, un significado análogo, ambas son las funciones que acumuladas (en forma de sumatorio en el caso discreto o en forma de integral en el caso continuo) dan como resultado la función de distribución. La diferencia entre ambas, sin embargo, es notable. La función de densidad discreta toma valores positivos únicamente en los puntos del recorrido y se interpreta como la probabilidad de la que la variable tome ese valor \\(f(x)=P(X=x)\\). La función de densidad continua toma valores en el conjunto de números reales y no se interpreta como una probabilidad. No está acotada por 1, puede tomar cualquier valor positivo. Es más, en una variable continua se cumple que probabilidades definidas sobre puntos concretos siempre son nulas. \\[ P(X=x)=0 \\text { para todo } x \\text { real. } \\] ¿Cómo se interpreta, entonces, la función de densidad continua? Las probabilidades son las áreas bajo la función de densidad. El área bajo la función de densidad entre dos puntos a y b se interpreta como la probabilidad de que la variable aleatoria tome valores comprendidos entre \\(a\\) y \\(b\\). Por tanto, siempre se cumple lo siguiente: \\[ \\int_{-\\infty}^{+\\infty} f(x) d x=1 \\] La función de densidad se expresa a través de una función matemática. La forma específica de la función matemática generalmente pasa por considerar a la variable aleatoria como miembro de una determinada familia de distribuciones, un determinado modelo de probabilidad. Estas familias generalmente dependen de uno o más parámetros y serán objeto de un estudio específico en un capítulo posterior. La atribución a una determinada familia depende de la naturaleza de la variable en cuestión. Podemos ver, únicamente con ánimo ilustrativo, la expresión analítica y la gráfica para los ejemplos comentados con anterioridad: Resultado de un generador de números aleatorios entre \\(\\boldsymbol{a}\\) y \\(\\boldsymbol{b}\\). Modelo Uniforme. \\(f(x)=\\left\\{\\begin{array}{cc}\\frac{1}{b-a} & x \\in[a, b] \\\\ 0 & x \\notin[a, b]\\end{array}\\right\\}\\) Estatura de una persona elegida al azar en una población. Modelo Normal. \\[ f(x)=\\frac{1}{\\sqrt{2 \\pi}} e^{\\frac{-(x-170)^{2}}{2}}-\\infty<x<\\infty \\] 2.7.2 Relaciones entre la función de distribución y la función de densidad. Para una variable continua, la relación entre las funciones de distribución y de densidad viene dada directamente a través de la definición. La función de distribución en un punto se obtiene integrando el valor de la función de densidad desde menos infinito hasta el punto en cuestión. Por ejemplo: \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] 2.7.2.1 Probabilidad de intervalos A partir de las funciones de densidad y de distribución, y teniendo en cuenta que \\(P(X=x)=0\\) para todo \\(x\\) real, es posible expresar las probabilidades para cualquier posible intervalo de valores de la variable. Por ejemplo: Intervalo \\(P(X \\leq a)=P(X<a)=F(a)=\\int_{-\\infty}^{a} f(x) d x\\) \\(P(X \\geq a)=P(X>a)=1-F(a)=\\int_{a}^{+\\infty} f(x) d x\\) \\(P(a<X \\leq b)=P(a<X<b)=P(a \\leq X \\leq b)=P(a \\leq X<b)\\) \\(=F(b)-F(a)=\\int^{b} f(x) d x\\) Fijémonos que la probabilidad de los intervalos se corresponde con el área bajo la función de densidad dentro del intervalo considerado. 2.8 Caracterización de una variable aleatoria a través de parámetros Hasta el momento hemos visto que toda variable aleatoria viene caracterizada a través de unas determinadas funciones matemáticas, las funciones de distribución y de densidad. Una vez caracterizada, y por tanto conocida, la distribución de una variable aleatoria, podemos obtener cualquier probabilidad asociada. En ocasiones podemos acotar más el problema y reducir el estudio de una variable aleatoria a determinar una serie de características numéricas asociadas con la distribución de la variable. Dichas características tienen como propiedad fundamental el hecho de resumir gran parte de las propiedades de la variable aleatoria y juegan un papel muy destacado en las técnicas estadísticas que desarrollaremos a lo largo del curso. Por ejemplo, supuesta la pertenencia de una variable aleatoria a una determinada familia de distribuciones de probabilidad, bien sea discreta o continua, los diferentes miembros de la familia diferirán en el valor de esas características numéricas. En este caso, denominaremos a tales características los parámetros de la distribución. Existe un buen número de tales características, pero nos centraremos en las dos más importantes: la esperanza y la varianza. La primera nos informa sobre la localización de los valores de la variable y la segunda, sobre el grado de dispersión de estos valores. 2.9 Esperanza de una variable aleatoria discreta La esperanza matemática de una variable aleatoria es una característica numérica que proporciona una idea de la localización de la variable aleatoria sobre la recta real. Decimos que es un parámetro de centralización o de localización. Su interpretación intuitiva o significado se corresponde con el valor medio teórico de los posibles valores que pueda tomar la variable aleatoria, o también con el centro de gravedad de los valores de la variable supuesto que cada valor tuviera una masa proporcional a la función de densidad en ellos. La definición matemática de la esperanza en el caso de las variables aleatorias discretas se corresponde directamente con las interpretaciones proporcionadas en el párrafo anterior. Efectivamente, supuesta una variable aleatoria discreta \\(X\\) con recorrido \\(\\left\\{x_{1}, x_{2}, \\ldots, x_{k}, \\ldots\\right\\}\\) y con función de densidad \\(f(x)\\), se define la esperanza matemática de \\(X\\) como el valor \\[ E(X)=\\sum_{x_{i} \\in X(\\Omega)} x_{i} f\\left(x_{i}\\right) \\] donde el sumatorio se efectúa para todo valor que pertenece al recorrido de \\(X\\). En caso de que el recorrido sea infinito la esperanza existe si la serie resultante es absolutamente convergente, condición que no siempre se cumple. La definición se corresponde con un promedio ponderado según su probabilidad de los valores del recorrido y, por tanto, se corresponde con la idea de un valor medio teórico. 2.10 Esperanza de una variable aleatoria continua La idea intuitiva que más nos puede ayudar en la definición de la esperanza matemática de una variable aleatoria continua es la idea del centro de gravedad de los valores de la variable, donde cada valor tiene una masa proporcional a la función de densidad en ellos. Dada una variable aleatoria absolutamente continua \\(X\\) con función de densidad \\(f(x)\\), se define la esperanza matemática de \\(X\\) como el valor \\[ E(X)=\\int_{-\\infty}^{+\\infty} x f(x) d x \\] suponiendo que la integral exista. 2.11 Propiedades de la esperanza matemática Esperanza de una función de una variable aleatoria Variable discreta \\[ E(h(X))=\\sum_{x_{i} \\in X(\\Omega)} h\\left(x_{i}\\right) f\\left(x_{i}\\right) \\] Variable continua \\[ E(h(X))=\\int_{-\\infty}^{+\\infty} h(x) f(x) d x \\] 2.11.1 Linealidad de la esperanza matemática \\(E(X+Y)=E(X)+E(Y)\\) \\(E(k \\cdot X)=k \\cdot E(X)\\) para todo número real \\(k\\). \\(E(k)=k\\) para todo número real \\(k\\). \\(E(a \\cdot X+b)=a \\cdot E(X)+b\\) para todo par de números reales \\(a\\) y \\(b\\). 2.11.2 Esperanza del producto \\(E(X \\cdot Y)=E(X) \\cdot E(Y)\\) únicamente en el caso de que \\(X\\) e \\(Y\\) sean variables aleatorias independientes. 2.12 Varianza de una variable aleatoria La varianza de una variable aleatoria es una característica numérica que proporciona una idea de la dispersión de la variable aleatoria respecto de su esperanza. Decimos que es un parámetro de dispersión. La definición es la siguiente: \\[ \\operatorname{Var}(X)=E\\left((X-E(X))^{2}\\right) \\] Es, por tanto, el promedio teórico de las desviaciones cuadráticas de los diferentes valores que puede tomar la variable respecto de su valor medio teórico o esperanza. En el caso de las variables discretas, la expresión se convierte en: \\[ \\operatorname{Var}(X)=\\sum_{x_{i} \\in X(\\Omega)}\\left(x_{i}-E(X)\\right)^{2} f\\left(x_{i}\\right) \\] mientras que para las variables continuas tenemos: \\[ \\operatorname{Var}(X)=\\int_{-\\infty}^{+\\infty}(x-E(X))^{2} f(x) d x \\] En ambos casos existe una expresión equivalente alternativa y generalmente de cálculo más fácil: \\[ \\operatorname{Var}(X)=E\\left(X^{2}\\right)-(E(X))^{2} \\] Una de las características de la varianza es que viene expresada en unidades cuadráticas respecto de las unidades originales de la variable. Un parámetro de dispersión derivado de la varianza y que tiene las mismas unidades de la variable aleatoria es la desviación típica, que se define como la raíz cuadrada de la varianza. \\[ \\sigma_{X}=\\sqrt{\\operatorname{Var}(X)}=\\sqrt{E\\left((X-E(X))^{2}\\right)} \\] 2.12.1 Propiedades de la varianza \\(\\operatorname{Var}(X) \\geq 0\\) \\(\\operatorname{Var}(k \\cdot X)=k^{2} \\cdot \\operatorname{Var}(X)\\) para todo numero real \\(k\\). \\(\\operatorname{Var}(k)=0\\) para todo numero real \\(k\\). \\(\\operatorname{Var}(a \\cdot X+b)=a^{2} \\cdot \\operatorname{Var}(X)\\) para todo par de números reales \\(a\\) i \\(b\\). \\(\\operatorname{Var}(X+Y)=\\operatorname{Var}(X)+\\operatorname{Var}(Y)\\) únicamente en el caso que \\(X\\) y \\(Y\\) sean independientes. 2.13 Momentos (de orden \\(k\\)) de una variable aleatoria Dada una variable aleatoria \\(X\\), definimos el momento de orden \\(k\\) como: \\[ m_{k}=E\\left(X^{k}\\right) \\] suponiendo que tal esperanza exista. Podemos ver que la esperanza es el momento de orden \\(1, E(X)=m_{1}\\). Definimos el momento central de orden \\(k\\) como: \\[ \\mu_{k}=E\\left((X-E(X))^{k}\\right) \\] Con la denominación anterior, la varianza es el momento central de orden \\(2, \\operatorname{Var}(X)=\\mu_{2}\\). Es posible también definir momentos mixtos de dos variables aleatorias. Dadas dos variables aleatorias \\(X\\) e \\(Y\\) definimos el momento mixto de orden \\((r, k)\\) como \\[ m_{r k}=E\\left(X^{r} \\cdot Y^{k}\\right) \\] y el momento mixto central de orden \\((r, k)\\) como \\[ \\left.\\mu_{r k}=E(X-E(X))^{r} \\cdot(Y-E(Y))^{k}\\right) \\] El momento mixto central más importante es el \\(\\mu_{11}\\), denominado la covarianza de \\(X\\) e \\(Y\\), y con una interpretación en el sentido de cuantificar el grado de dependencia entre dos variables aleatorias, puesto que si \\(X\\) e \\(Y\\) son independientes se verifica que \\(\\mu_{11}=0\\), mientras que si \\(\\mu_{11} \\neq 0\\) entonces las variables son dependientes. 2.14 Definición formal de variable aleatoria Tal como hemos comentado, la definición formal de variable aleatoria impone una restricción matemática en la formulación vista hasta el momento. Definiremos una variable aleatoria como una aplicación de \\(\\Omega\\) en el conjunto de números reales \\[ \\begin{aligned} X: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow X(\\omega) \\end{aligned} \\] que verifique la propiedad siguiente \\[ \\forall x \\in \\mathbb{R} \\quad \\text { el conjunto } \\mathrm{A}=\\{a \\mid \\mathrm{X}(a) \\leq \\mathrm{x}\\} \\text { es un suceso observable } \\] es decir, para todo número real \\(x\\), el conjunto de resultados elementales tales que la variable aleatoria toma sobre ellos valores inferiores o iguales a \\(x\\) ha de ser un suceso sobre el cual podamos definir una probabilidad. Dicha propiedad recibe el nombre de medibilidad y por tanto podríamos decir que una variable aleatoria es una función medible de \\(\\Omega\\) en los reales. Esta condición nos asegura que podremos calcular sin problemas, probabilidades sobre intervalos de la recta real a partir de las probabilidades de los sucesos correspondientes. \\[ P(X \\leq x)=P\\{\\omega \\mid X(\\omega) \\leq x\\} \\] La expresión anterior se leería de la manera siguiente: La probabilidad de que la variable aleatoria tome valores inferiores o iguales a \\(x\\) es igual a la probabilidad del suceso formado por el conjunto de resultados elementales sobre los que el valor de la variable es menor o igual que \\(x\\). La probabilidad obtenida de esta manera se denomina probabilidad inducida. Se puede comprobar que, a partir de la condición requerida, se pueden obtener probabilidades sobre cualquier tipo de intervalo de la recta real. Por ejemplo: \\[ P(a<X \\leq b)=P(X \\leq b)-P(X \\leq a) \\] La condición exigida para ser variable aleatoria discreta ahora puede ser expresada como: \\[ \\forall k=1,2, \\ldots \\text { el conjunto } \\mathrm{A}=\\left\\{\\omega \\mid \\mathrm{X}(\\omega)=\\mathrm{x}_{\\mathrm{k}}\\right\\}=\\mathrm{X}^{-1}\\left(\\left\\{\\mathrm{x}_{\\mathrm{k}}\\right\\}\\right) \\text { es un suceso observable } \\] Toda variable aleatoria definida sobre un espacio de probabilidad finito es necesariamente discreta. La suma y el producto de variables aleatorias discretas, definido por: \\[ (X+Y)(w)=X(w)+Y(w) \\text { y }(X \\cdot Y)(w)=X(w) \\cdot Y(w) \\] es también una variable aleatoria discreta. 2.15 Caso práctico: Lanzamiento de dos dados 2.15.1 Espacio muestral Supongamos que estamos realizando un experimento consistente en el lanzamiento simultáneo de dos dados y en la observación del resultado obtenido. El conjunto de resultados posibles forma el espacio muestral \\(\\Omega\\) asociado a dicho experimento. Sus elementos serán como los que se muestran a continuación: En total, el espacio muestral estaría formado por 36 resultados posibles que, en principio y suponiendo los dados regulares, son todos ellos equiprobables con probabilidad \\(1 / 36\\). Nótese que consideramos diferentes resultados del tipo: un uno en el primer dado y un dos en el segundo o un dos en el primer dado y un uno en el segundo. Una vez fijados los enunciados anteriores, es fácil asignar probabilidades a diferentes sucesos observables, por ejemplo: Suceso Probabilidad Que aparezcan dos cifras iguales \\(6 \\cdot 1 / 36=1 / 6\\) Que la suma sea 10 \\(3 \\cdot 1 / 36=1 / 12\\) No entramos en detalles de la obtención de las probabilidades dado que se ha estudiado suficientemente en el tema anterior. 2.15.2 Representación numérica Continuando con el experimento anterior, podemos representar los resultados obtenidos al lanzar dos dados por valores numéricos. ¿Cómo hacerlo? Definiendo una regla de asignación numérica para cada resultado. Una posible regla sería, por ejemplo, asignar a cada resultado la suma de puntos de las caras. Este enunciado nos define una variable que representa cada suceso elemental por un valor numérico. Los 36 posibles resultados del experimento se transforman en 11 posibles valores numéricos para la variable: \\(2,3,4,5,6,7,8,9,10,11\\) y 12 . Este conjunto de valores forman el recorrido de la variable suma de puntos de las caras. A partir de las probabilidades definidas sobre los sucesos observables es fácil extender las probabilidades a los diferentes resultados de la variable. Por ejemplo, la probabilidad de que la variable tome el valor 10 es equivalente a la probabilidad del suceso observable que la suma sea 10 , calculada anteriormente e igual a \\(1 / 12\\). La variable considerada hasta el momento es sólo una de las múltiples variables que podríamos definir sobre el mismo experimento. Por ejemplo, podemos estar interesados no en la suma de puntos sino en el punto más bajo de cada tirada, de forma que podríamos construir una nueva variable a partir del enunciado o regla de asignación asignar a cada resultado el menor de los puntos de las dos caras. Tenemos una nueva variable sobre el mismo espacio anterior. El recorrido, en este caso, está formado por los valores: \\(1,2,3,4,5\\) y 6 . Las dos variables estudiadas y otras muchas que se podrían definir sobre este experimento son ejemplos absolutamente equivalentes desde el punto de vista formal. 2.15.3 Algunas probabilidades En el ejemplo de los dados vamos a centrarnos en la variable aleatoria \\[ X=\\text { Suma de puntos de las caras } \\] El recorrido de la variable está formado por los números \\(\\{2,3,4,5,6,7,8,9,10,11\\) i 12\\(\\}\\). Vamos a calcular algunas probabilidades: \\(P(X \\leq 1)=P\\{\\varnothing\\}=0\\) (Ningún resultado tiene asignado un valor menor o igual a 1) \\(P(X \\leq 2)=P\\{(1,1)\\}=1/36\\) (Sólo hay un caso al que se le asigne un valor inferior o igual a 2). \\(P(X \\leq 3.5)=P\\{(1,1), (1,2), (2,1)\\}=3/36\\) (Tres resultados elementales tienen asignado un valor menor o igual a 3.5) Ahora podéis intentar calcular por vosotros mismos algunas probabilidades: (a) \\(P(X \\leq 6)\\) (b) \\(P(X \\leq 8,2)\\); (c) \\(P(X \\leq 12)\\); (d) \\(P(X \\leq 20)\\) i (e) \\(P(2,2<X \\leq 7)\\) 2.15.4 Función de distribución Para calcular la función de distribución de la variable X \\(=\\) Suma de puntos de las caras : necesitamos conocer el recorrido de la variable, que es: \\(\\{2,3,4,5,6,7,8,9,10,11, 12\\}\\) y, utilizando este recorrido como pauta, determinar para todo punto \\(x\\) de la recta real la probabilidad \\(P(X \\leq x)\\). En nuestro ejemplo: \\[ F(x)=P(X \\leq x)= \\begin{cases}0 & x<2 \\\\ 1 / 36 & 2 \\leq x<3 \\\\ 3 / 36 & 3 \\leq x<4 \\\\ 6 / 36 & 4 \\leq x<5 \\\\ 10 / 36 & 5 \\leq x<6 \\\\ 15 / 36 & 6 \\leq x<7 \\\\ 21 / 36 & 7 \\leq x<8 \\\\ 26 / 36 & 8 \\leq x<9 \\\\ 30 / 36 & 9 \\leq x<10 \\\\ 33 / 36 & 10 \\leq x<11 \\\\ 35 / 36 & 11 \\leq x<12 \\\\ 36 / 36=1 & x \\geq 12\\end{cases} \\] Acabamos de construir la función de distribución de la variable suma de la puntuación al lanzar dos dados. Vamos a ver su representación gráfica: Ejercicio : Haced lo mismo para la variable aleatoria el menor de los puntos de las dos caras al lanzar dos dados. 2.15.5 Clasificación de las variables En el experimento que estamos considerando, lanzar simultáneamente dos dados, cualquiera de las dos variables aleatorias que hemos considerado hasta el momento: \\[ X=\\text {Suma los puntos de las dos caras } \\] \\[ Y=\\text { El menor de los puntos de las dos caras } \\] se clasifican dentro del tipo de variables aleatorias discretas, puesto que en ambos casos el recorrido es finito: \\(\\{2,3,4,5,6,7,8,9,10,11, 12\\}\\) para la variable \\(X\\) y \\(\\{1,2,3,4,5, 6\\}\\) para la variable \\(Y\\). También son discretas aquellas variables aleatorias con recorrido infinito numerable. Ejercicio: ¿Sabríais construir una variable aleatoria discreta con recorrido infinito numerable basada en el experimento que consiste en el lanzamiento de dos dados? 2.15.6 Función de densidad discreta Para calcular la función de densidad de la variable \\[ X=\\text { suma de puntos de las caras } \\] necesitamos conocer el recorrido de la variable, es decir: \\(\\{2,3,4,5,6,7,8,9,10,11, 12\\}\\) y, a partir del recorrido, determinar para todo punto del recorrido la probabilidad \\(P(X=x)\\). En nuestro ejemplo \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] Acabamos de construir la función de densidad de la variable suma de la puntuación al lanzar dos dados. Vamos a ver su representación gráfica: Hemos optado por la representación con barras en lugar de puntos para permitir una visualización de la función óptima. Ejercicio: Haced lo mismo para la variable aleatoria el menor de los puntos de las dos caras al lanzar dos dados. 2.15.7 Probabilidad de intervalos Vamos a centrarnos en la variable \\[ X=\\text { Suma de puntos de las caras } \\] Las funciones de distribución y de densidad son, respectivamente, \\[ F(x)=P(X \\leq x)=\\left\\{\\begin{array}{ll} 0 & x<2 \\\\ 1 / 36 & 2 \\leq x<3 \\\\ 3 / 36 & 3 \\leq x<4 \\\\ 6 / 36 & 4 \\leq x<5 \\\\ 10 / 36 & 5 \\leq x<6 \\\\ 15 / 36 & 6 \\leq x<7 \\\\ 21 / 36 & 7 \\leq x<8 \\\\ 26 / 36 & 8 \\leq x<9 \\\\ 30 / 36 & 9 \\leq x<10 \\\\ 33 / 36 & 10 \\leq x<11 \\\\ 35 / 36 & 11 \\leq x<12 \\\\ 36 / 36=1 & x \\geq 12 \\end{array} \\quad f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases}\\right. \\] Puede observarse cómo los valores de la función de distribución se obtienen acumulando los valores de la función de densidad correspondientes. Vamos a calcular algunas probabilidades utilizando las funciones anteriores. Compárese con los resultados obtenidos con anterioridad basados directamente en los resultados elementales. \\(P(X \\leq 1)=F(1)=0\\) \\(P(X \\leq 3,5)=F(3,5)=3 / 36=f(2)+f(3)\\) \\(P(X<6)=F(6)-f(6)=15 / 36-5 / 36=10 / 36=f(2)+f(3)+f(4)+f(5)\\) \\(P(2,2<X \\leq 7)=F(7)-F(2,2)=21 / 36-1 / 36=20 / 36=f(3)+f(4)+f(5)+f(6)+f(7)\\) \\(P(2<X<7)=F(7)-f(7)-F(2)=21 / 36-6 / 36-1 / 36=14 / 36=f(3)+f(4)+f(5)+f(6)\\) 2.15.8 Esperanza Supongamos que estamos interesados en determinar cual sería el valor medio teórico de la variable \\[ X=\\text { Suma de puntos de las caras } \\] La función de densidad es: \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] La misma función de densidad nos da información sobre el recorrido de la variable. Calcular el valor medio teórico de la variable quiere decir calcular la esperanza. A partir de la fórmula de la esperanza para variables discretas, tenemos \\[ \\begin{aligned} E(X) &=2 \\cdot 1 / 36+3 \\cdot 2 / 36+4 \\cdot 3 / 36+5 \\cdot 4 / 36+6 \\cdot 5 / 36+\\\\ & + 7 \\cdot 6 / 36+8 \\cdot 5 / 36+9 \\cdot 4 / 36+\\\\ &+ 10 \\cdot 3 / 36+ 11 \\cdot 2 / 36+12 \\cdot 1 / 36=\\\\ & =7 \\end{aligned} \\] Por tanto, 7 es la esperanza de la variable \\(X=\\) Suma de puntos de las caras. Fijaos que la esperanza para la variable Puntuación de un dado sería \\[ 1 \\cdot 1 / 6+2 \\cdot 1 / 6+3 \\cdot 1 / 6+4 \\cdot 1 / 6+5 \\cdot 1 / 6+6 \\cdot 1 / 6=3,5 \\] y que se puede considerar la variable Suma de puntos de las dos caras como la suma de dos variables que representen la puntuación de cada dado. La esperanza de la suma es, efectivamente, la suma de las esperanzas de cada variable sumada. En la aplicación siguiente, podéis calcular la esperanza de la variable Puntuación de un dado y modificar las probabilidades de las diferentes caras, de este modo se modifica la esperanza. Ejercicio: ¿Podríais hacer lo mismo para la variable \\(X=\\) El menor de los puntos de las dos caras al lanzar dos dados? 2.15.9 Esperanza de un juego Imaginemos que alguien os propone el juego siguiente: lanzad dos dados, si la suma obtenida es menor o igual a 6 ganáis 100 euros, sin embargo, si la suma obtenida es mayor que 6 tenéis que pagar 100 euros. ¿Nos conviene jugar a este juego? Veamos, podemos considerar el resultado del juego como una variable aleatoria discreta que toma dos valores: +100 si ganamos y -100 si perdemos. Nos interesa conocer las probabilidades de los diferentes resultados. Consideremos la variable \\(X=\\) Suma de puntos de las caras, cuya función de densidad conocemos: \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] A partir de aquí es fácil ver que la función de densidad de la variable \\(Y=\\) Resultado del juego será la siguiente: \\[ f(100)=15 / 36 ; f(-100)=21 / 36 \\] Por tanto, la esperanza del juego, que puede ser interpretada como la ganancia media por jugada, será \\[ E(Y)=100 \\cdot 15 / 36-100 \\cdot 21 / 36=-100 / 6 \\approx-16,667 \\] Es decir, la ganancia media por jugada es negativa, por tanto no es favorable dicho juego para el jugador, es un juego no equitativo. 2.15.10 Esperanza con recorrido infinito Vamos a tratar de calcular la esperanza de la siguiente variable aleatoria: \\(X=\\) Número de lanzamientos que hemos de hacer para conseguir que aparezca un doble seis La variable que acabamos de definir es una variable discreta con recorrido infinito numerable. El recorrido sería el siguiente: \\[ \\{1,2,3,4, \\ldots\\} \\] Vamos a ver como calculamos la función de densidad: \\(P(X=1)=\\) Probabilidad de que aparezca un doble seis en el primer lanzamiento \\(=1 / 36\\) \\(P(X=2)=\\) Probabilidad de que el doble seis no aparezca en el primer lanzamiento y sí en el segundo = \\(35 / 36 \\cdot 1 / 36=35 / 36^{2}\\) \\(P(X=3)=\\) Probabilidad de que el doble seis no aparezca ni en el primer ni en el segundo lanzamientos y sí en el tercero \\(=35 / 36 \\cdot 35 / 361 / 36=35^{2} / 36^{3}\\) En general, \\(P(X=k)=35^{k-1} / 36^{k}\\) Para simplificar, vamos a llamar \\(p=1 / 36\\) y \\(q=1-p=35 / 36\\), con esta nomenclatura \\(P(X=\\mathrm{k})=q^{k-1} p\\). Por tanto, la esperanza será: \\[ \\begin{aligned} E(X)& =\\sum_{i=1}^{\\infty} i q^{i-1} p=p \\sum_{i=1}^{\\infty} i q^{i-1}=p \\frac{d}{d q} \\sum_{i=1}^{\\infty} q^{i}= \\\\ &= p \\frac{d}{d q}\\left(\\frac{q}{1-q}\\right)=p \\frac{1}{(1-q)^{2}}=\\\\ & = \\frac{1}{p} \\end{aligned} \\] En nuestro ejemplo el número medio de tiradas antes de salir un doble seis será 36 . 2.15.11 Esperanza infinita Ahora calcularemos la esperanza del juego siguiente: lanzamos un dado hasta que aparece un número par, el jugador gana \\(2^{n}\\) unidades monetarias si aparece un número par por primera vez en la tirada nésima. El recorrido de la variable aleatoria \\(X=\\) Ganancia del juego, está formado por todos los números de la forma \\(2^{n}\\) con \\(n=1,2,3, \\ldots\\) La probabilidad de cada valor del recorrido es la probabilidad de que aparezca un número par por primera vez en la tirada nésima, es decir \\((1 / 2)^{n-1} \\cdot(1 / 2)=(1 / 2)^{n}\\). Por tanto, la esperanza del juego es la siguiente: \\[ E(X)=\\sum_{n=1}^{\\infty} 2^{n}(1 / 2)^{n}=\\sum_{n=1}^{\\infty} 1=\\infty \\] Como vemos, la variable aleatoria \\(X\\) no tiene esperanza finita. El enunciado presentado es una versión del problema presentado alrededor de 1730 por el matemático Daniel Bernouilli a la Academia de San Petersburgo y conocido como la paradoja de San Petersburgo, dado que la esperanza del juego es aparentemente infinita. 2.15.12 Varianza Si ahora queremos calcular la varianza de la variable \\[ X=\\text { Suma de puntos de las caras } \\] con función de densidad: \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] Podemos aplicar la fórmula \\[ \\operatorname{Var}(X)=E\\left(X^{2}\\right)-(E(X))^{2} \\] La esperanza ya la tenemos calculada con anterioridad \\[ \\begin{aligned} E(X) & =2 \\cdot 1 / 36+3 \\cdot 2 / 36+4 \\cdot 3 / 36+5 \\cdot 4 / 36+\\\\ & +6 \\cdot 5 / 36+7 \\cdot 6 / 36+8 \\cdot 5 / 36+9 \\cdot 4 / 36+\\\\ & +10 \\cdot 3 / 36+ 11 \\cdot 2 / 36+12 \\cdot 1 / 36=\\\\ & =7 \\end{aligned} \\] Necesitamos calcular la esperanza de la variable al cuadrado, que en este caso resulta: \\[ \\begin{aligned} E\\left(X^{2}\\right)& =2^{2} \\cdot 1 / 36+3^{2} \\cdot 2 / 36+4^{2} \\cdot 3 / 36+5^{2} \\cdot 4 / 36+6^{2} \\cdot 5 / 36+\\\\ & + 7^{2} \\cdot 6 / 36+8^{2} \\cdot 5 / 36+9^{2} \\cdot 4 / 36+ 10^{2} \\cdot 3 / 36+\\\\ & + 11^{2} \\cdot 2 / 36+12^{2} \\cdot 1 / 36=329 / 6 \\\\ &\\approx 54,833 \\end{aligned} \\] Con lo que la varianza resulta ser \\[ \\operatorname{Var}(X)=329 / 6-7^{2}=35 / 6 \\approx 5,833 \\] Nuevamente, para la variable Puntuación de un dado, la varianza se obtendría de la manera siguiente: \\[ \\begin{aligned} E(X)& =1 \\cdot 1 / 6+2 \\cdot 1 / 6+3 \\cdot 1 / 6+4 \\cdot 1 / 6+5 \\cdot 1 / 6+6 \\cdot 1 / 6= \\\\& =3,5\\\\ E \\left(X^{2}\\right)&=1^{2} \\cdot 1 / 6+2^{2} \\cdot 1 / 6+3^{2} \\cdot 1 / 6+4^{2} \\cdot 1 / 6+\\\\ & + 5^{2} \\cdot 1 / 6+6^{2} \\cdot 1 / 6=91 / 6\\\\ & \\approx 15,167 \\\\ \\operatorname{Var}(X)&=91 / 6-3,5^{2}=35 / 12 \\approx 2,9167 \\end{aligned} \\] y se cumple que la varianza de la variable Suma de puntos de las dos caras es la suma de las varianzas de las puntuaciones de cada dado por separado. Recordemos que esto sólo sucede si las variables sumadas son independientes, como así ocurre con las puntuaciones de cada dado por separado. "],["distribuciones-notables.html", "Capítulo 3 Distribuciones Notables 3.1 Distribuciones discretas 3.2 Distribuciones Continuas 3.3 Distribuciones con R (y Python) 3.4 La familia exponencial de distribuciones", " Capítulo 3 Distribuciones Notables 3.1 Distribuciones discretas 3.1.1 La distribución de Bernouilli Es el modelo discreto más sencillo en que podamos pensar. Hace referencia a situaciones en las que el resultado de un experimento sólo puede ser: se ha dado el suceso \\(A\\) ó no se ha dado el suceso \\(A\\). Por ejemplo, en el lanzamiento de una moneda sólo puede darse el suceso sale cara o su complementario no sale cara (sale cruz). Por lo tanto, definimos la variable aleatoria \\(X\\) de la siguiente manera: \\(X=1\\) si se ha dado \\(A\\). \\(X=0\\) si no se ha dado \\(A\\), es decir, se ha dado el complementario \\(A^{c}\\). Si además, conocemos la probabilidad de que suceda \\(A\\) : \\[ P[A]=p \\] y, por tanto, \\[ P\\left[A^{c}\\right]=1-p \\] ya podemos definir la distribución de la variable aleatoria \\(X\\). En estas condiciones diremos que \\(X\\) sigue una distribución de Bernouilli de parámetro \\(p\\), que abreviaremos así \\(X \\sim \\operatorname{Bernouilli}(p)\\), y su función de densidad se define así: \\[ f(k)=P[X=k]=\\left\\{\\begin{array}{cc} p & \\text { si } k=1(\\text { se ha dado } A) \\\\ 1-p & \\text { si } k=0\\left(\\text { se ha dado } A^{c}\\right) \\end{array}\\right\\} \\] Gráficamente: Mientras que la función de distribución será: \\[ F(k)=P[X \\leq k]=\\left\\{\\begin{array}{lc} 0 & \\text { si } \\mathbf{k}<0 \\\\ \\mathbf{p} & \\text { si } 0 \\leq \\mathbf{k}<1 \\\\ 1 & \\text { si } \\mathbf{p} \\geq 1 \\end{array}\\right\\} \\] Gráficamente: 3.1.1.1 Propiedades del modelo de Bernouilli La esperanza vale \\(E(X)=p\\). La varianza vale \\(V(X)=p(1-p)\\). 3.1.2 La distribución Binomial Al igual que el modelo de Bernouilli, hace referencia a experiencias con resultados dicotómicos (el resultado sólo puede ser \\(A\\) o \\(A^{\\mathcal{C}}\\) ). Sin embargo en este modelo estamos interesados en la repetición de \\(n\\) veces una experiencia de este tipo en condiciones independientes. Tomemos el ejemplo del contaje del número de caras en el lanzamiento \\(n\\) veces de una moneda regular. Para concretar, vamos a suponer que disponemos de una moneda regular \\((P[\\) cara \\(]=P[c r u z]=1 / 2)\\) que lanzamos cuatro veces. Es evidente que, en estas condiciones, la variable X: número de caras en cuatro lanzamientos independientes de una moneda regular es una variable aleatoria discreta que sólo puede tomar cinco posibles valores: \\[ x=0,1,2,3,4 \\] Pasemos ahora a calcular la probabilidad de cada valor (en terminología estadística, vamos a calcular la función de densidad de la variable \\(X\\) ). Es evidente que la \\(P[X=0]\\) es igual a la probabilidad de salgan cuatro cruces seguidas: \\[ P[X=0]=P[c r u z, c r u z, c r u z, c r u z]=\\mathrm{P}[c r u z]^{4}=(1 / 2)^{4}=0,0625 \\] ya que la moneda es regular y, por tanto, \\(P[\\) cara \\(]=P[\\) cruz \\(]=1 / 2\\). La \\(P[X=3]\\) corresponde al suceso de que salgan tres caras ( \\(c\\) en adelante) y una cruz ( + en adelante). Sin embargo, en este caso tenemos hasta cuatro posibles maneras de obtener dicho resultado, según el orden en que aparezcan las tres caras y la cruz: +ccc \\(\\mathrm{c}+\\mathrm{cc}\\) \\(\\mathrm{cc}+\\mathrm{c}\\) \\(\\mathrm{ccc}+\\) También debería resultar evidente que la probabilidad de cada uno de estos sucesos es la misma: \\[ P[+\\mathrm{ccc}]=P[\\mathrm{c}+\\mathrm{cc}]=P[\\mathrm{cc}+\\mathrm{c}]=P[\\mathrm{ccc}+]=(1 / 2)^{4}=(1 / 2)^{4}=0,0625 \\] de manera que, finalmente, la probabilidad de que salgan tres caras y una cruz es la suma de las probabilidades de los 4 casos anteriores: \\[ P[X=3]=4(1 / 2)^{4}=0,25 \\] Y así podríamos ir calculando el resto de casos. Podemos ver que, en este ejemplo, todos los casos tienen la misma probabilidad \\((0,0625)\\) y que el número total de casos posibles es 16 . En términos de combinatoria dicho número se obtendría como variaciones con repetición de dos valores (cara o cruz) tomados de cuatro en cuatro (el número de lanzamientos de la moneda): \\[ V R_{2}{ }^{4}=2^{4}=16 \\] En la siguiente tabla se muestran los dieciséis posibles resultados: \\(k=\\) número de caras Casos 0 +++++ 1 +++c \\(++\\mathrm{c}+\\) \\(+\\mathrm{c}++\\) \\(\\mathrm{c}+++\\) ++cc \\(+\\mathrm{c}+\\mathrm{c}\\) \\(\\mathrm{c}++\\mathrm{c}+\\) \\(\\mathrm{c}+\\mathrm{c}+\\) cc++ \\(\\mathrm{ccc}+\\) \\(\\mathrm{c}+\\mathrm{cc}\\) Si hacemos uso de nuestros conocimientos de combinatoria, comprobamos que el número de casos para cada posible valor \\(k(k=0,1,2,3,4)\\) puede calcularse como permutaciones con repetición de cuatro elementos tomado de \\(k\\) y \\(4-k\\) : \\[ R P_{4}^{k, 4-k}=\\frac{4!}{k!(4-k)!}=\\binom{4}{k} \\] y obtenemos finalmente el número combinatorio 4 sobre \\(k\\). En efecto, para el caso \\(k=3\\), tendríamos: \\[ \\binom{4}{3}=\\frac{4!}{3!1!}=4 \\] que son los cuatro posibles casos que nos dan tres caras y una cruz. Finalmente, recordando que todos los casos tienen la misma probabilidad, se construye la siguiente tabla: \\(k=\\) número de caras Número de casos \\(P[X=k]\\) 0 1 0,0625 1 4 0,2500 2 6 0,3750 3 4 0,2500 4 1 0,0625 Total 16 1 3.1.2.1 Los parámetros de la distribución Binomial La última tabla de la página anterior es, justamente, la función de densidad de nuestra variable \\(X\\). Función de densidad de \\(X\\) \\(k\\) \\(P[X=k]\\) 0 0,0625 1 0,2500 2 0,3750 3 0,2500 4 0,0625 En otro caso 0 Como hemos visto, para obtener los resultados anteriores, hemos tenido que definir dos valores: \\(n\\) : el número de lanzamientos (repeticiones de la experiencia aleatoria en condiciones independientes), en nuestro caso \\(n=4\\). \\(p\\) : la probabilidad de que salga cara \\((P[c])\\), en nuestro caso \\(p=1 / 2\\). Se dice, por tanto, que la distribución Binomial depende de dos parámetros: \\(n\\) y \\(p\\). En nuestro ejemplo, diremos que \\(X\\) sigue una distribución Binomial de parámetros \\(n=4\\) i \\(p=1 / 2\\). De forma abreviada: \\[ X \\sim B(n=4 ; p=1 / 2) \\] En el ejemplo que hemos visto, suponíamos que la moneda era regular y, por tanto, \\[ P[c]=P[+]=1 / 2 \\] Si tenemos una moneda trucada con las siguientes probabilidades: \\[ P[c]=2 / 3 \\quad \\text { i } \\quad P[+]=1 / 3 \\] diremos que en este caso la variable \\(X\\) : número de caras en cuatro lanzamientos independientes de nuestra moneda trucada sigue una distribución Binomial de parámetros: \\[ X \\sim B(n=4 ; p=2 / 3) \\] El problema se nos complica levemente ya que ahora no todos los posibles resultados tienen la misma probabilidad. Veamos dos ejemplos: La probabilidad de obtener cuatro caras es: \\[ P[c c c c]=(2 / 3)^{4}=0,1975 \\] La probabilidad de que el primer lanzamiento sea cara y el resto sean cruces valdrá: \\[ P\\left[c^{+++}\\right]=(2 / 3)^{\\prime}(1 / 3)^{3}=0,0247 \\] Sin embargo sí se cumplirá que la probabilidad de que todos los caso que resulten en el mismo número de caras y cruces tendrán la misma probabilidad. Por ejemplo, para los cuatro casos en los que el número total de caras es 1 y el de cruces 3 : \\[ P[c+++]=P[+c++]=P[++c+]=P[+++c]=(2 / 3)^{\\prime}(1 / 3)^{3}=0,0247 \\] Y, por tanto, la probabilidad de obtener una sola cara en el lanzamiento de nuestra moneda trucada será: \\[ P[X=1]=4^{\\prime} 0,0247=0,0988 \\] O, generalizando, si \\(P[A]=p\\) y \\(P\\left[A^{c}\\right]=1-p\\) tenemos que \\[ P[X=k]=c(n, k) p^{k}(1-\\mathrm{p})^{n-k} \\quad \\text { si } k=0,1, \\ldots, n \\] donde \\(c(n, k)\\) representa el número de posibles resultados en los que obtenemos \\(k\\) caras y \\(n-k\\) cruces en \\(n\\) lanzamientos. Tal como hemos visto, dicho número se puede calcular como permutaciones con repetición de \\(n\\) unidades tomadas de \\(k\\) y \\(n-k\\). Todo lo anterior nos lleva a formular el model binoial a traves de la siguiente función de densidad: \\[ f(k)=P[X=k]=\\left\\{\\begin{array}{ll} \\binom{\\mathbf{n}}{\\mathbf{k}} p^{k}(1-p)^{n-k} & \\text { si } \\quad k=0, \\ldots, n \\\\ 0 & \\text { en caso contrario } \\end{array}\\right\\} \\] con lo que la función de distribución se calcularía: \\[ F(k)=P[X \\leq k]=\\left\\{\\begin{array}{cc} 0 & \\text { si } k<0 \\\\ \\sum_{i=0}^{k}\\binom{\\mathbf{i}}{\\mathbf{n}} p^{i}(\\mathbf{1}-p)^{n-i} \\\\ \\mathbf{1} & \\text { si } k \\geq n \\end{array}\\right\\} \\] 3.1.2.2 Propiedades del modelo Binomial La esperanza vale \\(E(X)=n p\\). La varianza es \\(V(X)=n p(1-p)\\). Es una generalización del modelo de Bernouilli. En efecto, la Binomial con \\(n=1\\) (una sola realización) coincide con la distribución de Bernouilli. La suma de dos variables aleatorias binomiales independientes con igual parámetro \\(p\\) también sigue una distribución Binomial: \\[ X_{1} \\sim B\\left(n=n_{1} ; p=p_{0}\\right) \\quad \\text { i } \\quad X_{2} \\sim B\\left(n=n_{2} ; p=p_{0}\\right) \\] Si definimos \\(Z=X_{1}+X_{2}\\) entonces, \\[ Z \\sim B\\left(n=n_{1}+n_{2} ; p=p_{0}\\right) \\] 3.1.3 La distribución de Poisson Se trata de un modelo discreto, pero en el que el conjunto de valores con probabilidad no nula no es finito, sino numerable. Se dice que una variable aleatoria \\(X\\) sigue la distribución de Poisson si su función de densidad viene dada por: \\[ f(k)=P[X=k]=\\left\\{\\begin{array}{ll} e^{-\\lambda \\frac{\\lambda^{k}}{k!}} & \\text { si } k=0,12, \\ldots \\\\ 0 & \\text { en caso contrario } \\end{array}\\right\\} \\] Como vemos, este modelo se caracteriza por un sólo parámetro \\(\\lambda\\), que debe ser positivo. Esta distribución suele utilizarse para contajes del tipo número de individuos por unidad de tiempo, de espacio, etc. 3.1.3.1 Propiedades del modelo de Poisson Esperanza: \\(E(X)=\\lambda\\). Varianza: \\(V(X)=\\lambda\\). En esta distribución la esperanza y la varianza coinciden. La suma de dos variables aleatorias independientes con distribución de Poisson resulta en una nueva variable aleatoria, también con distribución de Poisson, de parámetro igual a la suma de parámetros: \\[ X_{1} \\sim P\\left(\\lambda=\\lambda_{1}\\right) \\quad \\text { y } \\quad X_{2} \\sim P\\left(\\lambda=\\lambda_{2}\\right) \\] y definimos \\(Z=X_{1}+X_{2}\\), entonces, \\[ Z \\sim P\\left(\\lambda=\\lambda_{1}+\\lambda_{2}\\right) \\] Este resultado se extiende inmediatamente al caso de \\(n\\) variables aleatorias independientes con distribución de Poisson. En este caso, la variable suma de todas ellas sigue una distribución de Poisson de parámetro igual a la suma de los parámetros. 3.1.4 La distribución Uniforme discreta Tenemos esta distribución cuando el resultado de una experiencia aleatoria puede ser un conjunto finito de \\(n\\) posibles resultados, todos ellos igualmente probables. Un ejemplo puede ser la variable \\(X\\), puntuación en el lanzamiento de un dado regular. Esta variable toma seis valores posibles, todos con la misma probabilidad \\(p=1 / 6\\). La función de densidad de esta variable será: \\[ f(k)=P[X=k]=1 / 6 \\quad k=1,2,3,4,5,6 \\] En general, si la variable \\(X\\) puede tomar \\(n(k=1,2, \\ldots, n)\\) valores, todos con igual probabilidad, su función de densidad será: \\[ f(k)=P[X=k]=1 / n \\quad k=1,2, \\ldots, n \\] 3.1.4.1 Propiedades del modelo Uniforme discreto Sea \\(n\\) el número de valores equiprobables posibles: 3.1.4.2 Esperanza: \\[ E(X)=\\frac{n+1}{2} \\] 3.1.4.3 Varianza: \\[ V(X)=\\frac{(n+1)[2(2 n+1)-3(n+1)]}{12} \\] 3.1.5 La distribución Hipergeométrica Este modelo presenta similitudes con el Binomial, pero sin la suposición de independencia de éste último. Veámoslo: Partimos de un conjunto formado por \\(N\\) individuos divididos en dos categorías mutuamente excluyentes: \\(A\\) y \\(A^{c}\\); de manera que \\(N_{1}\\) individuos pertenecen a la categoría \\(A\\) y \\(N_{2}\\) individuos, a la categoría \\(A^{c}\\). Por tanto, se cumple que \\[ N=N_{1}+N_{2} \\] Si del conjunto anterior extraemos \\(n\\) individuos sin reemplazamiento \\((n \\leq N)\\), la variable \\(X\\) que representa el número k de individuos que pertenecen a la categoría A (de los n extraídos) tiene por función de densidad: \\[ f(k)=P[X=k]=\\frac{\\binom{\\mathbf{N}_{1}}{\\mathbf{k}}\\binom{\\mathrm{N}_{2}}{\\mathbf{n}-\\mathbf{k}}}{\\binom{\\mathbf{N}}{\\mathbf{n}}} \\] si \\(\\operatorname{max}\\left\\{0, \\mathrm{n}-N_{2}\\right\\} \\leq \\mathrm{k} \\leq \\min \\left\\{N_{1}, n\\right\\}\\) La dependencia se debe al hecho de que \\(N\\) es finito y las extracciones se efectúan sin reemplazamiento. El caso de extracciones con reemplazamiento sería equivalente al de \\(N\\) infinito y se resolvería mediante el modelo Binomial. 3.1.5.1 Propiedades del modelo hipergeométrico Esperanza: \\(\\mathrm{E}(\\mathrm{X})=\\mathrm{n} \\mathrm{N}_{1} / \\mathrm{N}_{2}\\). Varianza: \\(V(X)=\\left(n N_{1} N_{2}(N-n)\\right) /\\left(N_{2}(N-1)\\right)\\) 3.1.6 La distribución Geométrica o de Pascal Definamos una experiencia aleatoria cuyo resultado sólo puede ser el suceso \\(A\\) o su complementario \\(A^{c}\\), y que se repite secuencialmente hasta que aparece el suceso \\(A\\) por primera vez. Definamos la variable aleatoria \\(X\\) como el número de veces que repetimos la experiencia en condiciones independientes hasta que se dé A por primera vez. Bajo estas condiciones, decimos que la variable \\(X\\) sigue una distribución geométrica o de Pascal de parámetro \\(p=P(A)\\). La función de densidad puede deducirse fácilmente de la definición: \\[ f(k)=P[X=k]=(1-p)^{k} p \\quad k=0,1,2, \\ldots \\] En el programa siguiente podéis ver su forma y obtener los valores de la función de densidad y de la de distribución: Algunas puntualizaciones de la definición de \\(X\\) : Notése que, en esta definición, condiciones independientes significa que \\(p\\), la probabilidad de \\(A\\), y \\(1-p\\), la de su complementario \\(A^{c}\\), no varían a lo largo de las sucesivas repeticiones de la experiencia. Tal y como la hemos definido, \\(X\\) se refiere al número de lanzamientos hasta que se produce \\(A\\), pero sin contabilizar el último caso en que se da \\(A\\). Por dicha razón \\(X\\) puede tomar los valores \\(k=\\) \\(0,1,2, \\ldots\\) con probabilidad no nula. Un ejemplo de este modelo podría ser la experiencia consistente en lanzar sucesivamente un dado regular hasta que aparezca el número 6 . Si definimos la variable aleatoria \\(X\\) como el número de lanzamientos de un dado regular hasta que aparezca un 6 , queda claro que \\(X\\) sigue una distribución geométrica de parámetro \\(p=1 / 6\\). 3.1.6.1 Propiedades del modelo Geométrico o de Pascal Esperanza: \\(E(X)=(1-p) / p\\) Varianza: \\(V(X)=(1-p) / p^{2}\\) 3.1.6.2 Preguntas: ¿A que suceso nos referimos cuando decimos \\(X=0\\) ? Respuesta. Cuando decimos que \\(X=0\\) nos referimos al caso en que el 6 aparece en el primer lanzamiento. La probabilidad de que esto suceda, suponiendo un dado regular, es de \\(1 / 6\\) : \\[ P[X=0]=1 / 6 \\] ¿Cuál es la probabilidad de que el primer 6 aparezca en el cuarto lanzamiento? Respuesta. La probabilidad de que el primer 6 aparezca en el cuarto lanzamiento corresponde a: \\[ P[X=3]=(5 / 6)^{3 \\cdot} 1 / 6=0,0965 \\] Fijémonos en que, si definimos \\(A\\) como el suceso sale un 6, la probabilidad anterior corresponde a la del suceso: \\(\\left\\{A^{c} A^{c} A^{c} A\\right\\}\\) (en este orden). 3.1.7 La distribución Binomial negativa Puede definirse como una generalización del modelo Geométrico o de Pascal. Así, dado un suceso \\(A\\) y su complementario \\(A^{c}\\), cuando \\(X\\) representa el número de veces que se da \\(\\mathrm{A}^{\\mathrm{c}}\\) (ausencias, fallos, etc.) hasta que se produce r veces el suceso A , en una serie de repeticiones de la experiencia aleatoria en condiciones independientes, decimos que \\(X\\) sigue la distribución Binomial negativa. Nótese que, cuando \\(r=1\\), tenemos exactamente el modelo geométrico. Este modelo queda definido por dos parámetros \\(p\\) (la probabilidad de \\(A: p=P(A)\\) ) y \\(r\\) (el número de veces que debe producirse \\(A\\) para que detengamos la experiencia). La función de densidad viene dada por: \\[ f(k)=P[X=k]=\\binom{\\mathbf{k}+\\mathbf{r}-\\mathbf{1}}{\\mathbf{r}-\\mathbf{1}} \\mathbf{p}^{\\mathbf{r}} \\mathbf{q}^{\\mathbf{k}} \\quad \\mathbf{k}=\\mathbf{0}, \\mathbf{1}, \\mathbf{2}, \\ldots \\] donde \\(q\\) representa el complementario de \\(p: q=1-p\\). 3.1.7.1 Propiedades del modelo Binomial negativo Esperanza: \\(E(X)=r^{\\prime} q / p\\) Varianza: \\(V(X)=r^{\\prime} q / p^{2}\\) Se cumplen las siguientes propiedades respecto la función de densidad: \\[ f(0)=p^{r} \\quad \\text { y } \\quad f(k+1)=\\frac{(1-p)(k+r)}{k+1} f(k) \\] Este modelo se ajusta bien a contajes (números de individuos por unidad de superficie) cuando se produce una distribución contagiosa (los individuos tienden a agruparse). La distribución Binomial negativa puede definirse con mayor generalidad si tomamos \\(r\\) como un número real positivo cualquiera (no necesariamente entero). Pero, en dicho caso, se pierde el carácter intuitivo del modelo y se complican ligeramente los cálculos. Por dichas razones, se ha excluido dicha posibilidad en esta presentación. 3.1.8 Tabla resumen de las distribuciones discretas principales Distribución Parámetros Función de densidad Esperanza Varianza Bernouilli \\(0 \\leq p \\leq 1\\) \\(p^{k}(1-p)^{1-k}\\) \\(k=0,1\\) \\(p\\) \\(p(1-p)\\) Binomial \\(0 \\leq p \\leq 1\\) \\(n=1,2, \\ldots\\) \\(\\binom{\\mathbf{n}}{\\mathbf{k}} p^{k}(1-p)^{n-k}\\) \\(k=0,1, \\ldots, n\\) \\(n p\\) \\(n p(1-p)\\) Poisson \\(\\lambda>0\\) \\(e^{-\\lambda} \\frac{\\lambda^{k}}{k!}\\) \\(k=012, \\ldots\\) \\(\\lambda\\) \\(\\lambda\\) Multinomial \\(0 \\leq p_{1}, \\ldots\\) \\(p_{r} \\leq 1\\) \\(\\left(p_{1}+\\ldots+\\right.\\) \\(\\left.p_{\\mathrm{r}}=1\\right)\\) \\(n=1,2\\) \\(\\frac{n!}{k_{1}!k_{2}!\\cdots k_{r}!} p_{1}^{k_{1}} p_{2}^{k_{2}} \\cdots p_{r}^{k_{r}}\\) \\(\\sum_{i=1}^{r} k_{i}=n\\) \\(\\left(\\begin{array}{c}n p_{1} \\\\ n p_{2} \\\\ \\vdots \\\\ n p_{r}\\end{array}\\right)\\) \\(\\boldsymbol{\\sigma}_{i i}=n p_{i}\\left(1-p_{i}\\right)\\) \\(\\boldsymbol{\\sigma}_{i j}=n p_{i} p_{j} \\quad i \\neq j\\) Uniforme discreta \\(n=1,2, \\ldots\\) \\(\\frac{1}{n}\\) \\(k=1,2, \\ldots . n\\) \\(\\frac{n+1}{2}\\) \\(\\frac{(n+1)[2(2 n+1)-3(n+1)}{12}\\) Hipergeométrica \\(\\left\\{\\begin{array}{c}N=N_{1}+ \\\\ N_{2} \\\\ p=N_{1} / N\\end{array}\\right.\\) \\(\\frac{\\binom{\\mathrm{N}_{1}}{\\mathrm{k}}\\binom{\\mathrm{N}_{2}}{\\mathrm{n}-\\mathrm{k}}}{\\binom{\\mathrm{N}}{\\mathrm{n}}}\\) \\(\\operatorname{max}\\left\\{0, \\mathrm{n}-N_{2}\\right\\} \\leq \\mathrm{k} \\leq \\min \\left\\{N_{1}, n\\right\\}\\) \\(n p\\) \\(n p(1-p) \\frac{N-n}{N-1}\\) Pascal \\(0 \\leq p \\leq 1\\) \\(p(1-p)^{k}\\) \\(k=0,1,2, \\ldots\\) \\(\\frac{1-p}{p}\\) \\(\\frac{1-p}{p^{2}}\\) Binomial negativa \\(0 \\leq p \\leq 1\\) \\(r>0\\) \\(\\frac{r(1-p)}{p}\\) \\(\\frac{r(1-p)}{p^{2}}\\) 3.2 Distribuciones Continuas 3.2.1 La distribución Uniforme La distribución Uniforme es el modelo (absolutamente) continuo más simple. Corresponde al caso de una variable aleatoria que sólo puede tomar valores comprendidos entre dos extremos \\(a\\) y \\(b\\), de manera que todos los intervalos de una misma longitud (dentro de \\((a, b)\\) ) tienen la misma probabilidad. También puede expresarse como el modelo probabilístico correspondiente a tomar un número al azar dentro de un intervalo \\((a, b)\\). De la anterior definición se desprende que la función de densidad debe tomar el mismo valor para todos los puntos dentro del intervalo \\((a, b)\\) (y cero fuera del intervalo). Es decir, \\[ f_{X}(x)=\\left\\{\\begin{array}{ll} \\frac{1}{b-a} & \\text { si } x \\in(a, b) \\\\ 0 & \\text { si } x \\notin(a, b) \\end{array}\\right\\} \\] Gráficamente: La función de distribución se obtiene integrando la función de densidad y viene dada por: \\[ F_{X}(x)=P(X \\leq x)=\\left\\{\\begin{array}{ll} 0 & \\text { si } x \\leq a \\\\ \\frac{x-a}{b-a} & \\text { si } x \\in(a, b) \\\\ 1 & \\text { si } x \\geq b \\end{array}\\right\\} \\] Gráficamente: Función de distribución del modelo uniforme 3.2.1.1 Propiedades del modelo Uniforme Su esperanza vale \\((b+a) / 2\\) Su varianza es \\((b-a)^{2} / 12\\) 3.2.1.2 Una aplicación del modelo Uniforme: el muestreo de Montecarlo En ciertos casos es útil simular el muestreo de una variable aleatoria con una distribución dada. El muestreo de Montecarlo es un procedimiento general para obtener muestras aleatorias de cualquier tipo de variable (discreta o continua) si su función de distribución es conocida o se puede calcular. Supongamos que queremos generar una muestra procedente de una variable aleatoria \\(X\\) con función de distribución \\(F(x)\\). El proceso comprende los siguientes pasos: Obtener un valor aleatorio \\(y\\) entre cero y uno. Es decir, obtener una muestra de una distribución Uniforme entre cero y uno. La mayoría de lenguajes de programación incorporan un generador de este tipo. Considerar el valor obtenido como el valor de la función de distribución a generar: \\(y=F(x)\\). El valor \\(x=F^{-1}(y)\\) (la inversa de la función de distribución en el punto \\(y\\) ) es un valor procedente de la distribución de la que deseábamos generar la muestra. Si queremos obtener una muestra con \\(n\\) individuos debemos repetir los pasos anteriores \\(n\\) veces. 3.2.1.3 Generación de una muestra procedente de una distribución Binomial Supongamos que queremos simular el experimento de contar el número de caras obtenidas en 5 lanzamientos de una moneda trucada con probabilidad de cara igual a 0,75 . Es decir, queremos obtener una muestra de una distribución Binomial con \\(n=5\\) y \\(p=0,75\\). Siguiendo los pasos anteriores deberemos obtener un número al azar entre 0 y 1 (un valor procedente de una distribución Uniforme entre 0 y 1) y si este valor es menor o igual a 0,75 diremos que ha salido cara y, si es superior a 0,75 , cruz. Utiliza el siguiente programa para simular cinco lanzamientos con nuestra moneda trucada: 3.2.2 La distribución Exponencial Este modelo suele utilizarse para variables que describen el tiempo hasta que se produce un determinado suceso. Su función de densidad es de la forma: \\[ f(x)=\\left\\{\\begin{array}{lll} \\frac{1}{\\alpha} \\exp \\left(-\\frac{x}{\\alpha}\\right) & \\text { si } & x>0 \\\\ 0 & \\text { si } & x \\leq 0 \\end{array}\\right\\} \\] Como vemos este modelo depende de un único parámetro \\(\\alpha\\) que debe ser positivo: \\(\\alpha>0\\). A continuación se muestra un programa que nos permite ver cómo cambia la forma de la función de densidad según el parámetro \\(\\alpha\\). La función de distribución se obtiene integrando la de densidad y es de la forma: \\[ F(x)=\\left\\{\\begin{array}{lll} 1-\\exp \\left(-\\frac{x}{\\alpha}\\right) & \\text { si } & x>0 \\\\ 0 & \\text { si } & x \\leq 0 \\end{array}\\right\\} \\] Podemos utilizar el programa siguiente para calcular dicha función de distribución: 3.2.2.1 Propiedades del modelo Exponencial Su esperanza es \\(\\alpha\\). Su varianza es \\(\\alpha^{2}\\). Una propiedad importante es la denominada carencia de memoria, que podemos definir así: si la variable \\(X\\) mide el tiempo de vida y sigue una distribución Exponencial, significará que la probabilidad de que siga con vida dentro de 20 años es la misma para un individuo que a fecha de hoy tiene 25 años que para otro que tenga 60 años. Cuando el número de sucesos por unidad de tiempo sigue una distribución de Poisson de parámetro \\(\\lambda\\) (proceso de Poisson), el tiempo entre dos sucesos consecutivos sigue una distribución Exponencial de parámetro \\(\\alpha=1 / \\lambda\\). 3.2.3 La distribución Normal Se trata, sin duda, del modelo continuo más importante en estadística, tanto por su aplicación directa, veremos que muchas variables de interés general pueden describirse por dicho modelo, como por sus propiedades, que han permitido el desarrollo de numerosas técnicas de inferencia estadística. En realidad, el nombre de Normal proviene del hecho de que durante un tiempo se creyó, por parte de médicos y biólogos, que todas las variables naturales de interés seguían este modelo. Su función de densidad viene dada por la fórmula: \\[ f(x)=\\frac{1}{\\sqrt{2 \\pi} \\sigma} \\exp \\left\\{-\\frac{(x-\\mu)^{2}}{2 \\sigma^{2}}\\right\\} \\quad \\text { donde }-\\infty<x<+\\infty \\] que, como vemos, depende de dos parámetros \\(\\mu\\) (que puede ser cualquier valor real) y \\(\\sigma\\) (que ha de ser positiva). Por esta razón, a partir de ahora indicaremos de forma abreviada que una variable \\(X\\) sigue el modelo Normal así: \\(X \\sim N(\\mu, \\sigma)\\). Por ejemplo, si nos referimos a una distribución Normal con \\(\\mu=0\\) y \\(\\sigma\\) \\(=1\\) lo abreviaremos \\(N(0,1)\\). A continuación vemos gráfica de esta función de densidad (podeis probar a cambiar los parámetros): Como puedes ver, la función de densidad del modelo Normal tiene forma de campana, la que habitualmente se denomina campana de Gauss. De hecho, a este modelo, también se le conoce con el nombre de distribución gaussiana. 3.2.3.1 Propiedades del modelo Normal Su esperanza es \\(\\mu\\). Su varianza es \\(\\sigma^{2} \\mathrm{y}\\), por tanto, su desviación típica es \\(\\sigma\\). Es simétrica respecto a su media \\(\\mu\\), como puede apreciarse en la representación anterior. Media, moda y mediana coinciden \\((\\mu)\\). Cualquier transformación lineal de una variable con distribución Normal seguirá también el modelo Normal. Si \\(X \\sim N(\\mu, \\sigma)\\) y definimos \\(Y=a X+b(\\operatorname{con} a \\neq 0)\\), entonces \\(Y \\sim N(a \\mu+b,|a| \\sigma)\\). Es decir, la esperanza de \\(Y\\) será \\(a \\mu+b\\) y su desviación típica, \\(|a| \\sigma\\). Cualquier combinación lineal de variables normales independientes sigue también una distribución Normal. Es decir, dadas \\(n\\) variables aleatorias independientes con distribución \\(X_{i} \\sim\\) \\(N\\left(\\mu_{i}, \\sigma_{i}\\right)\\) para \\(i=1,2, \\ldots, n\\) la combinación lineal: \\(Y=a_{n} X_{n}+a_{n-1} X_{n-1}+\\ldots+a_{1} X_{1}+\\mathrm{a}_{0}\\) sigue también el modelo Normal: \\[ Y \\approx N\\left(a_{0}+\\sum_{i=1}^{n} a_{i} \\boldsymbol{\\mu}_{i}, \\sqrt{\\sum_{i=1}^{n} a_{i}^{2} \\boldsymbol{\\sigma}^{2}}\\right) \\] ###La función de distribución del modelo Normal La función de distribución del modelo Normal se debería calcular, como en el resto de distribuciones continuas, integrando la función de densidad: \\[ F(x)=P[X \\leq x]=\\int_{-\\infty}^{x} \\frac{1}{\\sqrt{2 \\pi} \\sigma} \\exp \\left\\{-\\frac{(t-\\mu)^{2}}{2 \\sigma^{2}}\\right\\} \\mathrm{dt} \\] Pero nos encontramos con el problema de que no existe ninguna primitiva conocida para esta función, es decir, no sabemos resolver la anterior integral. Sin embargo, si somos incapaces de calcular la función distribución no podremos efectuar ningún cálculo con este modelo. ¿Cómo solucionamos el problema? Una primera solución podría consistir en aproximar la integral a través de técnicas de cálculo numérico. Sin embargo, dado que el conjunto de valores que pueden tomar los parámetros \\(\\mu\\) y \\(\\sigma\\) son infinitos, deberíamos repetir el proceso para cada valor diferente de algún parámetro. Afortunadamente, podemos ahorrarnos el esfuerzo aprovechando la propiedad de que cualquier transformación lineal de una variable Normal sigue también el modelo Normal. Por tanto, replantearemos cualquier problema en términos de una Normal concreta, que suele ser la \\(\\mathrm{N}(0,1)\\), de la siguiente manera: Si \\(X \\sim N(\\mu, \\sigma)\\) y entonces definimos \\(Z=(\\mathrm{X}-\\mu) / \\sigma\\) se cumplirá que \\(Z \\sim N(0,1)\\) \\[ \\begin{gathered} \\text { y, por tanto: } \\\\ F_{X}(x)=P[X \\leq x]=P\\left[\\frac{X-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}} \\leq \\frac{x-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}}\\right]=P\\left[Z \\leq \\frac{x-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}}\\right]=F_{Z}\\left(\\frac{x-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}}\\right) \\end{gathered} \\] A la distribución \\(N(0,1)\\), es decir, la que tiene por media cero y por desviación típica uno, se le denomina Normal reducida o tipificada. En cambio, al proceso de transformación del cálculo de la función de distribución de una Normal cualquiera a través de la Normal tipificada, se le denomina tipificación. Debemos remarcar que el proceso de tipificación no resuelve el problema de la inexistencia de la función primitiva correspondiente. Sin embargo, sí es posible, mediante técnicas de cálculo numérico, obtener la integral numérica correspondiente y elaborar unas tablas que podemos consultar. Naturalmente, la tipificación permite que con una sola tabla, la de la \\(N(0,1)\\), tengamos suficiente. Hoy en día, cada vez se utilizan menos tablas como la mencionada anteriormente, ya que los ordenadores, junto con los abundantes programas estadísticos existentes nos resuelven este problema. Sin embargo, la imposibilidad de integrar analíticamente la función de densidad persiste y, aunque nosotros no seamos conscientes, los programas informáticos realizan el proceso de tipificación para simplificar el problema. 3.2.4 La distribución Gamma Este modelo es una generalización del modelo Exponencial ya que, en ocasiones, se utiliza para modelar variables que describen el tiempo hasta que se produce p veces un determinado suceso. Su función de densidad es de la forma: \\[ f(x)=\\left\\{\\begin{array}{lll} \\frac{1}{\\alpha^{p} \\Gamma(p)} e^{-\\frac{x}{\\alpha}} x^{p-1} & \\text { si } & x>0 \\\\ 0 & \\text { si } & x \\leq 0 \\end{array}\\right\\} \\] Como vemos, este modelo depende de dos parámetros positivos: \\(\\alpha\\) y p. La función \\(\\Gamma(p)\\) es la denominada función Gamma de Euler que representa la siguiente integral: \\[ \\Gamma(p)=\\int_{0}^{\\infty} x^{p-1} e^{-x} d x \\] que verifica \\(\\Gamma(p+1)=p \\Gamma(p)\\), con lo que, si \\(p\\) es un número entero positivo, \\(\\Gamma(p+1)=p\\). 3.2.4.1 Propiedades de la distribución Gamma Su esperanza es \\(p \\alpha\\). Su varianza es \\(p \\alpha^{2}\\) La distribución Gamma \\((\\alpha, p=1)\\) es una distribución Exponencial de parámetro \\(\\alpha\\). Es decir, el modelo Exponencial es un caso particular de la Gamma \\(\\operatorname{con} p=1\\). Dadas dos variables aleatorias con distribución Gamma y parámetro \\(\\alpha\\) común \\[ X \\sim G\\left(\\alpha, p_{1}\\right) \\text { y } Y \\sim G\\left(\\alpha, p_{2}\\right) \\] se cumplirá que la suma también sigue una distribución Gamma \\[ X+Y \\sim G\\left(\\alpha, p_{1}+p_{2}\\right) \\] Una consecuencia inmediata de esta propiedad es que, si tenemos \\(k\\) variables aleatorias con distribución Exponencial de parámetro \\(\\alpha\\) (común) e independientes, la suma de todas ellas seguirá una distribución \\(G(\\alpha, k)\\). 3.2.5 La distribución de Cauchy Se trata de un modelo continuo cuya función de densidad es: \\[ f(x)=\\frac{1}{\\pi\\left(1+x^{2}\\right)} \\quad \\text { para } \\quad-\\infty<x<\\infty \\] Cuya integral nos proporciona la función de distribución: \\[ F(x)=\\int_{-\\infty}^{x} \\frac{1}{\\pi\\left(1+t^{2}\\right)} d t=\\frac{1}{\\pi}[\\arctan (t)]_{t=-\\infty}^{t=x}=\\frac{1}{2}+\\frac{\\arctan (x)}{\\pi} \\] El siguiente programa permite visualizar la forma de la función de densidad de este modelo y el valor de la función de distribución: 3.2.5.1 Propiedades de la distribución de Cauchy Se trata de un ejemplo de variable aleatoria que carece de esperanza (y, por tanto, también de varianza o cualquier otro momento), ya que la integral impropia correspondiente no es convergente: \\[ E(X)=\\int_{-\\infty}^{\\infty} \\frac{x}{\\pi\\left(1+x^{2}\\right)} d x=\\frac{1}{2 \\pi} \\int_{-\\infty}^{\\infty} \\frac{2 x}{1+x^{2}} d x=\\frac{1}{2 \\pi}\\left[\\lim _{x \\rightarrow \\infty} \\ln \\left(x^{2}\\right)-\\lim _{x \\rightarrow-\\infty} \\ln \\left(x^{2}\\right)\\right]=\\frac{1}{2 \\pi}[\\infty-\\infty] \\] y nos queda una indeterminación. Por tanto, la esperanza de una distribución de Cauchy no existe. Cabe señalar que la función de densidad es simétrica respecto al valor cero (que sería la mediana y la moda), pero al no existir la integral anterior, la esperanza no existe. 3.2.6 La distribución de Weibull Se trata de un modelo continuo asociado a variables del tipo tiempo de vida, tiempo hasta que un mecanismo falla, etc. La función de densidad de este modelo viene dada por: \\[ f(x)=\\left\\{\\begin{array}{ll} \\frac{\\beta}{\\alpha}\\left(\\frac{x}{\\alpha}\\right)^{\\beta-1} e^{-\\left(\\frac{x}{\\alpha}\\right)^{\\beta}} & \\text { si } x \\geq 0 \\\\ 0 & \\text { si } x<0 \\end{array}\\right\\} \\] que, como vemos, depende de dos parámetros: \\(\\alpha>0\\) y \\(\\beta>0\\), donde \\(\\alpha\\) es un parámetro de escala y \\(\\beta\\) es un parámetro de forma (lo que proporciona una gran flexibilidad a este modelo). La función de distribución se obtiene por la integración de la función de densidad y vale: \\[ F(x)=1-e^{-\\left(\\frac{x}{\\alpha}\\right)^{\\beta}} \\] El siguiente programa permite visualizar la forma de la función de densidad de este modelo y el valor de la función de distribución: 3.2.6.1 Propiedades de la distribución Weibull Si tomamos \\(\\beta=1\\) tenemos una distribución Exponencial. Su esperanza vale: \\[ E(X)=\\alpha \\Gamma\\left(\\frac{1}{\\boldsymbol{\\beta}}+\\mathbf{1}\\right) \\] Su varianza vale: \\[ V(X)=\\alpha^{2}\\left\\{\\Gamma\\left(\\frac{2}{\\beta}+1\\right)-\\left[\\Gamma\\left(\\frac{1}{\\beta}+1\\right)\\right]^{2}\\right\\} \\] donde \\(\\Gamma(x)\\) representa la función Gamma de Euler definida anteriormente. 3.2.7 Tabla resumen de las principales distribuciones continuas Distribución Parámetros Función de densidad Esperanza Varianza Uniforme \\(a, b\\) \\(\\frac{1}{b-a}\\) \\(a<x<b\\) \\(\\frac{a+b}{2}\\) \\(\\frac{(b-a)^{2}}{12}\\) Exponencial \\(\\alpha>0\\) \\(\\frac{1}{\\alpha} \\exp \\left(-\\frac{x}{\\alpha}\\right)\\) \\(x>0\\) \\(\\alpha\\) \\(\\alpha^{2}\\) Normal \\(-\\infty<\\mu<\\infty\\) \\(\\sigma>0\\) \\(\\frac{1}{\\sqrt{2 \\pi} \\sigma} \\exp \\left\\{-\\frac{(x-\\mu)^{2}}{2 \\sigma^{2}}\\right\\}\\) \\(-\\infty<x<+\\infty\\) \\(\\mu\\) \\(\\sigma^{2}\\) Cauchy | - | \\(\\frac{1}{\\pi\\left(1+x^{2}\\right)}\\) \\(-\\infty<\\mathbf{x}<\\infty\\) | – | – | Weibull | \\(\\alpha>0\\) \\(\\beta>0\\) | \\(\\frac{\\boldsymbol{\\beta}}{\\boldsymbol{\\alpha}}\\left(\\frac{x}{\\boldsymbol{\\alpha}}\\right)^{\\beta-1} e^{-\\left(\\frac{x}{\\alpha}\\right)^{\\beta}}\\) \\(x \\geq 0\\) | \\(\\alpha \\Gamma\\left(\\frac{1}{\\beta}+1\\right)\\) | \\(\\alpha^{2}\\left\\{\\Gamma\\left(\\frac{2}{\\beta}+1\\right)-\\left[\\Gamma\\left(\\frac{1}{\\beta}+1\\right)\\right]^{2}\\right\\}\\) | 3.3 Distribuciones con R (y Python) El lenguaje estadístico R es muy potente en cuanto al cálculo con distribuciones de probabilidad. Dado que el trabajo con distribucines de probabilidad usando R está muy estandarizado y explicado en múltiples fuentes no repetiremos aquí estas explicaciones. Tan solo os referimos a dos buenas fuentes de información que podéis utilizar para aprender como hacer los cálculos con R y también una aplicación que os permite visualizar casi cualquier distribución conocida. R Tutorials Explicación detallada y de nivel básico del manejo de las principales distribuciones con R https://www.r-tutor.com/elementary-statistics/probability-distributions The distribution Zoo Permite visualizar de forma interactiva distintas distribuciones y proporciona información diversa sobre sus propiedades e incluso su aplicación. https://ben18785.shinyapps.io/distribution-zoo/ Distribution explorer Más completo que los anteriores. No se basa en R sino en python. https://distribution-explorer.github.io/index.html 3.4 La familia exponencial de distribuciones En el estudio de las propiedades de los estimadores, vemos que algunas distribuciones se comportan mejor que otras. Muchas veces, este buen comportamiento refleja una estructura común que proviene de pertenecer a una misma familia de distribuciones llamada familia exponencial. Definición: Sea \\(f_{\\theta}\\) una familia de probabilidades que depende de un parámetro unidimensional \\(\\left\\{f_{\\theta}(x), \\theta \\in \\Theta \\subseteq \\mathbb{R}\\right\\}\\) tal que el soporte \\(S(\\theta)=\\left\\{x \\mid f_{\\theta}(x)>0\\right\\}\\) no depende de \\(\\theta\\). Si existen funciones de los parámetros \\(Q(\\theta)\\) y \\(C(\\theta)\\) y funciones de las muestras, \\(T(x)\\) y \\(h(x)\\), tales que la función de densidad puede escribirse como: \\[f_{\\theta}(x)=C(\\theta) h(x) \\exp\\{Q(\\theta) \\cdot T(x)\\}\\] diremos que \\(f_{\\theta}(x)\\) pertenece a la familia exponencial de distribuciones. La familia exponencial no representa un nuevo tipo de distribuciones, sino la constatación de que muchas distribuciones comunes, que pueden reformularse para ajustarse a la expresión anterior, pertenecen a esta familia. Veamos algunos ejemplos de que esto es efectivamente así. 3.4.1 Ejemplos de distribuciones de esta familia 3.4.1.1 Distribución de Poisson La ley de Poisson pertenece a la familia exponencial uniparamétrica. Efectivamente, \\[f_{\\lambda}(x)=e^{-\\lambda} \\frac{\\lambda^{x}}{x!}=\\exp\\{-\\lambda+x \\log \\lambda-\\log(x!)\\}\\] y si hacemos \\[Q(\\lambda)=\\log(\\lambda) \\quad T(x)=x \\quad D(\\lambda)=-\\lambda \\quad S(x)=-\\log(x!)\\] se hace evidente que \\(f_{\\lambda}\\) pertenece a la familia exponencial. 3.4.1.2 Distribución normal uniparamétrica La ley normal depende de dos parámetros \\(\\mu\\) y \\(\\sigma\\). Fijado uno de ellos, nos queda una distribución que depende de un solo parámetro, y de aquí la denominación “normal uniparamétrica”. Si, con el subíndice “0”, indicamos el parámetro fijado, tenemos: \\[ \\begin{aligned} &f_{\\sigma}=\\left\\{N\\left(\\mu_0, \\sigma\\right), \\sigma>0\\right\\} \\text{ Normal uniparamétrica, de parámetro } \\sigma^2, \\\\ &f_{\\mu}=\\left\\{N\\left(\\mu, \\sigma_0\\right), \\mu \\in \\mathbb{R}\\right\\} \\text{ normal uniparamétrica, de parámetro } \\mu. \\end{aligned} \\] Si queremos considerar ambos parámetros a la vez, debemos extender la definición al caso de parámetros \\(k\\)-dimensionales. En estos materiales no trataremos esta extensión. 3.4.1.2.1 Caso 1: Fijando la media \\(\\mu_0\\) Consideramos la distribución normal \\(N(\\mu_0, \\sigma^2)\\), donde fijamos \\(\\mu = \\mu_0\\) y \\(\\sigma^2\\) es el parámetro libre. La función de densidad de probabilidad es \\[f_{\\sigma}(x) = \\frac{1}{\\sqrt{2\\pi\\sigma^2}} \\exp\\left\\{-\\frac{(x - \\mu_0)^2}{2\\sigma^2}\\right\\}\\] Vamos a reescribir esta función en forma de la familia exponencial. Primero, reorganizamos los términos de la densidad: \\[f_{\\sigma}(x) = \\frac{1}{\\sqrt{2\\pi}} \\cdot \\sigma^{-1} \\exp\\left\\{-\\frac{1}{2\\sigma^2}(x - \\mu_0)^2\\right\\}\\] Ahora identificamos las funciones que se corresponden con la forma de la familia exponencial \\(f_{\\theta}(x) = C(\\theta) h(x) \\exp\\{Q(\\theta) T(x)\\}\\): \\(Q(\\sigma) = -\\frac{1}{2\\sigma^2}\\) \\(T(x) = (x - \\mu_0)^2\\) \\(C(\\sigma) = \\frac{1}{\\sqrt{2\\pi}\\sigma}\\) \\(h(x) = 1\\) Esto confirma que la distribución normal, con \\(\\mu_0\\) fijo, pertenece a la familia exponencial. 3.4.1.2.2 Caso 2: Fijando la varianza \\(\\sigma_0^2\\) Ahora consideramos la distribución \\(N(\\mu, \\sigma_0^2)\\), donde la varianza está fijada y el parámetro libre es \\(\\mu\\). La función de densidad es \\[f_{\\mu}(x) = \\frac{1}{\\sqrt{2\\pi\\sigma_0^2}} \\exp\\left\\{-\\frac{(x - \\mu)^2}{2\\sigma_0^2}\\right\\}\\] Vamos a reescribir esta función de la misma manera: \\[f_{\\mu}(x) = \\frac{1}{\\sqrt{2\\pi\\sigma_0^2}} \\exp\\left\\{-\\frac{1}{2\\sigma_0^2}(x^2 - 2\\mu x + \\mu^2)\\right\\}\\] Identificamos las funciones correspondientes: \\(Q(\\mu) = \\frac{\\mu}{\\sigma_0^2}\\) \\(T(x) = x\\) \\(D(\\mu) = -\\frac{\\mu^2}{2\\sigma_0^2}\\) \\(S(x) = -\\frac{x^2}{2\\sigma_0^2}\\) Esto prueba que la distribución normal con \\(\\sigma_0\\) fijo pertenece a la familia exponencial. 3.4.2 Distribución Binomial La distribución binomial es un ejemplo interesante, puesto que, a priori, no parece tener la estructura propia de la distribución exponencial, cosa que si pasa con la distribución de Poisson o con la Normales uniparamétricas que acabamos de ver. Sin embargo, tras aplicar algunas transformaciones se puede ver como, también esta distribución pertenece a la familia exponencial La función de masa de probabilidad para la distribución binomial es \\[f(x; n, p) = \\binom{n}{x} p^x (1 - p)^{n - x}, \\quad x = 0, 1, \\dots, n\\] Reescribimos esta función en términos exponenciales: \\[f(x; n, p) = \\binom{n}{x} \\exp\\{x \\log(p) + (n - x) \\log(1 - p)\\}\\] Agrupamos los términos dependientes de \\(x\\): \\[f(x; n, p) = \\binom{n}{x} \\exp\\left\\{x \\log\\left(\\frac{p}{1 - p}\\right) + n \\log(1 - p)\\right\\}\\] Identificamos las funciones correspondientes a la familia exponencial: \\(Q(p) = \\log\\left(\\frac{p}{1 - p}\\right)\\) \\(T(x) = x\\) \\(D(p) = n \\log(1 - p)\\) \\(S(x) = \\log \\binom{n}{x}\\) Por lo tanto, la distribución binomial pertenece a la familia exponencial. 3.4.3 Importancia y utilidad de la familia exponencial Muchas de las distribuciones usadas para modelar gran cantidad de situaciones prácticas pertenecen a esta familia. Esto significa que es posible estudiar sus propiedades en conjunto. Es decir, si establecemos que una propiedad se verifica en una distribución que pertenece a la familia exponencial, automáticamente sabemos que todos los miembros de la familia verifican esa propiedad. A continuación, se describen tres ventajas importantes de trabajar con esta familia: 3.4.4 Los modelos lineales generalizados (GLMs) Una de las aplicaciones más importantes de la familia exponencial es su uso en los Modelos Lineales Generalizados (GLMs). Estos modelos nos permiten extender la regresión lineal clásica a diferentes tipos de datos, como los resultados binarios (por ejemplo, éxito o fracaso), mediante la regresión logística, recuentos de eventos (como el número de llamadas recibidas en una hora) mediante la regresión de Poisson, y muchos otros. Gracias a la estructura de la familia exponencial, podemos conectar la media de la variable que estamos modelando con las variables explicativas de forma flexible, lo que hace posible aplicar GLMs en una amplia variedad de situaciones. 3.4.5 Estimación en la familia exponencial Otra ventaja importante es que, al trabajar con distribuciones de la familia exponencial, los métodos que usamos para hacer inferencias estadísticas suelen tener buenas propiedades. Esto, que se explicará con más detalle en capítulos siguientes, implica que los estimadores que obtenemos con estos modelos suelen ser precisos y reflejar correctamente la información que contienen los datos. Naturalmente esto se puede ver al revés: Si podemos trabajar con distribuciones de la familia exponencial, solemos tener, de entrada, una serie de ventajas, como el buen comportamiento de los etimadores, por lo que siempre es una buena opción intentar utilizarlas en nuestros modelos. "],["distribuciones-de-probabilidad-multidimensionales.html", "Capítulo 4 Distribuciones de probabilidad multidimensionales 4.1 Distribuciones conjuntas de probabilidades 4.2 Variable aleatorias bivariantes discretas 4.3 La distribución multinomial 4.4 Distribuciones marginales 4.5 Distribuciones condicionales 4.6 Vectores aleatorios absolutamente continuos 4.7 Independencia de variables aleatorias 4.8 Momentos de vectores aleatorios", " Capítulo 4 Distribuciones de probabilidad multidimensionales En este capítulo se extiende el concepto de variable aleatoria a un conjunto de variables que pueden interpretarse asociadas a un conjunto de medidas distintas y que pueden estar, o no relacionadas. Tras introducir los conceptos de distribuciones multidimensionales, condicionales y marginales, se pasa a considerar el caso más habitual en inferencia estadística en el que las componentes de los vectrores son independientes entre ellas. Este es, de hecho, el punto de partida de muchos modelos y métodos en estadística. 4.1 Distribuciones conjuntas de probabilidades A menudo nos interesa estudiar múltiples características de un fenómeno aleatorio: La altura, el peso y el sexo de un individuo. La expresión coordinada de los genes que participan en una determinada via metabólica. El número de nucleótidos A, C, G, T en una región del genoma de tamaño \\(n\\). Estas características numéricas que, de forma análoga al caso univariante, podemos suponer asociadas a los resultados de experimentos aleatorios se denominan variables aleatorias multidimensionales o, atendiendo a sus componentes, vectores aleatorios. Las distribuciones de probabilidad que, siguiendo con la analogía, asociaremos a los vectores aleatorios se denominan distribuciones de probabilidades conjuntas o multivariantes. Antes de desarrollar el tema es importante remarcar que consideraremos dos escenarios: El primero, el “natural” es considerar que si trabajamos con distintas variables asociadas a un mismo fenómeno, es razonable suponer que varien de alguna forma coordinada. De ahí la expresión distribución conjnta. En ocasiones, sin embargo, dispondremos de vectores aleatorios que varian independientemente los unos de los otros. En este caso su distribución conjunta será de un tipo especial que se conoce independencia. 4.1.1 Variable aleatoria bivariante Empezaremos por el caso más sencillo que, sin embargo permite estudiar la mayoría de los conceptos quenos interesas: Las distribuciones conjuntas de dos variables aleatorias. Una variable aleatoria bivariante es una aplicación que, a cada resultado de un experimento, le asocia dos números: \\[ (X, Y): \\Omega \\to \\mathbb{R}^2 \\] \\[ w \\mapsto (X(w), Y(w)) \\] De modo que, para todo par de valores numéricos, \\((x, y) \\in \\mathbb{R}^2\\), se tiene \\[ \\{w \\in \\Omega \\mid X(w) \\leq x,\\quad Y(w) \\leq y\\} \\in \\mathcal{A} \\] donde \\(\\mathcal{A}\\) representa el conjunto de sucesos observables definido en el capítulo 1. Lo que viene a significar esta definición es que una variable aleatoria bidimensional es un conjunto de medidas (números reales) a los que, por el ehecho de poderse asociar con sucesos observables a traves de los intérvalos \\(X(w) \\leq x,\\quad Y(w) \\leq y\\) se les puede asociar (calcular) una probabilidad. Fijémonos también que, como en el caso univariante, la función que transporta la probabilidad, del espació de probabilidad al conjunto de los reales, será la función de distribución, que se define a continuación. 4.1.2 Función de distribución bivariante La función de distribución conjunta de \\(X\\) y \\(Y\\), \\(F\\), es una generalización inmediata del caso univariado y se define como: \\[ F(x, y) = P\\{w \\in \\Omega \\mid X(w) \\leq x, Y(w) \\leq y\\} = P[X \\leq x, Y \\leq y] \\] Como en el caso univariante, esta es la función que define la forma en que podemos calcular probabilidades sobre los valores de las variables, en este caso de dimensión 2. 4.1.3 Ejemplo: Distribución conjunta del estado de infección y activación de células Supongamos que estamos observando dos características de células en un experimento de inmunología. Las variables que describen las células son: \\(X\\): La célula está infectada (\\(X = 1\\)) o no infectada (\\(X = 0\\)). \\(Y\\): La célula está activada (\\(Y = 1\\)) o no activada (\\(Y = 0\\)). La siguiente tabla muestra la probabilidad conjunta de observar cada combinación de infección y activación en una célula: \\(X \\backslash Y\\) \\(Y = 0\\) (No activada) \\(Y = 1\\) (Activada) \\(X = 0\\) (No infectada) 0.4 0.2 \\(X = 1\\) (Infectada) 0.1 0.3 4.1.3.1 1. Función de distribución conjunta La función de distribución conjunta \\(F(x, y)\\) para esta situación se calcula como: \\[ F(x, y) = P(X \\leq x, Y \\leq y) \\] Los valores para los pares posibles de \\(x\\) y \\(y\\) son: \\(F(0, 0) = P(X = 0, Y = 0) = 0.4\\) \\(F(0, 1) = P(X = 0, Y \\leq 1) = P(X = 0, Y = 0) + P(X = 0, Y = 1) = 0.4 + 0.2 = 0.6\\) \\(F(1, 0) = P(X \\leq 1, Y = 0) = P(X = 0, Y = 0) + P(X = 1, Y = 0) = 0.4 + 0.1 = 0.5\\) \\(F(1, 1) = P(X \\leq 1, Y \\leq 1) = 1\\) 4.1.3.2 2. Cálculo de la probabilidad de eventos específicos Por ejemplo, la probabilidad de que una célula esté infectada pero no activada es: \\[ P(X = 1, Y = 0) = 0.1 \\] 4.1.4 Implementación en R Podemos visualizar esta distribución conjunta con un gráfico en R. library(ggplot2) # Crear los datos de la distribución conjunta data <- expand.grid(X = c(0, 1), Y = c(0, 1)) data$Prob <- c(0.4, 0.2, 0.1, 0.3) # Crear el gráfico p <- ggplot(data, aes(x = factor(X, labels = c("No infectada", "Infectada")), y = factor(Y, labels = c("No activada", "Activada")))) + geom_tile(aes(fill = Prob), color = "white") + scale_fill_gradient(low = "white", high = "blue") + geom_text(aes(label = round(Prob, 2)), size = 5) + labs(x = "Estado de infección (X)", y = "Estado de activación (Y)", title = "Distribución Conjunta de Infección y Activación Celular") + theme_minimal() # Guardar el gráfico en el subdirectorio imagenes ggsave("images/distribucion_conjunta.png", plot = p, width = 6, height = 4, dpi = 300) knitr::include_graphics("images/distribucion_conjunta.png") 4.2 Variable aleatorias bivariantes discretas Una vez introducidos los conceptos de forma general pasamos a estudiar el problema en el caso discreto, que es muy intuitivo y, a la vez permite introducir todos los conceptos relevantes. Un vector aleatorio discreto, \\((X, Y)\\) es aquel cuyo recorrido o conjunto de valores posibles es finito o numerable. En este caso, toda probabilidad \\[ P\\{(X, Y) \\in B\\}, \\quad \\text{donde } B \\text{ es un conjunto de posibles valores de } X, Y, \\] se puede calcular a partir de la función de masa de probabilidad discreta bivariante. 4.2.1 Función de masa de probabilidad discreta (fmp) La funcion de masa de probabilidad de los vectores aleatorios generaliza la función del mismo nombre en el caso univariante, es decir, es una función: \\[ f: \\mathbb{R}^2 \\to [0, 1] \\] Que asigna la probabilidad a cada punto del plano: para todo \\((x, y) \\in \\mathbb{R}^{2}\\): \\[ f(x, y) = P\\{w \\in \\Omega \\mid X(w) = x, Y(w) = y\\} = P[X = x, Y = y] \\] 4.2.2 Propiedades de la fmp bivariante La masa total de probabilidad sobre el plano es 1: \\[ \\sum_{(x_i, y_j) \\in \\mathbb{R}^{2}} f(x_i, y_j) = 1 \\] Para todo subconjunto \\(B \\subseteq \\mathbb{R}^2\\), se verifica: \\[ F(x, y) = P[X \\leq x, Y \\leq y] = \\sum_{x_i \\leq x, y_j \\leq y} f(x_i, y_j) \\] Es decir, como en el caso univariante la función de distribución se puede calcular a partir de la función de masa de probabilidad. 4.2.2.1 Intuición frente a construcción La presentación de los conceptos anteriores suele generar cierto desasosiego entre los estudiantes que afrontan estos conceptos por primera (o siguientes) vez. El motivo de este desasosiego es que el papel de la función de distribución no suele ser tan intuitivo como el de la función de masa de probabilidad. Es decir, es más intuitivo pensar en como calcular lña probabilidad que la variable tome un valor concreto (\\(P[X=x]\\)) , que la probabilidad de que no alcance cierto valor (\\(P[X\\leq x]\\)). Sin embargo, la función que realmente permite transportar la probabilidad no es la función de masa de probabilidad (fmp) sino la función de distribución (fdd). De ahí el contraste entre intuición (fmp) y construcción (fdd) 4.2.3 Ejemplo de distribución bivariante discreta Supongamos que un estudio mide el número de células infectadas y el número de linfocitos activados en un campo microscópico. Dado el tamaño del campo y el grado de infección los valores observados de cada variables son: \\(X\\): Número de células infectadas (\\(X \\in \\{0, 1, 2, 3, 4, 5\\}\\))). \\(Y\\): Número de linfocitos activados (\\(Y \\in \\{0, 1, 2, 3\\}\\))). La distribución conjunta se refleja en la siguiente tabla de probabilidades conjuntas: \\(P[X=x]\\) \\(P[Y = 0]\\) \\(P[Y = 1]\\) \\(P[Y = 2]\\) \\(P[Y = 3]\\) 0 0.12 0.06 0.02 0.00 1 0.10 0.10 0.04 0.01 2 0.06 0.12 0.08 0.02 3 0.03 0.12 0.10 0.05 4 0.01 0.08 0.12 0.06 5 0.00 0.03 0.10 0.07 Puede comprobarse como la suma de todos los valores de la tabla es 1, y calcular probabilidades de sucesos como Probabilidad de que hayan dos células infectadas y un linfocito: Para calcular la probabilidad de que haya exactamente 2 células infectadas y 1 linfocito activado, se puede usar el valor directamente de la tabla. \\[ P(X = 2, Y = 1) = 0.12 \\] Probabilidad de que hayan menos de tres celulas infectadas y menos de dos linfocitos: Esta probabilidad es la suma de todas las combinaciones de \\(X\\) y \\(Y\\)) que cumplen con la condición de \\(X < 3\\)) y \\(Y < 2\\)). Es decir, sumamos las probabilidades de los casos \\((X = 0, Y = 0)\\)), \\((X = 0, Y = 1)\\)), \\((X = 1, Y = 0)\\)), \\((X = 1, Y = 1)\\)), \\((X = 2, Y = 0)\\)), y \\((X = 2, Y = 1)\\)). \\[ P(X < 3, Y < 2) = P(X = 0, Y = 0) + P(X = 0, Y = 1) + P(X = 1, Y = 0) + P(X = 1, Y = 1) + P(X = 2, Y = 0) + P(X = 2, Y = 1) \\] \\[ P(X < 3, Y < 2) = 0.12 + 0.06 + 0.10 + 0.10 + 0.06 + 0.12 = 0.56 \\] Recordemos que, al tratarse de variables discretas, no es lo mismo \\(P[X < x]\\) que \\(P[X \\leq x]\\), por lo que si la pregunta fuera “Probabilidad de que hayan al menos tres celulas infectadas y al menos dos linfocitos” deberíamos calcular: \\[ P(X \\leq 3, Y \\leq 2) \\] Esta última expresión se corresponde con la función de distribución evaluada en \\((3,2)\\). 4.2.3.1 Código R para el cálculo de la pmf Podemos hacer los cálculos usando R: prob_table <- matrix(c(0.12, 0.06, 0.02, 0.00, 0.10, 0.10, 0.04, 0.01, 0.06, 0.12, 0.08, 0.02, 0.03, 0.12, 0.10, 0.05, 0.01, 0.08, 0.12, 0.06, 0.00, 0.03, 0.10, 0.07), nrow = 6, byrow = TRUE) # Asignar nombres a las filas y columnas rownames(prob_table) <- 0:5 colnames(prob_table) <- 0:3 # Mostrar la tabla prob_table ## 0 1 2 3 ## 0 0.12 0.06 0.02 0.00 ## 1 0.10 0.10 0.04 0.01 ## 2 0.06 0.12 0.08 0.02 ## 3 0.03 0.12 0.10 0.05 ## 4 0.01 0.08 0.12 0.06 ## 5 0.00 0.03 0.10 0.07 # Calcular la probabilidad de (X = 2, Y = 1) prob_X2_Y1 <- prob_table["2", "1"] cat("P(X = 2, Y = 1) =", prob_X2_Y1, "\\n") ## P(X = 2, Y = 1) = 0.12 # Calcular la probabilidad de (X < 3, Y < 2) prob_X_lt_3_Y_lt_2 <- sum(prob_table[1:3, 1:2]) cat("P(X < 3, Y < 2) =", prob_X_lt_3_Y_lt_2, "\\n") ## P(X < 3, Y < 2) = 0.56 4.2.3.2 Código R para visualizar la distribución conjunta Para visualizar la distribución conjunta, podemos usar el código siguiente; # Es preciso instalar y cargar el paquete scatterplot3d si no lo tienes instalado # install.packages("scatterplot3d") library(scatterplot3d) # Crear una matriz con los datos de la tabla de probabilidades X_vals <- as.numeric(rownames(prob_table)) Y_vals <- as.numeric(colnames(prob_table)) # Crear un grid de valores X e Y X_grid <- rep(X_vals, each = length(Y_vals)) Y_grid <- rep(Y_vals, times = length(X_vals)) # Extraer las probabilidades como un vector Z_vals <- as.vector(prob_table) # Enviar el gráfico 3D de barras simuladas a pdf png("images/pmfTrinomial.png") scatterplot3d(X_grid, Y_grid, Z_vals, type = "h", color = "lightblue", pch = 16, lwd = 5, cex.symbols = 1, angle=60, xlab = "Celulas Infectadas (X)", ylab = "Linfocitos Activados (Y)", zlab = "Probabilidad", main = "Distribución Conjunta de \\n Celulas Infectadas y Linfocitos Activados") dev.off() ## png ## 2 # Añadir texto con los valores de las probabilidades en la parte superior de las barras # s3d$text(X_grid, Y_grid, Z_vals, labels = round(Z_vals, 2), pos = 3, col = "black") knitr::include_graphics("images/pmfTrinomial.png", rel_path = TRUE ) 4.3 La distribución multinomial Antes de seguir con el estudio de las distribuciones discretas presentamos un caso importante de distribucion multivariante discreta, la distribución multinomial. 4.3.1 Generación de las observaciones Supongamos un experimentoaleatorio que puede producir \\(k\\) resultados posibles \\(A_1, A_2, \\dots, A_k\\) con probabilidades \\(p_1, p_2, \\dots, p_k\\), tales que \\(p_1 + p_2 + \\dots + p_k = 1\\). Repetimos el experimento \\(n\\) veces y llamamos \\(X_1, X_2, \\dots, X_k\\) al número de veces que se presenta \\(A_1, A_2, \\dots, A_k\\). La distribución conjunta de \\(X_1, X_2, \\dots, X_k\\) recibe el nombre de multinomial. 4.3.2 Funcion de masa de probabilidad de la distribución multinomial El vector \\(\\mathbf{X} = (X_1, \\dots, X_k)\\) tiene distribución multinomial de parámetros \\(n\\) y \\(\\mathbf{p} = (p_1, \\dots, p_k),\\) denotado por \\(\\mathbf{X} \\sim \\mathrm{M}(n, \\mathbf{p})\\), con \\(n\\) entero positivo, \\(p_i \\geq 0\\) y \\(\\sum_{i=1}^{k} p_i = 1\\). Su función de densidad conjunta es: \\[ f(\\mathbf{x}) = P[\\mathbf{X} = \\mathbf{x}] = \\frac{n!}{x_1!x_2!\\cdots x_k!} p_1^{x_1} p_2^{x_2} \\dots p_k^{x_k} \\] donde \\(x_i\\) son enteros no negativos tales que \\(\\sum_{i=1}^{k} x_i = n\\). 4.3.3 Relación con la distribución binomial Esta distribución puede verse como una generalización de la distribución binomial en el que, en lugar de tener dos posibles resultados, tenemos \\(r\\) resultados posibles. 4.3.4 Un caso particular: La distribución trinomial Veamos un ejemplo propio del análisis de secuencias en el que se aplica esta distribución: Si consideramos el alineamiento de dos secuencias \\(x, y\\) de tamaño \\(n\\), podemos observar: $A_1 $: \\(x_i\\) alineado con $y_i $, con $P(A_1) = p_1 $ $A_2 $: \\(x_i\\) alineado con “-”, con $P(A_2) = p_2 $ $A_3 $: “-” alineado con $y_i $, con $P(A_3) = 1 - p_1 - p_2 $ La variable $(X_1, X_2) $, que cuenta el número de veces que se observa \\(A_1, A_2\\) (con $X_3 = n - X_1 - X_2 $), sigue una distribución trinomial de parámetros \\(n\\), $p_1 $, $p_2 $. Obsérvese que, dado que el total de observaciones \\(n\\) está prefijado, aunque haya tres categorías, \\(A_1\\), \\(A_2\\), \\(A_3\\) el número de observaciones de \\(A_3\\) es el total menos la suma de las observaciones de \\(A_1+A_2\\). O dicho de otra forma el número de probabilidades que són parámetros de la distribución es \\(n-1=2\\), lo que junto con \\(n\\) que es otyro parámetro determina que “trinomial” se refiera tanto al total de categorías como al número de parámetros, aunque, en realidad tan sólo hay dos componentes \\(X_1\\) y \\(X_2\\) independientes (concepto este que se definirá con precisión más adelante). Estudiamos los posibles alineamientos de dos secuencias de 5 nucleótidos, en un contexto en el que las probabilidades de \\(A_1\\) y \\(A_2\\) son, respectivamente 0.6 y 0.2, es decir una Trinomial M(5; 0.6, 0.2) que dan lugar a la tabla siguiente. \\(X_{1} \\backslash X_{2}\\) 0 1 2 3 4 5 0 (0,0,5) (0,1,4) (0,2,3) (0,3,2) (0,4,1) (0,5,0) 1 (1,0,4) (1,1,3) (1,2,2) (1,3,1) (1,4,0) 2 (2,0,3) (2,1,2) (2,2,1) (2,3,0) 3 (3,0,2) (3,1,1) (3,2,0) 4 (4,0,1) (4,1,0) 5 (5,0,0) A partir de la tabla anterior podemos determinar las probabilidades conjuntas: \\(X_{1} \\backslash X_{2}\\) 0 1 2 3 4 5 0 0.0003 0.0016 0.0032 0.0032 0.0016 0.0003 1 0.0048 0.0192 0.0288 0.0192 0.0048 2 0.0288 0.0864 0.0864 0.0288 3 0.0864 0.1728 0.0864 4 0.1296 0.1296 5 0.0778 4.4 Distribuciones marginales Dado un vector aleatorio, puede interesar el comportamiento individual de una o cada una de sus componentes \\(X_i\\). La distribución de la componente \\(i\\)-ésima se denomina distribución marginal de \\(X_i\\). Representa el comportamiento de \\(X_i\\) sin tener en cuenta las otras componentes, es decir, como si fuera una variable aleatoria unidimensional. 4.4.1 Las marginales están en los márgenes El nombre de distribución marginal proviene del hecho de que en una distribución bivariada discreta como la trinomial, los valores de una fila coinciden con los valores de \\(X_2\\), y todos los de una columna con los de \\(X_1\\). Los valores en la fila 0 o columna 0 (los márgenes) representan precisamente las distribuciones marginales. 4.4.2 Densidades marginales discretas La densidad marginal de \\(X\\) es: \\[ f_X(x) = f_1(x) = \\sum_j f(x, y_j) \\] y la de \\(Y\\) es: \\[ f_Y(y) = f_2(y) = \\sum_i f(x_i, y) \\] 4.4.3 Trinomial M(5; 0.6, 0.2): Distribuciones marginales \\(X_1 \\backslash X_2\\) 0 1 2 3 4 5 \\(X_2\\) \\(P[X_2 = x]\\) 0 (0,0,5) (0,1,4) (0,2,3) (0,3,2) (0,4,1) (0,5,0) 0 0.0102 1 (1,0,4) (1,1,3) (1,2,2) (1,3,1) (1,4,0) 1 0.0768 2 (2,0,3) (2,1,2) (2,2,1) (2,3,0) 2 0.2304 3 (3,0,2) (3,1,1) (3,2,0) 3 0.3456 4 (4,0,1) (4,1,0) 4 0.2592 5 (5,0,0) 5 0.0778 X_2 0 1 2 3 4 5 1.0000 \\(P[X_2 = x]\\) 0.3277 0.4096 0.2048 0.0512 0.0064 0.0003 1.0000 4.5 Distribuciones condicionales A veces nos interesa la distribución de una componente si conocemos que la otra ha tomado un valor determinado. En el ejemplo de los alineamientos, podríamos querer conocer los posibles valores y probabilidades de un alineamiento, si sabemos que hay exactamente un “gap” en la secuencia de prueba. 4.5.1 Densidad condicional ¿Qué podemos decir de la distribución de \\(Y\\) si conocemos el valor de \\(X\\)? \\[ f(y \\mid X = x) = P[Y = y \\mid X = x] = \\frac{P[X = x, Y = y]}{P[X = x]} = \\frac{f(x, y)}{f_X(x)} \\] siempre que \\(f_X(x) > 0\\). 4.5.2 Trinomial M(5; 0.6, 0.2): Distribución condicional Distribución de \\(X_1\\) condicionada a que \\(X_2 = 1\\). \\((X_1, 1)\\) \\(P(X_1, 1)\\) \\(P_{X_2}(1)\\) \\(P(X_1 \\mid X_2 = 1)\\) (0,1,4) 0.002 0.41 0.004 (1,1,3) 0.019 0.41 0.047 (2,1,2) 0.086 0.41 0.211 (3,1,1) 0.173 0.41 0.422 (4,1,0) 0.13 0.41 0.316 Total 1 4.6 Vectores aleatorios absolutamente continuos Diremos que \\((X, Y)\\) es absolutamente continua si existe una función \\(f(x, y)\\), llamada función de densidad conjunta absolutamente continua o bivariada, tal que, para todo \\((x, y) \\in \\mathbb{R}^2\\), \\[ F(x, y) = \\int_{-\\infty}^{x} \\int_{-\\infty}^{y} f(u, v)\\, du \\, dv \\] Si existe, la función de densidad absolutamente continua es única. 4.6.1 Propiedades de la función de densidad conjunta \\(f(x, y) \\geq 0\\) La masa total de probabilidad es 1: \\[ \\int_{-\\infty}^{\\infty} \\int_{-\\infty}^{\\infty} f(x, y)\\, dx\\,dy = 1 \\] Para cualquier conjunto \\(S\\): \\[ P\\{(X, Y) \\in S\\} = \\int_S f(x, y) \\, dx \\, dy \\] En particular, la probabilidad de que \\((X, Y)\\) esté en un rectángulo: \\[ P(a_1 < X \\leq a_2, b_1 < Y \\leq b_2) = \\int_{a_1}^{a_2} \\int_{b_1}^{b_2} f(x, y) \\, dx \\, dy \\] 4.6.2 Densidades marginales en el caso continuo Las densidades marginales son: \\[ f_X(x) = \\int_{-\\infty}^{\\infty} f(x, y) \\, dy \\] \\[ f_Y(y) = \\int_{-\\infty}^{\\infty} f(x, y) \\, dx \\] 4.6.3 Densidad condicional en el caso continuo La densidad de \\(Y\\) condicionada a un valor de \\(X\\) es: \\[ f(y \\mid X = x) = \\frac{f(x, y)}{f_X(x)} \\] siempre que \\(f_X(x) > 0\\). 4.6.4 La Distribución Normal Bivariante El ejemplo más importante de una distribución de probabilidad absolutamente continua para vectores aleatorios es la distribución normal bivariante. Esta distribución describe dos variables aleatorias continuas, \\(X\\) y \\(Y\\), cuya relación está modelada por una correlación lineal y tiene forma de campana (gaussiana) en dos dimensiones. 4.6.4.1 Función de Densidad Conjunta La función de densidad conjunta de la distribución normal bivariante con medias \\(\\mu_X\\), \\(\\mu_Y\\), desviaciones estándar \\(\\sigma_X\\), \\(\\sigma_Y\\) y coeficiente de correlación \\(\\rho\\) es: \\[ f(x, y) = \\frac{1}{2 \\pi \\sigma_X \\sigma_Y \\sqrt{1 - \\rho^2}} \\exp \\left( -\\frac{1}{2(1 - \\rho^2)} \\left[ \\frac{(x - \\mu_X)^2}{\\sigma_X^2} + \\frac{(y - \\mu_Y)^2}{\\sigma_Y^2} - \\frac{2\\rho(x - \\mu_X)(y - \\mu_Y)}{\\sigma_X \\sigma_Y} \\right] \\right) \\] Esta expresión se generaliza fácilmente de la distribución normal univariante, pero en este caso incluye términos adicionales que representan la interacción entre \\(X\\) y \\(Y\\). 4.6.4.2 Ejemplo En vez de proporcionar un código para visualizar la distribución normal bivariante podéis seguir este enlace: https://datasciencegenie.com/3d-contour-plots-of-bivariate-normal-distribution/ en donde se extiende lo que acabamos de discutir y se proporciona algunos ejemplos con R. 4.6.4.3 Distribuciones Marginales Para obtener las distribuciones marginales a partir de una normal bivariante, debemos integrar la densidad conjunta sobre una de las variables. Dado que estamos trabajando con una distribución normal bivariante, su densidad conjunta está dada por: \\[ f_{X,Y}(x, y) = \\frac{1}{2 \\pi \\sigma_X \\sigma_Y \\sqrt{1 - \\rho^2}} \\exp\\left( -\\frac{1}{2(1 - \\rho^2)} \\left[ \\frac{(x - \\mu_X)^2}{\\sigma_X^2} + \\frac{(y - \\mu_Y)^2}{\\sigma_Y^2} - \\frac{2\\rho(x - \\mu_X)(y - \\mu_Y)}{\\sigma_X \\sigma_Y} \\right] \\right) \\] Para obtener la marginal de \\(X\\), debemos integrar sobre \\(Y\\): \\[ f_X(x) = \\int_{-\\infty}^{\\infty} f_{X,Y}(x, y) \\, dy \\] Al realizar esta integral, se obtiene que la distribución marginal de \\(X\\) es: \\[ f_X(x) = \\frac{1}{\\sqrt{2 \\pi \\sigma_X^2}} \\exp\\left( -\\frac{(x - \\mu_X)^2}{2 \\sigma_X^2} \\right) \\] Esto muestra que \\(X\\) sigue una distribución normal con media \\(\\mu_X\\) y varianza \\(\\sigma_X^2\\), es decir, \\(X \\sim N(\\mu_X, \\sigma_X^2)\\). Del mismo modo, para la marginal de \\(Y\\), integramos sobre \\(X\\): \\[ f_Y(y) = \\int_{-\\infty}^{\\infty} f_{X,Y}(x, y) \\, dx \\] La solución de esta integral da: \\[ f_Y(y) = \\frac{1}{\\sqrt{2 \\pi \\sigma_Y^2}} \\exp\\left( -\\frac{(y - \\mu_Y)^2}{2 \\sigma_Y^2} \\right) \\] Lo que significa que \\(Y\\) sigue una distribución normal con media \\(\\mu_Y\\) y varianza \\(\\sigma_Y^2\\), es decir, \\(Y \\sim N(\\mu_Y, \\sigma_Y^2)\\). 4.6.4.4 Ejemplo Supongamos que tenemos una distribución normal bivariante con los siguientes parámetros: \\(\\mu_X = 100\\), \\(\\sigma_X = 15\\) \\(\\mu_Y = 50\\), \\(\\sigma_Y = 10\\) \\(\\rho = 0.5\\) La densidad conjunta es: \\[ f_{X,Y}(x, y) = \\frac{1}{2 \\pi (15)(10) \\sqrt{1 - 0.5^2}} \\exp\\left( -\\frac{1}{2(1 - 0.5^2)} \\left[ \\frac{(x - 100)^2}{15^2} + \\frac{(y - 50)^2}{10^2} - \\frac{2(0.5)(x - 100)(y - 50)}{(15)(10)} \\right] \\right) \\] Integrando sobre \\(Y\\), obtenemos la distribución marginal de \\(X\\): \\[ f_X(x) = \\frac{1}{\\sqrt{2 \\pi (15^2)}} \\exp\\left( -\\frac{(x - 100)^2}{2 \\cdot 15^2} \\right) \\] De manera análoga, la marginal de \\(Y\\) es: \\[ f_Y(y) = \\frac{1}{\\sqrt{2 \\pi (10^2)}} \\exp\\left( -\\frac{(y - 50)^2}{2 \\cdot 10^2} \\right) \\] 4.6.5 Distribuciones Condicionales La distribución condicional de una variable dado un valor específico de la otra también es normal univariante. Por ejemplo, la distribución condicional de \\(X\\) dado \\(Y = y\\) es: \\[ X \\mid Y = y \\sim N \\left( \\mu_X + \\rho \\frac{\\sigma_X}{\\sigma_Y} (y - \\mu_Y), (1 - \\rho^2)\\sigma_X^2 \\right) \\] De forma análoga, la distribución condicional de \\(Y\\) dado \\(X = x\\) es: \\[ Y \\mid X = x \\sim N \\left( \\mu_Y + \\rho \\frac{\\sigma_Y}{\\sigma_X} (x - \\mu_X), (1 - \\rho^2)\\sigma_Y^2 \\right) \\] 4.6.5.1 Ejemplo Podemos calcular la distribución condicional de \\(X\\) dado que \\(Y = 180\\) cm, y mostrar cómo cambia la distribución de \\(X\\) bajo esta condición: # Valores originales mu <- c(100, 50) sigma <- c(15, 10) rho <- 0.5 # Condicionar X dado Y = 180 y_cond <- 180 mu_cond <- mu[1] + 0.6 * (10/7) * (y_cond - mu[2]) sigma_cond <- sqrt(1 - 0.6^2) * 10 # Mostrar la media y desviación estándar condicionales mu_cond ## [1] 211.4286 sigma_cond ## [1] 8 Esto nos dice que el peso medio de una persona con altura de 180 cm es mayor que el peso medio de la población total, y su desviación estándar es menor debido a la correlación positiva entre peso y altura. 4.7 Independencia de variables aleatorias Una vez introducido el concepto de distribución conjunta pasamos a estudiar un caso particularmente importante de distribución conjunta, la independencia. De forma aparentemente contradictoria, en este caso, las variables se caracterizan por el hecho de que no varían conjuntamente sino que lo hacen independientemente las unas de las otras. De manera intuitiva podemos decir que dos variables aleatorias son independientes si los valores que toma una de ellas no afectan a los de la otra ni a sus probabilidades. En muchas ocasiones la independencia será evidente a partir del experimento, por ejemplo, es independiente el resultado del lanzamiento de un dado y el de una moneda tres veces. Por tanto las variables: \\(X_1\\): “Puntuación obtenida con el dado” y \\(X_2\\): “Número de caras obtenidas al lanzar tres veces una moneda” serán variables independientes. En otras ocasiones tenemos una dependencia clara, por ejemplo, al lanzar un dado consideremos las variables \\(Y_1=\\): puntuación del dado, \\(Y_2=\\): variable indicadora de puntuación par. Es evidente que existe una clara dependencia, si sabemos que \\(Y=1\\), la variable \\(X\\) sólo puede tomar los valores 2 , 4 o 6 ; si sabemos que \\(X=3\\), entonces, \\(Y=0\\) forzosamente. Algunas veces podemos suponer la existencia de una cierta relación entre variables, aunque sea en forma algo abstracta y sin concretar. Por ejemplo si realizamos unas mediciones sobre unos individuos, las variables altura en cm y peso en Kg probablemente estarán relacionadas, los valores de una influirán en los valores de la otra. Intentar determinar la naturaleza exacta de la relación entre ambas es lo que en estadística conocemos como un problema de correlación (si nos interesa unicamente la asociación) o de regresión (si uqeremos modelizar una variable en función d ela otra). Si queremos una definición algo más formal, basta con que recordemos que dos sucesos son independientes si la probabilidad de la intersección es igual al producto de probabilidades, aplicando esta definición a sucesos del tipo \\(X \\leq a\\) tenemos la definición siguiente: 4.7.1 Primera caracterización de la independencia Diremos que dos variables aleatorias \\(X\\) e \\(Y\\) son independientes si y sólo si su función de distribución conjunta puede expresarse como el producto de las funciones de distribución marginales, es decir si \\[ F_{X,Y}(x,y)= P\\left( (X \\leq x) \\cap (Y \\leq b)\\right)=P(X \\leq x) \\times P(Y \\leq y)=F_{X}(x) \\times F_{Y}(y) \\] Fijémonos que, como en otros casos, la función que nos permite caracterizar una condición de forma general es la función de distribución. 4.7.1.1 Variables discretas independientes En el caso de las variables discretas la caracterización de la independencia puede hacerse, además, por las funciones de masa de probabilidad: Diremos que dos variables aleatorias discretas \\(X\\) e \\(Y\\) son independientes si y sólo si su función de masa de probabilidad conjunta puede expresarse como el producto de las funciones de masa de probabilidad marginales, es decir si \\[ f_{X,Y}(x,y)= P\\left( (X = x) \\cap (Y = y)\\right)=P(X = x) \\times P(Y = y)=f_{X}(x) \\times f_{Y}(y) \\] 4.7.2 Propiedades de las variables independientes Como consecuencia inmediata de la independencia de \\(X\\) e \\(Y\\), se cumple lo siguiente: \\[ P(a<X \\leq c \\cap b<Y \\leq d)=P(a<X \\leq c) \\cdot P(b<Y \\leq d) \\] Que podría re-enunciarse diciendo que la probabilidad conjunta en un rectangulo definido por los valores “a, c, b, d” es el producto de las probabilidades marginales en los segmentos “ac”, para \\(X\\) y “bd” para \\(Y\\). 4.8 Momentos de vectores aleatorios Una vez hemos introducido los vectores aleatorios, que como hemos señalado, son variables aleatorias bi, tri o \\(n\\)-dimensionales tiene sentido preguntarse como se extienden a dichos vectores los conceptos y propiedades que introdujimos para variables aleatorias unidimensionales. Ya hemos visto como, para las funciones de probabilidad, la función de densidad o la función de distribución, existen extensiones imediatas, la función de densidad conjunta o la función de distribución conjunmta. Hemos visto también que, además de dichas extensiones, aparecen nuevos conceptos, que sólo tienen sentido en dos o más dimensiones, como las funciones de densidad condicionales o funciones de densidad marginales. Al considerar conceptos como la media o la varianza veremos que sucede algo similar: Por un lado conceptos como el de esperanza se extiende imediatamente al vector de medias. Por otro, conceptos como la varianza, han de tener en cuenta ahora, la posibilidad de variación conjunta entre dos o más variables lo que lleva a introducir magnitudes como la covarianza y la correlación. La extensión del concepto de varianza pasa ahora a combinar extensiones y conceptos nuevos en lo que se conoce como matriz de varianzas-covarianzas. 4.8.1 Esperanza de un vector aleatorio o vector de medias La esperanza matemática de un vector aleatorio es un vector que contiene las esperanzas matemáticas de cada una de las componentes de dicho vector. Si tenemos un vector aleatorio bivariante \\(\\mathbf{X}=(X_1,X_2)\\), su esperanza \\(\\mathbb{E}(\\mathbf{X})\\) está dada por: \\[ \\mathbb{E}(\\mathbf{X})= \\begin{pmatrix} \\mathbb{E}(X_1)\\\\ \\mathbb{E}(X_2) \\end{pmatrix} \\] Consideremos un experimento en el que estamos midiendo el nivel de expresión génica de dos genes \\(X_1\\) y \\(X_2\\) en una muestra de células. Si los niveles promedio de expresión son \\(\\mu_1=5\\) y \\(\\mu_2=8\\), entonces la esperanza del vector aleatorio sería: \\[ \\mathbb{E}(\\mathbf{X})= \\begin{pmatrix} 5\\\\ 8 \\end{pmatrix} \\] 4.8.2 Covarianza entre dos variables aleatorias La covarianza entre dos variables aleatorias \\(X_1\\) y \\(X_2\\) es una medida del grado de dependencia lineal entre ellas. La covarianza se define como \\[ \\text{Cov}(X_1,X_2)=\\mathbb{E}[(X_1-\\mathbb{E}(X_1))(X_2-\\mathbb{E}(X_2))] \\] Supongamos que estamos midiendo la cantidad de dos metabolitos \\(X_1\\) y \\(X_2\\) en una muestra, y queremos saber si sus concentraciones tienden a aumentar o disminuir juntas. Si obtenemos una covarianza de 0.5, y conocemos la escala en que varían los datos, podemos concluir que existe ligera tendencia a que los aumentos en \\(X_1\\) estén asociados con aumentos en \\(X_2\\). 4.8.3 Covarianza y correlación El ejemplo anterior es claramente insatisfactorio, puesto que valores de 0.5 pueden sugerir una gran dependencia o cas ninguna, segun cual sea la escala o el rango de variación de los valores que se consideran. Para evitar esta arbitrariedad se introduce la correlación lineal. La correlación entre dos variables aleatorias es una medida estandarizada del grado de dependencia lineal entre dos variables (es decir de lacovarianza), que toma valores entre -1 y 1 y que se define como: \\[ \\text{Corr}(X_1,X_2)=\\frac{\\text{Cov}(X_1,X_2)}{\\sqrt{\\text{Var}(X_1)\\text{Var}(X_2)}} \\] En el caso de los metabolitos mencionados anteriormente, si \\(\\text{Cov}(X_1,X_2)=0.5\\), \\(\\text{Var}(X_1)=2\\) y \\(\\text{Var}(X_2)=3\\), podemos calcular la correlación, que valdría: \\[ \\text{Corr}(X_1,X_2)=\\frac{0.5}{\\sqrt{2\\times 3}}=\\frac{0.5}{\\sqrt{6}}\\approx 0.204 \\] Esto indica una correlación positiva débil entre las concentraciones de los dos metabolitos. Obsérvese, sin embargo que si en vez de los valores anteriores para las varianzas de \\(X\\) e \\(Y\\) hubiéramos tenido \\(\\text{Var}(X_1)=1\\) y \\(\\text{Var}(X_2)=.5\\) el valor de la correlación habría sido: \\[ \\text{Corr}(X_1,X_2)=\\frac{0.5}{\\sqrt{1\\times 0.5}}=\\frac{0.5}{\\sqrt{0.5}}\\approx 0.7071 \\] Este ejemplo muestra como la correlación aporta más información sobre la dependencia lineal, puesto que, además de tener en cuenta la variación conjunta, tiene en cuenta la variabilidad individual de cada componente. 4.8.4 Matriz de varianzas-covarianzas La matriz de varianzas-covarianzas de un vector aleatorio \\(\\mathbf{X}=(X_1,X_2)\\) es una matriz que contiene las varianzas de las componentes en la diagonal y las covarianzas fuera de la diagonal. Está definida como: \\[ \\text{Cov}(\\mathbf{X})= \\begin{pmatrix} \\text{Var}(X_1)&\\text{Cov}(X_1,X_2)\\\\ \\text{Cov}(X_2,X_1)&\\text{Var}(X_2) \\end{pmatrix} \\] Siguiendo con el ejemplo de los metabolitos, si \\(\\text{Var}(X_1)=2\\), \\(\\text{Var}(X_2)=3\\), y la covarianza es \\(0.5\\), la matriz de covarianzas sería: \\[ \\text{Cov}(\\mathbf{X})= \\begin{pmatrix} 2&0.5\\\\ 0.5&3 \\end{pmatrix} \\] Esto nos indica la dispersión de cada variable y la relación entre ambas. La distribución normal bivariante Una de las distribuciones más importantes que describe el comportamiento conjunto de dos variables aleatorias es la distribución normal bivariante. Un vector aleatorio \\(\\mathbf{X}=(X_1,X_2)\\) tiene una distribución normal bivariante si su función de densidad conjunta está dada por: \\[ f(x_1,x_2)=\\frac{1}{2\\pi\\sigma_1\\sigma_2\\sqrt{1-\\rho^2}}\\exp\\left(-\\frac{1}{2(1-\\rho^2)}\\left[\\frac{(x_1-\\mu_1)^2}{\\sigma_1^2}-2\\rho\\frac{(x_1-\\mu_1)(x_2-\\mu_2)}{\\sigma_1\\sigma_2}+\\frac{(x_2-\\mu_2)^2}{\\sigma_2^2}\\right]\\right) \\] Aquí, \\(\\mu_1\\) y \\(\\mu_2\\) son las medias de \\(X_1\\) y \\(X_2\\), \\(\\sigma_1^2\\) y \\(\\sigma_2^2\\) son las varianzas, y \\(\\rho\\) es el coeficiente de correlación. 4.8.5 Matriz de correlaciones La matriz de correlaciones de un vector aleatorio bivariante \\(\\mathbf{X}=(X_1,X_2)\\) es una matriz simétrica \\(2\\times 2\\) que contiene los coeficientes de correlación entre las componentes \\(X_1\\) y \\(X_2\\). La correlación mide la relación lineal entre las variables y se define como: \\[ \\text{Corr}(X_1,X_2)=\\frac{\\text{Cov}(X_1,X_2)}{\\sqrt{\\text{Var}(X_1)\\text{Var}(X_2)}} \\] La matriz de correlaciones \\(\\text{Corr}(\\mathbf{X})\\) está dada por: \\[ \\text{Corr}(\\mathbf{X})= \\begin{pmatrix} 1 & \\text{Corr}(X_1,X_2)\\\\ \\text{Corr}(X_2,X_1) & 1 \\end{pmatrix} \\] Dado que \\(\\text{Corr}(X_1,X_2)=\\text{Corr}(X_2,X_1)\\), la matriz es simétrica, y los elementos diagonales son siempre \\(1\\) porque la correlación de una variable consigo misma es \\(1\\). 4.8.5.1 Relación con la matriz de covarianzas La matriz de correlaciones está relacionada con la matriz de covarianzas de la forma siguiente: Si \\(\\Sigma\\) es la matriz de covarianzas de \\(\\mathbf{X}=(X_1,X_2)\\), con \\(\\Sigma=\\begin{pmatrix} \\text{Var}(X_1) & \\text{Cov}(X_1,X_2)\\\\ \\text{Cov}(X_2,X_1) & \\text{Var}(X_2) \\end{pmatrix}\\), la matriz de correlaciones se obtiene “normalizando” cada covarianza dividiendo por el producto de las desviaciones estándar de las respectivas variables: \\[ \\text{Corr}(\\mathbf{X})= \\begin{pmatrix} 1 & \\frac{\\text{Cov}(X_1,X_2)}{\\sigma_1\\sigma_2}\\\\ \\frac{\\text{Cov}(X_2,X_1)}{\\sigma_1\\sigma_2} & 1 \\end{pmatrix} \\] donde \\(\\sigma_1=\\sqrt{\\text{Var}(X_1)}\\) y \\(\\sigma_2=\\sqrt{\\text{Var}(X_2)}\\). Supongamos que medimos dos variables, como la altura \\(X_1\\) y el peso \\(X_2\\) de un grupo de personas. Sabemos que: \\(\\text{Var}(X_1)=25\\) (varianza de la altura), \\(\\text{Var}(X_2)=100\\) (varianza del peso), \\(\\text{Cov}(X_1,X_2)=40\\) (covarianza entre altura y peso). La matriz de covarianzas sería: \\[ \\Sigma= \\begin{pmatrix} 25 & 40\\\\ 40 & 100 \\end{pmatrix} \\] La correlación entre \\(X_1\\) y \\(X_2\\) se calcula como: \\[ \\text{Corr}(X_1,X_2)=\\frac{40}{\\sqrt{25 \\times 100}}=\\frac{40}{50}=0.8 \\] Por lo tanto, la matriz de correlaciones será: \\[ \\text{Corr}(\\mathbf{X})= \\begin{pmatrix} 1 & 0.8\\\\ 0.8 & 1 \\end{pmatrix} \\] Esto indica una fuerte correlación positiva entre la altura y el peso de las personas en este grupo. La matriz de correlaciones nos proporciona una forma normalizada de comparar la dependencia entre las variables, sin depender de las unidades de medida. 4.8.6 Segunda caracterización de la independencia La independencia entre dos variables aleatorias \\(X_1\\) y \\(X_2\\) puede caracterizarse también a través de sus esperanzas de la siguiente manera: Dos variables son independientes si la esperanza del producto de ambas es igual al producto de las esperanzas de cada una por separado. Es decir si se verifica que: \\[ \\mathbb{E}[X_1 X_2] = \\mathbb{E}[X_1] \\mathbb{E}[X_2] \\] Esta propiedad refleja que, cuando las variables son independientes, el valor esperado del producto no se ve afectado por la interacción entre ellas, lo que implica que no hay dependencia entre las dos. Una consecuencia importante de esta propiedad es cómo afecta a la covarianza entre \\(X_1\\) y \\(X_2\\). Si \\(X_1\\) y \\(X_2\\) son independientes, entonces, por la propiedad anterior, \\(\\mathbb{E}[X_1 X_2] = \\mathbb{E}[X_1] \\mathbb{E}[X_2]\\) lo que, a su vez, significa que la covarianza es cero: \\[ \\text{Cov}(X_1, X_2) = \\mathbb{E}[X_1]\\mathbb{E}[X_2] - \\mathbb{E}[X_1]\\mathbb{E}[X_2] = 0 \\] Por lo tanto, si dos variables son independientes, necesariamente su covarianza es cero. Sin embargo, la inversa no es cierta: el hecho de que la covarianza sea cero no implica que las variables sean independientes. 4.8.7 Relación entre incorrelación e independencia Cuando la covarianza entre dos variables es cero, se dice que las variables son incorreladas. Aunque la independencia implica que las variables son incorreladas, lo contrario no siempre es verdad: dos variables pueden ser incorreladas (tener covarianza cero) pero no independientes. Un ejemplo clásico es el siguiente: si consideramos una variable aleatoria \\(X\\) y definimos \\(Y = X^2\\), entonces, aunque la covarianza entre \\(X\\) y \\(Y\\) puede ser cero (especialmente si \\(X\\) tiene una distribución simétrica alrededor de 0, como la normal estándar), \\(X\\) y \\(Y\\) no son independientes, porque el valor de \\(Y\\) está completamente determinado por \\(X\\). Consideremos dos variables aleatorias \\(X_1\\) y \\(X_2\\) que siguen una distribución normal conjunta bivariante con media cero: \\[ (X_1, X_2) \\sim \\mathcal{N}\\left(\\mathbf{0}, \\Sigma \\right) \\] Si la matriz de covarianzas \\(\\Sigma\\) es diagonal, es decir, \\(\\text{Cov}(X_1, X_2) = 0\\), entonces \\(X_1\\) y \\(X_2\\) son incorreladas. En este caso particular, cuando las variables son normales, la incorrelación sí implica independencia, porque en distribuciones normales la ausencia de correlación (covarianza cero) también implica que no hay ninguna dependencia entre las variables. Sin embargo, en otras distribuciones que no son normales, la incorrelación no garantiza la independencia, lo que subraya la importancia de distinguir entre los dos conceptos. "],["grandes-muestras.html", "Capítulo 5 Grandes muestras 5.1 Introducción: Aproximaciones asintóticas 5.2 Ley de los Grandes Números (Ley débil) 5.3 El teorema central del límite", " Capítulo 5 Grandes muestras 5.1 Introducción: Aproximaciones asintóticas En estadística y teoría de la probabilidad, el estudio de las grandes muestras juega un papel crucial debido a su relevancia tanto en la definición frecuentista de probabilidad como en la construcción de estimadores en la práctica estadística. Desde la perspectiva de la probabilidad frecuentista, la probabilidad se define como el límite de la frecuencia relativa de un evento cuando el número de ensayos tiende a infinito. En el contexto de la estadística, las grandes muestras sirven como base para muchas aproximaciones importantes, como las distribuciones de muestreo, las estimaciones de parámetros y la validación de inferencias. La ley de los grandes números y el teorema central del límite son ejemplos clave de teoremas que se fundamentan en el comportamiento de las muestras grandes, proporcionando las bases para muchos de los métodos estadísticos utilizados en la inferencia moderna. 5.2 Ley de los Grandes Números (Ley débil) La ley de los grandes números establece que, a medida que el tamaño de la muestra aumenta, la media muestral se aproxima a la media de la población. Formalmente, la ley de los grandes números en su versión débil se enuncia de la siguiente manera: Sea \\(X_1, X_2, \\dots, X_n\\) una secuencia de variables aleatorias independientes e idénticamente distribuidas (i.i.d.) con esperanza \\(\\mu = \\mathbb{E}[X_i]\\) y varianza \\(\\sigma^2 = \\text{Var}(X_i)\\), entonces para cualquier \\(\\epsilon > 0\\), \\[ \\lim_{n \\to \\infty} P \\left( \\left| \\frac{1}{n} \\sum_{i=1}^n X_i - \\mu \\right| \\geq \\epsilon \\right) = 0. \\] Esto significa que, con alta probabilidad, la media muestral \\(\\frac{1}{n} \\sum_{i=1}^n X_i\\) se aproxima a \\(\\mu\\) a medida que \\(n\\) crece. 5.2.1 Ejemplo Imaginemos un dado equilibrado. Sabemos que la esperanza de cada lanzamiento es el valor promedio de los números en el dado, que es \\[ \\mu = \\frac{1+2+3+4+5+6}{6} = 3.5. \\] Ahora, supongamos que lanzamos el dado repetidamente y calculamos la media de los resultados. Al principio, con pocos lanzamientos, la media puede estar alejada de 3.5, pero a medida que aumentan los lanzamientos, la media se acercará más y más a 3.5, como lo predice la ley de los grandes números. Es decir, a medida que lanzamos más veces el dado, la probabilidad de que la media de los resultados se aleje de 3.5 por más de una cantidad arbitraria disminuye. Podemos ilustrarlo con el siguiente código de R # Definir la función para simular lanzamientos de un dado simular_dado <- function(max_n) { medias <- numeric(max_n) # Vector para almacenar las medias muestrales for (n in 1:max_n) { lanzamientos <- sample(1:6, n, replace = TRUE) # Lanzar el dado n veces medias[n] <- mean(lanzamientos) # Calcular la media de los lanzamientos } return(medias) } # Simular para un tamaño máximo de muestra de 10000 lanzamientos max_n <- 10000 medias <- simular_dado(max_n) # Graficar las medias muestrales a medida que n aumenta png("images/LLN1.png") plot(1:max_n, medias, type = "l", col = "blue", lwd = 2, xlab = "Número de lanzamientos (n)", ylab = "Media muestral", main = "Ley de los Grandes Números\\n Media de los lanzamientos de un dado", cex.main=0.7) abline(h = 3.5, col = "red", lwd = 2, lty = 2) # Línea horizontal en 3.5 dev.off() ## png ## 2 knitr::include_graphics("images/LLN1.png",rel_path = TRUE) Este comportamiento es una manifestación intuitiva de la ley débil de los grandes números, ya que nos garantiza que la media muestral se acercará a la media poblacional a medida que el número de observaciones aumente. 5.3 El teorema central del límite El teorema central del límite (a partir de ahora, TCL) presenta un doble interés. Por un lado, proporciona a la estadística un resultado crucial para abordar el estudio de la distribución asintótica de muchos tipos de variables aleatorias. Como se verá en próximos capítulos, va a resultar básico en la construcción de contrastes de hipótesis y de intervalos de confianza, dos herramientas esenciales en estadística aplicada. Además, el TCL proporciona una explicación teórica fundamentada a un fenómeno habitual en experimentos reales: las variables estudiadas presentan muchas veces una distribución empírica aproximadamente normal. El TCL forma parte de un conjunto de propiedades relativas a las convergencias de variables aleatorias. En este tema se estudia sólo un tipo de convergencia, la convergencia en ley, ya que es necesaria para entender el enunciado del TCL. Se descarta, pues, en este documento el estudio de los otros tipos de convergencias (en probabilidad, casi segura, etc.) y el estudio de las leyes de los grandes números. Posiblemente el lector con poca formación en análisis matemático hallará alguna dificultad en la primera lectura de la definición de convergencia en ley y en el enunciado del TCL. Si es este el caso, los ejemplos incluidos han de ayudar en su comprensión. Consideramos al TCL un resultado básico con el que hay que familiarizarse, ya que se aplicará repetidamente en los próximos temas. 5.3.1 Sumas de variables aleatorias El TCL estudia el comportamiento de las sumas de variables aleatorias. En temas anteriores se han visto ya ejemplos de sumas de variables aleatorias. Formalmente, la suma de dos variables aleatorias corresponde a la siguiente aplicación: si \\(X_{1}\\) y \\(X_{2}\\) son dos variables aleatorias definidas sobre \\(\\Omega\\), la suma es: \\[ \\begin{aligned} X_{1}+X_{2}: & \\Omega \\rightarrow \\mathbb{R} \\\\ & \\omega \\mapsto X_{1}(\\omega)+X_{2}(\\omega) \\end{aligned} \\] La suma de dos variables puede extenderse sin dificultad a sumas de tres, cuatro,… y, en general, \\(n\\) variables aleatorias. El TCL se ocupa de las sucesiones de variables aleatorias. En el contexto del TCL una sucesión corresponde a un conjunto donde el primer elemento es una variable aleatoria, el segundo elemento es la suma de dos variables aleatorias, el tercero es la suma de tres variables aleatorias, y así sucesivamente. Una sucesión es un conjunto de elementos infinitos, que se designan simbólicamente mediante \\(\\left\\{X_{n}\\right\\}\\). Cada uno de los elementos de la sucesión (que es una variable aleatoria) lleva asociada una determinada función de distribución: \\[ X_{n} \\rightarrow F_{n} \\] Así pues, la sucesión de variables aleatorias lleva asociada una secuencia paralela de funciones de distribución. 5.3.2 Definición de convergencia en ley La siguiente definición se ocupa del comportamiento de las sucesiones. Sea \\(\\left\\{X_{n}\\right\\}\\) una sucesión de variables aleatorias, y sea \\(\\left\\{F_{n}\\right\\}\\) la correspondiente sucesión de funciones de distribución. Se dice que \\(\\left\\{X_{n}\\right\\}\\) converge en ley a una variable aleatoria \\(X\\) de función de distribución \\(F\\) si: \\[ \\lim _{n \\rightarrow \\infty} F_{n}(x)=F(x) \\quad \\text { para todo } \\mathrm{x} \\text { donde } F \\text { es contínua. } \\] Se indica que la sucesión converge en ley mediante el símbolo: \\[ X_{n} \\stackrel{\\mathrm{L}}{\\rightarrow} X \\] El significado de la definición es que, al aumentar arbitrariamente \\(n\\), las sucesivas funciones de distribución de la secuencia se aproximan a la distribución \\(F\\) de la variable \\(X\\). En los ejemplos se presentan gráficamente algunas situaciones donde diferentes sucesiones de variables aleatorias convergen en ley a una variable aleatoria normal. 5.3.3 Enunciado del teorema central del límite A continuación se presenta el enunciado del TCL en la versión de Lindeberg y Lévy. Teorema: Sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\), un conjunto de variables aleatorias independientes idénticamente distribuidas, cada una de ellas con función de distribución \\(F\\), y supongamos que \\(E\\left(X_{k}\\right)\\) \\(=\\mu \\mathrm{y} \\operatorname{var}\\left(X_{k}\\right)=\\sigma^{2}\\) para cualquier elemento del conjunto. Si designamos a la suma normalizada de \\(n\\) términos con el símbolo: \\[ S_{n}^{*}=\\frac{X_{1}+X_{2}+\\cdots+X_{n}-n \\mu}{\\sigma \\sqrt{n}} \\] entonces la sucesión de sumas normalizadas converge en ley a la variable aleatoria normal tipificada \\(\\mathrm{Z} \\sim N(0,1)\\), es decir: \\[ S_{n}^{*} \\xrightarrow{\\mathrm{L}} \\] El teorema anterior tiene dos importantes corolarios: Si consideramos la suma ordinaria de las \\(n\\) variables aleatorias, es decir, \\(S_{n}=X_{1}+X_{2}+\\ldots+X_{n}\\), entonces la sucesión de sumas ordinarias converge en ley a una normal de media \\(n \\mu\\) y varianza \\(n \\sigma^{2}\\). Si consideramos el promedio de las \\(n\\) variables aleatorias, es decir, \\(n^{-1} S_{n}\\), entonces la sucesión de promedios converge en ley a una normal de media \\(\\mu\\) y varianza \\(n^{-1} \\sigma^{2}\\). 5.3.3.1 Comentarios al teorema: La convergencia a la normal tipificada se produce con cualquier tipo de variable que cumpla las condiciones del teorema, sea discreta o absolutamente continua. Un sinónimo para indicar que una sucesión converge en ley a una normal es señalar que es asintóticamente normal. El TCL presenta el comportamiento de sumas infinitas de variables aleatorias. Veremos posteriormente como interpretar el resultado para valores finitos. Existen otras versiones del TCL dónde se relajan las condiciones de la versión de Lindeberg y Lévy, que, como se ha visto, obliga a las variables aleatorias a tener idénticas medias y varianzas. Dichas versiones del TCL necesitan el conocimiento de conceptos matemáticos que exceden el nivel al que se orienta Statmedia, y por esta razón se omite su enunciado. 5.3.4 Algunos ejemplos de aplicación del TCL 5.3.4.1 Normalidad asintótica de la Binomial. # Parámetros de la distribución binomial n <- 1000 # Número de ensayos p <- 0.5 # Probabilidad de éxito size <- 10000 # Número de simulaciones # Generar una variable aleatoria binomial binomial_sample <- rbinom(size, n, p) # Estimación de la media y la desviación estándar de la distribución binomial mean_binom <- n * p sd_binom <- sqrt(n * p * (1 - p)) # Generar la distribución normal aproximada normal_sample <- rnorm(size, mean = mean_binom, sd = sd_binom) # Graficar los histogramas de la binomial y la normal par(mfrow = c(1, 2)) # Organizar gráficos en dos paneles # Histograma de la muestra binomial hist(binomial_sample, breaks = 50, probability = TRUE, col = rgb(0, 0, 1, 0.5), xlim = c(0, n), main = "Distribución Binomial", xlab = "Valor", ylab = "Densidad") lines(density(binomial_sample), col = "blue", lwd = 2) # Histograma de la distribución normal aproximada hist(normal_sample, breaks = 50, probability = TRUE, col = rgb(1, 0, 0, 0.5), xlim = c(0, n), main = "Distribución Normal Aproximada", xlab = "Valor", ylab = "Densidad") lines(density(normal_sample), col = "red", lwd = 2) 5.3.4.2 Normalidad asintótica de la suma de puntuaciones de un dado # Parámetros de la simulación num_simulaciones <- 10000 # Número de simulaciones num_lanzamientos <- c(10, 100, 1000, 10000) # Diferentes tamaños de muestra # Función para simular la suma de las puntuaciones de un dado simular_suma_dado <- function(n) { suma <- rowSums(matrix(sample(1:6, n * num_simulaciones, replace = TRUE), ncol = n)) # Simulación de las sumas return(suma) } # Graficar las distribuciones de las sumas para diferentes tamaños de muestra par(mfrow = c(2, 2)) # Organizar gráficos en 2x2 for (n in num_lanzamientos) { suma_dado <- simular_suma_dado(n) # Histograma de la suma de las puntuaciones del dado hist(suma_dado, breaks = 50, probability = TRUE, col = rgb(0, 0, 1, 0.5), xlim = c(min(suma_dado), max(suma_dado)), main = paste("Suma de", n, "lanzamientos de un dado"), xlab = "Suma de puntuaciones", ylab = "Densidad") # Superponer la curva de densidad normal (aproximación asintótica) mean_dado <- 3.5 * n # Media esperada de la suma (media de un dado es 3.5) sd_dado <- sqrt(n * (35 / 12)) # Desviación estándar de la suma (varianza de un dado es 35/12) curve(dnorm(x, mean = mean_dado, sd = sd_dado), col = "red", lwd = 2, add = TRUE) } 5.3.5 Casos particulares más notables Aunque el TCL tiene multitud de casos particulares interesantes, son especialmente relevantes para el desarrollo de los próximos temas los siguientes casos: 5.3.5.1 Promedio de \\(\\boldsymbol{n}\\) variables aleatorias Al considerar \\(n\\) variables independientes, todas con la misma distribución, cada una de ellas con esperanza igual a \\(\\mu\\) y varianza igual a \\(\\sigma^{2}\\), el promedio es asintóticamente normal con media \\(\\mu\\) y varianza \\(n^{-1} \\sigma^{2}\\). Este resultado proporciona una distribución asintótica a la media de \\(n\\) observaciones en el muestreo aleatorio simple que se estudiará en el próximo tema. 5.3.5.2 Binomial de parámetros \\(n\\) y \\(p\\) Es asintóticamente normal con media \\(n p\\) y varianza \\(n p\\) (1-p). Históricamente (de Moivre, 1733), es el primer resultado demostrado de convergencia a una normal. 5.3.5.3 Poisson de parámetro \\(n \\lambda\\) Es asintóticamente normal con media \\(n \\lambda\\) y varianza \\(n \\lambda\\). 5.3.6 Interpretación del teorema central del límite El TCL hace referencia a sucesiones infinitas, por tanto, la igualdad de las distribuciones se alcanza sólo en el límite, y hace mención a una distribución final teórica o de referencia. Sin embargo, puede utilizarse esta distribución final de referencia para aproximar distribuciones correspondientes a sumas finitas. Algunos casos particulares importantes (binomial, Poisson, etc.) alcanzan grados de aproximación suficientes para sumas con no demasiados términos. Los resultados que se indican a continuación son, por tanto, aproximaciones que se consideran usualmente suficientes, pero conllevan errores numéricos de aproximación. Binomial: aproximar si \\(n \\geq 30\\) y \\(0.1 \\leq p \\leq 0.9\\) a una normal de media \\(n p\\), varianza \\(n p(1-p)\\). Ver aquí más detalles. Poisson: aproximar si \\(\\lambda \\geq 10\\) a una normal de media \\(\\lambda\\) y varianza \\(\\lambda\\). Ver aquí más detalles. Para evaluar aproximadamente el error cometido en las aproximaciones, puede consultarse los cuadros gráficos de los ejemplos de este tema. El TCL permite aproximar funciones de distribución, independientemente del carácter (continuo o discreto) de las variables sumadas. No sirve, por tanto, para aproximar la funciones de densidad discretas por una normal. En el caso continuo sí puede establecerse también una convergencia de las densidades asociadas. Finalmente, es conveniente mencionar que existen resultados teóricos que permiten estudiar la velocidad de convergencia de una suma de variables aleatorias a la normal, sin embargo la dificultad técnica que conllevan trasciende el nivel marcado para el conjunto de documentos marcado para Statmedia. 5.3.7 Acerca de las variables aproximadamente normales En general, cuando se estudia en experimentos reales una determinada variable no se conoce su distribución teórica. Sin embargo, puede establecerse su distribución empirica a partir de una muestra más o menos amplia. Una forma habitual de presentar la distribución empírica es construir el histograma de clases de dicha variable. Es un hecho conocido desde el siglo XIX que esta distribución empírica presenta muchas veces una forma que es aproximadamente normal. Por ejemplo, al realizar un estudio sobre el peso de adultos varones de dieciocho años en Catalunya, se observó la distribución siguiente en la muestra: El TCL permite dar una explicación a este fenómeno. La variable peso de un adulto viene determinada en cada individuo por la conjunción de multitud de diferentes factores. Algunos de estos factores son ambientales (dietas, ejercicio, enfermedades, etc.) y otros son congénitos. Con el nivel actual de conocimiento no se pueden desglosar completamente todos los factores que intervienen, pero puede aceptarse en cambio que la variable peso es el resultante de la suma de diferentes variables primarias, congénitas o ambientales, y que posiblemente no todas tienen el mismo grado de influencia. Seguramente, estas variables primarias tampoco tienen la misma media, varianza o, incluso, la misma distribución. La versión del TCL que se ha presentado aquí exige estas condiciones para la convergencia a la normal, pero, como ya se ha comentado antes otras versiones más elaboradas del TCL permiten modelar la suma de variables de forma menos restringida. En este contexto, al considerar la variable peso como una suma más o menos extensa (pero finita) de diferentes variables primarias, es esperable que ocurra que la variable resultante, el peso, siga una distribución aproximadamente normal. De forma similar es explicable la normalidad aproximada que se observa en muchas variables biométricas (pesos, alturas, longitudes, concentraciones de metabolitos, distribuciones de edad, etc.) así cómo en muchos otros contextos (distribución de rentas, errores de medición, etc.). A pesar de esta ubicuidad de la distribución normal, el lector no debe inferir que es forzosamente, ni mucho menos, la distribución de referencia en todo estudio aplicado. "],["introducción-a-la-inferencia-estadística.html", "Capítulo 6 Introducción a la inferencia estadística 6.1 Inferencia estadística 6.2 Problemas de inferencia estadística 6.3 Distribución de la población 6.4 Muestra aleatoria simple 6.5 Estadísticos 6.6 Distribución en el muestreo de un estadístico 6.7 La distribución empírica 6.8 Los momentos muestrales 6.9 Distribución en el muestreo de los momentos muestrales 6.10 Propiedades asintóticas de los momentos muestrales 6.11 Muestreo en poblaciones normales", " Capítulo 6 Introducción a la inferencia estadística 6.1 Inferencia estadística Para comenzar, vamos a definir cuál es el ámbito de estudio de la inferencia estadística desde su relación con el cálculo de probabilidades. El cálculo de probabilidades proporciona una teoría matemática que permite analizar (o modelizar) las propiedades de los fenómenos donde interviene el azar. El cálculo de probabilidades utiliza como modelo básico para cualquier situación aleatoria el concepto de espacio de probabilidades \\((\\Omega, \\mathcal{A}, P)\\) y una variable aleatoria \\(X: \\Omega \\rightarrow \\mathbb{R}\\) definida sobre él. El conocimiento de la distribución de la variable aleatoria permite: Análisis deductivo de situaciones. Por ejemplo: si asumimos que el peso de los recién nacidos se distribuye según una distribución \\(N(\\mu=\\) \\(3 \\mathrm{~kg}, \\sigma=0.25 \\mathrm{~kg}\\) ), nos puede interesar calcular la probabilidad de que un recién nacido pese entre 2.9 y 3.1 kg , o encontrar unos valores centrados en la media entre los cuales esperemos que se encuentren el \\(10 \\%(25 \\%, 50 \\%, 95 \\%, \\ldots)\\) de los recién nacidos. Modelización de situaciones aleatorias. Por ejemplo: si asumimos que el tiempo, en años, hasta que se estropea un componente de un ordenador se distribuye según una distribución exponencial \\(T \\sim \\xi(\\lambda=\\) \\(0.3)\\), nos puede interesar calcular la probabilidad de que un componente dado dure más de 4 años. En los casos anteriores nos encontramos en una situación muy común, donde ya disponemos de un modelo sobre el cual efectuamos los cálculos, pero del cual desconocemos la procedencia. Parece razonable, y de hecho es precisamente así, que si queremos adaptar un modelo a una situación debamos basarnos únicamente en las observaciones del fenómeno. Si queremos saber cómo se distribuyen los pesos de los recién nacidos tomaremos unos cuantos, los pesaremos y después observaremos la distribución de estos. Puede que no sea necesario pesar a todos los recién nacidos (jde hecho, no es posible!), pero tampoco es posible deducir la ley por consideraciones puramente teóricas. Ahora, en lugar de partir de un espacio de probabilidades, partiremos de unas observaciones \\(\\left(x_{1}, \\ldots, x_{n}\\right)\\) y el objetivo que perseguiremos será obtener información sobre la distribución de probabilidades de un fenómeno a partir de una observación no exhaustiva del mismo. 6.2 Problemas de inferencia estadística Hemos presentado como objetivo de la inferencia estadística inducir propiedades del modelo probabilístico que representa la población a partir de un conjunto de observaciones. Según el tipo de conclusión que queramos extraer, diferenciaremos diferentes tipos de problemas: Si queremos utilizar la información proporcionada por la muestra para obtener un pronóstico numérico único (es decir, una única aproximación numérica) de una o más características de la población, tenemos un problema de estimación puntual. Si queremos obtener información sobre un rango de valores dentro del cual podamos afirmar, con un cierto grado de confianza, que podemos capturar un parámetro desconocido de la distribución, hablamos de estimación por intervalo. Si lo que queremos hacer es decidir si podemos aceptar o debemos rechazar una afirmación sobre la distribución de probabilidad del fenómeno estudiado, hablamos de contraste de hipótesis. Este contraste puede ser: Paramétrico: si la afirmación (la hipótesis) se refiere a los parámetros de la distribución. No paramétrico: si la afirmación es sobre la forma de la distribución. 6.3 Distribución de la población Todo problema de inferencia está motivado por un cierto grado de desconocimiento de la ley de probabilidades que rige un determinado fenómeno aleatorio. El caso más sencillo que encontramos es cuando nos interesa una cierta variable \\(X\\) con una función de distribución \\(F\\) desconocida en mayor o menor grado. La distribución que teóricamente sigue la variable de interés \\(X\\) en la población recibe el nombre de distribución teórica o distribución de la población. La distribución de la población es importante ya que, a menudo, se utiliza para determinar la distribución de alguna característica de los individuos de una población. En los modelos de la inferencia estadística indicamos el relativo grado de desconocimiento sobre la distribución \\(F\\) en función de su pertenencia a una familia \\(\\mathcal{F}\\) de distribuciones. Por ello, en lugar de explicar que \\(X \\sim F=F_{0}\\) indicaremos que \\(X \\sim F \\in \\mathcal{F}\\), donde \\(\\mathcal{F}\\) puede ser un conjunto más o menos amplio de distribuciones de probabilidad, como todas las distribuciones normales o las distribuciones simétricas o las distribuciones discretas sobre \\(\\mathbb{N}\\). Muchas veces, la distribución poblacional \\(F\\) está completamente especificada excepto por el valor de algún parámetro o parámetros. En este caso, podemos concretar más la forma de la familia de distribuciones: \\[ X \\sim F \\in \\mathcal{F}=\\left\\{F_{\\theta}: \\theta \\in \\Theta \\subset \\mathbb{R}^{k}\\right\\} \\] donde \\(\\Theta\\) es el espacio de los \\(k\\) parámetros. La familia de posibles distribuciones de probabilidad para \\(X\\) se denomina, genéricamente, modelo estadístico y se indica como: \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\). Veamos algunos ejemplos. Ejemplo 1.3.1 Supongamos que \\(X\\) representa la duración de un componente electrónico que no envejece, solo se estropea. Es decir, si en un instante \\(t\\) está funcionando, su estado es el mismo que en cualquier momento del pasado y la distribución del tiempo hasta que se estropee es la misma que al principio. Esta propiedad se denomina falta de memoria. Un modelo razonable para esta situación lo da la distribución de Weibull que, en este caso, podemos definir a través de la siguiente función de densidad: \\[ f_{\\theta}(x)= \\begin{cases}\\alpha \\beta x^{\\beta-1} e^{-\\alpha x^{\\beta}} & \\text { si } x \\geq 0 \\\\ 0 & \\text { si } x<0\\end{cases} \\] La familia de distribuciones asociada es \\[ \\mathcal{F}=\\left\\{F_{\\theta}: \\theta=(\\alpha, \\beta) \\in(0, \\infty) \\times(0, \\infty)\\right\\} \\] Ejemplo 1.3.2 Supongamos que queremos determinar la masa de un cierto tipo de partículas elementales a partir de las observaciones en una cámara de burbujas. En cada observación obtenemos un dato de la masa de la partícula \\(x_{i}\\) y asociado con ella un cierto error de medida \\(\\varepsilon\\). Si la masa común de cada una de ellas es \\(\\mu\\), entonces podemos escribir: \\[ x_{i}=\\mu+\\varepsilon_{i} \\quad i=1, \\ldots, n \\] donde la distribución \\(\\varepsilon_{i} \\sim F\\) es desconocida. Nuestro objetivo es obtener información sobre \\(F\\). Si admitimos que \\(P\\left(\\varepsilon_{i}<0\\right)=P\\left(\\varepsilon_{i}>0\\right)\\), según el grado de exigencia que queramos tener, podemos suponer: Con un enfoque de inferencia paramétrica: \\[ X \\sim F \\in \\mathcal{F}=\\left\\{N(0, \\sigma): \\sigma \\in \\mathbb{R}^{+}\\right\\} \\] Con un enfoque de inferencia no paramétrica: \\[ X \\sim F \\in \\mathcal{F}=\\{\\text { Distribuciones simétricas }\\} \\] 6.4 Muestra aleatoria simple 6.4.1 Definición Para estudiar un problema de inferencia estadística analizamos una muestra de tamaño \\(n\\). Se trata de escoger \\(n\\) individuos o elementos de la población \\(\\Omega\\) \\[ \\omega_{1}, \\omega_{2}, \\ldots, \\omega_{n} \\] que sean representativos. El valor de \\(n\\) y la forma de elección de los individuos de la muestra es una materia de Estadística llamada Muestreo estadístico. Por ahora y para simplificar, solo hace falta decir que la elección se hace de forma que todos los individuos tienen la misma probabilidad de estar presentes en la muestra, si es necesario con reemplazo, y que el valor de \\(n\\) está dado. En realidad, lo que nos interesa verdaderamente no son los individuos de la muestra sino las mediciones de una característica \\(X\\) sobre ellos. Es decir, los valores de una variable aleatoria \\(X\\) sobre estos individuos \\[ X\\left(\\omega_{1}\\right)=x_{1}, X\\left(\\omega_{2}\\right)=x_{2}, \\ldots, X\\left(\\omega_{n}\\right)=x_{n} \\] También podemos pensar que los valores muestrales \\(x_{1}, x_{2}, \\ldots, x_{n}\\) son generados directamente desde la variable aleatoria. En todo caso, los valores muestrales no son únicos y podemos generar varias muestras \\[ \\begin{array}{ccccc} x_{1}^{1} & x_{2}^{1} & x_{3}^{1} & \\ldots & x_{n}^{1} \\\\ x_{1}^{2} & x_{2}^{2} & x_{3}^{2} & \\ldots & x_{n}^{2} \\\\ \\vdots & \\vdots & \\vdots & & \\vdots \\\\ x_{1}^{s} & x_{2}^{s} & x_{3}^{s} & \\ldots & x_{n}^{s} \\end{array} \\] Si todos los valores son independientes, de la misma forma que \\(x_{1}, x_{2}, x_{3}, \\ldots, x_{n}\\) es una muestra generada por \\(X\\), podemos considerar todos los \\(x_{1}^{i} \\quad i=1, \\ldots, s\\) provenientes de una variable aleatoria \\(X_{1}\\) con la misma distribución que \\(X\\) \\(X_{1} \\stackrel{d}{=} X\\) y que genera los primeros valores, los \\(x_{i}^{2}\\) provenientes de una variable aleatoria \\(X_{2} \\stackrel{d}{=} X\\) que genera los segundos y así sucesivamente. Todo esto nos lleva a definir el concepto de muestra aleatoria de una forma muy conveniente para trabajar con ella: Definició 1.1 Una muestra aleatoria simple de tamaño \\(n\\) de una variable aleatoria \\(X\\) con distribución \\(F\\) es una colección de \\(n\\) variables aleatorias independientes \\(X_{1}, X_{2}, \\ldots, X_{n}\\) con la misma distribución \\(F\\) que \\(X\\). Esto se suele indicar como: \\[ \\mathbf{X}=X_{1}, X_{2}, \\ldots, X_{n} \\stackrel{i . i . d}{\\sim} X \\] Definició 1.2 El conjunto \\(\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right) \\in \\mathbb{R}^{n}\\) de observaciones concretas de \\(X_{1}, X_{2}, \\ldots, X_{n}\\) se denomina realización de la muestra. 6.4.2 Distribución de la muestra Una muestra aleatoria simple, como vector aleatorio \\(n\\)-dimensional que es, tiene una distribución conjunta o distribución de la muestra que depende de \\(F\\), pero que obviamente es diferente, ya que en particular \\(X\\) y \\(\\mathbf{X}\\) tienen dimensiones diferentes. Sin embargo, gracias a la independencia de las variables \\(X_{1}, X_{2}, \\ldots, X_{n}\\), la función de distribución conjunta de \\(\\mathbf{X}\\), que podría ser muy complicada, toma una forma muy sencilla. En resumen: Definició 1.3 Se llama distribución de la muestra de una variable aleatoria \\(X \\sim F\\) a la distribución del vector aleatorio \\(n\\)-dimensional \\(\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\) \\[ G\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right)=F\\left(x_{1}\\right) F\\left(x_{2}\\right) \\cdots F\\left(x_{n}\\right) \\] En los casos particulares en que \\(X\\) sea discreta o absolutamente continua, la distribución conjunta de la muestra suele expresarse mediante la función de masa de probabilidad o la función de densidad: Para variables discretas: \\[ \\begin{aligned} p_{G}\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right) & =P\\left(X_{1}=x_{1}, X_{2}=x_{2}, \\ldots, X_{n}=x_{n}\\right) \\\\ & =\\prod_{i=1}^{n} P\\left(X=x_{i}\\right)=\\prod_{i=1}^{n} p_{F}\\left(x_{i}\\right), \\end{aligned} \\] Para variables absolutamente continuas: \\[ g\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right)=\\prod_{i=1}^{n} f\\left(x_{i}\\right) \\] Ejemplo 1.4.1 Una moneda tiene una probabilidad \\(\\theta\\) de salir cara. Queremos estudiar la variable aleatoria: \\[ X= \\begin{cases}1 & \\text { si sale cara } \\\\ 0 & \\text { si sale cruz }\\end{cases} \\] con densidad \\(P\\{X=1\\}=\\theta, P\\{X=0\\}=1-\\theta\\). Es decir \\[ X \\sim F_{\\theta} \\in \\mathcal{F}=\\left\\{F_{\\theta}=B(1, \\theta): \\theta \\in(0,1)\\right\\} \\] Supongamos que hacemos tres lanzamientos. Las posibles muestras son: \\(X_{1}\\) \\(X_{2}\\) \\(X_{3}\\) Probabilidad 1 1 1 \\(\\theta^{3}\\) 1 0 0 \\(\\theta(1-\\theta)^{2}\\) 0 1 0 \\(\\theta(1-\\theta)^{2}\\) 0 0 1 \\(\\theta(1-\\theta)^{2}\\) 1 0 1 \\(\\theta^{2}(1-\\theta)\\) 1 1 0 \\(\\theta^{2}(1-\\theta)\\) 0 1 1 \\(\\theta^{2}(1-\\theta)\\) 0 0 0 \\((1-\\theta)^{3}\\) El muestreo ha especificado la distribución conjunta de la muestra a través de la distribución desconocida \\(F_{\\theta}\\). Si escribimos la función de probabilidades de la variable aleatoria como \\(f_{\\theta}(x)=\\theta^{x}(1-\\theta)^{1-x}\\), entonces la función de probabilidades de la muestra la podemos expresar como: \\[ g_{\\theta}\\left(x_{1}, x_{2}, x_{3}\\right)=\\theta^{x_{1}+x_{2}+x_{3}}(1-\\theta)^{3-\\left(x_{1}+x_{2}+x_{3}\\right)} \\] 6.5 Estadísticos 6.5.1 Definición Para lograr el objetivo de realizar inferencias sobre la población a partir de la muestra, solemos basarnos en la realización de cálculos sobre la muestra para tratar de obtener la información que deseamos. En este proceso aparecen los conceptos de estadístico y el caso particular, que más nos interesa a nosotros, de estimador. Un estadístico es una función de la muestra que no depende del valor del parámetro. Definició 1.4 Dada una muestra aleatoria simple \\(X_{1}, X_{2}, \\ldots, X_{n}\\) y una función medible \\(T: \\mathbb{R}^{n} \\longrightarrow \\mathbb{R}^{k}\\), entonces \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\) es un vector aleatorio (variable aleatoria cuando \\(k=1\\) ). Si \\(T\\) no depende de \\(\\theta\\) (donde \\(\\theta\\) es un parámetro a especificar en \\(F_{\\theta}\\) ), entonces \\(T\\) recibe el nombre de estadístico. Solo por su nombre, parece evidente que un estimador de un parámetro \\(\\theta\\) será alguna función de la muestra que sirva para aproximar, en algún sentido, el valor desconocido de \\(\\theta\\). Si añadimos la condición razonable de que un estimador no pueda tomar valores que no puede tomar el parámetro, podemos dar la siguiente definición. Definició 1.5 Un estimador de un parámetro \\(\\theta\\) es un estadístico \\(T\\) cuyo recorrido es el espacio de los parámetros, es decir: \\[ \\begin{array}{ccc} T: & \\mathbb{R}^{n} & \\longrightarrow \\\\ \\left(x_{1}, x_{2}, \\ldots, x_{n}\\right) & \\longrightarrow \\\\ \\left(t_{1}, \\ldots, t_{k}\\right) \\quad \\in \\Theta \\subset \\mathbb{R}^{k} \\end{array} \\] Aquí tienes el texto traducido al castellano manteniendo toda la notación en LaTeX: 6.6 Distribución en el muestreo de un estadístico Dado un estadístico \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\) nos interesa conocer su distribución de probabilidad, ya que para hacer inferencia necesitaremos hacer cálculos del tipo \\[ P\\left[T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)>t_{0}\\right] \\] La distribución de probabilidad del estadístico se denomina distribución muestral o distribución en el muestreo del estadístico. Encontrarla es un problema que puede ser desde bastante sencillo hasta extremadamente complicado. Algunas de las técnicas utilizadas para intentar resolverlo son las siguientes: Uso de la técnica de cambio de variable. Uso de la función generadora de momentos. Aplicación del Teorema Central del Límite. Ejemplo 1.5.1 Sea \\(X \\sim F_{\\theta}\\) una variable aleatoria absolutamente continua con densidad \\[ f_{\\theta}(x)=e^{-(x-\\theta)} e^{-e^{-(x-\\theta)}} \\quad \\theta \\in \\mathbb{R} \\] y consideremos el estadístico \\[ T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)=\\sum_{i=1}^{n} e^{-X_{i}} \\] Si aplicamos el teorema de cambio de variable unidimensional, se obtiene fácilmente que la variable aleatoria \\(Y=e^{-X}\\) sigue una distribución exponencial de parámetro \\(e^{-\\theta}\\), de donde la suma seguirá una distribución gamma \\(T \\sim \\Gamma\\left(e^{-\\theta}, n\\right)\\). Ejemplo 1.5.2 Supongamos que \\(X\\) representa el número de averías en una máquina al cabo de un mes. Este valor varía mes a mes. Sea \\(\\bar{X}\\) la media de averías en \\(n\\) meses. Si \\(X\\) sigue una distribución de Poisson \\(P(\\lambda)\\), ¿cuál es la distribución de \\(\\bar{X}\\) ? Como la suma de Poisson i.i.d. es \\(\\sum_{i=1}^{n} X_{i} \\sim P(n \\lambda)\\) \\[ P[\\bar{X}=r]=P\\left[\\sum_{i=1}^{n} X_{i}=n r\\right]=\\frac{e^{-n \\lambda}(n \\lambda)^{n r}}{(n r)!} \\] Como ocurre en este ejemplo, uno de los estadísticos para el cual a menudo deseamos calcular la distribución en el muestreo es la media aritmética. Una manera útil de hacerlo es con la función generadora de momentos y la aplicación del siguiente lema. Lema 1 Si \\(X\\) es una v.a. con \\(M_{X}(t)\\) como función generadora de momentos, entonces la f.g.m. de \\(\\bar{X}_{n}=\\frac{1}{n} \\sum_{i=1}^{n} X_{i}\\) es \\[ M_{\\bar{X}_{n}}(t)=\\left[M_{X}(t / n)\\right]^{n} \\] 6.6.1 Demostración: La demostración es inmediata a partir de la definición o por las propiedades de la función generadora de momentos. Si aplicamos directamente la definición de la f.g.m tenemos: \\[ \\begin{aligned} E\\left(e^{t \\bar{X}_{n}}\\right) & =E\\left(e^{t \\frac{1}{n} \\sum_{i=1}^{n} X_{i}}\\right)=E\\left(\\prod_{i=1}^{n} e^{\\frac{t}{n} X_{i}}\\right)=\\prod_{i=1}^{n} E\\left(e^{\\frac{t}{n} X_{i}}\\right) \\\\ & =\\prod_{i=1}^{n} M_{X_{i}}(t / n)=\\left[M_{X}(t / n)\\right]^{n} \\end{aligned} \\] Si usamos las propiedades de la f.g.m tenemos: Dado que \\(M_{a X}(t)=M_{X}(a t)\\) y si \\(a=\\frac{1}{n}\\), entonces \\(M_{\\bar{X}}(t)=M_{\\sum_{i=1}^{n} X_{i}}(t / n)\\). \\(M_{\\sum_{i=1}^{n} X_{i}}(t / n) \\stackrel{\\text { ind }}{=} \\prod_{i=1}^{n} M_{X_{i}}(t / n) \\stackrel{\\text { id }}{=}\\left[M_{X}(t / n)\\right]^{n}\\). Ejemplo 1.5.3 Para una variable aleatoria \\(X \\sim N(\\mu, \\sigma)\\) y por tanto \\(M_{X}(t)=\\) \\(\\exp \\left(t \\mu+\\frac{t^{2} \\sigma^{2}}{2}\\right)\\), entonces \\[ \\begin{aligned} M_{\\bar{X}_{n}}(t) & =\\left[\\exp \\left(\\frac{t \\mu}{n}+\\frac{t^{2} \\sigma^{2}}{n^{2} 2}\\right)\\right]^{n} \\\\ & =\\exp \\left[n\\left(\\frac{t \\mu}{n}+\\frac{t^{2} \\sigma^{2}}{n^{2} 2}\\right)\\right] \\\\ & =\\exp \\left[t \\mu+\\frac{1}{2} t^{2}\\left(\\frac{\\sigma}{\\sqrt{n}}\\right)^{2}\\right] \\end{aligned} \\] que es la función generadora de momentos de una variable \\(N(\\mu, \\sigma / \\sqrt{n})\\). 6.7 La distribución empírica 6.7.1 Definición En el apartado anterior hemos visto que a partir de una muestra \\(X_{1}, X_{2}, \\ldots, X_{n}\\) es interesante considerar la distribución muestral como la distribución conjunta del vector aleatorio \\(\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\), sin que intervenga una realización concreta de la muestra \\(x_{1}, x_{2}, \\ldots, x_{n}\\). Un enfoque diferente consiste en asociar una distribución particular directamente a las observaciones \\(x_{1}, x_{2}, \\ldots, x_{n}\\) con la intención de que, en tanto que la muestra “representa” la v.a. \\(X\\), esta distribución asociada a la muestra \\(F_{n}(x)\\) emule la distribución de la población. Esta distribución se denomina distribución empírica o distribución muestral y se define así: \\[ F_{n}(x)=\\frac{k(x)}{n} \\] donde \\(k(x)\\) es el número de datos muestrales menores o iguales que \\(x\\). En la práctica se construye por ordenación de la muestra \\[ x_{1}, x_{2}, \\ldots, x_{n} \\longrightarrow x_{(1)} \\leq x_{(2)} \\leq \\cdots \\leq x_{(n)} \\] y con la siguiente definición: \\[ F_{n}(x)= \\begin{cases}0 & \\text { si } x<x_{(1)} \\\\ \\frac{k}{n} & \\text { si } x_{(k)} \\leq x<x_{(k+1)} \\\\ 1 & \\text { si } x_{(n)} \\leq x\\end{cases} \\] Ejemplo 1.6.1 Extraemos una muestra y obtenemos: \\(x_{1}\\) \\(x_{2}\\) \\(x_{3}\\) \\(x_{4}\\) \\(x_{5}\\) \\(x_{6}\\) \\(x_{7}\\) 5.1 3.4 1.2 17.6 2.1 16.4 4.3 Una vez ordenada queda: \\(x_{(1)}\\) \\(x_{(2)}\\) \\(x_{(3)}\\) \\(x_{(4)}\\) \\(x_{(5)}\\) \\(x_{(6)}\\) \\(x_{(7)}\\) \\(x_{3}\\) \\(x_{5}\\) \\(x_{2}\\) \\(x_{7}\\) \\(x_{1}\\) \\(x_{6}\\) \\(x_{4}\\) 1.2 2.1 3.4 4.3 5.1 16.4 17.6 y si hacemos la representación gráfica: x <- c(5.1 , 3.4 , 1.2 , 17.6 , 2.1 , 16.4 , 4.3, 1.2 , 2.1 , 3.4 , 4.3 , 5.1 , 16.4 , 17.6 ) plot(ecdf(x)) Figura 1.1: Función de distribución empírica con los datos del ejemplo La distribución empírica refleja exclusivamente los valores observados en la muestra y, por lo tanto, no se relaciona directamente ni con la distribución conjunta de la muestra \\(G\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right)\\) ni con la distribución de la población \\(F\\). 6.8 Los momentos muestrales 6.8.1 Definición Sea \\(F_{n}\\) la v.a. que tiene \\(F_{n}(x)\\) por distribución. La función de densidad de probabilidad de \\(F_{n}\\) es una densidad discreta que asigna probabilidades \\(1 / n\\) a cada una de las observaciones muestrales \\(x_{1}, x_{2}, \\ldots, x_{n}\\). Así pues, tiene sentido calcular sus momentos, que se conocen como momentos muestrales \\(a_{k}\\), y también sus momentos muestrales centrados respecto a la media \\(b_{k}\\). \\[ \\begin{aligned} a_{k} & =E\\left(F_{n}^{k}\\right)=\\sum_{i=1}^{n} x_{i}^{k} \\cdot P\\left(F_{n}=x_{i}\\right)=\\sum_{i=1}^{n} x_{i}^{k} \\cdot \\frac{1}{n}=\\frac{1}{n} \\sum_{i=1}^{n} x_{i}^{k} \\\\ b_{k} & =\\frac{1}{n} \\sum_{i=1}^{n}\\left(x_{i}-\\bar{x}\\right)^{k} \\end{aligned} \\] Observamos que dos medidas conocidas de la estadística descriptiva adquieren un significado diferente: Media muestral \\(=\\) Media de la distribución muestral \\[ a_{1}=\\frac{1}{n} \\sum_{i=1}^{n} x_{i} \\] Varianza muestral \\(=\\) Varianza de la distribución muestral \\[ b_{2}=\\frac{1}{n} \\sum_{i=1}^{n}\\left(x_{i}-\\bar{x}\\right)^{2} \\] 6.9 Distribución en el muestreo de los momentos muestrales Dada una m.a.s. \\(X_{1}, X_{2}, \\ldots, X_{n}\\), los momentos muestrales son estadísticos y, como tales, tienen su distribución en el muestreo. Por ejemplo, \\(a_{k}=\\) \\(\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{k}\\). La distribución en cada caso puede ser compleja y depender de la distribución poblacional subyacente. Lo que sí es posible calcular son los momentos de los momentos muestrales o, mejor dicho, los momentos de las distribuciones en el muestreo de los momentos muestrales. Si consideramos \\(a_{k}=\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{k}\\) y escribimos \\(\\alpha_{k}=E\\left(X^{k}\\right)\\) como el momento poblacional de orden \\(k\\), tenemos: \\[ \\begin{aligned} E\\left(a_{k}\\right) & =E\\left(\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{k}\\right)=\\frac{1}{n} \\cdot n \\cdot \\alpha_{k}=\\alpha_{k} \\\\ \\operatorname{var}\\left(a_{k}\\right) & =\\operatorname{var}\\left(\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{k}\\right)=\\frac{1}{n^{2}} \\sum_{i=1}^{n} \\operatorname{var}\\left(X_{i}^{k}\\right)=\\frac{1}{n} \\operatorname{var}\\left(X^{k}\\right) \\\\ & =\\frac{1}{n}\\left[E\\left(X^{2 k}\\right)-\\left(E\\left(X^{k}\\right)\\right)^{2}\\right]=\\frac{\\alpha_{2 k}-\\alpha_{k}^{2}}{n} \\end{aligned} \\] Si consideramos \\(s^{2}=b_{2}=\\frac{1}{n} \\sum_{i=1}^{n}\\left(X_{i}-\\bar{X}\\right)^{2}=\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{2}-\\bar{X}^{2}\\), podemos calcular: \\[ \\begin{aligned} E\\left(s^{2}\\right) & =\\frac{1}{n} \\sum_{i=1}^{n} E\\left(X_{i}^{2}\\right)-E(\\bar{X})^{2}=\\alpha_{2}-\\left(\\frac{\\sigma^{2}}{n}+\\mu^{2}\\right) \\\\ & =\\left(\\sigma^{2}+\\mu^{2}\\right)-\\left(\\frac{\\sigma^{2}}{n}+\\mu^{2}\\right)=\\frac{n-1}{n} \\sigma^{2} \\end{aligned} \\] El cálculo de la varianza de \\(s^{2}\\) es laborioso \\({ }^{1}\\) y no lo haremos aquí. Su valor es \\[ \\operatorname{var}\\left(s^{2}\\right)=\\frac{\\mu_{4}-\\mu_{2}^{2}}{n}-\\frac{2\\left(\\mu_{4}-2 \\mu_{2}^{2}\\right)}{n^{2}}+\\frac{\\mu_{4}-3 \\mu_{2}^{2}}{n^{3}} \\] donde \\(\\mu_{k}\\) es el momento poblacional centrado de orden \\(k\\). 6.10 Propiedades asintóticas de los momentos muestrales 6.10.1 Convergencia de los momentos muestrales Los momentos muestrales, tanto respecto al origen como respecto a la media, convergen hacia los momentos poblacionales. Es posible establecer la convergencia basándose en la ley fuerte de los grandes números (convergencia casi [^0]segura) o en la ley débil (convergencia en probabilidad). Si nos limitamos a esta última podemos afirmar que \\[ a_{k} \\xrightarrow{P} \\alpha_{k} \\quad \\text { es decir } \\quad \\lim _{n \\rightarrow \\infty} P\\left[\\left|a_{k}-\\alpha_{k}\\right| \\geq \\epsilon\\right]=0 \\] La prueba se basa en la desigualdad de Tchebychev. Si suponemos que \\(\\alpha_{2 k}<\\infty\\), tenemos \\[ P\\left[\\left|a_{k}-\\alpha_{k}\\right| \\geq \\epsilon\\right] \\leq \\frac{E\\left|a_{k}-\\alpha_{k}\\right|^{2}}{\\epsilon^{2}}=\\frac{\\operatorname{var}\\left(a_{k}\\right)}{\\epsilon^{2}}=\\frac{\\alpha_{2 k}-\\alpha_{k}^{2}}{n \\epsilon^{2}} \\longrightarrow 0 \\] Esta propiedad es importante porque hará posible el concepto de estimador consistente y en ella se basa un método de estimación llamado método de los momentos. 6.10.2 Distribución asintótica Si consideramos el momento muestral \\(a_{k}=\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{k}\\), entonces \\(n \\cdot a_{k}\\) es una suma de variables aleatorias i.i.d. a la que podemos aplicar el Teorema Central del Límite. Como hemos visto: \\[ E\\left(n a_{k}\\right)=n \\alpha_{k} \\quad \\operatorname{var}\\left(n a_{k}\\right)=n^{2} \\operatorname{var}\\left(a_{k}\\right)=n^{2} \\frac{\\alpha_{2 k}-\\alpha_{k}^{2}}{n} \\] y por el Teorema Central del Límite de Lindeberg-Levy la variable \\[ \\frac{n a_{k}-E\\left(n a_{k}\\right)}{\\sqrt{\\operatorname{var}\\left(n a_{k}\\right)}}=\\frac{n a_{k}-n \\alpha_{k}}{n \\sqrt{\\operatorname{var}\\left(a_{k}\\right)}}=\\frac{a_{k}-\\alpha_{k}}{\\sqrt{\\operatorname{var}\\left(a_{k}\\right)}} \\] verifica \\[ \\frac{a_{k}-\\alpha_{k}}{\\sqrt{\\operatorname{var}\\left(a_{k}\\right)}} \\xrightarrow{\\mathcal{L}} N(0,1) \\] es decir \\[ a_{k} \\sim A N\\left(\\alpha_{k}, \\sqrt{\\frac{\\alpha_{2 k}-\\alpha_{k}^{2}}{n}}\\right) \\] 6.11 Muestreo en poblaciones normales Como hemos visto, a partir de una m.a.s. \\(X_{1}, X_{2}, \\ldots, X_{n}\\) y si consideramos un estadístico \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\), puede resultar complicado obtener su distribución en el muestreo. Esta distribución depende de: La forma funcional de \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\). La distribución subyacente de \\(X\\), es decir, la distribución de la población. Hay un caso especial en el que el problema se ha estudiado en profundidad para algunos estadísticos de gran importancia práctica. Si \\(X \\sim N(\\mu, \\sigma)\\) es posible encontrar la distribución de los estadísticos más utilizados como \\(\\bar{X}\\) y \\(S^{2}=\\sum_{i=1}^{n}\\left(X_{i}-\\bar{X}\\right)^{2}\\). De hecho, obtendremos la distribución de funciones de estos estadísticos como \\[ \\frac{\\bar{X}-\\mu}{s / \\sqrt{n-1}} ; \\quad \\frac{n s^{2}}{\\sigma^{2}} ; \\quad \\bar{X}_{1}-\\bar{X}_{2} ; \\quad \\frac{S_{1}^{2} /\\left(n_{1}-1\\right)}{S_{2}^{2} /\\left(n_{2}-1\\right)} \\] donde \\(s^{2}=(1 / n) S^{2}\\). En el estudio de las distribuciones de estos estadísticos aparecen algunas distribuciones de probabilidad que han resultado ser de gran utilidad. Son las llamadas “distribuciones derivadas de la normal” y se conocen por el nombre del investigador que las formuló: la \\(\\chi^{2}\\) chi-cuadrado de Pearson la \\(t\\) de Student (Gosset) la \\(F\\) de Fisher-Snedecor 6.11.1 La distribución chi-cuadrado Sean \\(X_{1}, X_{2}, \\ldots, X_{k}\\) un conjunto de v.a. independientes sobre un mismo espacio de probabilidad \\((\\Omega, \\mathcal{A}, P)\\) y con distribución común \\(N(0,1)\\). Consideremos la variable \\[ Y=X_{1}^{2}+X_{2}^{2}+\\cdots+X_{k}^{2} \\] La distribución de la variable \\(Y\\) se llama chi-cuadrado con \\(k\\) grados de libertad. La función de densidad de la variable aleatoria \\(Y\\) es \\[ f(x)=\\frac{1}{\\Gamma(k / 2) 2^{k / 2}} e^{-x / 2} x^{k / 2-1} \\quad \\text { si } x>0 \\] De modo que resulta que \\(Y=\\sum_{i=1}^{k} X_{i}^{2}\\) tiene una distribución gamma \\(G\\left(\\frac{1}{2}, \\frac{k}{2}\\right)\\) y su f.g.m. es \\[ M(t)=(1-2 t)^{-k / 2} \\quad \\text { si } t<1 / 2 \\] 6.11.1.1 Propiedades Si recordamos que para \\(X \\sim G(p, \\alpha)\\) entonces \\(E(X)=\\frac{p}{\\alpha} \\mathrm{y} \\operatorname{var}(X)=\\) \\(\\frac{p}{\\alpha^{2}}\\), resulta \\[ E(Y)=\\frac{k / 2}{1 / 2}=k \\quad \\operatorname{var}(Y)=\\frac{k / 2}{1 / 4}=2 k \\] De la aditividad (reproductividad) de las leyes gamma se deduce también la reproductividad de la chi-cuadrado \\(\\chi^{2}\\), es decir \\[ Y_{1}^{2} \\sim \\chi_{n_{1}}^{2}, Y_{2}^{2} \\sim \\chi_{n_{2}}^{2} \\quad \\text { indep. } \\longrightarrow Y_{1}^{2}+Y_{2}^{2} \\sim \\chi_{n_{1}+n_{2}}^{2} \\] Como \\(Y\\) es la suma de v.a. independientes \\(X_{i}^{2} \\sim \\chi_{1}^{2}\\) se verifica \\[ \\frac{Y-k}{\\sqrt{2 k}} \\xrightarrow{\\mathcal{L}} N(0,1) \\] Pero es mejor la aproximación de Fisher \\[ \\sqrt{2 \\chi_{k}^{2}}-\\sqrt{2 k-1} \\xrightarrow{\\mathcal{L}} N(0,1) \\] de donde se obtiene para valores de \\(k \\geq 30\\) \\[ \\chi_{k}^{2} \\stackrel{\\text { aprox }}{=} \\frac{1}{2}(Z+\\sqrt{2 k-1})^{2} \\] donde \\(Z \\sim N(0,1)\\). 6.11.2 Distribución \\(t\\) de Student Sean \\(Y, Z\\) dos variables aleatorias independientes con distribuciones \\(Z \\sim\\) \\(N(0,1)\\) y \\(Y \\sim \\chi_{m}^{2}\\), entonces se dice que la variable aleatoria \\[ t=\\frac{Z}{\\sqrt{Y / m}} \\] tiene una distribución \\(t\\) de Student con \\(m\\) grados de libertad. Su función de densidad es \\[ f(t)=\\frac{\\Gamma\\left(\\frac{m+1}{2}\\right)}{\\Gamma\\left(\\frac{m}{2}\\right) \\sqrt{m \\pi}}\\left(1+\\frac{t^{2}}{m}\\right)^{-(m+1) / 2} \\quad t \\in \\mathbb{R} \\] Esta expresión se obtiene de la resolución del correspondiente problema de cambio de variable para encontrar la distribución de un cociente. Se trata de una distribución unimodal y simétrica respecto al cero. La distribución depende de \\(m\\), que llamamos los grados de libertad (g.l.). A medida que \\(m\\) crece, la forma acampanada se va “cerrando”, acercándose a la ley normal: \\[ \\left(1+\\frac{t^{2}}{m}\\right)^{-(m+1) / 2} \\xrightarrow{m \\rightarrow \\infty} e^{-t^{2} / 2} \\] Este hecho es muy relevante en inferencia estadística. 6.11.2.1 Propiedades Si \\(m=1\\), entonces la \\(t\\) es una Cauchy y, en particular, no tiene esperanza. Para \\(m>1, E(t)=0\\) y para \\(m>2, \\operatorname{var}(t)=m /(m-2)\\). Cuando \\(m \\rightarrow \\infty\\), entonces \\(t \\xrightarrow{P} N(0,1)\\). 6.11.3 La distribución \\(F\\) de Fisher Esta distribución aparece cuando se considera un cociente entre dos distribuciones chi-cuadrado \\(U \\sim \\chi_{m}^{2}, V \\sim \\chi_{n}^{2}\\) con \\(m\\) y \\(n\\) g.l. respectivamente. En concreto decimos que la variable aleatoria \\[ F=\\frac{U / m}{V / n} \\] sigue una distribución \\(F\\) de Fisher con \\(m\\) y \\(n\\) grados de libertad. La función de densidad tiene la forma: \\[ f(x)=\\frac{m^{m / 2} n^{n / 2} \\Gamma[(m+n) / 2]}{\\Gamma(m / 2) \\Gamma(n / 2)} \\cdot \\frac{x^{m / 2-1}}{(m x+n)^{(m+n) / 2}} \\quad \\text { para } x>0 \\] 6.11.3.1 Propiedades La esperanza y la varianza son \\[ E(F)=\\frac{n}{n-2} \\quad \\operatorname{var}(F)=\\frac{2 n^{2}(m+n-2)}{m(n-2)^{2}(n-4)} \\] Esta distribución tiene una moda en \\(x=\\frac{m-2}{m} \\cdot \\frac{n}{n+2}\\), siempre que \\(m>2\\). Si \\(F \\sim F_{m, n}\\), entonces resulta que \\(1 / F \\sim F_{n, m}\\) y por lo tanto: \\[ P(F \\leq x)=P\\left(\\frac{1}{F} \\geq \\frac{1}{x}\\right)=1-P\\left(\\frac{1}{F} \\leq \\frac{1}{x}\\right) \\] Esta propiedad es de gran utilidad en el uso de las tablas. 4. Cuando \\(n \\rightarrow \\infty, F_{m, \\infty} \\xrightarrow{\\mathcal{L}} \\chi_{m}^{2}\\). 5. Cuando \\(m \\rightarrow \\infty\\) y \\(n \\rightarrow \\infty\\), entonces \\(F_{m, n} \\xrightarrow{\\mathcal{L}} 1\\). "],["estimación-puntual.html", "Capítulo 7 Estimación puntual 7.1 El problema de la estimación puntual 7.2 Estudio de las propiedades deseables de los estimadores 7.3 Propiedades de los estimadores consistentes 7.4 Información de Fisher y cota de CramerRao 7.5 Información y verosimilitud de un modelo estadístico 7.6 Información de Fisher 7.7 La desigualdad de Cramer-Rao 7.8 Caracterización del estimador eficiente 7.9 Estadísticos suficientes 7.10 Obtención de estimadores 7.11 El método de los momentos 7.12 El método del máximo de verosimilitud", " Capítulo 7 Estimación puntual 7.1 El problema de la estimación puntual Informalmente, la estimación de parámetros consiste en buscar aproximaciones a los valores de estos, calculables a partir de una muestra, que sean lo más precisas posible. El problema, claro, es que para medir cuán precisas son estas aproximaciones sería necesario conocer los valores de los parámetros y, como estos son siempre desconocidos, debemos basarnos en el uso de estimadores con buenas propiedades que, en algún sentido, nos garanticen esa proximidad. Más formalmente podemos plantear el problema de la siguiente manera: Sea \\(X\\) una v.a. con distribución \\(F_{\\theta}\\) donde \\(\\theta=\\left(\\theta_{1}, \\ldots, \\theta_{k}\\right) \\in \\Theta \\subset \\mathbb{R}^{k}\\) y sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una muestra de \\(n\\) v.a. de \\(X\\). El problema de la estimación puntual consiste en obtener alguna aproximación de \\(\\theta\\) en base a la información disponible en la muestra mediante un estimador de \\(\\theta\\) que definimos a continuación. Definició 2.1 Sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una muestra aleatoria simple de \\(X\\) con distribución \\(F_{\\theta}\\) donde \\(\\theta \\in \\Theta \\subset \\mathbb{R}^{k}\\). Un estadístico \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\) se denomina un estimador puntual de \\(\\theta\\) si \\(T\\) es una aplicación de \\(\\mathbb{R}^{n}\\) en \\(\\Theta\\), es decir, si toma valores sobre el mismo conjunto que los parámetros. Ejemplo 2.1.1 Sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una muestra aleatoria simple de una v.a. de Poisson \\(X \\sim P(\\lambda)\\). Para estimar \\(\\lambda\\) podemos utilizar: \\[ \\begin{aligned} & T_{1}=\\bar{X}=\\frac{1}{n} \\sum_{i=1}^{n} X_{i} \\\\ & T_{2}=s^{2}=\\frac{1}{n} \\sum_{i=1}^{n}\\left(X_{i}-\\bar{X}\\right)^{2} \\end{aligned} \\] ya que \\(E(X)=\\operatorname{var}(X)=\\lambda\\), pero también \\[ \\begin{aligned} T_{3} & =\\frac{2}{n(n+1)} \\sum_{i=1}^{n} X_{i} \\cdot i \\\\ T_{4} & =X_{i} \\end{aligned} \\] Ejemplo 2.1.2 Sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una m.a.s. de \\(X \\sim B(1, p)\\), con \\(p\\) desconocido. Podemos estimar p de las siguientes maneras: \\[ \\begin{aligned} & T_{1}=\\bar{X}=(1 / n) \\sum_{i=1}^{n} X_{i} \\\\ & T_{2}=1 / 2 \\\\ & T_{3}=\\left(X_{1}+X_{2}\\right) / 2 \\end{aligned} \\] En cada caso resulta claro que algunos estimadores no son muy razonables mientras que la decisión entre los otros no está necesariamente clara. Básicamente debemos ocuparnos de dos problemas: Dado un modelo estadístico \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\), ¿cómo podemos obtener estimadores de \\(\\theta\\) que tengan “buenas” propiedades? Dado varios estimadores para un mismo parámetro ¿cómo podemos escoger el mejor en base a algún criterio? Para poder alcanzar estos dos objetivos empezaremos por estudiar las propiedades de los estimadores, así como las medidas de optimalidad que podremos utilizar para decidir entre varios estimadores. De entrada nos restringiremos al caso en que \\(\\Theta \\subseteq \\mathbb{R}\\) o en que queremos aproximar alguna función \\(g(\\theta)\\) de los parámetros donde \\(g\\) es del tipo \\(g: \\Theta \\rightarrow\\) \\(\\mathbb{R}\\). 7.1.1 Criterios de optimalidad de estimadores. El Riesgo Una forma de poder comparar entre diversos estimadores consiste en definir una función de pérdida que nos permita cuantificar de alguna manera la pérdida, o coste asociado, al estimar el valor real del parámetro, es decir, \\(\\theta\\), mediante la aproximación que proporciona un estimador, es decir, \\(t\\). Definició 2.2 Una función de pérdida es una aplicación \\[ \\begin{aligned} L: & \\Theta \\times \\Theta \\rightarrow \\mathbb{R} \\\\ & (\\theta, t) \\rightarrow L(\\theta, t) \\end{aligned} \\] que verifica: a) \\(L(\\theta, t) \\geq 0, \\quad \\forall \\theta, t \\in \\Theta\\) b) \\(L(\\theta, t)=0\\), si \\(\\theta=t\\) c) \\(L(\\theta, t) \\leq L\\left(\\theta, t^{\\prime}\\right)\\), si \\(d(\\theta, t) \\leq d\\left(\\theta, t^{\\prime}\\right)\\) donde \\(d\\) es una distancia en \\(\\Theta\\). Por ejemplo, son funciones de pérdida: \\[ \\begin{gathered} L_{1}(\\theta, t)=|\\theta-t| \\quad L_{2}(\\theta, t)=(\\theta-t)^{2} \\\\ L_{3}(\\theta, t)=\\left|\\frac{\\theta-t}{\\theta}\\right| \\quad L_{4}(\\theta, t)=\\left(\\frac{\\theta-t}{\\theta}\\right)^{2} \\\\ L_{5}(\\theta, t)= \\begin{cases}c>0 & \\text { si }|\\theta-t|>\\epsilon \\\\ 0 & \\text { si }|\\theta-t| \\leq \\epsilon\\end{cases} \\end{gathered} \\] 7.1.2 El error cuadrático medio Una de las funciones de pérdida más usuales es la función de pérdida cuadrática \\(L_{2}(\\theta, t)=(\\theta-t)^{2}\\). Uno de los motivos de su uso es que el riesgo asociado a esta función de pérdida \\(E_{\\theta}\\left[(\\theta-T)^{2}\\right]\\), que llamamos error cuadrático medio \\(E Q M_{T}\\), representa una medida de la variabilidad del estimador \\(T\\) en torno a \\(\\theta\\) semejante a la medida de dispersión en torno a la media que representa la varianza. Además, del desarrollo de esta expresión se obtiene un interesante resultado que muestra cuáles pueden ser las propiedades más interesantes para un estimador. Sea \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\) y sea \\(T\\) un estimador de \\(\\theta\\). El error cuadrático medio de \\(T\\) para estimar \\(\\theta\\) vale \\[ E Q M_{T}(\\theta)=E_{\\theta}\\left[(\\theta-T)^{2}\\right]=E\\left[\\theta^{2}-2 \\theta T+T^{2}\\right]=\\theta^{2}-2 \\theta E_{\\theta}(T)+E_{\\theta}\\left(T^{2}\\right) \\] Ahora, sumando y restando \\(\\left(E_{\\theta}(T)\\right)^{2}\\), obtenemos \\[ \\begin{aligned} E Q M_{T}(\\theta) & =E_{\\theta}\\left(T^{2}\\right)-\\left(E_{\\theta}(T)\\right)^{2}+\\left(E_{\\theta}(T)\\right)^{2}+\\theta^{2}-2 \\theta E_{\\theta}(T)= \\\\ & =\\operatorname{var}(T)+\\left(E_{\\theta}(T)-\\theta\\right)^{2} \\end{aligned} \\] El término \\(\\left(E_{\\theta}(T)-\\theta\\right)^{2}\\) es el cuadrado del sesgo de \\(T\\), que se define como \\[ b_{\\theta}(T)=E_{\\theta}(T)-\\theta \\] Definició 2.5 El error cuadrático medio \\(E Q M_{T}(\\theta)\\), o simplemente \\(E Q M\\), de un estimador \\(T\\) para estimar el parámetro \\(\\theta\\) es la suma de su varianza más el cuadrado de la diferencia entre su valor medio y el verdadero valor del parámetro, que llamamos sesgo. Si en la búsqueda de estimadores de mínimo riesgo nos basamos en la función de pérdida cuadrática, parece que los estimadores más deseables deberían ser aquellos en los que la varianza y el sesgo sean lo más pequeños posibles. Idealmente, quisiéramos reducir ambas cantidades a la vez. En la práctica, sin embargo, observamos que, en general, no suele ser posible reducir simultáneamente la varianza y el sesgo. Además, incluso si fuera práctico calcular el \\(E Q M\\) para cada estimador, encontraríamos que, para la mayoría de las familias de probabilidad \\(P_{\\theta}\\), no existiría ningún estimador que minimizase el \\(E Q M\\) para todos los valores de \\(\\theta\\). Es decir, que un estimador puede tener un \\(E Q M\\) mínimo para algunos valores de \\(\\theta\\), mientras que otro lo tendrá en otros valores de \\(\\theta\\). Ejemplo 2.1.4 Sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una muestra aleatoria simple de \\(X \\sim\\) \\(N(\\mu, \\sigma)\\), donde suponemos \\(\\sigma\\) conocida, y sean \\[ T_{1}=\\bar{X} \\quad T_{2}=\\frac{\\sum_{i=1}^{n} X_{i}}{n+1} \\] Calculando la media y la varianza de los estimadores, tenemos \\[ \\begin{array}{lll} E_{\\mu}\\left(T_{1}\\right)=\\mu & \\Rightarrow b_{T_{1}}(\\mu)=0 & \\operatorname{var}_{\\mu}\\left(T_{1}\\right)=\\frac{\\sigma^{2}}{n} \\\\ E_{\\mu}\\left(T_{2}\\right)=\\frac{n}{n+1} \\mu & \\Rightarrow b_{T_{2}}(\\mu)=\\frac{-1}{n+1} \\mu & \\operatorname{var}_{\\mu}\\left(T_{2}\\right)=\\frac{n}{(n+1)^{2}} \\sigma^{2} \\end{array} \\] de donde \\[ \\begin{aligned} & E Q M_{\\mu}\\left(T_{1}\\right)=\\operatorname{var}\\left(T_{1}\\right)=\\frac{\\sigma^{2}}{n} \\\\ & E Q M_{\\mu}\\left(T_{2}\\right)=\\frac{1}{(n+1)^{2}} \\mu^{2}+\\frac{n}{(n+1)^{2}} \\sigma^{2} \\end{aligned} \\] que son respectivamente una recta y una parábola. De manera que para algunos valores de \\(\\mu\\) tenemos que \\(E Q M_{\\mu}\\left(T_{1}\\right)<E Q M_{\\mu}\\left(T_{2}\\right)\\) y para otros, al revés. La figura 2.1 muestra esta diferencia. Ejemplo 2.1.5 Un ejemplo trivial bastante interesante es el siguiente. Para estimar un parámetro \\(\\theta\\), el estimador que consiste en un valor fijo \\(\\theta_{0}\\), tiene riesgo 0 en \\(\\theta=\\theta_{0}\\). Sin embargo, el riesgo aumenta considerablemente al alejarnos del valor real de \\(\\theta\\). Por lo tanto, no resulta un estimador razonable, aunque su riesgo pueda ser mínimo para algún (único) valor de \\(\\theta\\). Figura 2.1: Comparación del riesgo de dos estimadores Los ejemplos anteriores nos muestran que los criterios de preferencia entre estimadores basados en el riesgo o en el \\(E Q M\\) no son de gran utilidad general ya que muchos estimadores pueden ser incomparables. Ante este hecho nos planteamos si es posible completar el criterio de minimizar el riesgo mediante alguna propiedad o criterio adicional. Las posibles soluciones obtenidas a esta cuestión siguen dos vías: Restringir la clase de estimadores considerados a aquellos que cumplan alguna propiedad adicional de interés, eliminando estimadores indeseables para que el criterio de minimizar el riesgo permita seleccionar uno preferible a los demás. Este criterio lleva a considerar las propiedades deseables de los estimadores como falta de sesgo, consistencia, eficiencia y analizar cómo combinarlas con el criterio de mínimo riesgo. Este proceso culmina con el estudio de los Estimadores Sin Sesgo Uniformemente de Mínima Varianza (ESUMV). Reforzar el criterio de preferencia de estimadores mediante la reducción de toda la función de riesgo \\(R_{T}(\\theta)\\) a un único valor representativo que permita ordenar linealmente todos los estimadores. Este criterio nos lleva a los Estimadores Bayes y a los Estimadores Minimax. 7.2 Estudio de las propiedades deseables de los estimadores 7.2.1 El sesgo Supongamos que tenemos un modelo estadístico \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\) y un estimador \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\) de una función medible \\(g(\\theta)\\) del parámetro. Una forma razonable de valorar qué tan próximos son los valores de \\(T\\) a los de \\(g(\\theta)\\) es ver si, en promedio, los valores de \\(T\\) coinciden con el valor medio de \\(g(\\theta)\\). Definició 2.6 Bajo las condiciones mencionadas, si \\(E_{\\theta}(T)\\) es la esperanza de \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\) y \\(g(\\theta)\\) es una función del parámetro (en particular la identidad), la diferencia \\[ b_{T}(\\theta)=b_{T}(\\theta)=E_{\\theta}(T)-g(\\theta) \\] se denomina sesgo del estimador \\(T\\) para estimar \\(g(\\theta)\\). Si el sesgo es nulo, es decir, si: \\[ E_{\\theta}(T)=g(\\theta), \\quad \\forall \\theta \\in \\Theta \\] diremos que \\(T\\) es un estimador insesgado de \\(g(\\theta)\\). Ejemplo 2.2.1 Los dos ejemplos más conocidos son el de la media y la varianza muestrales. La media muestral es un estimador insesgado de \\(\\mu\\). La varianza muestral es un estimador con sesgo de la varianza poblacional. En concreto, su sesgo vale: \\[ b_{s^{2}}\\left(\\sigma^{2}\\right)=E_{\\sigma^{2}}\\left(s^{2}\\right)-\\sigma^{2}=\\frac{n-1}{n} \\sigma^{2}-\\sigma^{2}=\\frac{-1}{n} \\sigma^{2} \\] El uso de estimadores insesgados es conveniente en muestras de tamaño grande. En estas, \\(\\operatorname{var}_{\\theta}(T)\\) es a menudo pequeña y entonces, como \\(E_{\\theta}(T)=\\) \\(g(\\theta)+b_{T}(\\theta)\\), es muy probable obtener estimaciones centradas en este valor en lugar de en el entorno de \\(g(\\theta)\\). Ejemplo 2.2.2 Sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una muestra aleatoria simple de \\(X \\sim\\) \\(U(0, \\theta)\\). Tomemos \\(T=\\max \\left\\{X_{1}, X_{2}, \\ldots, X_{n}\\right\\}\\) como el estimador del máximo de la distribución. Obviamente podemos decir que \\(T<\\theta\\) y, por lo tanto, la estimación siempre está sesgada. Como hemos visto en el ejemplo ??, la distribución en el muestreo de \\(T\\) es \\[ H_{\\theta}(t)=P_{\\theta}[T \\leq t]=\\left(\\frac{t}{\\theta}\\right)^{n} \\] y su función de densidad es \\[ f_{\\theta}(\\theta)=H_{\\theta}^{\\prime}(\\theta)=\\frac{n}{\\theta}\\left(\\frac{t}{\\theta}\\right)^{n-1} \\] Su esperanza (ver ejemplo ??) vale \\[ E_{\\theta}(T)=\\int_{0}^{\\theta} t \\cdot\\left[\\frac{n}{\\theta}\\left(\\frac{t}{\\theta}\\right)^{n-1}\\right] d t=\\frac{n}{n+1} \\theta \\] de donde el sesgo de \\(T\\) para estimar \\(\\theta\\) es \\[ b_{T}(\\theta)=\\frac{n}{n+1} \\theta-\\theta=-\\frac{1}{n+1} \\theta \\] Podemos preguntarnos si podríamos mejorar este estimador corrigiendo el sesgo de forma análoga a lo que hacíamos con \\(\\hat{s}^{2}\\), es decir, tomando un estimador corregido para el sesgo \\[ T^{\\prime}=\\frac{n+1}{n} T \\text { que, por construcción, verifica: } E\\left(T^{\\prime}\\right)=\\theta \\text {. } \\] Consideremos el estimador de mínimo riesgo en el sentido del error cuadrático medio, es decir, el estimador que minimiza \\(E\\left[(\\theta-T)^{2}\\right]\\). De hecho, como hemos visto en el ejemplo ??, conviene elegir el que minimice \\(E\\left[(\\theta-T)^{2} / \\theta^{2}\\right]\\), porque también minimiza el EQM, pero alcanza un mínimo absoluto. Este estimador es \\[ T^{\\prime \\prime}=\\frac{n+2}{n+1} T \\] y, por tanto, es más adecuado que \\(T^{\\prime}\\), ya que tiene un menor riesgo respecto al error cuadrático medio. Cuando, como aquí, nos encontramos con que dado un estimador podemos encontrar otro de menor riesgo, decimos que el primero no es admisible respecto de la función de pérdida. En este caso decimos que \\(T^{\\prime}\\) no es admisible respecto al EQM. ¡Cuidado! Esto no significa que no podamos usarlo, sino que existe otro con menor riesgo, ya que existe otro \\(T^{\\prime \\prime}\\) preferible a él que, por cierto, no es centrado. Efectivamente \\[ E_{\\theta}\\left(T^{\\prime \\prime}\\right)=\\frac{n+2}{n+1} E_{\\theta}(T)=\\frac{(n+2) n}{(n+1)^{2}} \\theta \\] El ejemplo anterior muestra que, debido a la descomposición \\(E Q M_{T}(\\theta)=\\) \\(\\operatorname{var}_{\\theta}(T)+b_{T}^{2}(\\theta)\\), puede ser preferible un estimador con sesgo a otro que no lo tenga. En general, sin embargo, eliminar el sesgo no es una mala estrategia, sobre todo porque al restringirnos a la clase de los estimadores insesgados obtenemos una solución constructiva que permitirá obtener estimadores insesgados de mínima varianza en condiciones bastante generales. Los siguientes ejemplos ilustran dos propiedades interesantes del sesgo. Por un lado, muestran que no siempre existe un estimador insesgado. Por otro lado, vemos cómo a veces, incluso teniendo un estimador insesgado para un parámetro \\(E_{\\theta}(T)=\\theta\\), una función \\(g(T)\\) no es necesariamente un estimador insesgado de \\(g(\\theta)\\). Ejemplo 2.2.3 Consideremos una variable \\(X\\) con distribución de Bernoulli \\(B(1, p)\\). Supongamos que deseamos estimar \\(g(p)=p^{2}\\) con una única observación. Para que un estimador \\(T\\) no tenga sesgo para estimar \\(p^{2}\\) sería necesario que \\[ p^{2}=E_{p}(T)=p \\cdot T(1)+(1-p) \\cdot T(0), \\quad 0 \\leq p \\leq 1 \\] es decir, para cualquier valor de \\(p \\in[0,1]\\) se debería verificar \\[ p^{2}=p \\cdot(T(1)-T(0))+T(0) \\] Esto claramente no es posible, ya que la única forma en que una función lineal y una función parabólica coincidan en todo el intervalo \\([0,1]\\) es cuando los coeficientes \\(T(0)\\) y \\(T(1)\\) valen cero. Ejemplo 2.2.4 El parámetro \\(\\alpha\\) de una ley exponencial con función de densidad \\[ f(x)=\\alpha e^{-\\alpha x} \\mathbf{1}_{(0, \\infty)}(x) \\] es el inverso de la media de la distribución, es decir, \\(\\alpha=1 / E(X)\\). Un estimador razonable de \\(\\alpha=g(\\mu)\\) puede ser \\(\\hat{\\alpha}=g(\\hat{\\mu})\\), es decir, \\(\\hat{\\alpha}=\\) \\(1 / \\bar{X}\\). Si aplicamos la propiedad de que la suma de variables aleatorias i.i.d. exponenciales sigue una ley gamma de parámetros \\(n\\) y \\(\\alpha\\), se obtiene que este estimador tiene sesgo. Su esperanza es \\[ E(\\hat{\\alpha})=\\frac{n}{n-1} \\alpha \\] El sesgo se corrige simplemente con \\[ \\hat{\\alpha}^{\\prime}=\\frac{n-1}{n} \\hat{\\alpha} \\] 7.2.2 Consistencia La consistencia de un estimador es una propiedad bastante intuitiva que indica, de manera informal, que cuando aumenta el tamaño muestral, el valor del estimador se aproxima cada vez más al verdadero valor del parámetro. Definició 2.7 Sea \\(X_{1}, X_{2}, \\ldots, X_{n}, \\ldots\\) una sucesión de variables aleatorias i.i.d. \\(X \\sim F_{\\theta}, \\theta \\in \\Theta\\). Una sucesión de estimadores puntuales \\(T_{n}=\\) \\(T\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\) se denomina consistente para \\(g(\\theta)\\) si \\[ T_{n} \\xrightarrow[n \\rightarrow \\infty]{P} g(\\theta) \\] para cada \\(\\theta \\in \\Theta\\), es decir, si \\[ \\forall \\varepsilon>0 \\quad \\lim _{n \\rightarrow \\infty} P\\left\\{\\left|T_{n}-g(\\theta)\\right|>\\varepsilon\\right\\}=0 \\] Observemos que: Se trata de un concepto asintótico: Hablamos de ?sucesiones de estimadores consistentes? más que de estimadores propiamente dichos. La definición puede reforzarse si, en lugar de considerar convergencia en probabilidad (consistencia débil), consideramos convergencia casi segura o en media cuadrática: \\(T_{n}\\) es fuertemente consistente si \\(T_{n} \\xrightarrow{\\text { c.s. }} g(\\theta)\\) \\(T_{n}\\) es consistente en media- \\(r\\) si \\(E_{\\theta}\\left[\\left|T_{n}-g(\\theta)\\right|^{r}\\right] \\longrightarrow 0\\) Ejemplo 2.2.5 Muchos estimadores consistentes lo son como consecuencia de las leyes de los grandes números. Recordemos que la Ley débil de los Grandes Números (Tchebychev) afirma que, dada una sucesión de v.a. independientes e idénticamente distribuidas con medias \\(\\mu<\\infty\\) y varianzas \\(\\sigma^{2}<\\infty\\), entonces \\[ \\bar{X}_{n} \\xrightarrow{P} \\mu \\] Como consecuencia de esta ley y dado que una muestra aleatoria simple es i.i.d., por definición, podemos afirmar que \\(\\bar{X}_{n}\\) es consistente para estimar \\(\\mu\\). Ejemplo 2.2.6 La sucesión \\(T_{n}=\\max _{1 \\leq i \\leq n}\\left\\{X_{i}\\right\\}\\) es consistente para estimar el máximo de una distribución uniforme en \\([0, \\theta]\\) : \\[ P\\left[\\left|\\max _{1 \\leq i \\leq n}\\left\\{X_{i}\\right\\}-\\theta\\right|>\\varepsilon\\right]=P\\left[\\theta-\\max _{1 \\leq i \\leq n}\\left\\{X_{i}\\right\\}>\\varepsilon\\right] \\] ya que \\(X_{i} \\in[0, \\theta] y\\), por lo tanto, podemos escribir: \\[ \\begin{aligned} P\\left[\\theta-\\varepsilon>\\max _{1 \\leq i \\leq n}\\left\\{X_{i}\\right\\}\\right] & =P\\left[\\max _{1 \\leq i \\leq n}\\left\\{X_{i}\\right\\}<\\theta-\\varepsilon\\right] \\\\ & =\\left(\\frac{\\theta-\\varepsilon}{\\theta}\\right)^{n}=\\left(1-\\frac{\\varepsilon}{\\theta}\\right)^{n} \\underset{n \\rightarrow \\infty}{\\longrightarrow} 0 \\end{aligned} \\] Es inmediato comprobar que \\[ E\\left[\\left(\\theta-T_{n}\\right)^{2}\\right]=\\left(1-\\frac{2 n}{n+1}+\\frac{n}{n+2}\\right) \\theta^{2} \\] que también tiende a cero cuando \\(n \\rightarrow \\infty\\), y por lo tanto \\(T_{n}=\\max _{1 \\leq i \\leq n}\\left\\{X_{i}\\right\\}\\) también es consistente en media cuadrática. Normalmente, cuando se habla de consistencia, se hace referencia a la convergencia en probabilidad, es decir, \\(T_{n}\\) es consistente si \\(\\lim _{n \\rightarrow \\infty} P\\left(\\left|T_{n}-g(\\theta)\\right|>\\right.\\) \\(\\varepsilon)=0\\). Si el estimador no tiene sesgo, estamos en la situación de aplicar la desigualdad de Tchebychev \\({ }^{1}\\) : Si \\(E\\left(T_{n}\\right)=g(\\theta)\\), entonces \\[ P\\left(\\left|T_{n}-g(\\theta)\\right|>\\varepsilon\\right)=P\\left(\\left|T_{n}-E\\left(T_{n}\\right)\\right|>\\varepsilon\\right) \\underset{\\text { Tchebychev }}{\\leq} \\frac{\\operatorname{var}\\left(T_{n}\\right)}{\\varepsilon^{2}} \\] Así, para intentar establecer la consistencia de \\(T\\), debemos probar que \\[ \\frac{\\operatorname{var}\\left(T_{n}\\right)}{\\varepsilon^{2}} \\underset{n \\rightarrow \\infty}{\\longrightarrow} 0 \\] Ejemplo 2.2.7 Sea \\(M_{n}=\\sum_{i=1}^{n} a_{i} X_{i}\\) una combinación lineal de los valores de la muestra con coeficientes tales que \\(\\sum_{i=1}^{n} a_{i}=1\\) y algún \\(a_{i}>0\\). ¿Es consistente \\(M_{n}\\) para estimar \\(E(X)\\) ? Comencemos por ver que \\(M_{n}\\) no tiene sesgo \\[ \\begin{aligned} E\\left(M_{n}\\right) & =E\\left(\\sum_{i=1}^{n} a_{i} X_{i}\\right)=\\sum_{i=1}^{n} E\\left(a_{i} X_{i}\\right) \\\\ & =\\sum_{i=1}^{n} a_{i} E\\left(X_{i}\\right) \\stackrel{\\text { i.i.d. }}{=} \\sum_{i=1}^{n} a_{i} E(X)=E(X) \\end{aligned} \\] [^1]Calculemos la varianza \\[ \\begin{aligned} \\operatorname{var}\\left(M_{n}\\right) & =\\operatorname{var}\\left(\\sum_{i=1}^{n} a_{i} X_{i}\\right)=\\sum_{i=1}^{n} \\operatorname{var}\\left(a_{i} X_{i}\\right) \\\\ & =\\sum_{i=1}^{n} a_{i}^{2} \\operatorname{var}\\left(X_{i}\\right)=\\operatorname{var}(X) \\sum_{i=1}^{n} a_{i}^{2} \\end{aligned} \\] Si aplicamos ahora la desigualdad de Tchebychev tenemos: \\[ P\\left(\\left|M_{n}-\\mu\\right|>\\varepsilon\\right) \\leq \\frac{\\sigma^{2} \\sum a_{i}^{2}}{\\varepsilon^{2}} \\] lo cual no tiene por qué tender a 0 cuando \\(n \\rightarrow \\infty\\), y por lo tanto no podemos afirmar que el estimador es consistente. Por ejemplo, si \\(a_{1}=\\frac{1}{2}, a_{2}=a_{3}=\\) \\(\\cdots=a_{n}=\\frac{1}{2(n-1)}\\) tendremos que \\(\\lim _{n \\rightarrow \\infty} \\sum a_{i}^{2}=\\frac{1}{4}\\). Observamos que el resultado obtenido no puede asegurar la consistencia de \\(M_{n}\\) para cualquier familia de coeficientes \\(a_{1}, \\ldots, a_{n}\\), aunque, obviamente, el estimador es consistente para alguno (caso \\(a_{i}=1 / n\\) ). 7.3 Propiedades de los estimadores consistentes Muchas de las propiedades de los estimadores son consecuencia directa de las propiedades de la convergencia en probabilidad, que se pueden revisar, por ejemplo, en Martin Pliego (1998a) capítulo 11. Si \\(T_{n}\\) es consistente para estimar \\(\\theta\\) y \\(g: \\mathbb{R} \\rightarrow \\mathbb{R}\\) es una función continua, entonces \\(g\\left(T_{n}\\right)\\) es consistente para estimar \\(g(\\theta)\\). Si \\(T_{1 n}\\) y \\(T_{2 n}\\) son consistentes para estimar \\(\\theta_{1}\\) y \\(\\theta_{2}\\) respectivamente, entonces \\(a T_{1 n} \\pm b T_{2 n}\\) es consistente para estimar \\(a \\theta_{1} \\pm b \\theta_{2}\\) \\(T_{1 n} \\cdot T_{2 n}\\) es consistente para estimar \\(\\theta_{1} \\cdot \\theta_{2}\\) \\(T_{1 n} / T_{2 n}\\) es consistente para estimar \\(\\theta_{1} / \\theta_{2}\\), si \\(\\theta_{2} \\neq 0\\). Sea \\(a_{r}=(1 / n) \\sum X_{i}^{r}\\) el momento muestral de orden \\(r\\). Como se ha visto en el capítulo 1 , la esperanza de \\(a_{r}\\) es \\[ E\\left(a_{r}\\right)=E\\left[\\frac{1}{n} \\sum X_{i}^{r}\\right]=\\frac{1}{n} \\sum E\\left(X^{r}\\right)=\\frac{1}{n} n \\alpha_{r}=\\alpha_{r} \\] donde \\(\\alpha_{r}\\) es el momento poblacional de orden \\(r\\). Así pues, \\(a_{r}\\) no tiene sesgo para estimar \\(\\alpha_{r}\\). Su varianza es \\[ \\begin{aligned} \\operatorname{var}\\left(a_{r}\\right) & =\\operatorname{var}\\left(\\frac{1}{n} \\sum X_{i}^{r}\\right)=\\frac{1}{n^{2}} \\sum \\operatorname{var}\\left(X^{r}\\right)=\\frac{1}{n} E\\left[X^{r}-E\\left(X^{r}\\right)\\right]^{2} \\\\ & =\\frac{1}{n} E\\left[X^{r}-\\alpha_{r}\\right]^{2}=\\frac{1}{n} E\\left(X^{2 r}+\\alpha_{r}^{2}-2 \\alpha_{r} X^{r}\\right) \\\\ & =\\frac{1}{n}\\left(\\alpha_{2 r}-\\alpha_{r}^{2}\\right) . \\end{aligned} \\] Y si aplicamos la desigualdad de Tchebychev, se obtiene \\[ P\\left(\\left|a_{r}-\\alpha_{r}\\right| \\geq \\varepsilon\\right) \\leq \\frac{E\\left(a_{r}-\\alpha_{r}\\right)^{2}}{\\varepsilon^{2}}=\\frac{\\operatorname{var}\\left(a_{r}\\right)}{\\varepsilon^{2}}=\\frac{\\alpha_{2 r}-\\alpha_{r}^{2}}{n \\varepsilon^{2}} \\underset{n \\rightarrow \\infty}{\\longrightarrow} 0 \\] Así pues, hemos visto que los momentos muestrales son estimadores consistentes de los momentos poblacionales. 7.3.1 Eficiencia Como ya hemos visto, un objetivo deseable en la búsqueda de estimadores óptimos es considerar estimadores de “mínimo riesgo” o, si nos basamos en la función de pérdida cuadrática, estimadores que minimicen el error cuadrático medio \\(E(\\theta-T)^{2}\\). En general, es difícil encontrar estimadores que hagan mínimo el EQM para todos los valores de \\(\\theta\\); sin embargo, si nos restringimos a los estimadores sin sesgo, el problema tiene solución en una gama más amplia de situaciones. Supongamos que \\(T_{1}, T_{2}\\) son dos estimadores sin sesgo de un parámetro \\(\\theta\\). Para estos estimadores tenemos que \\[ \\begin{aligned} & E Q M_{T_{1}}(\\theta)=\\operatorname{var}_{\\theta}\\left(T_{1}\\right)+b_{T_{1}}^{2}(\\theta) \\\\ & E Q M_{T_{2}}(\\theta)=\\operatorname{var}_{\\theta}\\left(T_{2}\\right)+b_{T_{2}}^{2}(\\theta) \\end{aligned} \\] Si los estimadores no tienen sesgo \\(b_{T_{1}}(\\theta)=b_{T_{2}}(\\theta)=0\\), el que tenga menor varianza tendrá el menor riesgo para estimar \\(\\theta\\). Si, por ejemplo, \\(\\operatorname{var}\\left(T_{1}\\right) \\leq\\) \\(\\operatorname{var}\\left(T_{2}\\right)\\), diremos que \\(T_{1}\\) es más eficiente que \\(T_{2}\\) para estimar \\(\\theta\\). Para dos estimadores con sesgo cero \\(b_{T_{i}}(\\theta)=0\\), el cociente \\[ E R=\\frac{E Q M_{T_{1}}(\\theta)}{E Q M_{T_{2}}(\\theta)}=\\frac{\\operatorname{var}_{\\theta}\\left(T_{1}\\right)}{\\operatorname{var}_{\\theta}\\left(T_{2}\\right)} \\] se denomina eficiencia relativa de \\(T_{1}\\) respecto a \\(T_{2}\\). Si solo hay dos estimadores de \\(\\theta\\) puede ser fácil ver cuál es el más eficiente. Si hay más, la cosa se complica. El “más eficiente”, en caso de que exista, se llamará el estimador sin sesgo de mínima varianza. Figura 2.2: Comparación de la eficiencia de dos estimadores para un \\(\\theta\\) dado Definició 2.8 Sea \\(\\mathcal{S}(\\theta)\\) la clase de los estimadores sin sesgo de \\(\\theta\\) y con varianza. Si para todos los estimadores de esta clase \\(T \\in \\mathcal{S}(\\theta)\\) se verifica que \\[ \\operatorname{var}_{\\theta}(T) \\leq \\operatorname{var}_{\\theta}\\left(T^{*}\\right) \\quad \\forall T \\in \\mathcal{S}(\\theta) \\] diremos que \\(T^{*}\\) es un estimador sin sesgo de mínima varianza de \\(\\theta\\). Si la desigualdad es cierta \\(\\forall \\theta \\in \\Theta\\), diremos que \\(T^{*}\\) es un estimador sin sesgo uniforme de mínima varianza (ESUMV) \\({ }^{2}\\). 7.4 Información de Fisher y cota de CramerRao Obviamente, en un problema de estimación lo ideal es disponer de un ESUMV, pero esto no siempre es posible. Nos enfrentamos a varios problemas: ¿Existen ESUMV para un parámetro \\(\\theta\\) en un modelo dado? En caso de que exista el ESUMV, ¿sabremos cómo encontrarlo? Este problema tiene solución, bajo ciertas condiciones, utilizando los teoremas de Lehmann-Scheffé y Rao-Blackwell y el concepto de suficiencia, que se discute más adelante. [^2]Una solución parcial aparece gracias al Teorema de Cramer-Rao, que permite establecer una cota mínima para la varianza de un estimador. Cuando un estimador alcanza esta cota, sabemos que es un estimador de varianza mínima. Informalmente, este resultado sugiere que, bajo ciertas condiciones de regularidad, si \\(T\\) es un estimador insesgado de un parámetro \\(\\theta\\), su varianza está acotada por una expresión que llamamos cota de Cramer-Rao \\(\\operatorname{CCR}(\\theta)\\) \\[ \\operatorname{var}(T) \\geq \\operatorname{CCR}(\\theta) \\] Antes de establecer con precisión este teorema, consideremos el concepto de información de un modelo estadístico introducido por Fisher. 7.5 Información y verosimilitud de un modelo estadístico Una idea bastante razonable es esperar que un estimador funcione mejor en su intento de aproximarse al valor de un parámetro cuanto más información tenga para hacerlo. Por este motivo, la varianza del estimador y la información se presentan como cantidades opuestas: a mayor información, menor error (varianza) en la estimación: \\[ \\operatorname{var}\\left(T_{n}\\right) \\propto \\frac{1}{I_{n}(\\theta)} \\] Ahora nos encontramos con el problema de cómo definir la cantidad de información (contenida en una muestra/de un modelo), para que se ajuste a la idea intuitiva de información. Fisher lo hizo a través de la función de verosimilitud. Sea un modelo estadístico \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\) y una m.a.s. \\(\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\), que toma valores \\(\\mathbf{x}=\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right)\\). Si \\(X\\) es discreta, la función de masa de probabilidad indica, en términos generales, la probabilidad de observar la muestra, dado un valor del parámetro. Si \\(X\\) es absolutamente continua, esta interpretación ya no es tan directa. \\[ f\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\theta\\right)= \\begin{cases}P_{\\theta}\\left[X=x_{1}\\right] \\cdots P_{\\theta}\\left[X=x_{n}\\right], & \\text { si } X \\text { es discreta } \\\\ f_{\\theta}\\left(x_{1}\\right) \\cdots f_{\\theta}\\left(x_{n}\\right), & \\text { si } X \\text { es abs. continua }\\end{cases} \\] La función de verosimilitud se obtiene si consideramos, en la expresión anterior, que lo que queda fijado es la muestra y no el parámetro. Es decir, fijada una muestra x, la función de verosimilitud indica qué tan verosímil resulta, para cada valor del parámetro, que el modelo la haya generado. Ejemplo 2.3.1 Supongamos que tenemos una m.a.s. \\(x_{1}, x_{2}, \\ldots, x_{n}\\) de tamaño n de una variable aleatoria \\(X\\), que sigue una ley de Poisson de parámetro \\(\\lambda\\) desconocido. \\[ X \\sim F_{\\lambda}=P(\\lambda), \\quad \\lambda>0 \\] La función de probabilidad de la muestra, fijado \\(\\lambda\\), es: \\[ g_{\\lambda}\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right)=\\prod_{i=1}^{n} e^{-\\lambda} \\frac{\\lambda^{x_{i}}}{x_{i}!}=e^{-n \\lambda} \\frac{\\lambda^{\\sum x_{i}}}{\\prod_{i=1}^{n} x_{i}!} \\] y la función de verosimilitud del modelo, fijada \\(\\mathbf{x}\\), es: \\[ L\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\lambda\\right)=\\prod_{i=1}^{n} e^{-\\lambda} \\frac{\\lambda^{x_{i}}}{x_{i}!}=e^{-n \\lambda} \\frac{\\lambda^{\\sum x_{i}}}{\\prod_{i=1}^{n} x_{i}!} \\] Aunque la forma funcional de \\(g_{\\lambda}(\\mathbf{x})\\) y \\(L(\\mathbf{x} ; \\lambda)\\) es la misma, su aspecto es diferente, como se puede comprobar en la figura 2.3, donde damos valores a \\(g_{\\lambda}(\\mathbf{x})\\), variando \\(\\mathbf{x}\\) o a \\(L(\\lambda ; \\mathbf{x})\\) variando \\(\\lambda\\). 7.6 Información de Fisher Para calcular la cantidad de información de Fisher contenida en una muestra sobre un parámetro, es necesario considerar modelos estadísticos regulares, es decir, donde se cumplen las siguientes condiciones de regularidad. Definició 2.9 Diremos que \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\) es un modelo estadístico regular si se verifican las siguientes condiciones: La población de donde proviene la muestra presenta un ?campo de variación? o soporte \\(S_{\\theta}=\\{x \\mid f(x ; \\theta)>0\\}=S\\) que no depende de \\(\\theta\\). La función \\(L(\\mathbf{x} ; \\theta)\\) admite, al menos, las dos primeras derivadas. Las operaciones de derivación e integración son intercambiables. Definició 2.10 Sea \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\) un modelo estadístico regular, es decir, donde se verifican las condiciones de regularidad 1-3 anteriores. Si \\(Z=\\frac{\\partial}{\\partial \\theta} \\log L(\\mathbf{X} ; \\theta)\\), la cantidad de información de Fisher es \\[ I_{n}(\\theta)=\\operatorname{var}_{\\theta}(Z)=\\operatorname{var}_{\\theta}\\left(\\frac{\\partial}{\\partial \\theta} \\log L(\\mathbf{X} ; \\theta)\\right) \\] Figura 2.3: Probabilidad de la suma de \\(n=5\\) valores muestrales para 10 muestras de la ley de Poisson con \\(\\lambda=3\\) versus la función de verosimilitud para una muestra observada. Las condiciones de regularidad son necesarias para calcular \\(E_{\\theta}\\left(Z^{2}\\right)\\). A continuación, presentamos algunas propiedades de la información de Fisher. Puedes ver la demostración en Ruiz-Maya y Pliego (1995). La información de Fisher se puede expresar como: \\[ I_{n}(\\theta)=E_{\\theta}\\left[\\left(\\frac{\\partial \\log L(\\mathbf{X} ; \\theta)}{\\partial \\theta}\\right)^{2}\\right] \\] Esto se puede comprobar, ya que si aplicamos las condiciones de regularidad \\[ \\begin{aligned} E(Z) & =E\\left(\\frac{\\partial \\log L(\\mathbf{X} ; \\theta)}{\\partial \\theta}\\right)=\\int_{S^{n}} \\frac{\\partial \\log L(\\mathbf{x} ; \\theta)}{\\partial \\theta} L(\\mathbf{x} ; \\theta) d \\mathbf{x} \\\\ & =\\int_{S^{n}} \\frac{\\frac{\\partial L(\\mathbf{x} ; \\theta)}{\\partial \\theta}}{L(\\mathbf{x} ; \\theta)} L(\\mathbf{x} ; \\theta) d \\mathbf{x}=\\int_{S^{n}} \\frac{\\partial L(\\mathbf{x} ; \\theta)}{\\partial \\theta} d \\mathbf{x} \\\\ & =\\frac{\\partial}{\\partial \\theta}\\left(\\int_{S^{n}} L(\\mathbf{x} ; \\theta) d \\mathbf{x}\\right)=\\frac{\\partial}{\\partial \\theta} 1=0 \\end{aligned} \\] De forma que \\(E(Z)=0\\), y por lo tanto, tendremos que \\(\\operatorname{var}_{\\theta}(Z)=\\) \\(E_{\\theta}\\left(Z^{2}\\right)\\). 2. \\(I_{n}(\\theta)=0\\) si y solo si \\(L(\\mathbf{x} ; \\theta)\\) no depende de \\(\\theta\\). 3. Dadas dos m.a.s. \\(\\mathbf{x}_{1}, \\mathbf{x}_{2}\\) de tamaños \\(n_{1}, n_{2}\\) de la misma población, se verifica: \\[ I_{n_{1}, n_{2}}(\\theta)=I_{n_{1}}(\\theta)+I_{n_{2}}(\\theta) \\] De manera que podemos considerar una muestra de tamaño \\(n\\) como \\(n\\) muestras de tamaño 1 : \\[ I_{n}(\\theta)=\\sum_{i=1}^{n} I_{1}(\\theta)=n \\cdot i(\\theta), \\text { siendo } i(\\theta)=I_{1}(\\theta) \\] Es decir \\[ E\\left(\\frac{\\partial \\log (L(\\mathbf{X} ; \\theta))}{\\partial \\theta}\\right)=n E\\left(\\frac{\\partial \\log f(X ; \\theta)}{\\partial \\theta}\\right) \\] Se verifica la siguiente relación: \\[ I_{n}(\\theta)=E\\left[\\left(\\frac{\\partial \\log L(\\mathbf{X} ; \\theta)}{\\partial \\theta}\\right)^{2}\\right]=-E\\left[\\frac{\\partial^{2} \\log L(\\mathbf{X} ; \\theta)}{\\partial^{2} \\theta}\\right] \\] Ejemplo 2.3.2 Vamos a calcular la cantidad de información de Fisher contenida en una m.a.s. extraída de una población \\(N(\\mu, \\sigma)\\) con \\(\\sigma=\\sigma_{0}\\) conocida. La función de verosimilitud es \\[ L(\\mathbf{x} ; \\mu)=\\prod_{i=1}^{n} \\frac{1}{\\sqrt{2 \\pi} \\sigma_{0}} e^{-\\frac{\\left(x_{i}-\\mu\\right)^{2}}{2 \\sigma_{0}^{2}}}=\\left(2 \\pi \\sigma_{0}^{2}\\right)^{-n / 2} \\exp \\left(-\\sum_{i=1}^{n} \\frac{\\left(x_{i}-\\mu\\right)^{2}}{2 \\sigma_{0}^{2}}\\right) \\] y su logaritmo \\[ \\log L(\\mathbf{x} ; \\mu)=-\\frac{n}{2} \\log \\left(2 \\pi \\sigma_{0}^{2}\\right)-\\frac{1}{2 \\sigma_{0}^{2}} \\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)^{2} \\] Si derivamos respecto a \\(\\mu\\) \\[ \\frac{\\partial \\log L(\\mathbf{x} ; \\mu)}{\\mu}=\\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)}{\\sigma_{0}^{2}} \\] de donde \\[ \\begin{aligned} I_{n}(\\mu) & =E\\left(\\frac{\\partial \\log L(\\mathbf{X} ; \\mu)}{\\partial \\mu}\\right)^{2}=E\\left(\\frac{\\sum_{i=1}^{n}\\left(X_{i}-\\mu\\right)}{\\sigma_{0}^{2}}\\right)^{2} \\\\ & =\\frac{1}{\\sigma_{0}^{4}} E\\left[\\sum_{i=1}^{n}\\left(X_{i}-\\mu\\right)^{2}+\\sum_{i \\neq j}\\left(X_{i}-\\mu\\right)\\left(X_{j}-\\mu\\right)\\right] \\\\ & =\\frac{1}{\\sigma_{0}^{4}} n \\sigma_{0}^{2}=\\frac{n}{\\sigma_{0}^{2}} \\end{aligned} \\] Este cálculo también puede hacerse a partir de la tercera propiedad de la información de Fisher: \\[ I_{n}(\\mu)=n E\\left[\\frac{\\partial \\log f(X ; \\mu)}{\\partial \\mu}\\right]=n \\frac{1}{\\sigma_{0}^{2}}=\\frac{n}{\\sigma_{0}^{2}} \\] 7.7 La desigualdad de Cramer-Rao Una vez establecidas las condiciones de regularidad y características anteriores podemos enunciar el teorema de Cramer-Rao (1945). Teorema 2.1 Dado un modelo estadístico regular \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\), es decir, un modelo donde se verifican las condiciones de regularidad enunciadas, cualquier estimador \\(T \\in \\mathcal{S}(\\theta)\\) de la clase de los estimadores no sesgados y con varianza verifica \\[ \\operatorname{var}_{\\theta}(T) \\geq \\frac{1}{I_{n}(\\theta)} \\] Demostración: El estimador \\(T \\in \\mathcal{S}(\\theta)\\) no tiene sesgo, es decir que \\[ E(T)=\\int_{S^{n}} T(\\mathbf{x}) \\cdot L(\\mathbf{x} ; \\theta) d \\mathbf{x}=\\theta \\] Si derivamos e introducimos la derivada bajo el signo de la integral, obtenemos \\[ \\begin{aligned} \\frac{\\partial}{\\partial \\theta} E(T) & =\\int_{S^{n}} \\frac{\\partial}{\\partial \\theta}(T(\\mathbf{x}) \\cdot L(\\mathbf{x} ; \\theta)) d \\mathbf{x}=\\int_{S^{n}} T(\\mathbf{x}) \\frac{\\partial}{\\partial \\theta} L(\\mathbf{x} ; \\theta) d \\mathbf{x} \\\\ & =\\int_{S^{n}} T(\\mathbf{x})\\left(\\frac{\\frac{\\partial}{\\partial \\theta} L(\\mathbf{x} ; \\theta)}{L(\\mathbf{x} ; \\theta)}\\right) L(\\mathbf{x} ; \\theta) d \\mathbf{x} \\end{aligned} \\] Así pues \\[ 1=\\frac{\\partial}{\\partial \\theta} \\theta=\\frac{\\partial}{\\partial \\theta} E(T)=E(T Z)=\\int_{S^{n}} T(\\mathbf{x}) \\cdot Z L(\\mathbf{x} ; \\theta) d \\mathbf{x} \\] En resumen \\[ E(T)=\\theta, E(T Z)=1, E(Z)=0, \\operatorname{var}(Z)=I_{n}(\\theta) \\] Si ahora consideramos el coeficiente de correlación al cuadrado entre \\(T\\) y \\(Z\\), tenemos \\[ \\rho^{2}(T, Z)=\\frac{[\\operatorname{cov}(T, Z)]^{2}}{\\operatorname{var}(T) \\cdot \\operatorname{var}(Z)}=\\frac{[E(T Z)-E(T) E(Z)]^{2}}{\\operatorname{var}(T) \\cdot \\operatorname{var}(Z)} \\leq 1 \\] Si sustituimos los resultados hallados antes, obtenemos \\[ \\frac{1}{\\operatorname{var}(T) \\cdot I_{n}(\\theta)} \\leq 1 \\] de donde se deduce la desigualdad enunciada. Definició 2.11 Si un estimador alcanza la CCR (Cota de Cramer-Rao), diremos que es un estimador eficiente. Todo estimador eficiente es de mínima varianza en la clase \\(\\mathcal{S}(\\theta)\\). Sin embargo, también puede suceder que exista un estimador de mínima varianza sin alcanzar necesariamente la CCR. Ejemplo 2.3.3 Sea \\(X \\sim F_{\\theta}=P(\\lambda), \\lambda>0\\) (Poisson). Buscamos la \\(C C R\\) de los estimadores de \\(\\lambda\\). \\[ \\begin{aligned} L(\\mathbf{x} ; \\lambda) & =\\prod_{i=1}^{n} e^{-\\lambda} \\frac{\\lambda^{x_{i}}}{x_{i}!}=e^{-n \\lambda} \\frac{\\lambda^{\\sum x_{i}}}{\\prod_{i=1}^{n} x_{i}!} \\\\ \\log L(\\mathbf{x} ; \\lambda) & =-n \\lambda+\\left(\\sum x_{i}\\right) \\log \\lambda-\\log \\left(\\prod_{i=1}^{n} x_{i}!\\right) \\\\ \\frac{\\partial \\log (L(\\mathbf{x} ; \\lambda))}{\\partial \\lambda} & =-n+\\frac{\\sum x_{i}}{\\lambda} \\\\ E\\left[\\frac{\\partial \\log L(\\mathbf{x} ; \\lambda)}{\\partial \\lambda}\\right]^{2} & =E\\left[n^{2}+\\left(\\frac{\\sum X_{i}}{\\lambda}\\right)^{2}-\\frac{2 n \\sum X_{i}}{\\lambda}\\right] \\\\ & =n^{2}+\\frac{1}{\\lambda^{2}} E\\left(\\sum X_{i}\\right)^{2}-\\frac{2 n}{\\lambda} n E(X) \\end{aligned} \\] Aquí recordamos que la suma de variables de Poisson también es una Poisson, es decir: \\[ \\sum X_{i} \\sim P(n \\lambda) \\] por lo que \\[ E\\left(\\sum X_{i}\\right)^{2}=\\operatorname{var}\\left(\\sum X_{i}\\right)+\\left[E\\left(\\sum X_{i}\\right)\\right]^{2}=n \\lambda+(n \\lambda)^{2} \\] Finalmente, se obtiene: \\[ E\\left(Z^{2}\\right)=n^{2}+\\frac{n \\lambda}{\\lambda^{2}}+\\frac{n^{2} \\lambda^{2}}{\\lambda^{2}}-2 n^{2}=\\frac{n}{\\lambda} \\] De esta forma, \\[ I_{n}(\\lambda)=\\frac{n}{\\lambda} \\quad \\Longrightarrow \\quad \\operatorname{var}(T) \\geq \\frac{\\lambda}{n} \\] Sabemos que la media aritmética verifica \\[ \\operatorname{var}\\left(\\bar{X}_{n}\\right)=\\frac{\\lambda}{n} \\] lo cual coincide con la cota de Cramer-Rao, indicando que \\(\\bar{X}_{n}\\) es el estimador eficiente de \\(\\lambda\\). Ejemplo 2.3.4 Para calcular la CCR o, dicho de otro modo, para que el inverso de \\[ E\\left[\\frac{\\partial \\log L(\\mathbf{x} ; \\theta)}{\\partial \\theta}\\right]^{2} \\] sea realmente la cota minima de \\(\\operatorname{var}(\\widehat{\\theta})\\) en la clase \\(\\mathcal{S}(\\theta)\\), es necesario que se verifiquen las condiciones de regularidad. De lo contrario, se pueden obtener resultados absurdos. Consideremos, por ejemplo, una variable aleatoria \\(X\\) con función de densidad \\[ f(x ; \\theta)=\\frac{3}{\\theta^{3}} x^{2} \\mathbf{1}_{[0, \\theta]}(x) \\] y esperanza \\[ E(X)=\\int_{0}^{\\theta} x \\cdot \\frac{3}{\\theta^{3}} x^{2} d x=\\frac{3}{4} \\theta \\] Ya que \\(\\theta=\\frac{4}{3} E(X)\\), esto sugiere estimar \\(\\theta\\) mediante \\(\\widehat{\\theta}=\\frac{4}{3} \\bar{X}\\), que no tiene sesgo. Por otro lado, si calculamos la varianza de \\(X\\), tenemos \\[ \\operatorname{var}(X)=E\\left(X^{2}\\right)-E(X)^{2}=\\frac{3}{80} \\theta^{2} \\] Sabemos que \\(E(\\widehat{\\theta})=\\theta, y\\) además \\[ \\operatorname{var}(\\widehat{\\theta})=\\operatorname{var}\\left(\\frac{4}{3} \\bar{X}\\right)=\\frac{\\theta^{2}}{15 n} \\] Si evaluamos \\(I_{n}(\\theta)\\) en su forma más sencilla, obtenemos \\[ I_{n}(\\theta)=n I(\\theta)=n \\frac{9}{\\theta^{2}} \\] Así, la CCR resulta ser mayor que la varianza de este estimador: \\[ \\operatorname{var}(\\widehat{\\theta})=\\frac{\\theta^{2}}{15 n}<\\frac{\\theta^{2}}{9 n} \\] lo cual es un resultado absurdo. Este error se debe a no considerar que el soporte de \\(X\\) depende de \\(\\theta\\), por lo que no se cumplen las condiciones de regularidad, y la cota de Cramer-Rao no existe. También ocurre que la varianza de un estimador es inferior a la CCR aunque esta exista. Esto puede pasar, por ejemplo, con algún estimador sesgado. 7.8 Caracterización del estimador eficiente Calcular la cota de Cramer-Rao es una cosa; encontrar el estimador que alcanza esta cota y, en consecuencia, tiene varianza mínima es otra. La siguiente caracterización permite, en algunos casos, obtener directamente la forma del estimador eficiente. Teorema 2.2 Sea \\(T\\) el estimador eficiente de \\(\\theta\\), entonces se verifica \\[ \\sum_{i=1}^{n} \\frac{\\partial}{\\partial \\theta} \\log f\\left(X_{i} ; \\theta\\right)=K(\\theta, n)(T-\\theta) \\] donde \\(K(\\theta, n)\\) es una función que depende de \\(\\theta\\) y de \\(n\\) y que suele coincidir con la información de Fisher. Demostración: Si \\(T\\) es el estimador eficiente, entonces \\[ \\operatorname{var}(T)=\\frac{1}{I_{n}(\\theta)} \\] y, por lo tanto, \\(\\rho^{2}(T, Z)=1\\). En general, dadas dos variables aleatorias \\(X\\) e \\(Y\\), se sabe que si \\(\\rho(X, Y)=1\\), entonces \\[ Y-E(Y)=\\beta(X-E(X)) \\] Si aplicamos este resultado a \\(T\\) y \\(Z\\), tenemos \\[ \\begin{aligned} Z-E(Z) & =\\beta(T-E(T)) \\\\ \\frac{\\partial \\log L(\\mathbf{x} ; \\theta)}{\\partial \\theta} & =K(\\theta, n)(T-\\theta) \\end{aligned} \\] Ejemplo 2.3.5 En el caso de la distribución de Poisson, tenemos \\[ \\begin{aligned} f(x ; \\lambda) & =e^{-\\lambda} \\frac{\\lambda^{x}}{x!} \\\\ \\log f(x ; \\lambda) & =-\\lambda+x \\log (\\lambda)-\\log (x!) \\\\ \\frac{\\partial \\log f(x ; \\lambda)}{\\partial \\lambda} & =-1+x \\frac{1}{\\lambda} \\\\ Z=\\sum_{i=1}^{n} \\frac{\\partial \\log f\\left(X_{i} ; \\lambda\\right)}{\\partial \\lambda} & =\\sum_{i=1}^{n}\\left(-1+\\frac{X_{i}}{\\lambda}\\right) \\end{aligned} \\] Queremos ver que \\[ \\sum_{i=1}^{n}\\left(\\frac{X_{i}}{\\lambda}-1\\right)=K(\\theta, n)(T-\\theta) \\] Si reescribimos esta expresión, obtenemos \\[ \\frac{1}{\\lambda} \\sum_{i=1}^{n} X_{i}-n=\\frac{1}{\\lambda}\\left(\\sum_{i=1}^{n} X_{i}-n \\lambda\\right)=\\frac{n}{\\lambda}\\left(\\frac{1}{n} \\sum_{i=1}^{n} X_{i}-\\lambda\\right) \\] Así, \\(K(\\lambda, n)=\\frac{n}{\\lambda}\\), que coincide con la información de Fisher \\(I_{n}(\\lambda)\\). Por el teorema anterior, se deduce que \\(T=\\bar{X}\\) es el estimador eficiente \\(y\\), por lo tanto, de mínima varianza. 7.9 Estadísticos suficientes En un problema de inferencia puede suceder que los datos contengan información superflua o irrelevante a la hora de estimar el parámetro. También puede ocurrir lo contrario, que intentemos hacer la estimación sin utilizar toda la información disponible en la muestra. Ambas situaciones son indeseables. Parece razonable que, para estimar un parámetro, dada la dificultad derivada de disponer de varios estimadores entre los que queremos elegir el óptimo, nos basemos únicamente en aquellos que utilizan (solo) toda la información relevante. Ejemplo 2.4.1 Supongamos que queremos estimar la proporción de piezas defectuosas \\(\\theta\\) en un proceso de fabricación. Para ello, examinamos \\(n\\) piezas extraídas al azar a lo largo de una jornada y asignamos un 1 a las piezas defectuosas y un 0 a las que no lo son. Así, obtenemos una muestra aleatoria simple \\(X_{1}, X_{2}, \\ldots, X_{n}\\) donde \\[ X_{i}= \\begin{cases}1 & \\text { con probabilidad } \\theta \\\\ 0 & \\text { con probabilidad }(1-\\theta)\\end{cases} \\] Intuitivamente, está claro que para estimar \\(\\theta\\) solo nos interesa el número de ceros y unos, es decir, el valor del estadístico \\[ T(\\mathbf{X})=\\sum_{i=1}^{n} X_{i} \\] En este caso, un estadístico que considere la posición de los unos y los ceros en la muestra no aportaría nada relevante. En cambio, un estadístico que no considere todos los valores, como por ejemplo \\(T(\\mathbf{X})=X_{1}\\), sería claramente menos adecuado. Las observaciones del ejemplo anterior se justifican al observar que todas las muestras de tamaño \\(n\\) con el mismo número \\(t\\) de unos (1) tienen la misma probabilidad. En concreto, la función de probabilidad de una muestra \\(x_{1}, x_{2}, \\ldots, x_{n}\\) es \\[ f_{\\theta}\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right)=\\theta^{t}(1-\\theta)^{n-t} \\] donde \\(t=\\sum_{i=1}^{n} x_{i}, x_{i} \\in\\{0,1\\}, i=1,2, \\ldots, n\\). Como se puede ver, la probabilidad de la muestra solo depende del número de unos (o ceros) y no del orden en que aparecen en la muestra. El hecho de que la posición de los unos y los ceros en la muestra no aporte información relevante equivale a decir que el estadístico \\[ T(\\mathbf{X})=\\sum_{i=1}^{n} X_{i} \\] contiene la misma información que \\(X_{1}, X_{2}, \\ldots, X_{n}\\) para estimar \\(\\theta\\). Observamos, sin embargo, varias diferencias entre basarse en \\(T(\\mathbf{X})\\) o en \\(X_{1}, X_{2}, \\ldots, X_{n}\\) : Al pasar de \\(X_{1}, X_{2}, \\ldots, X_{n}\\) a \\(\\sum_{i=1}^{n} X_{i}\\) hay una reducción de los datos que no implica pérdida de información. Muchas muestras diferentes dan lugar al mismo valor de \\(T\\). Fisher formalizó esta idea con el cálculo de la probabilidad condicionada de la observación muestral con \\(T(\\mathbf{X})=\\sum_{i=1}^{n} X_{i}\\) y para todo \\(t=0,1, \\ldots, n\\) : \\[ \\begin{aligned} P_{\\theta}[\\mathbf{X}=\\mathbf{x} \\mid T=t] & =\\frac{P_{\\theta}[\\mathbf{X}=\\mathbf{x}, T=t]}{P_{\\theta}(T=t)} \\\\ & =\\frac{\\theta^{t}(1-\\theta)^{n-t}}{\\binom{n}{t} \\theta^{t}(1-\\theta)^{n-t}}=\\frac{1}{\\binom{n}{t}} \\end{aligned} \\] Es decir, dados \\(\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right) \\in\\{0,1\\}^{n} \\mathrm{y} t \\in\\{0,1, \\ldots, n\\}\\), tenemos \\[ P_{\\theta}[\\mathbf{X}=\\mathbf{x} \\mid T=t]=\\left\\{\\begin{array}{cc} 0 & \\text { si } t \\neq \\sum_{i=1}^{n} x_{i} \\\\ \\frac{1}{\\binom{n}{t}} & \\text { si } t=\\sum_{i=1}^{n} x_{i} \\end{array}\\right. \\] Obviamente, \\(P_{\\theta}[\\mathbf{X}=\\mathbf{x}]\\) depende de \\(\\theta\\), que es el parámetro que queremos estimar. Sin embargo, la probabilidad condicionada \\(P_{\\theta}[\\mathbf{X}=\\mathbf{x} \\mid T=t]\\) no depende de \\(\\theta\\). Tenemos entonces la siguiente expresión de la función de probabilidad de la muestra: \\[ P_{\\theta}(\\mathbf{X}=\\mathbf{x})=P_{\\theta}(T=t) \\cdot P_{\\theta}[\\mathbf{X}=\\mathbf{x} \\mid T=t] \\] Esta expresión muestra que \\(P_{\\theta}(\\mathbf{X})\\) se puede descomponer en dos factores, uno que depende de \\(\\theta, P_{\\theta}(T=t)\\), y otro que no depende de \\(\\theta\\), \\[ P_{\\theta}[\\mathbf{X}=\\mathbf{x} \\mid T=t] . \\] Una forma de ver esta descomposición es pensar que el estadístico \\(T=\\) \\(\\sum_{i=1}^{n} X_{i}\\) ?acumula? o ?absorbe? toda la información relativa a \\(\\theta\\), lo que se refleja en que la probabilidad de la muestra, dado \\(T=t\\), ya no depende de \\(\\theta\\). Es decir, podemos imaginar la construcción de la muestra en dos etapas: En una primera etapa se elige el valor \\(t\\) para \\(T\\) con distribución \\(B(n, \\theta)\\). A continuación, se sitúan aleatoriamente \\(t\\) unos y \\(n-t\\) ceros en las \\(n\\) posiciones. Cuando la estructura del estadístico \\(T(\\mathbf{X})\\) hace que el segundo factor en la expresión anterior no dependa de \\(\\theta\\), significa que la observación adicional de la muestra es irrelevante. En este caso diremos que \\(T(\\mathbf{X})\\) es suficiente para la estimación de \\(\\theta\\). Dado que esta propiedad de \\(T\\) queda caracterizada por la independencia de \\(P_{\\theta}[\\mathbf{X}=\\mathbf{x} \\mid T=t]\\) respecto a \\(\\theta\\), se utiliza esta independencia para definir la suficiencia. 7.9.1 Definició de estadísticop suficiente Dado un modelo estadístico \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\) y un estadístico \\(T\\), diremos que \\(T\\) es suficiente para \\(\\theta\\) si, dada una muestra \\(\\mathbf{X}=\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\), se verifica que la distribución de \\(\\mathbf{X}\\) condicionada por el valor de \\(T\\) no depende de \\(\\theta\\). No es necesario que \\(F_{\\theta}\\) sea discreta, como en el ejemplo introductorio, o que la muestra sea una muestra aleatoria simple. El estadístico suficiente para un parámetro puede ser \\(k\\)-dimensional. Ejemplo 2.4.2 Dada una muestra \\(X_{1}, X_{2}, \\ldots, X_{n}\\) de una distribución de Poisson, la función de probabilidad de la muestra es \\[ P_{\\theta}\\left(X_{1}=x_{1}, \\ldots, X_{n}=x_{n}\\right)=\\frac{e^{-n \\lambda} \\lambda \\sum x_{i}}{x_{1}!\\cdots x_{n}!} \\] Calculemos la probabilidad de la muestra condicionada por el valor del estadístico \\(T=\\sum_{i=1}^{n} X_{i}\\) : \\[ \\begin{aligned} & P_{\\theta}\\left[X_{1}=x_{1}, \\ldots, X_{n}=x_{n} \\mid T=t\\right]=\\frac{P_{\\theta}\\left(X_{1}=x_{1}, \\ldots, X_{n}=x_{n}, T=t\\right)}{P_{\\theta}(T=t)} \\end{aligned} \\] \\[ \\begin{aligned} & =\\frac{t!}{x_{1}!\\cdots x_{n}!}\\left(\\frac{1}{n}\\right)^{t} \\mathbf{1}_{\\left\\{\\sum x_{i}=t\\right\\}}\\left(x_{1}, \\ldots, x_{n}\\right) \\end{aligned} \\] La probabilidad condicional no depende de \\(\\lambda y\\), por lo tanto, \\(T\\) es suficiente para \\(\\lambda\\). Conviene observar que, en este ejemplo, no todas las muestras tienen la misma probabilidad. 7.9.2 Teorema de factorización La justificación de la suficiencia de un estadístico mediante la definición no siempre es sencilla, ya que la distribución condicional puede ser intratable con las herramientas disponibles. El teorema que se presenta a continuación proporciona un método sencillo para comprobar la suficiencia de un estadístico y, a menudo, sugiere cuál es el estadístico suficiente de menor dimensión posible. Teorema 2.3 Neyman-Fisher. Sea \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\) un modelo estadístico y \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una muestra aleatoria simple de \\(X\\). Sea \\(f_{\\theta}(\\mathbf{x})\\) la función de probabilidad o la función de densidad de la muestra, según si \\(X\\) es discreta o absolutamente continua. Un estadístico \\(T\\) es suficiente para \\(\\theta\\) si y solo si existen dos funciones medibles \\(g_{\\theta}\\) y \\(h\\) tales que \\[ f_{\\theta}(\\mathbf{x})=g_{\\theta}(T(\\mathbf{x})) \\cdot h(\\mathbf{x}) \\] donde \\(h\\) no depende de \\(\\theta\\) y g depende de \\(\\theta\\) y, además, solo depende de la muestra a través de \\(T\\). Veamos ahora la demostración del teorema de factorización, restringida al caso de variables discretas. Demostración: Comenzaremos suponiendo que \\(T\\) es suficiente y concluiremos que es posible la factorización. Si \\(T(\\mathbf{X})\\) es suficiente para la familia de distribuciones \\(\\left\\{F_{\\theta} ; \\theta \\in \\Theta\\right\\}\\), la función de probabilidad de la muestra condicionada por \\(T\\) no depende de \\(\\theta\\). Dado que \\[ f_{\\theta}(\\mathbf{x})=P_{\\theta}[T=T(\\mathbf{x})] \\cdot f_{\\theta}[\\mathbf{x} \\mid T=T(\\mathbf{x})] \\] solo es necesario tomar \\(g_{\\theta}(t)=P_{\\theta}[T=T(\\mathbf{x})=t]\\) y \\(h(\\mathbf{x})=f_{\\theta}[\\mathbf{x} \\mid T=T(\\mathbf{x})]\\) para obtener el resultado. Ahora supongamos que es posible la factorización y deduzcamos la suficiencia. Si \\(f_{\\theta}(\\mathbf{x})=g_{\\theta}(T(\\mathbf{x})) \\cdot h(\\mathbf{x})\\) y llamamos \\(A_{t}=\\left\\{\\mathbf{x} \\in X(\\Omega)^{n} \\mid T(\\mathbf{x})=t\\right\\}\\), entonces \\[ P_{\\theta}[T(\\mathbf{x})=t]=\\sum_{A_{t}} g_{\\theta}(T(\\mathbf{x})) \\cdot h(\\mathbf{x})=g_{\\theta}(t) \\cdot \\sum_{A_{t}} h(\\mathbf{x}) \\] Consideremos ahora la distribución de la muestra condicionada a \\(T=t\\). El Teorema de Bayes para densidad permite escribir: \\[ \\begin{aligned} f_{\\theta}(\\mathbf{x} \\mid T=t) & =\\frac{f_{\\theta}(\\mathbf{x}, T=t)}{P_{\\theta}(T=t)} \\\\ & = \\begin{cases}\\frac{g_{\\theta}(t) \\cdot h(\\mathbf{x})}{g_{\\theta}(t) \\cdot \\sum_{A_{t}} h(\\mathbf{x})}=\\frac{h(\\mathbf{x})}{\\sum_{A_{t}} h(\\mathbf{x})} & \\text { si } T(\\mathbf{x})=t \\\\ 0 & \\text { si } T(\\mathbf{x}) \\neq t\\end{cases} \\end{aligned} \\] De modo que la distribución de \\(\\mathbf{X}\\) condicionada por el valor de \\(T\\) no depende de \\(\\theta\\), y, en consecuencia, \\(T\\) es suficiente. Ejemplo 2.4.3 Si X sigue una distribución de Bernoulli, tenemos: \\[ f_{\\theta}(\\mathbf{x})=\\theta^{\\sum_{i=1}^{n} x_{i}}(1-\\theta)^{n-\\sum_{i=1}^{n} x_{i}}=g_{\\theta}\\left(\\sum_{i=1}^{n} x_{i}\\right) . \\] Si tomamos \\(h(\\mathbf{x})=1\\), queda probado que \\(T=\\sum_{i=1}^{n} X_{i}\\) es suficiente. Ejemplo 2.4.4 Si consideramos una muestra de una distribución de Poisson \\[ f_{\\lambda}(\\mathbf{x})=e^{-n \\lambda} \\frac{\\lambda^{\\sum_{i=1}^{n} x_{i}}}{x_{1}!x_{2}!\\cdots x_{n}!} \\] \\(y\\) tomamos \\(T(\\mathbf{x})=\\sum_{i=1}^{n} x_{i}\\), podemos escribir \\[ f_{\\lambda}(\\mathbf{x})=e^{-n \\lambda} \\lambda^{T(\\mathbf{x})} \\cdot\\left(x_{1}!x_{2}!\\cdots x_{n}!\\right)^{-1}=g_{\\lambda}(T(\\mathbf{x})) \\cdot h(\\mathbf{x}) \\] donde \\[ g_{\\lambda}(T(\\mathbf{x}))=e^{-n \\lambda} \\lambda^{T(\\mathbf{x})}, \\quad h(\\mathbf{x})=\\left(x_{1}!x_{2}!\\cdots x_{n}!\\right)^{-1} \\] De modo que \\(g_{\\lambda}(t)=e^{-n \\lambda} \\lambda^{t}\\) depende de la muestra solo a través de \\(T=\\) \\(\\sum_{i=1}^{n} x_{i}\\) y \\(h(\\mathbf{x})=\\left(x_{1}!x_{2}!\\cdots x_{n}!\\right)^{-1}\\) no depende de \\(\\lambda\\). Ejemplo 2.4.5 Supongamos que \\(\\mathbf{X}\\) es una muestra aleatoria simple de una población \\(X \\sim N(\\mu, \\sigma)\\), cuya función de densidad es \\[ f_{\\mu, \\sigma^{2}}\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right)=\\frac{1}{\\left(\\sqrt{2 \\pi \\sigma^{2}}\\right)^{n}} \\exp \\left\\{-\\frac{1}{2 \\sigma^{2}} \\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)^{2}\\right\\} \\] Para evidenciar la factorización, utilizamos que \\[ \\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)^{2}=\\sum_{i=1}^{n}\\left(x_{i}-\\bar{x}\\right)^{2}+n(\\bar{x}-\\mu)^{2} . \\] Entonces, \\[ \\begin{aligned} f_{\\mu, \\sigma^{2}}\\left(x_{1}, x_{2}, \\ldots, x_{n}\\right) & =\\frac{1}{\\left(\\sqrt{2 \\pi \\sigma^{2}}\\right)^{n}} \\exp \\left\\{-\\frac{1}{2 \\sigma^{2}}\\left(\\sum_{i=1}^{n}\\left(x_{i}-\\bar{x}\\right)^{2}+n(\\bar{x}-\\mu)^{2}\\right)\\right\\} \\\\ & =\\frac{1}{\\left(\\sqrt{2 \\pi \\sigma^{2}}\\right)^{n}} \\exp \\left\\{-\\frac{1}{2 \\sigma^{2}}\\left(n s^{2}+n(\\bar{x}-\\mu)^{2}\\right)\\right\\} \\\\ & =g_{\\mu, \\sigma^{2}}\\left(\\bar{x}, s^{2}\\right) \\cdot 1 \\end{aligned} \\] Así, vemos que el estadístico \\(\\left(\\bar{X}, s^{2}\\right)\\) es suficiente para la estimación de \\(\\left(\\mu, \\sigma^{2}\\right)\\). Si suponemos conocido uno de los dos parámetros \\(\\sigma^{2}\\) o \\(\\mu\\), podemos obtener una factorización en la que se ve que \\(\\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)^{2}\\) es suficiente para \\(\\sigma^{2}\\) (conocido \\(\\mu\\) ) o \\(\\bar{x}\\) es suficiente para \\(\\mu\\) (conocido \\(\\sigma^{2}\\) ). En el ejemplo anterior se observa que el estadístico suficiente para un problema puede tener una dimensión superior a 1. En general, buscaremos el estadístico suficiente de menor dimensión posible, ya que a menor dimensión se elimina más información superflua. Si no es posible encontrarlo así, siempre podemos basarnos en el estadístico \\(T=\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)\\), que es suficiente pero de dimensión máxima y, por lo tanto, no aporta ninguna reducción al problema de información. Estas reflexiones llevan a enunciar el principio de suficiencia, que aconseja condensar al máximo la información relevante en un estadístico suficiente \\(T\\) de la menor dimensión posible (“mínima”) y seleccionar un estimador \\(T^{\\prime}\\) entre los estadísticos que sean función de la muestra a través de \\(T: T^{\\prime}(\\mathbf{X})=\\varphi(T(\\mathbf{X}))\\). 7.9.3 Propiedades de los estadísticos suficientes Las siguientes propiedades se prueban de manera sencilla utilizando el teorema de factorización: Si \\(T\\) es un estadístico suficiente para \\(\\theta\\) y \\(\\varphi\\) es una función inyectiva (o monótona diferenciable), entonces \\(T_{1}=\\varphi(T)\\) también es suficiente para \\(\\theta\\). Ejemplo 2.4.6 En la familia de la Poisson hemos visto que \\(\\sum_{i=1}^{n} X_{i}\\) es suficiente para \\(\\lambda\\). Entonces \\(\\bar{X}=\\varphi\\left(\\sum_{i=1}^{n} X_{i}\\right)\\), donde \\(\\varphi(z)=(1 / n) z\\) es inyectiva, es suficiente para \\(\\lambda\\). 2. Si \\(T\\) es un estadístico suficiente para \\(\\theta\\) y \\(\\varphi\\) es una función paramétrica monótona diferenciable, entonces \\(\\varphi(T)\\) también es suficiente para \\(\\varphi(\\theta)\\). 3. Si \\(T_{1}, T_{2}\\) son dos estadísticos suficientes para \\(\\theta\\), entonces \\(T_{1}\\) es función de \\(T_{2}\\). 7.10 Obtención de estimadores En el capítulo anterior hemos analizado el problema de la estimación puntual desde el punto de vista de, dado un estimador, ver ?qué tan bueno es? para estimar un parámetro. Otra cuestión que nos podemos plantear, de hecho la primera cuestión que hay que plantearse en la práctica, es cómo obtener un estimador ?razonablemente bueno? de un parámetro. De hecho, desde el punto de vista práctico parece razonable empezar por ver cómo se obtiene un estimador y, una vez obtenido, analizar ?cuán bueno resulta?. Existen muchos métodos para obtener estimadores, cada uno de los cuales puede llevarnos a unos resultados de diferente calidad. Los principales métodos de estimación son: Método de los momentos Método de la máxima verosimilitud Método de Bayes Otros métodos 7.11 El método de los momentos Este método fue introducido por K. Pearson a finales del siglo XIX y es el principio en que nos basamos cuando hacemos una estimación de la media o de la varianza poblacional a partir de la media o la varianza muestrales. La idea del método de los momentos es bastante intuitiva. Si lo que queremos estimar (uno o varios parámetros) es una función de los momentos poblacionales, entonces una estimación razonable puede consistir en tomar como estimador la misma función en la que los momentos poblacionales han sido sustituidos por los momentos muestrales. Dado que estos últimos son estimadores consistentes de los momentos poblacionales, en condiciones bastante generales se puede garantizar que los estimadores obtenidos serán estimadores consistentes para las funciones de los momentos poblacionales estimadas. Algunos ejemplos típicos de estimadores basados en el método de los momentos son: \\[ \\widehat{\\mu}=\\bar{X}_{n} \\quad \\widehat{\\sigma}=\\sqrt{S^{2}} \\quad \\widehat{\\sigma^{2}}=S^{2} \\] Sea un modelo estadístico, \\(\\left\\{X \\sim F_{\\theta}: \\theta \\in \\Theta\\right\\}\\), y \\(X_{1}, X_{2}, \\ldots, X_{n}\\) una muestra aleatoria simple de \\(X\\). Sean \\(m_{1}, m_{2}, ?, m_{k}\\) los momentos poblacionales de orden \\(1,2, ?, k\\) de \\(X\\), que suponemos que existen, \\[ m_{k}=E\\left(X^{k}\\right) \\] y \\(a_{1}, a_{2}, ?, a_{k}\\) los momentos muestrales respectivos \\[ a_{k}\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)=\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{k} \\] Suponemos que estamos interesados en estimar: \\[ \\theta=h\\left(m_{1}, m_{2}, \\ldots, m_{p}\\right), \\] donde \\(h\\) es una función conocida. Definició 3.1 El método de los momentos consiste en estimar \\(\\theta\\) por el estadístico \\[ T(\\mathbf{X})=h\\left(a_{1}, a_{2}, \\ldots, a_{p}\\right) \\] 7.11.1 Observaciones El método se extiende de forma sencilla a la estimación de momentos conjuntos. Podemos usar \\(\\frac{1}{n} \\sum_{i=1}^{n} X_{i} Y_{i}\\) para estimar \\(E(X Y)\\), etc. Por la ley débil de los grandes números, \\[ a_{k}\\left(X_{1}, X_{2}, \\ldots, X_{n}\\right)=\\frac{1}{n} \\sum_{i=1}^{n} X_{i}^{k} \\xrightarrow{P} E\\left(X^{k}\\right), \\] de modo que si lo que queremos es estimar los momentos muestrales, el método garantiza que los estimadores son consistentes y sin sesgo. En este caso, además, los estimadores son asintóticamente normales. Si lo que se desea estimar es una función \\(h\\) continua de los momentos, entonces el método garantiza que el estimador \\(T(\\mathbf{X})\\) es consistente y, bajo ciertas condiciones de regularidad, también es asintóticamente normal. Ejemplo 3.1.1 Sea \\(X \\sim \\Gamma(p, \\alpha)\\). Queremos estimar \\(p\\) y \\(\\alpha\\). En lugar de conocer la función \\(h\\left(\\theta_{1}, \\theta_{2}\\right)\\) sabemos que: \\[ \\begin{aligned} m_{1} & =\\frac{p}{\\alpha}=E(X) \\\\ m_{2} & =\\frac{p(p+1)}{\\alpha^{2}}=E\\left(X^{2}\\right) \\\\ & =V(X)+[E(X)]^{2}=\\frac{p}{\\alpha^{2}}+\\left(\\frac{p}{\\alpha}\\right)^{2}=\\frac{p^{2}+p}{\\alpha^{2}}= \\end{aligned} \\] De modo que podemos obtener las funciones deseadas ?aislando? p y \\(\\alpha\\) como funciones de \\(m_{1}\\) y \\(m_{2}\\) : \\[ \\begin{aligned} \\alpha^{2} & =\\frac{p^{2}}{m_{1}^{2}} \\\\ \\alpha^{2} & =\\frac{p(p+1)}{m_{2}} \\end{aligned} \\] Procediendo por igualación: \\[ \\begin{aligned} & \\frac{p^{2}}{m_{1}^{2}}=\\frac{p(p+1)}{m_{2}} \\\\ & \\frac{p}{m_{1}}=\\frac{p+1}{m_{2}} \\\\ & p m_{2}=p m_{1}^{2}+m_{1}^{2} \\\\ & p\\left(m_{2}-m_{1}^{2}\\right)=m_{1}^{2} \\\\ & p=\\frac{m_{1}^{2}}{m_{2}-m_{1}^{2}} \\\\ & \\alpha=\\frac{m_{1}^{2}}{m_{2}-m_{1}^{2}} \\\\ & m_{1} \\end{aligned} \\frac{m_{1}}{m_{2}-m_{1}^{2}} . \\] Los estimadores por el método de los momentos se obtendrán ahora sustituyendo \\(p\\) y \\(\\alpha\\) por \\(\\hat{p}\\) y \\(\\hat{\\alpha}\\) en la expresión anterior, es decir: \\[ \\widehat{p}=\\frac{a_{1}^{2}}{a_{2}-a_{1}^{2}} \\] Hacemos lo mismo para el parámetro \\(\\alpha\\) : \\[ \\widehat{\\alpha}=\\frac{a_{1}}{a_{2}-a_{1}^{2}} \\] 7.12 El método del máximo de verosimilitud 7.12.0.1 Introducción El método de la máxima verosimilitud, introducido por Fisher, es un método de estimación que se basa en la función de verosimilitud, presentada en el capítulo anterior. Básicamente consiste en tomar como estimadores de los parámetros aquellos valores que hagan más probable observar precisamente lo que se ha observado, es decir, que hagan que la muestra observada resulte más verosímil. Ejemplo 3.2.1 Tomemos 5 papeles. En cada uno de ellos ponemos o bien un ?+? o bien un ?-?, sin que se sepa qué hay en cada papel, y los guardamos en una bolsa. Nuestro objetivo es estimar el número de papeles con el signo ?? escrito. Extraemos tres papeles, devolviéndolos a la bolsa después de cada extracción, y observamos que ha salido lo siguiente: ?++-?. Los valores posibles para la probabilidad de ?-?, llamémosla p, son: En la bolsa hay \\(p\\) \\(4 ?+\\) ?, 1 ?-? 0,2 \\(3 ?+\\) ?, 2 ?-? 0,4 \\(2 ?+\\) ?, 3 ?-? 0,6 \\(1 ?+\\) ?, 4 ?-? 0,8 Supongamos que la variable \\(X\\) mide el número de ?-? en tres extracciones consecutivas y que, por tanto, sigue una distribución binomial: \\[ X \\sim B(3, p(?-?)) \\] La probabilidad de sacar un ?-? es: \\[ P_{p}[X=1]=\\binom{3}{1} \\cdot p^{1}(1-p)^{2} \\] Para cada uno de los valores de p, las probabilidades quedan asi: \\(p\\) \\(P_{p}[X=1]\\) 0.2 \\(3 \\cdot 0.2 \\cdot 0.8^{2}=0.384\\) 0.4 \\(3 \\cdot 0.4 \\cdot 0.6^{2}=0.432\\) 0.6 \\(3 \\cdot 0.6 \\cdot 0.4^{2}=0.288\\) 0.8 \\(3 \\cdot 0.8 \\cdot 0.2^{2}=0.096\\) El valor de p que da una probabilidad mayor a la muestra, es decir, que la hace más verosímil, es \\(p=0.4\\). El método del máximo de verosimilitud consiste precisamente en tomar este valor como estimación de \\(p\\). 7.12.0.2 La función de verosimilitud Una vez introducido el método con un ejemplo, podemos pasar a definirlo con mayor precisión. Para ello, comenzaremos con el concepto de función de verosimilitud. En el capítulo anterior presentamos la función de verosimilitud como la función que resulta de considerar que, en la función de probabilidad de la muestra, el parámetro es variable y la muestra queda fija. Es decir: \\[ \\underbrace{f\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\theta\\right)}_{\\mathbf{x} \\text { variable, } \\theta \\text { fijo }} \\longrightarrow \\underbrace{L\\left(\\theta ; x_{1}, x_{2}, \\ldots, x_{n}\\right)}_{\\mathbf{x} \\text { fija, } \\theta \\text { variable }} \\] Esta definición es básicamente correcta. En el caso de las variables discretas, donde \\(f\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\theta\\right)\\) representa la probabilidad de la muestra, fijado \\(\\theta\\), resulta intuitivamente claro decir que la verosimilitud representa la ?probabilidad de la muestra para cada valor del parámetro?. Refiriéndonos al ejemplo introductorio, resulta sencillo ver que se trata de ?dos puntos de vista? sobre la misma función. Fijado un valor del parámetro, por ejemplo, 0.4 , podemos considerar la probabilidad de diversas muestras posibles, como \\(x=0, x=1, \\ldots\\), hasta \\(x=3\\) : \\[ \\begin{aligned} f\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\theta\\right) & =P_{0.4}[X=x], x=0,1, \\ldots, 3 \\\\ & =\\binom{3}{x} \\cdot 0.4^{x}(0.6)^{3-x} . \\end{aligned} \\] Análogamente, fijada una muestra, por ejemplo, \\(x=1\\), podemos considerar la probabilidad de esta para diversos valores del parámetro, \\(p=0,0.2, \\ldots, 1\\). \\[ \\begin{aligned} L\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\theta\\right) & =P_{p}[X=1], x=0,0.2,0.4, \\ldots, 1 \\\\ & =3 \\cdot p(1-p)^{2} . \\end{aligned} \\] En el caso de las distribuciones absolutamente continuas, el significado de la función de verosimilitud ya no es intuitivamente tan claro como en el caso de las discretas. En este caso, la función de densidad de la muestra ya no representa la probabilidad de esta como en el caso de las discretas. Algunos autores intentan solucionar esto explicando que existe una conocida aproximación en que la función de densidad es la probabilidad de un suceso ?infinitesimal?. Lo que es importante en la función de verosimilitud, a la hora de hacer inferencias, es la parte que es función del parámetro. Esto hace que a menudo se considere que la expresión de la función de verosimilitud mantenga solo aquella parte de \\(f\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\theta\\right)\\) que depende de \\(\\theta\\), ignorando la parte que dependa solo de la muestra. Es decir, si podemos factorizar \\(f\\left(x_{1}, x_{2}, \\ldots, x_{n} ; \\theta\\right)\\) como \\[ f(\\mathbf{x} ; \\theta)=c(\\mathbf{x}) \\cdot g(\\mathbf{x} ; \\theta) \\] podremos prescindir de la ?constante? \\(c(x)\\) (constante porque no depende de \\(\\theta\\) ) al considerar la verosimilitud. \\[ L(\\theta ; \\mathbf{x})=g(\\mathbf{x} ; \\theta) \\propto f(\\mathbf{x} ; \\theta) \\] Esto implica que \\(L(\\theta ; \\mathbf{x})\\) no tiene por qué integrar a 1 , como en el caso de las probabilidades, y que depende de las unidades de medida. Ejemplo 3.2.2 Si \\(X\\) es discreta, \\(X \\sim \\mathcal{P}(\\lambda)\\), y suponemos \\(n=1\\) (muestras de tamaño 1), tenemos que la f.d.p. de la muestra es: \\[ P[x ; \\lambda]=e^{-\\lambda} \\frac{\\lambda^{x}}{x!} \\] con \\(x=0,1, \\ldots\\) Ahora, si hemos observado \\(x=5\\), la función de verosimilitud vale: \\[ L(\\lambda ; 5)=e^{-\\lambda} \\lambda^{5}\\left[\\frac{1}{5!}\\right] \\] Como solo nos interesa la parte que es función de \\(\\lambda\\), podemos ignorar \\(\\frac{1}{5!}\\), es decir: \\[ L(\\lambda ; 5)=e^{-\\lambda} \\lambda^{5} \\propto P[\\mathbf{x} ; \\lambda] . \\] Ejemplo 3.2.3 Si dada una muestra de tamaño 1, por ejemplo, \\(x=2\\), de una ley de Poisson \\(\\mathcal{P}(\\lambda)\\) queremos comparar sus verosimilitudes respecto de los valores del parámetro \\(\\lambda=1.5\\) o \\(\\lambda=3\\), lo que haremos será basarnos en la razón de verosimilitudes: \\[ \\begin{aligned} \\Lambda(\\mathbf{x}) & =\\frac{L\\left(\\lambda_{1} ; x\\right)}{L\\left(\\lambda_{2} ; x\\right)}=\\frac{L(1.5 ; 2)}{L(3 ; 2)} \\\\ & =\\frac{e^{-1.5} 1.5^{2}\\left[\\frac{1}{2!}\\right]}{e^{-3} 3^{2}\\left[\\frac{1}{2!}\\right]}=\\frac{e^{-1.5} 1.5^{2}}{e^{-3} 3^{2}}=\\frac{0.5020}{0.4481}=1.12 . \\end{aligned} \\] Como se observa, al basarnos en la razón de verosimilitudes, la parte correspondiente solo a la muestra no se toma en cuenta. La razón de verosimilitudes sugiere que el valor \\(\\lambda=1.5\\) hace la muestra más verosímil. 7.12.0.3 El método del máximo de verosimilitud Si partimos de las dos ideas que hemos visto en la introducción: Escoger como estimación el valor que maximice la probabilidad de la muestra observada. La verosimilitud de la muestra es una aproximación a la probabilidad de esta como función del valor del parámetro. Una forma razonable de definir el EMV es entonces como aquel que maximice la verosimilitud. Definició 3.2 Un estimador \\(T: \\Omega \\longrightarrow \\Theta\\) es un estimador del máximo de verosimilitud para el parámetro \\(\\theta\\) si cumple: \\[ L(T(\\mathbf{x}) ; \\mathbf{x})=\\sup _{\\theta \\in \\Theta} L(\\theta ; \\mathbf{x}) \\] Como suele ocurrir en problemas de maximización, este valor ni existe necesariamente ni tiene por qué ser único. Ahora bien, bajo ciertas condiciones (las habituales para los problemas de máximos y mínimos) el problema se podrá reducir a buscar un máximo para la función de verosimilitud. Ejemplo 3.2.4 Supongamos que \\(x_{1}, \\ldots, x_{n}\\) es una muestra de una población de Bernouilli, \\(X \\sim B e(p)\\), donde queremos estimar p. La función de masa de la probabilidad de \\(X\\) es: \\[ P\\left[X=x_{i}\\right]=P\\left(x_{i} ; p\\right)=p^{x_{i}}(1-p)^{1-x_{i}} \\text { donde } x_{i} \\in\\{0,1\\} ; i=1, \\ldots, n \\] La función de verosimilitud es: \\[ L(p ; \\mathbf{x})=\\prod_{i=1}^{n} p^{x_{i}}(1-p)^{1-x_{i}}=p^{\\sum_{i=1}^{n} x_{i}}(1-p)^{\\sum_{i=1}^{n}\\left(1-x_{i}\\right)} \\] Debemos buscar el máximo de \\(L(p ; \\mathbf{x})\\). En este caso, como en otros, es más sencillo buscar el máximo de su logaritmo, que, dado que es una función monótona, es el mismo que el máximo de \\(L\\) \\[ \\ln L(p ; x)=\\left(\\sum_{i=1}^{n} x_{i}\\right) \\cdot \\ln p+\\left(n-\\sum_{i=1}^{n} x_{i}\\right) \\cdot \\ln (1-p) \\] Derivamos respecto a p: \\[ \\frac{\\partial \\ln L(p ; x)}{\\partial p}=\\frac{\\sum_{i=1}^{n} x_{i}}{p}-\\frac{n-\\sum_{i=1}^{n} x_{i}}{1-p} \\] e igualamos a cero la derivada, planteando lo que se denomina la ecuación de verosimilitud, cuyas soluciones nos conducirán eventualmente al estimador del máximo de verosimilitud. \\[ \\frac{\\sum_{i=1}^{n} x_{i}-n \\hat{p}}{\\hat{p}(1-\\hat{p})}=0 \\Rightarrow \\hat{p}=\\frac{\\sum_{i=1}^{n} x_{i}}{n} \\] Si la segunda derivada es negativa en \\(\\widehat{p}\\) entonces será un máximo: \\[ \\begin{aligned} \\frac{\\partial^{2} \\ln L(p ; x)}{\\partial p^{2}} & =\\frac{\\partial}{\\partial p}\\left(\\frac{\\sum_{i=1}^{n} x_{i}-n p}{p(1-p)}\\right)=\\frac{-n[p(1-p)]-\\left(\\sum_{i=1}^{n} x_{i}-n p\\right) \\cdot(1-2 p)}{p^{2}\\left(1-p^{2}\\right)}= \\\\ & =\\frac{-n p+n p^{2}-\\sum_{i=1}^{n} x_{i}-n p-2 p \\sum_{i=1}^{n} x_{i}-2 n p^{2}}{p^{2}(1-p)^{2}}= \\\\ & =\\frac{\\left[\\sum_{i=1}^{n} x_{i}(1+2 p)-n p^{2}\\right]}{p^{2} \\cdot(1-p)^{2}} \\end{aligned} \\] que es negativa cuando \\(p=\\hat{p}\\), de forma que \\(\\hat{p}\\) es efectivamente un máximo. El método analítico expuesto en el ejemplo anterior, consistente en el cálculo de un extremo de una función, no se puede aplicar en todas las situaciones. En estos casos, una alternativa puede ser estudiar directamente la función de verosimilitud. Veamos un ejemplo: Ejemplo 3.2.5 Sea \\(X_{1}, \\ldots, X_{n} \\stackrel{i i d}{\\sim} X \\sim U(0, \\theta) \\quad \\theta>0\\) desconocido. Sabemos que: \\[ f(x ; \\theta)=\\left\\{\\begin{array}{c} \\frac{1}{\\theta} \\text { si } 0<\\min \\left\\{x_{i}\\right\\} \\leq \\max \\left\\{x_{i}\\right\\} \\leq \\theta \\\\ 0 \\quad \\text { en caso contrario } \\end{array}\\right\\} \\] La derivada respecto a \\(\\theta\\) es \\(-\\frac{n}{\\theta^{n-1}}\\), que se anula cuando \\(\\theta \\underset{n \\rightarrow \\infty}{\\longrightarrow} \\infty\\) que lleva a una solución sin sentido de la ecuación de verosimilitud. Una inspección de la gráfica de la función de verosimilitud revela que el EMV, en este caso, Figura 3.1: Función de verosimilitud para una distribución uniforme es \\(\\max \\left\\{X_{i}, \\ldots, X_{n}\\right\\}\\). Efectivamente, consideremos cualquier otro valor \\(\\theta^{*}\\) diferente del máximo: \\[ \\begin{aligned} & \\text { Si } \\theta^{*}>X_{(n)} \\Rightarrow \\frac{1}{\\left(\\theta^{*}\\right)^{n}}<\\frac{1}{\\left(X_{n}\\right)^{n}}, \\\\ & \\text { Si } \\theta^{*}<X_{(n)} \\Rightarrow L\\left(\\theta^{*} ; \\mathbf{x}\\right)=0 \\end{aligned} \\] ya que si un estimador toma un valor inferior al máximo de la muestra habrá algún valor muestral, \\(x_{i}\\) para el cual se verificará que \\(\\theta^{*}<x_{i}\\), lo que hace la muestra inverosímil, y por tanto el estimador no es admisible. A la vista de lo anterior, deducimos que el valor que maximiza \\(L(\\theta ; \\mathbf{x})\\) es el máximo de la muestra. Ejemplo 3.2.6 El método del máximo de verosimilitud se extiende de forma inmediata a los parámetros \\(K\\)-dimensionales. Consideremos el caso de la ley normal \\(X \\sim N\\left(\\mu, \\sigma^{2}\\right)\\). Aquí el parámetro \\(\\theta\\) es bidimensional, es decir: \\(\\theta=\\left(\\mu, \\sigma^{2}\\right) \\in \\Theta=\\mathbb{R} \\times \\mathbb{R}^{+}\\) La función de verosimilitud de una muestra de tamaño \\(n\\) es: \\[ L\\left(\\left(\\mu, \\sigma^{2}\\right) ; \\mathbf{x}\\right)=\\prod_{i=1}^{n} \\frac{1}{\\sqrt{2 \\pi \\sigma^{2}}} e^{-\\frac{\\left(x_{i}-\\mu\\right)^{2}}{2 \\sigma^{2}}}=\\frac{1}{(2 \\pi)^{n / 2}\\left(\\sigma^{2}(n / 2\\right.} e^{-\\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)^{2}}{2 \\sigma^{2}}} \\] Sacando logaritmos \\[ \\log L\\left(\\left(\\mu, \\sigma^{2}\\right) ; \\mathbf{x}\\right)=-\\frac{n}{2} \\log (2 \\pi)-\\frac{n}{2} \\log \\left(\\sigma^{2}\\right)-\\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)^{2}}{2 \\sigma^{2}} \\] La derivada de \\(L()\\) es la matriz de derivadas: \\[ D \\log L\\left(\\left(\\mu, \\sigma^{2}\\right) ; \\mathbf{x}\\right)=\\binom{\\frac{\\partial \\log L\\left(\\left(\\mu, \\sigma^{2}\\right) ; \\mathbf{x}\\right)}{\\partial \\mu}}{\\frac{\\partial \\log L\\left(\\left(\\mu, \\sigma^{2}\\right) ; \\mathbf{x}\\right)}{\\partial \\sigma^{2}}}=\\left\\{\\begin{array}{c} \\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)}{\\sigma^{2}} \\\\ \\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\mu\\right)^{2}}{2 \\sigma^{4}}-\\frac{n}{2 \\sigma^{2}} \\end{array}\\right. \\] Planteando y resolviendo la ecuación de verosimilitud tenemos: \\[ D \\log L\\left(\\left(\\hat{\\mu}, \\hat{\\sigma}^{2}\\right) ; \\mathbf{x}\\right)=\\left\\{\\begin{array}{c} \\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\hat{\\mu}\\right)}{\\hat{\\sigma}^{2}}=0 \\\\ \\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\hat{\\mu}\\right)^{2}}{2 \\hat{\\sigma}^{4}}=\\frac{n}{2 \\hat{\\sigma}^{2}} \\end{array}\\right. \\] de donde las raíces de la ecuación de verosimilitud son: \\[ \\hat{m} u=\\bar{x}, \\quad \\hat{\\sigma}^{2}=\\frac{\\sum_{i=1}^{n}\\left(x_{i}-\\bar{x}\\right)^{2}}{n}=s^{2} . \\] Para decidir si las raíces de la ecuación de verosimilitud corresponden a un máximo, analizamos la matriz de derivadas segundas, denominada Hessiana. \\[ H=\\left(\\begin{array}{cc} \\frac{\\partial^{2} z}{\\partial x^{2}} & \\frac{\\partial^{2} z}{\\partial x \\partial y} \\\\ \\frac{\\partial^{2} z}{\\partial y \\partial x} & \\frac{\\partial^{2} z}{\\partial y^{2}} \\end{array}\\right) \\] Una condición suficiente para que un punto \\(\\left(x_{0}, y_{0}\\right)\\) sea un máximo es que el determinante de \\(H\\) sea positivo y el menor en la posición ?11? negativo, es decir: \\(S i|H|>\\left.0 y \\frac{\\partial^{2} z}{\\partial x^{2}}\\right|_{\\left(x_{0}, y_{0}\\right)}<0 \\Longrightarrow\\) Hay un máximo relativo en \\(\\left(x_{0}, y_{0}\\right)\\). Si evaluamos el Hessiano en el punto \\(\\left(\\bar{x}, s^{2}\\right)\\) tenemos: \\[ H=\\left(\\begin{array}{cc} -\\frac{n}{s^{2}} & 0 \\\\ 0 & -\\frac{n}{2 s^{4}} \\end{array}\\right) . \\] Las condiciones de extremo que hemos dado más arriba se verifican: \\(H_{11}<0 y|H|>0\\), de manera que podemos concluir que el estimador del máximo de verosimilitud de \\(\\left(\\mu, \\sigma^{2}\\right)\\) es, efectivamente, \\(\\left(\\bar{x}, s^{2}\\right)\\). "],["estimación-puntual-1.html", "Capítulo 8 Estimación puntual 8.1 Preliminares: estimación del error estándar e Introducción al bootstrap 8.2 Estimadores por intervalo: intervalos de confianza 8.3 Intervalos de confianza para características de una población normal (media, varianza), 8.4 Intervalos de confianza bootstrap. 8.5 Intervalos de confianza para proporciones binomiales 8.6 Intervalos de confianza para parámetros en muestra grandes y para casos generales (tasas, OR, …) 8.7 Aplicaciones: cálculo del tamaño muestral", " Capítulo 8 Estimación puntual Este capítulo está pendiente de ser introducido en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se plantea el problema de la estimación como una forma de aproximación a las características de las distribucionesa partir de muestras aleatorias simples. Se abordan las distintas filosofías para la construcción de estimadores. 8.1 Preliminares: estimación del error estándar e Introducción al bootstrap 8.2 Estimadores por intervalo: intervalos de confianza 8.3 Intervalos de confianza para características de una población normal (media, varianza), 8.4 Intervalos de confianza bootstrap. 8.5 Intervalos de confianza para proporciones binomiales 8.6 Intervalos de confianza para parámetros en muestra grandes y para casos generales (tasas, OR, …) 8.7 Aplicaciones: cálculo del tamaño muestral "],["pruebas-de-hipótesis.html", "Capítulo 9 Pruebas de hipótesis 9.1 Conceptos básicos: pruebas de hipótesis y de significación, pruebas unilaterales y bilaterales, tipos de error, valores críticos de test y p-valores 9.2 Potencia de un test. Cálculos de potencia y de tamaño de la muestra. Tamaño del efecto. 9.3 Métodos de construcción de tests. 9.4 Problemas asociados al uso de tests estadísticos. La crisis de la significación", " Capítulo 9 Pruebas de hipótesis Este capítulo está pendiente de ser introducida en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se plantea el problema de las pruebas de hipótesis. Se discuten las aproximaciones y los conceptos asociados. Se trata el problema de la crisis de la significación. 9.1 Conceptos básicos: pruebas de hipótesis y de significación, pruebas unilaterales y bilaterales, tipos de error, valores críticos de test y p-valores 9.2 Potencia de un test. Cálculos de potencia y de tamaño de la muestra. Tamaño del efecto. 9.3 Métodos de construcción de tests. 9.4 Problemas asociados al uso de tests estadísticos. La crisis de la significación "],["inferencia-aplicada.html", "Capítulo 10 Inferencia Aplicada 10.1 Pruebas de normalidad.Pruebas gráficas. El test de Shapiro-Wilks 10.2 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas paramètricas t-test y Anova 10.3 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas de hipótesis no paramétricas de Wilcoxon y Kruskal-Wallis 10.4 Contrastes para datos categóricos. Pruebas binomiales, ji cuadrado y test de Fisher. 10.5 Riesgo relativo y razón de «odds»", " Capítulo 10 Inferencia Aplicada Este capítulo está pendiente de ser introducida en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se muestra como deducir y aplicar algunos de los tests mas populares. 10.1 Pruebas de normalidad.Pruebas gráficas. El test de Shapiro-Wilks 10.2 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas paramètricas t-test y Anova 10.3 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas de hipótesis no paramétricas de Wilcoxon y Kruskal-Wallis 10.4 Contrastes para datos categóricos. Pruebas binomiales, ji cuadrado y test de Fisher. 10.5 Riesgo relativo y razón de «odds» "],["computación-intensiva-y-multiple-testing.html", "Capítulo 11 Computación Intensiva y Multiple Testing 11.1 Tests de permutaciones; ¿Qué?, ¿Cuándo?, ¿Cómo? 11.2 El bootstrap en contraste de hipótesis 11.3 El problema de las comparaciones múltiples 11.4 Métodos de control de error: FWER y FDR", " Capítulo 11 Computación Intensiva y Multiple Testing Este capítulo está pendiente de ser introducida en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se introducen distintos métodos cuyo nexo común es la computación intensiva. 11.1 Tests de permutaciones; ¿Qué?, ¿Cuándo?, ¿Cómo? 11.2 El bootstrap en contraste de hipótesis 11.3 El problema de las comparaciones múltiples 11.4 Métodos de control de error: FWER y FDR "],["404.html", "Page not found", " Page not found The page you requested cannot be found (perhaps it was moved or renamed). You may want to try searching to find the page's new location, or use the table of contents to find the page you are looking for. "]] diff --git a/docs/variables-aleatorias-y-distribuciones-de-probabilidad.html b/docs/variables-aleatorias-y-distribuciones-de-probabilidad.html index 4ed305e..33adf63 100644 --- a/docs/variables-aleatorias-y-distribuciones-de-probabilidad.html +++ b/docs/variables-aleatorias-y-distribuciones-de-probabilidad.html @@ -6,7 +6,7 @@ Capítulo 2 Variables aleatorias y Distribuciones de probabilidad | Fundamentos de Inferencia Estadistica - + @@ -23,7 +23,7 @@ - + @@ -426,46 +426,44 @@
  • 7.9.2 Teorema de factorización
  • 7.9.3 Propiedades de los estadísticos suficientes
  • - -
  • 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES -
  • -
  • 9 Estimación puntual -