generated from jtr13/bookdown-template
-
Notifications
You must be signed in to change notification settings - Fork 1
/
06-introInferencia.Rmd
561 lines (374 loc) · 30 KB
/
06-introInferencia.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
# Introducción a la inferencia estadística
## Inferencia estadística
Para comenzar, vamos a definir cuál es el ámbito de estudio de la inferencia estadística desde su relación con el cálculo de probabilidades. El cálculo de probabilidades proporciona una teoría matemática que permite analizar (o modelizar) las propiedades de los fenómenos donde interviene el azar.
El cálculo de probabilidades utiliza como modelo básico para cualquier situación aleatoria el concepto de espacio de probabilidades $(\Omega, \mathcal{A}, P)$ y una variable aleatoria $X: \Omega \rightarrow \mathbb{R}$ definida sobre él.
El conocimiento de la distribución de la variable aleatoria permite:
1. Análisis deductivo de situaciones. Por ejemplo: si asumimos que el peso de los recién nacidos se distribuye según una distribución $N(\mu=$ $3 \mathrm{~kg}, \sigma=0.25 \mathrm{~kg}$ ), nos puede interesar calcular la probabilidad de que un recién nacido pese entre 2.9 y 3.1 kg , o encontrar unos valores centrados en la media entre los cuales esperemos que se encuentren el $10 \%(25 \%, 50 \%, 95 \%, \ldots)$ de los recién nacidos.
2. Modelización de situaciones aleatorias. Por ejemplo: si asumimos que el tiempo, en años, hasta que se estropea un componente de un ordenador se distribuye según una distribución exponencial $T \sim \xi(\lambda=$ $0.3)$, nos puede interesar calcular la probabilidad de que un componente dado dure más de 4 años.
En los casos anteriores nos encontramos en una situación muy común, donde ya disponemos de un modelo sobre el cual efectuamos los cálculos, pero del cual desconocemos la procedencia. Parece razonable, y de hecho es precisamente así, que si queremos adaptar un modelo a una situación debamos basarnos únicamente en las observaciones del fenómeno.
Si queremos saber cómo se distribuyen los pesos de los recién nacidos tomaremos unos cuantos, los pesaremos y después observaremos la distribución de estos. Puede que no sea necesario pesar a todos los recién nacidos (jde hecho, no es posible!), pero tampoco es posible deducir la ley por consideraciones puramente teóricas.
Ahora, en lugar de partir de un espacio de probabilidades, partiremos de unas observaciones $\left(x_{1}, \ldots, x_{n}\right)$ y el objetivo que perseguiremos será obtener información sobre la distribución de probabilidades de un fenómeno a partir de una observación no exhaustiva del mismo.
## Problemas de inferencia estadística
Hemos presentado como objetivo de la inferencia estadística inducir propiedades del modelo probabilístico que representa la población a partir de un conjunto de observaciones.
Según el tipo de conclusión que queramos extraer, diferenciaremos diferentes tipos de problemas:
1. Si queremos utilizar la información proporcionada por la muestra para obtener un pronóstico numérico único (es decir, una única aproximación numérica) de una o más características de la población, tenemos un problema de estimación puntual.
2. Si queremos obtener información sobre un rango de valores dentro del cual podamos afirmar, con un cierto grado de confianza, que podemos capturar un parámetro desconocido de la distribución, hablamos de estimación por intervalo.
3. Si lo que queremos hacer es decidir si podemos aceptar o debemos rechazar una afirmación sobre la distribución de probabilidad del fenómeno estudiado, hablamos de contraste de hipótesis. Este contraste puede ser:
- Paramétrico: si la afirmación (la hipótesis) se refiere a los parámetros de la distribución.
- No paramétrico: si la afirmación es sobre la forma de la distribución.
## Distribución de la población
Todo problema de inferencia está motivado por un cierto grado de desconocimiento de la ley de probabilidades que rige un determinado fenómeno aleatorio.
El caso más sencillo que encontramos es cuando nos interesa una cierta variable $X$ con una función de distribución $F$ desconocida en mayor o menor grado.
La distribución que teóricamente sigue la variable de interés $X$ en la población recibe el nombre de distribución teórica o distribución de la población. La distribución de la población es importante ya que, a menudo, se utiliza para determinar la distribución de alguna característica de los individuos de una población.
En los modelos de la inferencia estadística indicamos el relativo grado de desconocimiento sobre la distribución $F$ en función de su pertenencia a una familia $\mathcal{F}$ de distribuciones. Por ello, en lugar de explicar que $X \sim F=F_{0}$ indicaremos que $X \sim F \in \mathcal{F}$, donde $\mathcal{F}$ puede ser un conjunto más o menos amplio de distribuciones de probabilidad, como todas las distribuciones normales o las distribuciones simétricas o las distribuciones discretas sobre $\mathbb{N}$.
Muchas veces, la distribución poblacional $F$ está completamente especificada excepto por el valor de algún parámetro o parámetros. En este caso, podemos concretar más la forma de la familia de distribuciones:
$$
X \sim F \in \mathcal{F}=\left\{F_{\theta}: \theta \in \Theta \subset \mathbb{R}^{k}\right\}
$$
donde $\Theta$ es el espacio de los $k$ parámetros.
La familia de posibles distribuciones de probabilidad para $X$ se denomina, genéricamente, modelo estadístico y se indica como: $\left\{X \sim F_{\theta}: \theta \in \Theta\right\}$. Veamos algunos ejemplos.
Ejemplo 1.3.1 Supongamos que $X$ representa la duración de un componente electrónico que no envejece, solo se estropea. Es decir, si en un instante $t$ está funcionando, su estado es el mismo que en cualquier momento del pasado y la distribución del tiempo hasta que se estropee es la misma que al principio. Esta propiedad se denomina falta de memoria.
Un modelo razonable para esta situación lo da la distribución de Weibull que, en este caso, podemos definir a través de la siguiente función de densidad:
$$
f_{\theta}(x)= \begin{cases}\alpha \beta x^{\beta-1} e^{-\alpha x^{\beta}} & \text { si } x \geq 0 \\ 0 & \text { si } x<0\end{cases}
$$
La familia de distribuciones asociada es
$$
\mathcal{F}=\left\{F_{\theta}: \theta=(\alpha, \beta) \in(0, \infty) \times(0, \infty)\right\}
$$
Ejemplo 1.3.2 Supongamos que queremos determinar la masa de un cierto tipo de partículas elementales a partir de las observaciones en una cámara de burbujas. En cada observación obtenemos un dato de la masa de la partícula $x_{i}$ y asociado con ella un cierto error de medida $\varepsilon$. Si la masa común de cada una de ellas es $\mu$, entonces podemos escribir:
$$
x_{i}=\mu+\varepsilon_{i} \quad i=1, \ldots, n
$$
donde la distribución $\varepsilon_{i} \sim F$ es desconocida. Nuestro objetivo es obtener información sobre $F$.
Si admitimos que $P\left(\varepsilon_{i}<0\right)=P\left(\varepsilon_{i}>0\right)$, según el grado de exigencia que queramos tener, podemos suponer:
- Con un enfoque de inferencia paramétrica:
$$
X \sim F \in \mathcal{F}=\left\{N(0, \sigma): \sigma \in \mathbb{R}^{+}\right\}
$$
- Con un enfoque de inferencia no paramétrica:
$$
X \sim F \in \mathcal{F}=\{\text { Distribuciones simétricas }\}
$$
## Muestra aleatoria simple
### Definición
Para estudiar un problema de inferencia estadística analizamos una muestra de tamaño $n$. Se trata de escoger $n$ individuos o elementos de la población $\Omega$
$$
\omega_{1}, \omega_{2}, \ldots, \omega_{n}
$$
que sean representativos. El valor de $n$ y la forma de elección de los individuos de la muestra es una materia de Estadística llamada Muestreo estadístico. Por ahora y para simplificar, solo hace falta decir que la elección se hace de forma que todos los individuos tienen la misma probabilidad de estar presentes en la muestra, si es necesario con reemplazo, y que el valor de $n$ está dado.
En realidad, lo que nos interesa verdaderamente no son los individuos de la muestra sino las mediciones de una característica $X$ sobre ellos. Es decir, los valores de una variable aleatoria $X$ sobre estos individuos
$$
X\left(\omega_{1}\right)=x_{1}, X\left(\omega_{2}\right)=x_{2}, \ldots, X\left(\omega_{n}\right)=x_{n}
$$
También podemos pensar que los valores muestrales $x_{1}, x_{2}, \ldots, x_{n}$ son generados directamente desde la variable aleatoria. En todo caso, los valores muestrales no son únicos y podemos generar varias muestras
$$
\begin{array}{ccccc}
x_{1}^{1} & x_{2}^{1} & x_{3}^{1} & \ldots & x_{n}^{1} \\
x_{1}^{2} & x_{2}^{2} & x_{3}^{2} & \ldots & x_{n}^{2} \\
\vdots & \vdots & \vdots & & \vdots \\
x_{1}^{s} & x_{2}^{s} & x_{3}^{s} & \ldots & x_{n}^{s}
\end{array}
$$
Si todos los valores son independientes, de la misma forma que $x_{1}, x_{2}, x_{3}, \ldots, x_{n}$ es una muestra generada por $X$, podemos considerar todos los $x_{1}^{i} \quad i=1, \ldots, s$ provenientes de una variable aleatoria $X_{1}$ con la misma distribución que $X$ $X_{1} \stackrel{d}{=} X$ y que genera los primeros valores, los $x_{i}^{2}$ provenientes de una variable aleatoria $X_{2} \stackrel{d}{=} X$ que genera los segundos y así sucesivamente.
Todo esto nos lleva a definir el concepto de muestra aleatoria de una forma muy conveniente para trabajar con ella:
Definició 1.1 Una muestra aleatoria simple de tamaño $n$ de una variable aleatoria $X$ con distribución $F$ es una colección de $n$ variables aleatorias independientes $X_{1}, X_{2}, \ldots, X_{n}$ con la misma distribución $F$ que $X$. Esto se suele indicar como:
$$
\mathbf{X}=X_{1}, X_{2}, \ldots, X_{n} \stackrel{i . i . d}{\sim} X
$$
Definició 1.2 El conjunto $\left(x_{1}, x_{2}, \ldots, x_{n}\right) \in \mathbb{R}^{n}$ de observaciones concretas de $X_{1}, X_{2}, \ldots, X_{n}$ se denomina realización de la muestra.
### Distribución de la muestra
Una muestra aleatoria simple, como vector aleatorio $n$-dimensional que es, tiene una distribución conjunta o distribución de la muestra que depende de $F$, pero que obviamente es diferente, ya que en particular $X$ y $\mathbf{X}$ tienen dimensiones diferentes. Sin embargo, gracias a la independencia de las variables $X_{1}, X_{2}, \ldots, X_{n}$, la función de distribución conjunta de $\mathbf{X}$, que podría ser muy complicada, toma una forma muy sencilla. En resumen:
Definició 1.3 Se llama distribución de la muestra de una variable aleatoria $X \sim F$ a la distribución del vector aleatorio $n$-dimensional $\left(X_{1}, X_{2}, \ldots, X_{n}\right)$
$$
G\left(x_{1}, x_{2}, \ldots, x_{n}\right)=F\left(x_{1}\right) F\left(x_{2}\right) \cdots F\left(x_{n}\right)
$$
En los casos particulares en que $X$ sea discreta o absolutamente continua, la distribución conjunta de la muestra suele expresarse mediante la función de masa de probabilidad o la función de densidad:
- Para variables discretas:
$$
\begin{aligned}
p_{G}\left(x_{1}, x_{2}, \ldots, x_{n}\right) & =P\left(X_{1}=x_{1}, X_{2}=x_{2}, \ldots, X_{n}=x_{n}\right) \\
& =\prod_{i=1}^{n} P\left(X=x_{i}\right)=\prod_{i=1}^{n} p_{F}\left(x_{i}\right),
\end{aligned}
$$
- Para variables absolutamente continuas:
$$
g\left(x_{1}, x_{2}, \ldots, x_{n}\right)=\prod_{i=1}^{n} f\left(x_{i}\right)
$$
Ejemplo 1.4.1 Una moneda tiene una probabilidad $\theta$ de salir cara. Queremos estudiar la variable aleatoria:
$$
X= \begin{cases}1 & \text { si sale cara } \\ 0 & \text { si sale cruz }\end{cases}
$$
con densidad $P\{X=1\}=\theta, P\{X=0\}=1-\theta$. Es decir
$$
X \sim F_{\theta} \in \mathcal{F}=\left\{F_{\theta}=B(1, \theta): \theta \in(0,1)\right\}
$$
Supongamos que hacemos tres lanzamientos. Las posibles muestras son:
| $X_{1}$ | $X_{2}$ | $X_{3}$ | Probabilidad |
| :---: | :---: | :---: | :---: |
| 1 | 1 | 1 | $\theta^{3}$ |
| 1 | 0 | 0 | $\theta(1-\theta)^{2}$ |
| 0 | 1 | 0 | $\theta(1-\theta)^{2}$ |
| 0 | 0 | 1 | $\theta(1-\theta)^{2}$ |
| 1 | 0 | 1 | $\theta^{2}(1-\theta)$ |
| 1 | 1 | 0 | $\theta^{2}(1-\theta)$ |
| 0 | 1 | 1 | $\theta^{2}(1-\theta)$ |
| 0 | 0 | 0 | $(1-\theta)^{3}$ |
El muestreo ha especificado la distribución conjunta de la muestra a través de la distribución desconocida $F_{\theta}$. Si escribimos la función de probabilidades de la variable aleatoria como $f_{\theta}(x)=\theta^{x}(1-\theta)^{1-x}$, entonces la función de probabilidades de la muestra la podemos expresar como:
$$
g_{\theta}\left(x_{1}, x_{2}, x_{3}\right)=\theta^{x_{1}+x_{2}+x_{3}}(1-\theta)^{3-\left(x_{1}+x_{2}+x_{3}\right)}
$$
## Estadísticos
### Definición
Para lograr el objetivo de realizar inferencias sobre la población a partir de la muestra, solemos basarnos en la realización de cálculos sobre la muestra para tratar de obtener la información que deseamos. En este proceso aparecen los conceptos de estadístico y el caso particular, que más nos interesa a nosotros, de estimador. Un estadístico es una función de la muestra que no depende del valor del parámetro.
Definició 1.4 Dada una muestra aleatoria simple $X_{1}, X_{2}, \ldots, X_{n}$ y una función medible $T: \mathbb{R}^{n} \longrightarrow \mathbb{R}^{k}$, entonces $T\left(X_{1}, X_{2}, \ldots, X_{n}\right)$ es un vector aleatorio (variable aleatoria cuando $k=1$ ). Si $T$ no depende de $\theta$ (donde $\theta$ es un parámetro a especificar en $F_{\theta}$ ), entonces $T$ recibe el nombre de estadístico.
Solo por su nombre, parece evidente que un estimador de un parámetro $\theta$ será alguna función de la muestra que sirva para aproximar, en algún sentido, el valor desconocido de $\theta$. Si añadimos la condición razonable de que un estimador no pueda tomar valores que no puede tomar el parámetro, podemos dar la siguiente definición.
Definició 1.5 Un estimador de un parámetro $\theta$ es un estadístico $T$ cuyo recorrido es el espacio de los parámetros, es decir:
$$
\begin{array}{ccc}
T: & \mathbb{R}^{n} & \longrightarrow \\
\left(x_{1}, x_{2}, \ldots, x_{n}\right) & \longrightarrow \\
\left(t_{1}, \ldots, t_{k}\right) \quad \in \Theta \subset \mathbb{R}^{k}
\end{array}
$$
Aquí tienes el texto traducido al castellano manteniendo toda la notación en LaTeX:
## Distribución en el muestreo de un estadístico
Dado un estadístico $T\left(X_{1}, X_{2}, \ldots, X_{n}\right)$ nos interesa conocer su distribución de probabilidad, ya que para hacer inferencia necesitaremos hacer cálculos del tipo
$$
P\left[T\left(X_{1}, X_{2}, \ldots, X_{n}\right)>t_{0}\right]
$$
La distribución de probabilidad del estadístico se denomina distribución muestral o distribución en el muestreo del estadístico. Encontrarla es un problema que puede ser desde bastante sencillo hasta extremadamente complicado. Algunas de las técnicas utilizadas para intentar resolverlo son las siguientes:
- Uso de la técnica de cambio de variable.
- Uso de la función generadora de momentos.
- Aplicación del Teorema Central del Límite.
Ejemplo 1.5.1 Sea $X \sim F_{\theta}$ una variable aleatoria absolutamente continua con densidad
$$
f_{\theta}(x)=e^{-(x-\theta)} e^{-e^{-(x-\theta)}} \quad \theta \in \mathbb{R}
$$
y consideremos el estadístico
$$
T\left(X_{1}, X_{2}, \ldots, X_{n}\right)=\sum_{i=1}^{n} e^{-X_{i}}
$$
Si aplicamos el teorema de cambio de variable unidimensional, se obtiene fácilmente que la variable aleatoria $Y=e^{-X}$ sigue una distribución exponencial de parámetro $e^{-\theta}$, de donde la suma seguirá una distribución gamma $T \sim \Gamma\left(e^{-\theta}, n\right)$.
Ejemplo 1.5.2 Supongamos que $X$ representa el número de averías en una máquina al cabo de un mes. Este valor varía mes a mes. Sea $\bar{X}$ la media de averías en $n$ meses. Si $X$ sigue una distribución de Poisson $P(\lambda)$, ¿cuál es la distribución de $\bar{X}$ ?
Como la suma de Poisson i.i.d. es $\sum_{i=1}^{n} X_{i} \sim P(n \lambda)$
$$
P[\bar{X}=r]=P\left[\sum_{i=1}^{n} X_{i}=n r\right]=\frac{e^{-n \lambda}(n \lambda)^{n r}}{(n r)!}
$$
Como ocurre en este ejemplo, uno de los estadísticos para el cual a menudo deseamos calcular la distribución en el muestreo es la media aritmética. Una manera útil de hacerlo es con la función generadora de momentos y la aplicación del siguiente lema.
Lema 1 Si $X$ es una v.a. con $M_{X}(t)$ como función generadora de momentos, entonces la f.g.m. de $\bar{X}_{n}=\frac{1}{n} \sum_{i=1}^{n} X_{i}$ es
$$
M_{\bar{X}_{n}}(t)=\left[M_{X}(t / n)\right]^{n}
$$
### Demostración:
La demostración es inmediata a partir de la definición o por las propiedades de la función generadora de momentos.
Si aplicamos directamente la definición de la f.g.m tenemos:
$$
\begin{aligned}
E\left(e^{t \bar{X}_{n}}\right) & =E\left(e^{t \frac{1}{n} \sum_{i=1}^{n} X_{i}}\right)=E\left(\prod_{i=1}^{n} e^{\frac{t}{n} X_{i}}\right)=\prod_{i=1}^{n} E\left(e^{\frac{t}{n} X_{i}}\right) \\
& =\prod_{i=1}^{n} M_{X_{i}}(t / n)=\left[M_{X}(t / n)\right]^{n}
\end{aligned}
$$
Si usamos las propiedades de la f.g.m tenemos:
1. Dado que $M_{a X}(t)=M_{X}(a t)$ y si $a=\frac{1}{n}$, entonces $M_{\bar{X}}(t)=M_{\sum_{i=1}^{n} X_{i}}(t / n)$.
2. $M_{\sum_{i=1}^{n} X_{i}}(t / n) \stackrel{\text { ind }}{=} \prod_{i=1}^{n} M_{X_{i}}(t / n) \stackrel{\text { id }}{=}\left[M_{X}(t / n)\right]^{n}$.
Ejemplo 1.5.3 Para una variable aleatoria $X \sim N(\mu, \sigma)$ y por tanto $M_{X}(t)=$ $\exp \left(t \mu+\frac{t^{2} \sigma^{2}}{2}\right)$, entonces
$$
\begin{aligned}
M_{\bar{X}_{n}}(t) & =\left[\exp \left(\frac{t \mu}{n}+\frac{t^{2} \sigma^{2}}{n^{2} 2}\right)\right]^{n} \\
& =\exp \left[n\left(\frac{t \mu}{n}+\frac{t^{2} \sigma^{2}}{n^{2} 2}\right)\right] \\
& =\exp \left[t \mu+\frac{1}{2} t^{2}\left(\frac{\sigma}{\sqrt{n}}\right)^{2}\right]
\end{aligned}
$$
que es la función generadora de momentos de una variable $N(\mu, \sigma / \sqrt{n})$.
## La distribución empírica
### Definición
En el apartado anterior hemos visto que a partir de una muestra $X_{1}, X_{2}, \ldots, X_{n}$ es interesante considerar la distribución muestral como la distribución conjunta del vector aleatorio $\left(X_{1}, X_{2}, \ldots, X_{n}\right)$, sin que intervenga una realización concreta de la muestra $x_{1}, x_{2}, \ldots, x_{n}$. Un enfoque diferente consiste en asociar una distribución particular directamente a las observaciones $x_{1}, x_{2}, \ldots, x_{n}$ con la intención de que, en tanto que la muestra "representa" la v.a. $X$, esta distribución asociada a la muestra $F_{n}(x)$ emule la distribución de la población. Esta distribución se denomina distribución empírica o distribución muestral y se define así:
$$
F_{n}(x)=\frac{k(x)}{n}
$$
donde $k(x)$ es el número de datos muestrales menores o iguales que $x$. En la práctica se construye por ordenación de la muestra
$$
x_{1}, x_{2}, \ldots, x_{n} \longrightarrow x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)}
$$
y con la siguiente definición:
$$
F_{n}(x)= \begin{cases}0 & \text { si } x<x_{(1)} \\ \frac{k}{n} & \text { si } x_{(k)} \leq x<x_{(k+1)} \\ 1 & \text { si } x_{(n)} \leq x\end{cases}
$$
Ejemplo 1.6.1 Extraemos una muestra y obtenemos:
| $x_{1}$ | $x_{2}$ | $x_{3}$ | $x_{4}$ | $x_{5}$ | $x_{6}$ | $x_{7}$ |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| 5.1 | 3.4 | 1.2 | 17.6 | 2.1 | 16.4 | 4.3 |
Una vez ordenada queda:
| $x_{(1)}$ | $x_{(2)}$ | $x_{(3)}$ | $x_{(4)}$ | $x_{(5)}$ | $x_{(6)}$ | $x_{(7)}$ |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| $x_{3}$ | $x_{5}$ | $x_{2}$ | $x_{7}$ | $x_{1}$ | $x_{6}$ | $x_{4}$ |
| 1.2 | 2.1 | 3.4 | 4.3 | 5.1 | 16.4 | 17.6 |
y si hacemos la representación gráfica:
```{r}
x <- c(5.1 , 3.4 , 1.2 , 17.6 , 2.1 , 16.4 , 4.3, 1.2 , 2.1 , 3.4 , 4.3 , 5.1 , 16.4 , 17.6 )
plot(ecdf(x))
```
Figura 1.1: Función de distribución empírica con los datos del ejemplo
La distribución empírica refleja exclusivamente los valores observados en la muestra y, por lo tanto, no se relaciona directamente ni con la distribución conjunta de la muestra $G\left(x_{1}, x_{2}, \ldots, x_{n}\right)$ ni con la distribución de la población $F$.
## Los momentos muestrales
### Definición
Sea $F_{n}$ la v.a. que tiene $F_{n}(x)$ por distribución. La función de densidad de probabilidad de $F_{n}$ es una densidad discreta que asigna probabilidades $1 / n$ a cada una de las observaciones muestrales $x_{1}, x_{2}, \ldots, x_{n}$. Así pues, tiene sentido calcular sus momentos, que se conocen como momentos muestrales $a_{k}$, y también sus momentos muestrales centrados respecto a la media $b_{k}$.
$$
\begin{aligned}
a_{k} & =E\left(F_{n}^{k}\right)=\sum_{i=1}^{n} x_{i}^{k} \cdot P\left(F_{n}=x_{i}\right)=\sum_{i=1}^{n} x_{i}^{k} \cdot \frac{1}{n}=\frac{1}{n} \sum_{i=1}^{n} x_{i}^{k} \\
b_{k} & =\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{k}
\end{aligned}
$$
Observamos que dos medidas conocidas de la estadística descriptiva adquieren un significado diferente:
- Media muestral $=$ Media de la distribución muestral
$$
a_{1}=\frac{1}{n} \sum_{i=1}^{n} x_{i}
$$
- Varianza muestral $=$ Varianza de la distribución muestral
$$
b_{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}
$$
## Distribución en el muestreo de los momentos muestrales
Dada una m.a.s. $X_{1}, X_{2}, \ldots, X_{n}$, los momentos muestrales son estadísticos y, como tales, tienen su distribución en el muestreo. Por ejemplo, $a_{k}=$ $\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}$.
La distribución en cada caso puede ser compleja y depender de la distribución poblacional subyacente.
Lo que sí es posible calcular son los momentos de los momentos muestrales o, mejor dicho, los momentos de las distribuciones en el muestreo de los momentos muestrales.
1. Si consideramos $a_{k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}$ y escribimos $\alpha_{k}=E\left(X^{k}\right)$ como el momento poblacional de orden $k$, tenemos:
$$
\begin{aligned}
E\left(a_{k}\right) & =E\left(\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}\right)=\frac{1}{n} \cdot n \cdot \alpha_{k}=\alpha_{k} \\
\operatorname{var}\left(a_{k}\right) & =\operatorname{var}\left(\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}\right)=\frac{1}{n^{2}} \sum_{i=1}^{n} \operatorname{var}\left(X_{i}^{k}\right)=\frac{1}{n} \operatorname{var}\left(X^{k}\right) \\
& =\frac{1}{n}\left[E\left(X^{2 k}\right)-\left(E\left(X^{k}\right)\right)^{2}\right]=\frac{\alpha_{2 k}-\alpha_{k}^{2}}{n}
\end{aligned}
$$
2. Si consideramos $s^{2}=b_{2}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}-\bar{X}^{2}$, podemos calcular:
$$
\begin{aligned}
E\left(s^{2}\right) & =\frac{1}{n} \sum_{i=1}^{n} E\left(X_{i}^{2}\right)-E(\bar{X})^{2}=\alpha_{2}-\left(\frac{\sigma^{2}}{n}+\mu^{2}\right) \\
& =\left(\sigma^{2}+\mu^{2}\right)-\left(\frac{\sigma^{2}}{n}+\mu^{2}\right)=\frac{n-1}{n} \sigma^{2}
\end{aligned}
$$
El cálculo de la varianza de $s^{2}$ es laborioso ${ }^{1}$ y no lo haremos aquí. Su valor es
$$
\operatorname{var}\left(s^{2}\right)=\frac{\mu_{4}-\mu_{2}^{2}}{n}-\frac{2\left(\mu_{4}-2 \mu_{2}^{2}\right)}{n^{2}}+\frac{\mu_{4}-3 \mu_{2}^{2}}{n^{3}}
$$
donde $\mu_{k}$ es el momento poblacional centrado de orden $k$.
## Propiedades asintóticas de los momentos muestrales
### Convergencia de los momentos muestrales
Los momentos muestrales, tanto respecto al origen como respecto a la media, convergen hacia los momentos poblacionales. Es posible establecer la convergencia basándose en la ley fuerte de los grandes números (convergencia casi [^0]segura) o en la ley débil (convergencia en probabilidad). Si nos limitamos a esta última podemos afirmar que
$$
a_{k} \xrightarrow{P} \alpha_{k} \quad \text { es decir } \quad \lim _{n \rightarrow \infty} P\left[\left|a_{k}-\alpha_{k}\right| \geq \epsilon\right]=0
$$
La prueba se basa en la desigualdad de Tchebychev. Si suponemos que $\alpha_{2 k}<\infty$, tenemos
$$
P\left[\left|a_{k}-\alpha_{k}\right| \geq \epsilon\right] \leq \frac{E\left|a_{k}-\alpha_{k}\right|^{2}}{\epsilon^{2}}=\frac{\operatorname{var}\left(a_{k}\right)}{\epsilon^{2}}=\frac{\alpha_{2 k}-\alpha_{k}^{2}}{n \epsilon^{2}} \longrightarrow 0
$$
Esta propiedad es importante porque hará posible el concepto de estimador consistente y en ella se basa un método de estimación llamado método de los momentos.
### Distribución asintótica
Si consideramos el momento muestral $a_{k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}$, entonces $n \cdot a_{k}$ es una suma de variables aleatorias i.i.d. a la que podemos aplicar el Teorema Central del Límite. Como hemos visto:
$$
E\left(n a_{k}\right)=n \alpha_{k} \quad \operatorname{var}\left(n a_{k}\right)=n^{2} \operatorname{var}\left(a_{k}\right)=n^{2} \frac{\alpha_{2 k}-\alpha_{k}^{2}}{n}
$$
y por el Teorema Central del Límite de Lindeberg-Levy la variable
$$
\frac{n a_{k}-E\left(n a_{k}\right)}{\sqrt{\operatorname{var}\left(n a_{k}\right)}}=\frac{n a_{k}-n \alpha_{k}}{n \sqrt{\operatorname{var}\left(a_{k}\right)}}=\frac{a_{k}-\alpha_{k}}{\sqrt{\operatorname{var}\left(a_{k}\right)}}
$$
verifica
$$
\frac{a_{k}-\alpha_{k}}{\sqrt{\operatorname{var}\left(a_{k}\right)}} \xrightarrow{\mathcal{L}} N(0,1)
$$
es decir
$$
a_{k} \sim A N\left(\alpha_{k}, \sqrt{\frac{\alpha_{2 k}-\alpha_{k}^{2}}{n}}\right)
$$
## Muestreo en poblaciones normales
Como hemos visto, a partir de una m.a.s. $X_{1}, X_{2}, \ldots, X_{n}$ y si consideramos un estadístico $T\left(X_{1}, X_{2}, \ldots, X_{n}\right)$, puede resultar complicado obtener su distribución en el muestreo. Esta distribución depende de:
- La forma funcional de $T\left(X_{1}, X_{2}, \ldots, X_{n}\right)$.
- La distribución subyacente de $X$, es decir, la distribución de la población.
Hay un caso especial en el que el problema se ha estudiado en profundidad para algunos estadísticos de gran importancia práctica. Si $X \sim N(\mu, \sigma)$ es posible encontrar la distribución de los estadísticos más utilizados como $\bar{X}$ y $S^{2}=\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}$. De hecho, obtendremos la distribución de funciones de estos estadísticos como
$$
\frac{\bar{X}-\mu}{s / \sqrt{n-1}} ; \quad \frac{n s^{2}}{\sigma^{2}} ; \quad \bar{X}_{1}-\bar{X}_{2} ; \quad \frac{S_{1}^{2} /\left(n_{1}-1\right)}{S_{2}^{2} /\left(n_{2}-1\right)}
$$
donde $s^{2}=(1 / n) S^{2}$.
En el estudio de las distribuciones de estos estadísticos aparecen algunas distribuciones de probabilidad que han resultado ser de gran utilidad. Son las llamadas "distribuciones derivadas de la normal" y se conocen por el nombre del investigador que las formuló:
- la $\chi^{2}$ chi-cuadrado de Pearson
- la $t$ de Student (Gosset)
- la $F$ de Fisher-Snedecor
### La distribución chi-cuadrado
Sean $X_{1}, X_{2}, \ldots, X_{k}$ un conjunto de v.a. independientes sobre un mismo espacio de probabilidad $(\Omega, \mathcal{A}, P)$ y con distribución común $N(0,1)$. Consideremos la variable
$$
Y=X_{1}^{2}+X_{2}^{2}+\cdots+X_{k}^{2}
$$
La distribución de la variable $Y$ se llama chi-cuadrado con $k$ grados de libertad.
La función de densidad de la variable aleatoria $Y$ es
$$
f(x)=\frac{1}{\Gamma(k / 2) 2^{k / 2}} e^{-x / 2} x^{k / 2-1} \quad \text { si } x>0
$$
De modo que resulta que $Y=\sum_{i=1}^{k} X_{i}^{2}$ tiene una distribución gamma $G\left(\frac{1}{2}, \frac{k}{2}\right)$ y su f.g.m. es
$$
M(t)=(1-2 t)^{-k / 2} \quad \text { si } t<1 / 2
$$
#### Propiedades
1. Si recordamos que para $X \sim G(p, \alpha)$ entonces $E(X)=\frac{p}{\alpha} \mathrm{y} \operatorname{var}(X)=$ $\frac{p}{\alpha^{2}}$, resulta
$$
E(Y)=\frac{k / 2}{1 / 2}=k \quad \operatorname{var}(Y)=\frac{k / 2}{1 / 4}=2 k
$$
2. De la aditividad (reproductividad) de las leyes gamma se deduce también la reproductividad de la chi-cuadrado $\chi^{2}$, es decir
$$
Y_{1}^{2} \sim \chi_{n_{1}}^{2}, Y_{2}^{2} \sim \chi_{n_{2}}^{2} \quad \text { indep. } \longrightarrow Y_{1}^{2}+Y_{2}^{2} \sim \chi_{n_{1}+n_{2}}^{2}
$$
3. Como $Y$ es la suma de v.a. independientes $X_{i}^{2} \sim \chi_{1}^{2}$ se verifica
$$
\frac{Y-k}{\sqrt{2 k}} \xrightarrow{\mathcal{L}} N(0,1)
$$
Pero es mejor la aproximación de Fisher
$$
\sqrt{2 \chi_{k}^{2}}-\sqrt{2 k-1} \xrightarrow{\mathcal{L}} N(0,1)
$$
de donde se obtiene para valores de $k \geq 30$
$$
\chi_{k}^{2} \stackrel{\text { aprox }}{=} \frac{1}{2}(Z+\sqrt{2 k-1})^{2}
$$
donde $Z \sim N(0,1)$.
### Distribución $t$ de Student
Sean $Y, Z$ dos variables aleatorias independientes con distribuciones $Z \sim$ $N(0,1)$ y $Y \sim \chi_{m}^{2}$, entonces se dice que la variable aleatoria
$$
t=\frac{Z}{\sqrt{Y / m}}
$$
tiene una distribución $t$ de Student con $m$ grados de libertad.
Su función de densidad es
$$
f(t)=\frac{\Gamma\left(\frac{m+1}{2}\right)}{\Gamma\left(\frac{m}{2}\right) \sqrt{m \pi}}\left(1+\frac{t^{2}}{m}\right)^{-(m+1) / 2} \quad t \in \mathbb{R}
$$
Esta expresión se obtiene de la resolución del correspondiente problema de cambio de variable para encontrar la distribución de un cociente.
Se trata de una distribución unimodal y simétrica respecto al cero. La distribución depende de $m$, que llamamos los grados de libertad (g.l.). A medida que $m$ crece, la forma acampanada se va "cerrando", acercándose a la ley normal:
$$
\left(1+\frac{t^{2}}{m}\right)^{-(m+1) / 2} \xrightarrow{m \rightarrow \infty} e^{-t^{2} / 2}
$$
Este hecho es muy relevante en inferencia estadística.
#### Propiedades
1. Si $m=1$, entonces la $t$ es una Cauchy y, en particular, no tiene esperanza.
2. Para $m>1, E(t)=0$ y para $m>2, \operatorname{var}(t)=m /(m-2)$.
3. Cuando $m \rightarrow \infty$, entonces $t \xrightarrow{P} N(0,1)$.
### La distribución $F$ de Fisher
Esta distribución aparece cuando se considera un cociente entre dos distribuciones chi-cuadrado $U \sim \chi_{m}^{2}, V \sim \chi_{n}^{2}$ con $m$ y $n$ g.l. respectivamente. En concreto decimos que la variable aleatoria
$$
F=\frac{U / m}{V / n}
$$
sigue una distribución $F$ de Fisher con $m$ y $n$ grados de libertad. La función de densidad tiene la forma:
$$
f(x)=\frac{m^{m / 2} n^{n / 2} \Gamma[(m+n) / 2]}{\Gamma(m / 2) \Gamma(n / 2)} \cdot \frac{x^{m / 2-1}}{(m x+n)^{(m+n) / 2}} \quad \text { para } x>0
$$
#### Propiedades
1. La esperanza y la varianza son
$$
E(F)=\frac{n}{n-2} \quad \operatorname{var}(F)=\frac{2 n^{2}(m+n-2)}{m(n-2)^{2}(n-4)}
$$
2. Esta distribución tiene una moda en $x=\frac{m-2}{m} \cdot \frac{n}{n+2}$, siempre que $m>2$.
3. Si $F \sim F_{m, n}$, entonces resulta que $1 / F \sim F_{n, m}$ y por lo tanto:
$$
P(F \leq x)=P\left(\frac{1}{F} \geq \frac{1}{x}\right)=1-P\left(\frac{1}{F} \leq \frac{1}{x}\right)
$$
Esta propiedad es de gran utilidad en el uso de las tablas.
4. Cuando $n \rightarrow \infty, F_{m, \infty} \xrightarrow{\mathcal{L}} \chi_{m}^{2}$.
5. Cuando $m \rightarrow \infty$ y $n \rightarrow \infty$, entonces $F_{m, n} \xrightarrow{\mathcal{L}} 1$.