generated from jtr13/bookdown-template
-
Notifications
You must be signed in to change notification settings - Fork 1
/
08-estimacionIntervalos.Rmd
858 lines (540 loc) · 44.6 KB
/
08-estimacionIntervalos.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
# Estimación por intérvalos
## Motivación de los intervalos de confianza: la estimación puntual casi siempre es falsa
Como se ha visto en el capítulo anterior, un estimador puntual intenta proporcionar la mejor aproximación posible, en uno u otro sentido, al valor verdadero de los parámetros poblacionales que se desean estimar y que en realidad nos son desconocidos.
Sin embargo, ésto debe entenderse en el sentido de que no hemos de creer que el resultado de la estimación puntual ha de coincidir forzosamente con el valor verdadero del parámetro poblacional que queremos estimar. De hecho en muchas ocasiones de lo que podemos estar seguros es de la no-coincidencia. Baste considerar, por ejemplo, una variable Normal y una estimación de su esperanza a través de la media muestral. Como se trata de una variable continua se tiene:
$$
P\left(\bar{X}_{n}=\mu\right)=0.
$$
Esta expresión debe ser interpretada en el sentido de que la coincidencia del estimador con el parámetro verdadero es un suceso de probabilidad cero.
La estimación por intervalos de confianza nos proporciona _un rango de valores entre los que tendremos una cierta certeza o nivel de confianza de que se encuentre nuestro parámetro poblacional desconocido_.
## Definición formal de intervalo de confianza
Dada una muestra aleatoria simple, que podemos suponer se ha obtenido de una variable aleatoria (población) cuya distribución depende de un parámetro $\theta$, diremos que los estadísticos $L_{1}$ y $L_{2}$ son un intervalo de confianza para $\theta$ con nivel de confianza $(1-\alpha) \cdot 100 \%$, si se verifica:
1. $\mathrm{L}_{1}<\mathrm{L}_{2}$ para toda muestra de tamaño $n$.
2. $\mathrm{P}\left(\mathrm{L}_{1} \leq \theta \leq \mathrm{L}_{2}\right)=1-\alpha$.
Hay que destacar que en la segunda condición, en nuestro contexto, el valor del parámetro es fijo, lo que es aleatorio son los estadísticos que delimitan el intervalo.
## Un ejemplo de construcción de un intervalo de confianza
### Planteamiento
Supongamos que tenemos una variable aleatoria que sigue una distribución Normal N $(\mu ; \sigma)$ donde la varianza es un valor fijo conocido $\sigma^{2}=\sigma^2_0$. Nuestro objetivo es, dada una muestra aleatoria simple de tamaño $n$ de la variable obtener un intervalo de confianza con nivel de confianza del $95 \%$ para el parámetro $\mu$ de la distribución.
### Desarrollo de la construcción
Utilizaremos la propiedad de que la media muestral sigue una distribución Normal de parámetros $(\mu ; \sigma/\sqrt{n})$ y, por tanto, si construimos el estadístico
$$
z=\frac{\bar{X}-\mu}{\sigma_{0} / \sqrt{n}}
$$
su distribución es una Normal estándar $\mathrm{N}(0,1)$.
El hecho de que sea una distribución conocida, que además no depende del parámetro que queremos estimar $\mu$, nos permite, una vez construida la expresión siguiente
$$
P\left(-z_{\alpha / 2} \leq \frac{\bar{X}-\mu}{\sigma_{0} / \sqrt{n}} \leq z_{\alpha / 2}\right)=1-\alpha
$$
determinar, de manera independiente de $\mu$ el valor $z_{\alpha / 2}$ que delimita una probabilidad del $95 \%$ dentro del intervalo centrado en cero $\left(-z_{\alpha / 2} ; z_{\alpha / 2}\right)$. En este caso, para la distribución $\mathrm{N}(0,1)$, el valor es aproximadamente 1,96.
```{r, out.width="90%", fig.align='center', echo=FALSE}
knitr::include_graphics("images/dNormalQuantil975.png")
```
$$
P\left(-1,96 \leq \frac{\bar{X}-\mu}{\sigma_{0} / \sqrt{n}} \leq 1,96\right)=0,95
$$
Sólo nos resta despejar $\mu$ de la expresión anterior para obtener el intervalo definitivo
$$
P\left(\bar{X}-1,96 \frac{\sigma_{0}}{\sqrt{n}} \leq \mu \leq \bar{X}+1,96 \frac{\sigma_{0}}{\sqrt{n}}\right)=0,95
$$
## ¿Por qué hablamos de confianza y no de probabilidad?
Cuando ya hemos calculado el valor de los estadísticos que delimitan un intervalo solemos decir de que dicho intervalo _contiene el parámetro poblacional con un nivel de confianza, por ejemplo del 95 $\%$_. **No decimos** que la probabilidad de que el parámetro esté dentro del intervalo es de un $95 \%$, puesto que esto no tiene sentido, ya que el parámetro es un valor fijo.
Por ejemplo, es correcto decir que el intervalo $(0,80 ; 0,86)$ contiene el parámetro $p$ de una distribución Binomial con una confianza del $95 \%$, pero sería incorrecto decir que la probabilidad de que el parámetro esté dentro del intervalo $(0,80 ; 0,86)$ es del $95 \%$.
En nuestro contexto, el parámetro poblacional es el que es, y no asociamos ninguna probabilidad ni fenómeno aleatorio al respecto. En otros enfoques estadísticos (estadística bayesiana) sí que se considera el parámetro como un valor aleatorio, pero no es nuestro caso.
La confianza del intervalo debe ser entendida como la fracción de intervalos calculados a partir de una gran serie de muestras de tamaño idéntico que contienen el valor verdadero del parámetro poblacional.
:::: {.software}
**Simulación de intérvalos de confianza**
```{r out.width="90%", fig.align='center', echo=FALSE}
knitr::include_graphics("images/simulaIC.png")
```
[https://www.grbio.eu/statmedia/Statmedia_5/](https://www.grbio.eu/statmedia/Statmedia_5/)
::::
El enlace anterior apunta a una aplicación Shiny que permite simular un número determinado de intervalos de confianza para la media de una distribució Normal, basados en muestras del mismo tamaño, y comprobar en cuántas de las simulaciones el intervalo obtenido contiene el verdadero valor de la media poblacional a partir del cual se han simulado las muestras. El porcentaje de aciertos debería acercarse al nivel de confianza con el que se han construido los intervalos.
Manteniendo constante el tamaño muestral, incrementar el nivel de confianza del intervalo implica que la anchura de éste se incrementa. Es totalmente coherente con la lógica, puesto que al exigir mayor seguridad de que el parámetro esté incluido en el intervalo lo que hacemos es alejar los límites inferior y superior para incrementar la certeza de que incluya al parámetro.
Como veremos más adelante, la manera de disminuir la anchura del intervalo y mantener un nivel de confianza deseado es incrementar el tamaño de la muestra utilizada para la construcción del intervalo.
## Elementos de un intervalo de confianza
A la hora de plantearnos la obtención de un intervalo de confianza hemos de adoptar una serie de decisiones previas.
- La primera y más importante es la elección del parámetro poblacional del cual deseamos obtener la estimación. Generalmente esta elección está relacionada la distribución que asumimos para la variable estudiada. De manera usual el parámetro poblacional se corresponde con alguna de las características de las distribuciones. Por ejemplo, si deseamos un intervalo de confianza para la probabilidad de un suceso trabajaríamos con el parámetro $p$ de la distribución Binomial. En algún caso, sin embargo, podemos estar interesados en la obtención de un intervalo de confianza para algún parámetro, por ejemplo, la media poblacional, sin hacer ninguna suposición sobre la distribución de la variable. Estaríamos dentro de la denominada estimación no paramétrica.
- Una segunda elección es el nivel de confianza con el que deseamos trabajar. No es una elección sin importancia, puesto que del nivel de confianza dependerá la precisión de la estimación que obtengamos, es decir, la anchura del intervalo. A mayor nivel de confianza exigido, mayor será el radio del intervalo y por tanto menor la precisión en la estimación. Generalmente se trabaja con niveles de confianza del orden del $90 \%$ o $95 \%$.
- Relacionado con el punto anterior tenemos la elección del tamaño muestral utilizado para la construcción del intervalo. Hemos mencionado que aumentar la confianza significa aumentar la imprecisión de la estimación, sin embargo es posible ajustar una anchura del intervalo determinada para el nivel de confianza deseado jugando con el tamaño muestral utilizado.
La aplicación mostrada en la sección anterior nos permite ilustrar estos conceptos y ver cual es el efecto de modificar el nivel de confianza o el tamaño muestral sin que cambien el resto de condiciones. Generalmente el investigador fijará el nivel de confianza con el que desea trabajar y la precisión deseada para la estimación.
Con estas premisas y basándose generalmente en la información adicional proporcionada por una muestra piloto obtenida con anterioridad _es posible determinar el tamaño muestral mínimo necesario para lograr los objetivos fijados_.
Si no se dispone de muestra piloto, es posible utilizar planteamientos alternativos, como los siguientes:
- Expresar la precisión en términos de fracciones de la desviación típica.
- Utilizar las suposiciones más desfavorables posibles.
## Método del pivote
El método del pivote es uno de los principales métodos de construcción de intervalos de confianza. Generaliza la técnica empleada en la construcción del intervalo utilizado como primer ejemplo.
Se basa en la elección de una variable aleatoria que sea función de la muestra y del parámetro a estimar, con la condición de que sea una función continua y monótona del parámetro y que su distribución sea conocida e **independiente del parámetro**.
La expresión "distribución independiente del parámetro" puede generar cierta confusión porqué, uno no puede evitar observar el pivote y ver que el parámetro se encuentra incluido en la formma del mismo. Por ejemplo, si suponemos $X\sim N(\mu, \sigma_0)$, hemos visto que $Z=\frac{(X-\mu)}{\sigma/\sqrt{n}}$ es el punto de partida para construir el intérvalo de confianza. Podemos decir que $Z$ es un pivote para $\mu$ porque $Z=\frac{(X-\mu)}{\sigma/\sqrt{n}}$ aunque contenga a $\mu$ en su expresión, sigue una distribución $N(0,1)$ _que es la misma sea cual sea el valor de $\mu$ por lo que no depende de éste_.
De forma más general denominaremos "estadístico pivote" a una función $\varphi(\theta, X)$ cuya distribución no depende del parámetro y que puede ser invertida para expresar el parámetro como la función (inversa), $\phi^{-1}$ de $\phi$.
Bajo estas condiciones, fijado el nivel de confianza $(1-\alpha) \cdot 100 \%$, es posible encontrar los valores $a$ y $b$ tales que
\begin{equation}
P(a \leq \varphi(\theta, X) \leq b)=1-\alpha
(\#eq:pivote)
\end{equation}
Por las condiciones exigidas sobre el estadístico, será posible despejar $\theta$ de la ecuación anterior \@ref(eq:pivote) y obtener los límites para el intervalo.
$$
P\left(\varphi^{-1}(a, X) \leq \boldsymbol{\theta} \leq \varphi^{-1}(b, X)=1-\alpha\right.
$$
siendo $\mathrm{L}_{1}=\varphi^{-1}(a, X)$ i $\mathrm{L}_{2}=\varphi^{-1}(b, X)$ los límites del intervalo deseado.
Hemos de tener en cuenta que los valores $a$ y $b$ que verifican \@ref(eq:pivote) en general no son únicos. La elección se hace generalmente buscando que _el intervalo tenga la máxima precisión, es decir, la longitud mínima_. Para distribuciones simétricas y unimodales (Normal o $t$ de Student, por ejemplo) se consigue tomando el intervalo centrado, es decir, dejando una probabilidad de $\alpha / 2$ a cada lado.
## Algunos estadísticos pivote
| Estadistico pivote | Distribución del estadístico pivote | Observaciones |
| :---: | :---: | :---: |
| a) Poblaciones Normales | | |
| $Z=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}}$ | $\mathrm{N}(0,1)$ | Varianza conocida |
| $T=\frac{\bar{X}-\mu}{\hat{S} / \sqrt{n}}$ | t de Student con n-1 grados de libertad | Varianza desconocida |
| $\chi^{2}=\frac{(n-1) \hat{S}^{2}}{\sigma^{2}}$ | $\chi^{2} \text { con } n-1 \text { grados de }$ <br> libertad | |
| $T=\frac{\left(\bar{X}_{1}-\bar{X}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{S_{T} \sqrt{1 / n_{1}+1 / n_{2}}}$ | t de Student con $\mathrm{n}_{1}+\mathrm{n}_{2}-2$ grados de libertad | $\mathrm{S}_{\mathrm{T}}=$ estimación de la $\sigma$ desconocida pero común a ambas poblaciones |
| b) Proporciones | | |
| $T=\frac{\hat{p}-p}{\sqrt{\hat{p} \hat{q} / n}}$ | N(0,1) | Distribución asintótica |
## Intervalo de confianza para la media de una distribución Normal
Dada una variable aleatoria con distribución Normal $\mathrm{N}(\mu, \sigma)$, el objetivo es la construcción de un intervalo de confianza para el parámetro $\mu$, basado en una muestra de tamaño $n$ de la variable.
Desde el punto de vista didáctico hemos de considerar dos posibilidades sobre la desviación típica de la variable, que sea conocida o que sea desconocida y tengamos que estimarla a partir de la muestra. El caso de $\sigma$ conocida, ya comentado anteriormente, no pasa de ser un caso académico con poca aplicación en la práctica, sin embargo es útil desde del punto de vista didáctico.
### Caso de varianza conocida
Dada una muestra $X_{1}, \ldots, X_{n}$, el estadístico
$$
z=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}}
$$
se distribuye según una Normal estándar. Por tanto, aplicando el método del pivote podemos construir la expresión
$$
P\left(-z_{\alpha/ 2} \leq \frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \leq z_{\alpha / / 2}\right)=1-\alpha
$$
donde $z_{\alpha / 2}$ es el valor de una distribución Normal estándar que deja a su derecha una probabilidad de $\alpha / 2$, de la que se deduce el intervalo de confianza
$$
\bar{X}-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}
$$
### Caso de varianza desconocida
Dada una muestra $X_{1}, \ldots, X_{n}$, el estadístico
$$
t=\frac{\bar{X}-\mu}{\hat{S} / \sqrt{n}}
$$
se distribuye según una $t$ de Student de $\mathrm{n}-1$ grados de libertad. Por tanto, y siguiendo pasos similares a los del apartado anterior, el intervalo de confianza resultante es
$$
\bar{X}-t_{\alpha / 2} \frac{\hat{S}}{\sqrt{n}} \leq \mu \leq \bar{X}+t_{\alpha / 2} \frac{\hat{S}}{\sqrt{n}}
$$
donde $t_{\alpha / 2}$ es el valor de una distribución t de Student con $\mathrm{n}-1$ grados de libertad que deja a su derecha una probabilidad de $\alpha / 2$.
### Calculo con R
El lenguaje R contiene un gran número de procedimientos estadísticos implementados, pero los intérvalos de confianza no son uno de ellos. Es decir, apenas existen funciones de base para calcular intérvalos de confianza y estos aparecen ligados a las pruebas de hipótesis como es el caso de los intérvalos para la media, que tan sólo se pueden calcular con la función que realiza un test-t.
En esta sección mostraremos con algo de detalle cómo calcular un intervalo de confianza para la media de una muestra utilizando diferentes métodos:
1. Cálculo manual.
2. Uso de una función personalizada (`Calcula_IC_Media`).
3. Uso del paquete `DesctTols`.
#### Paso a paso: Cálculo manual del intervalo de confianza
```{r calculoManual}
# Generar datos simulados
set.seed(123) # Para reproducibilidad
muestra <- rnorm(30, mean = 50, sd = 10) # 30 observaciones con media 50 y desviación estándar 10
# Tamaño de la muestra
n <- length(muestra)
# Media muestral
media <- mean(muestra)
# Desviación estándar muestral
sd_muestra <- sd(muestra)
# Grados de libertad
gl <- n - 1
# Nivel de confianza
nivel_confianza <- 0.95
alpha <- 1 - nivel_confianza
# Valor crítico t
t_critico <- qt(1 - alpha / 2, df = gl)
# Margen de error
margen_error <- t_critico * sd_muestra / sqrt(n)
# Límites del intervalo
limite_inferior <- media - margen_error
limite_superior <- media + margen_error
# Mostrar resultados
cat("Cálculo manual:\n")
cat("Intervalo de confianza (95%): [", limite_inferior, ", ", limite_superior, "]\n")
cat("Media muestral: ", media, "\n")
cat("Margen de error: ", margen_error, "\n")
```
#### Uso de la función `Calcula_IC_Media`
Dado lo extenso del cálculo podemos definir una función para automatizar los pasos anteriores:
```{r calcula_IC_Media}
Calcula_IC_Media <- function(muestra, nivel_confianza = 0.95) {
# Tamaño de la muestra
n <- length(muestra)
# Media muestral
media <- mean(muestra)
# Desviación estándar muestral
sd_muestra <- sd(muestra)
# Grados de libertad
gl <- n - 1
# Valor crítico t
alpha <- 1 - nivel_confianza
t_critico <- qt(1 - alpha / 2, df = gl)
# Margen de error
margen_error <- t_critico * sd_muestra / sqrt(n)
# Límites del intervalo
limite_inferior <- media - margen_error
limite_superior <- media + margen_error
# Resultado como lista
return(list(
media = media,
margen_error = margen_error,
limite_inferior = limite_inferior,
limite_superior = limite_superior,
nivel_confianza = nivel_confianza
))
}
```
Si ahora la aplicamos a los datos anteriores, obtendremos el mismo resultado con una llamada mucho más compacta.
```{r Calcula_IC_Media}
# Calcular el intervalo con la función
resultado_funcion <- Calcula_IC_Media(muestra, nivel_confianza = 0.95)
# Mostrar resultados
cat("Cálculo con la función:\n")
cat("Intervalo de confianza (95%): [", resultado_funcion$limite_inferior, ", ", resultado_funcion$limite_superior, "]\n")
cat("Media muestral: ", resultado_funcion$media, "\n")
cat("Margen de error: ", resultado_funcion$margen_error, "\n")
```
#### Uso del paquete `DesctTols`
El paquete `Desctools` simplifica el cálculo e interpretación de intervalos de confianza.
```{r MeanCI}
# Usar DescTools para intervalos de confianza
library(DescTools)
MeanCI(muestra, conf.level = 0.95)
```
Como puede verse los tres métodos proporcionan el mismo resultado por lo que, en aras de la simplificación, siempre que se disponga de una función incorporada en un paquete utilizaremos ésta.
### Tamaño de muestra para la media de una distribución Normal
La fórmula para el intervalo de confianza
$$
\bar{X}-t_{\alpha / 2} \frac{\hat{S}}{\sqrt{n}} \leq \mu \leq \bar{X}+t_{\alpha / 2} \frac{\hat{S}}{\sqrt{n}}
$$
nos da la expresión que permite calcular el tamaño muestral para conseguir una precisión determinada:
$$
n=\frac{t_{a / 2}^{2} \hat{S}^{2}}{d^{2}}
$$
donde $d$ es el radio máximo deseado para el intervalo y $t_{\alpha / 2}$ es el valor de una distribución $t$ de Student, con $\mathrm{n}-1$ grados de libertad que deja a su derecha una probabilidad de $\alpha / 2$.
Para aplicar la fórmula es necesario conocer el valor estimado para la desviación típica. Tenemos varias opciones:
- Obtener una muestra piloto de un tamaño arbitrario, no necesariamente grande, y obtenida la estimación de la desviación típica sustituirla en la expresión anterior. El número de grados de libertad de la t de Student debe ser $n_{1}-1$, donde $n_{1}$ es el tamaño muestral de la muestra piloto. Una vez obtenido el intervalo basado en la nueva muestra, se debe comprobar que se ha logrado la precisión deseada para dar por definitivo el resultado.
- Si no es posible la obtención de una muestra piloto, todavía es posible el cálculo del tamaño muestral si definimos el radio del intervalo como una fracción de la desviación típica de la población,
$$
d=K \sigma
$$
y utilizamos como fórmula para calcular el tamaño muestral
$$
n=\frac{z_{a / 2}^{2} \sigma^{2}}{d^{2}}
$$
donde $z_{\alpha / 2}$ es el valor de una distribución Normal estándar que deja a su derecha una probabilidad de $\alpha / 2$.
La fórmula final que resulta es:
$$
n=\frac{z_{\alpha / 2}^{2}}{K^{2}}
$$
- La última posibilidad es sustituir en la expresión (1) el valor de la desviación típica por el valor máximo que se considere que pueda tomar basado en datos bibliográficos previos o en el criterio del investigador.
#### Calculo del tamaño muestral usando R
Como en el caso anterior es posible implementar las fórmulas directamente con R o usar algún paquete específico `samplesize`o el mismo `DescTools` que incorpora la función `MeanCIn` que, a partir del intérvalo de confianza centrado en la media y la desviación retorna el tamaño necesario para alcanzar una precisión determinada.
Por ejemplo si en el ejemplo anterior, con una media de 49.53 y una desviación de 9,81 se desa una precisión (anchura del intérvalo entre dos) de 3 con confianza del 90%:
```{r BinomialCI}
library(DescTools)
prec<- 3
m <- 49.53
conf =0.9
MeanCIn(ci=c(m-prec, m+prec), sd=9.8, conf.level=conf)
conf =0.95
MeanCIn(ci=c(m-prec, m+prec), sd=9.8, conf.level=conf)
conf =0.99
MeanCIn(ci=c(m-prec, m+prec), sd=9.8, conf.level=conf)
prec <- 2; conf <- 0.95
MeanCIn(ci=c(m-prec, m+prec), sd=9.8, conf.level=conf)
```
## Intervalo de confianza para la varianza de una distribución Normal
Dada una variable aleatoria con distribución Normal $\mathrm{N}(\mu ; \sigma)$, el objetivo es la construcción de un intervalo de confianza para el parámetro $\sigma$, basado en una muestra de tamaño $n$ de la variable.
A partir del estadístico
$$
\mathrm{X}^{2}=\frac{(n-1) \hat{S}^{2}}{\sigma^{2}}
$$
la fórmula para el intervalo de confianza, con nivel de confianza $1-\alpha$ es la siguiente
$$
\frac{(n-1) \hat{S}^{2}}{\chi_{\alpha a / 2}^{2}} \leq \sigma^{2} \leq \frac{(n-1) \hat{S}^{2}}{\chi_{1-\alpha / 2}^{2}}
$$
Donde $\chi_{\alpha / 2}^{2}$ es el valor de una distribución Ji al cuadrado con $n-1$ grados de libertad que deja a su derecha una probabilidad de $\alpha / 2$.
Por ejemplo, dados los datos siguientes:
- Distribución poblacional: Normal
- Tamaño de muestra: 10
- Confianza deseada para el intervalo: $95 \%$
- Varianza muestral corregida: 38,5
Un intervalo de confianza al $95 \%$ para la varianza de la distribución viene dado por:
$$
\frac{9 \cdot 38,5}{19,031} \leq \sigma^{2} \leq \frac{9 \cdot 38,5}{2,699}
$$
que resulta, finalmente
$$
\sigma^{2} \in(18.207 ; 128,381)
$$
## Intervalo de confianza para una proporción
Dada una variable aleatoria con distribución Binomial $\mathrm{B}(n, p)$, el objetivo es la construcción de un intervalo de confianza para el parámetro $p$, basada en una observación de la variable que ha dado como valor $x$. El mismo caso se aplica si estudiamos una Binomial $\mathrm{B}(1, p)$ y consideramos el número de veces que ocurre el suceso que define la variable al repetir el experimento $n$ veces en condiciones de independencia.
Existen dos alternativas a la hora de construir un intervalo de confianza para $p$ :
- Considerar la aproximación asintótica de la distribución Binomial en la distribución Normal.
- Utilizar un método exacto.
### Aproximación asintótica
Tiene la ventaja de la simplicidad en la expresión y en los cálculos, y es la más referenciada en la mayoría de textos de estadística. Se basa en la aproximación
$$
X \sim B(n, p) \rightarrow N(n p, \sqrt{n p q)}
$$
que, trasladada a la frecuencia relativa, resulta
$$
\hat{p}=X / n \rightarrow N(p, \sqrt{p q / n})
$$
Tomando como estadístico pivote
$$
Z=\frac{\hat{p}-p}{\sqrt{\hat{p} \hat{q} / n}}
$$
que sigue una distribución $\mathrm{N}(0,1)$, y añadiendo una corrección por continuidad al pasar de una variable discreta a una continua, se obtiene el intervalo de confianza asintótico:
$$
\hat{p} \pm z_{c / 2 / 2} \sqrt{\frac{\hat{p} \hat{q}}{n}}+\frac{1}{2 n}
$$
donde $z_{\alpha / 2}$ es el valor de una distribución Normal estándar que deja a su derecha una probabilidad de $\alpha / 2$ para un intervalo de confianza de $(1-\alpha) \cdot 100 \%$. Las condiciones generalmente aceptadas para considerar válida la aproximación asintótica anterior son:
$$
n \geq 30 \quad ; \quad n \hat{p} \geq 5 \quad ; \quad n \hat{q} \geq 5
$$
El intervalo obtenido es un intervalo asintótico y por tanto condicionado a la validez de la aproximación utilizada. Una información más general sobre los intervalos de confianza asintóticos puede encontrase aquí.
#### Cálculo con R
Para ver como calcular un intervalo de confianza asintótico puede consultarse el ejemplo en [R-Tutor](r-tutor.com): [interval-estimate-population-proportion](https://www.r-tutor.com/elementary-statistics/interval-estimation/interval-estimate-population-proportion)
### Intervalo exacto
Aun cuando las condiciones anteriores no se verifiquen, es posible la construcción de un intervalo exacto, válido siempre pero algo más complicado en los cálculos. Es posible demostrar que un intervalo exacto para el parámetro $p$ viene dado por los valores siguientes:
$$
p_{1}=\frac{X}{(n-X+1) F_{\alpha(2,2(n-X+1), 2 X}+X} ; p_{2}=\frac{(X+1) F_{\alpha(2), 2(X+1), 2(n-X)}}{(n-X)+(X+1) F_{\alpha(2,2,(X+1), 2(n-R)}}
$$
donde $F_{\alpha / 2, a, b}$ es el valor de una distribución $F$ de Fisher-Snedecor con a y b grados de libertad que deja a su derecha una probabilidad de $\alpha / 2$ para un intervalo de confianza de $(1-\alpha) \cdot 100 \%$.
Una justificación de los intervalos de confianza exactos para distribuciones discretas puede encontrarse aquí.
#### Cálculo con R
En general los paquetes de R implementan múltiples métodos exactos. Este es el caso de `DescTools`que implementa más de una docena de métodos (podéis hacer `? DescTools::BinomCI` para aprender cuales son).
Por ejemplo si hemos obtenido un valor de 37 con un tamaño muestral de 43 (es decir una estimación puntual de 37/43 = ```r 37/43`) el intervalo de confianza se calculará como:
```{r}
BinomCI(x=37, n=43,
method=eval(formals(BinomCI)$method)) # return all methods
```
Ante la duda de que método usar lo mejor es usar el métod por defecto (el primero de la lista anterior).
```{r}
BinomCI(x=37, n=43)
```
### Tamaño muestral para una proporción
A partir de la fórmula para el intervalo de confianza
$$
\hat{p} \pm z_{a / 2 / 2} \sqrt{\frac{\hat{p} \hat{q}}{n}}+\frac{1}{2 n}
$$
podemos determinar el tamaño muestral necesario con el fin de que la precisión de la estimación sea la deseada con antelación. La fórmula que resulta es
$$
n=\frac{z_{\alpha / 2}^{2} p q}{d^{2}}
$$
donde $d$ es el radio máximo deseado para el intervalo y $z_{\alpha / 2}$ tiene el significado habitual. Nótese que no hemos tenido en cuenta el último término de la primera expresión.
La aplicación efectiva de la fórmula obtenida requiere el conocimiento de $p$ y de $q=(1-p)$, valores que nos son desconocidos en la práctica. Para solventar este problema tenemos dos alternativas:
- Considerar el caso más desfavorable posible, es decir, aquel que verifique que $p \cdot q$ da el valor máximo posible. Es fácil verificar que esto sucede si $p=0,5$. En este caso el producto es $p \cdot q=$ 0,25.
- Utilizar un valor de referencia obtenido a partir de una muestra piloto o a partir de datos bibliográficos y utilizar el valor compatible con la información más cercano a $p=0,5$.
A partir de la fórmula puede comprobarse que el tamaño muestral requerido, una vez fijada $p$, crece al incrementarse la confianza del intervalo y crece también al incrementarse la precisión (al disminuir el radio).
#### Cálculo con R
Para ver como determinar el tamaño muestral necesario para construir un intervalo de confianza para una proporción, pueden consultarse los mismos recursos
- Para el cálculo del tamaño muestral asociado a un intérvalo de confianza asintótico tótico puede consultarse [R-Tutor](r-tutor.com): [sampling-size-population-proportion](https://www.r-tutor.com/elementary-statistics/interval-estimation/sampling-size-population-proportion)
## Intervalo de confianza para el parámetro de una distribución de Poisson
Dada una variable aleatoria con distribución de Poisson $\mathrm{P}(\lambda)$, el objetivo es la construcción de un intervalo de confianza para el parámetro $\lambda$, basado en una muestra de tamaño $n$ de la variable.
Del mismo modo que para una proporción, existe una solución exacta y una aproximación asintótica al intervalo de confianza para el parámetro $\lambda$.
### Aproximación asintótica
Para valores del parámetro $\lambda$ grandes, la distribución de Poisson puede aproximarse a una distribución Normal según:
$$
P(\lambda) \rightarrow N(\lambda, \sqrt{\lambda})
$$
Dada una muestra de $n$ observaciones independientes distribuidas según una Poisson de parámetro $\lambda, X_{\mathrm{i}}$ $\sim \mathrm{P}(\lambda)$, como la distribución de Poisson es aditiva en $\lambda$ se cumple que $\sum X_{i} \sim P(n \lambda)$. Esta última distribución, si procede, podrá aproximarse a una distribución Normal:
$$
\sum_{i=1}^{n} X_{i} \rightarrow N(n \lambda \sqrt{n \lambda})
$$
Por tanto, es inmediato comprobar que:
$$
P\left(-z_{\alpha / 2} \sqrt{\lambda / n}<\bar{X}-\lambda<z_{\alpha / 2} \sqrt{\lambda / n}\right)=1-\alpha
$$
donde $z_{\alpha / 2}$ es el valor de una distribución Normal standard que deja a su derecha una probabilidad de $\alpha / 2$.
La desigualdad es equivalente a
$$
\bar{X}^{2}-2 \lambda \bar{X}+\lambda^{2}<\frac{\lambda}{n} z_{a / 2}^{2}
$$
El valor de $\lambda$ estará comprendido entre las dos raíces de la ecuación de segundo grado
$$
\lambda^{2}+\lambda\left(-2 \bar{X}-\frac{z_{\alpha z / 2}^{2}}{n}\right)+\bar{X}^{2}=0
$$
Y, finalmente, se obtiene el intervalo de confianza
$$
\lambda \in\left(\bar{X}+\frac{z_{\alpha / 2}^{2}}{2 n} \mp \sqrt{\bar{X} \frac{z_{\alpha / 2}^{2}}{n}+\frac{z_{\alpha / 2}^{4}}{4 n^{2}}}\right)
$$
### Intervalo exacto
Si no son aplicables las condiciones para utilizar la aproximación asintótica puede utilizarse la solución exacta, válida siempre. Puede demostrarse que el intervalo exacto para el parámetro $\lambda$ viene dado por
$$
\lambda_{1}=\frac{1}{2 n} \chi_{1-a / 2}^{2}\left(2 \cdot \sum_{i=1}^{n} \chi_{i}\right) ; \lambda_{2}=\frac{1}{2 n} \chi_{a / 2}^{2}\left(2 \cdot \sum_{i=1}^{n} \chi_{i}+2\right)
$$
donde $\chi_{\alpha / 2}^{2}(n)$ es el valor de una distribución Ji al cuadrado con $n$ grados de libertad que deja a su derecha una probabilidad de $\alpha / 2$.
### Tamaño de muestra para el parámetro de una distribución de Poisson
Para determinar el tamaño muestral, se parte de la aproximación
$$
P(\lambda) \rightarrow N(\lambda, \sqrt{\lambda})
$$
La expresión que resulta para el tamaño muestral es:
$$
n=\frac{z_{a / 2}^{2} \lambda}{d^{2}}
$$
Como suele ocurrir, la fórmula depende del parámetro desconocido y las alternativas vuelven a ser:
- Utilizar una muestra piloto o datos externos para estimar $\lambda$ y tomar el valor máximo que se considere que puede valer.
- Conformarse con una precisión del tipo $d^{2}=K^{2} \lambda$, de manera que la fórmula queda reducida a
$$
n=z_{a / 2}^{2} / K^{2}
$$
## Intervalo de confianza para la diferencia de medias de distribuciones normales independientes.
### Varianza común
#### Caso de varianza desconocida y común
Supondremos la existencia de dos poblaciones sobre las que una variable determinada sigue una distribución Normal con idéntica varianza en las dos. Sobre la población 1, la variable sigue una distribución $\mathrm{N}\left(\mu_{1}, \sigma\right)$ y, sobre la población 2 , sigue una distribución $N\left(\mu_{2}, \sigma\right)$. Igualmente supondremos que disponemos de dos muestras aleatorias independientes, una para cada población, de tamaños muestrales $n_{1}$ y $n_{2}$ respectivamente.
El objetivo es construir un intervalo de confianza, con nivel de confianza ( $1-\alpha$ ) $100 \%$, para la diferencia de medias
$$
\mu_{1}-\mu_{2}
$$
El método se basa en la construcción de una nueva variable $D$, definida como la diferencia de las medias muestrales para cada población
$$
D=\bar{X}_{1}-\bar{X}_{2}
$$
Esta variable, bajo la hipótesis de independencia de las muestras, sigue una distribución Normal de esperanza
$$
\mu_{1}-\mu_{2}
$$
y de varianza
$$
\operatorname{Var}(D)=\sigma^{2}\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)
$$
La estimación conjunta, a partir de las dos muestras, de la varianza común viene dada por la expresión
$$
\hat{S}_{T}^{2}=\frac{\left(n_{1}-1\right) \cdot \hat{S}_{1}^{2}+\left(n_{2}-1\right) \cdot \hat{S}_{2}^{2}}{n_{1}+n_{2}-2}
$$
$y$, utilizando la propiedad de que la variable
$$
\frac{\left(n_{1}+n_{2}-2\right) \hat{S}_{T}^{2}}{\sigma^{2}}
$$
sigue una distribución $\chi^{2}$ con $\mathrm{n}_{1}+\mathrm{n}_{2}-2$ grados de libertad, podemos construir un estadístico pivote que siga una distribución $t$ de Student y que nos proporciona la fórmula siguiente para el intervalo de
confianza para la diferencia de medias:
$$
\left(\bar{X}_{1}-\bar{X}_{2}\right)-t_{a / 2} \cdot \hat{S}_{T} \cdot \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}} \leq \mu_{1}-\mu_{2} \leq\left(\bar{X}_{1}-\bar{X}_{2}\right)+t_{a k 2} \cdot \hat{S}_{T} \cdot \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}
$$
donde $t_{\alpha / 2}$ es el valor de una distribución $t$ de Student con $\mathrm{n}_{1}+\mathrm{n}_{2}-2$ grados de libertad que deja a su derecha una probabilidad de $\alpha / 2$.
## Intervalo de confianza para la diferencia de medias de distribuciones normales independientes.
### Varianza diferente
### Caso de varianzas desconocidas y diferentes
Cuando tenemos razones para suponer que la varianza no es común, no podemos utilizar el estadístico anterior. Hemos de destacar que, en esta situación, no existe un método exacto que permita obtener el intervalo de confianza deseado. Lo más que tenemos son aproximaciones a la solución. Un intervalo aproximado con nivel de confianza $(1-\alpha) \cdot 100 \%$ es
$$
\left(\bar{X}_{1}-\bar{X}_{2}\right)-t_{\alpha / 2} \cdot \sqrt{\frac{\hat{S_{1}}}{n_{1}}+\frac{\hat{S}_{2}}{n_{2}}} \leq \mu_{1}-\mu_{2} \leq\left(\bar{X}_{1}-\bar{X}_{2}\right)+t_{\alpha / 2} \cdot \sqrt{\frac{\hat{S_{1}}}{n_{1}}+\frac{\hat{S}_{2}}{n_{2}}},
$$
donde $\hat{S}_{1}$ y $\hat{S}_{2}$ son las varianzas muestrales corregidas para cada población y donde $t_{\alpha / 2}$ es el valor de una distribución $t$ de Student con $g$ grados de libertad, donde
$$
g=\frac{\left(\hat{S}_{1}^{2} / n_{1}+\hat{S}_{2}^{2} / n_{2}\right)^{2}}{\frac{\left(\hat{S}_{1}^{2} / n_{1}\right)^{2}}{n_{1}+1}+\frac{\left(\hat{S}_{2}^{2} / n_{2}\right)^{2}}{n_{2}+1}}-2
$$
Si los grados de libertad resultantes son decimales, puede optarse por hacer una interpolación entre los dos valores enteros más cercanos o bien por tomar el valor más desfavorable, aquel que suponga un radio mayor para el intervalo de confianza y que coincide con el redondeo a la baja de los grados de libertad.
### Intérvalos de confianza y decisiones estadísticas
Es, por tanto, importante, antes de proceder a la obtención del intervalo de confianza para la diferencia de medias, verificar si la suposición de homogeneidad de varianzas es razonable o no. Una manera de verificarlo consiste en la construcción del intervalo para el cociente de varianzas, tal como se explica más adelante, y comprobar si en dicho intervalo está incluido el valor 1. La inclusión de la unidad dentro del intervalo resultante, la debemos interpretar en el sentido de que la muestra no proporciona evidencia suficiente para afirmar que las varianzas son diferentes y, por tanto, no es incorrecta la utilización del intervalo para varianza común. De manera análoga, el intervalo de confianza para la diferencia de medias nos puede servir para verificar la suposición de que las medias son iguales o diferentes; en este caso, si el valor 0 está incluido en el intervalo, la conclusión es que la muestra no proporciona evidencia suficiente para afirmar que las medias son diferentes.
Nota importante: El párrafo anterior nos introduce en la posibilidad de utilizar intervalos de confianza para verificar o rechazar ciertas suposiciones sobre el parámetro o los parámetros de las distribuciones. La técnica específica para la verificación de dichas suposiciones o hipótesis a partir de muestras aleatorias se verá en los temas siguientes, donde se introduce el concepto de contraste de hipótesis, sin embargo no podemos dejar de mencionar aquí que los intervalos de confianza nos pueden proporcionar una técnica alternativa o complementaria para la resolución de contrastes.
## Intervalo de confianza para el cociente de varianzas de distribuciones normales independientes
Supondremos la existencia de dos poblaciones sobre las que una determinada variable sigue una distribución Normal. Sobre la población 1 la variable sigue una distribución $N\left(\mu_{1}, \sigma_{1}\right)$ y sobre la población 2 sigue una distribución $\mathrm{N}\left(\mu_{2}, \sigma_{2}\right)$. Igualmente supondremos que disponemos de dos muestras aleatorias independientes, una para cada población, de tamaños muestrales $n_{1}$ y $n_{2}$ respectivamente.
El objetivo es construir un intervalo de confianza, con nivel de confianza ( $1-\alpha$ ) • $100 \%$, para el cociente de varianzas
$$
\frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}
$$
El estadístico pivote utilizado es
$$
F=\frac{\hat{S}_{1}^{2} / \sigma_{1}^{2}}{\hat{S}_{2}^{2} / \sigma_{2}^{2}}
$$
que sigue una distribución $F$ de Fisher con $n_{1}-1$ y $n_{2}-1$ grados de libertad.
El intervalo de confianza que resulta es
$$
\frac{\hat{S}_{1}^{2} / \hat{S}_{2}^{2}}{F_{\alpha / 2}} \leq \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \leq \frac{\hat{S}_{1}^{2} / \hat{S}_{2}^{2}}{F_{1-\alpha / 2}}
$$
donde $F_{\alpha / 2}$ es el valor de una distribución $F$ de Fisher-Snedecor con $n_{1}-1$ y $n_{2}-1$ grados de libertad que deja a su derecha una probabilidad de $\alpha / 2$.
## Complementos
### Interpretación geométrica de los intervalos de confianza
Es posible tener una visión gráfica de los intervalos de confianza, los límites del intervalo pueden ser representados por curvas en el plano formado por el parámetro que queremos estimar y el estadístico utilizado para construir el pivote. Esta visión nos puede ayudar en la interpretación y la comprensión de los intervalos o de sus propiedades.
Por ejemplo, el intervalo del $95 \%$ para la esperanza de una distribución Normal con varianza conocida y para una muestra de tamaño $n=9$, de fórmula
$$
\bar{X}-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}
$$
puede representarse por medio de la figura siguiente:
```{r out.width="80%",fig.align='center', echo=FALSE}
knitr::include_graphics("images/interpretacionGeometrica.png")
```
El eje horizontal representa la media muestral y el eje vertical el valor del intervalo para el parámetro $\mu$. Como puede observarse los límites son líneas rectas y la anchura del intervalo es la misma para cualquier valor de la media.
Veamos ahora la representación gráfica del intervalo para una proporción. La fórmula es
$$
\hat{p} \pm z_{c / 2 / 2} \sqrt{\frac{\hat{p} \hat{q}}{n}}+\frac{1}{2 n}
$$
y, para una muestra de tamaño $n=9$ y un intervalo de confianza del $95 \%$, la gráfica resultante es:
```{r out.width="80%",fig.align='center', echo=FALSE}
knitr::include_graphics("images/freqVsprop.png")
```
El eje horizontal es la frecuencia relativa observada y el eje vertical el intervalo de confianza para la proporción. Podemos notar que la anchura del intervalo varía y que, en el caso más desfavorable, la máxima amplitud se da para una frecuencia observada de 0,5.
### Intervalos para muestras grandes
Bajo ciertas condiciones de regularidad, es posible construir intervalos de confianza asintóticos de una manera bastante general.
Si suponemos que un parámetro $\theta$ tiene una estimación máximo verosímil $\theta^{*}$, la distribución asintótica del estimador, bajo condiciones generales de regularidad, es Normal, de media el valor verdadero del parámetro $\theta$ y varianza igual a la cota de Cramér-Rao $\sigma^{2}\left(\theta^{*}\right)$.
$$
1 / \sqrt{n \mathrm{E}\left(\frac{\partial}{\partial \theta} \ln f(X, \theta)\right)^{2}}=\sigma\left(\theta^{*}\right)
$$
Bajo las suposiciones anteriores, es posible construir un intervalo de confianza asintótico y con nivel de confianza $(1-\alpha) \cdot 100 \%$ a partir de
$$
P\left(-z_{\alpha / 2} \leq \frac{\theta^{*}-\theta}{1 / \sqrt{n \mathrm{E}\left(\frac{\partial}{\partial \theta} \ln f(X, \theta)\right)^{2}}} \leq z_{\alpha / 2}\right)=1-\alpha
$$
donde los valores de $z_{\alpha / 2}$ se calculan a partir de la distribución $N(0,1)$ de forma que $P\left(|Z|>z_{\alpha / 2}\right)=\alpha$.
Es decir, se utiliza como estadístico pivote
| Estadístico pivote | Distribución del estadístico pivote | Observaciones |
| :---: | :---: | :---: |
| $Z=\frac{\theta^{*}-\theta}{\sigma\left(\theta^{*}\right)}$ | N( 0,1 ) | Distribución asintótica, $\theta^{*}$ es la estimación máximo verosimil del parámetro y $\sigma\left(\theta^{*}\right)$ es la cota de Crámer-Rao |
El intervalo de confianza aproximado que resulta es:
$$
\theta^{*}-z_{a / 2} \sigma\left(\theta^{*}\right) \leq \theta \leq \theta^{*}+z_{a / 2} \sigma\left(\theta^{*}\right)
$$
### Intervalos exactos para distribuciones discretas
El procedimiento que permite obtener los intervalos exactos para los parámetros de las distribuciones discretas, por ejemplo los parámetros $\lambda$ de la distribución de Poisson o $p$ de la Binomial, se explica a continuación.
Consideramos que la variable aleatoria discreta tiene por recorrido $\{0,1,2, \ldots\}$ y depende de un parámetro desconocido $\theta$. Si suponemos que se ha obtenido una muestra de tamaño 1 y de valor $k$ (donde $k$ puede ser, por ejemplo, la frecuencia con que se ha presentado un suceso en $n$ experiencias o la suma de $n$ observaciones distribuidas según una distribución de Poisson), se trata de resolver las ecuaciones siguientes:
$$
\begin{aligned}
& \sum_{\substack{i=k \\
k}}^{\infty} P(x=i / \theta)=\alpha / 2 \\
& \sum_{i=0}^{k} P(x=i / \theta)=\alpha / 2
\end{aligned}
$$
Las soluciones $\theta_{1}$ y $\theta_{2}$ constituyen el intervalo de confianza de nivel de confianza $(1-\alpha) \cdot 100 \%$ buscado.
Veamos un ejemplo:
Supongamos que tenemos una variable Binomial con $n=4$ y que una observación nos ha dado $x=2$. ¿Cuál es el intervalo de confianza del $95 \%$ para el parámetro $p$ ?
Hemos de resolver las ecuaciones siguientes:
$$
\begin{aligned}
& P(X=0)+P(X=1)+P(X=2)=\binom{4}{0}(1-p)^{4}+\binom{4}{1} p(1-p)^{3}+\binom{4}{2} p^{2}(1-p)^{2}=0,025 \\
& P(X=2)+P(X=3)+P(X=4)=\binom{4}{2} p^{2}(1-p)^{2}+\binom{4}{3} p^{3}(1-p)+\binom{4}{4} p^{4}=0,025
\end{aligned}
$$
Utilizando un programa de cálculo numérico (el Mathematica, por ejemplo) obtenemos como soluciones significativas $p_{1}=0,932414$, para la primera, y $p_{2}=0,067586$, para la segunda; quedando finalmente el intervalo ( 0,$067586 ; 0,932414$ ).
Podéis comprobar el resultado aquí, tomando $n=4$ y $x=2$.
En la bibliografia existen numerosas tablas para el cálculo de dichos intervalos, pero también son aplicables las fórmulas presentadas para la Binomial y la Poisson.
### Una aproximación diferente para la distribución de Poisson
Hemos visto con anterioridad la construcción del intervalo de confianza para el parámetro $\lambda$ de una distribución de Poisson. Los cálculos y la fórmula del intervalo eran algo complejos, sin embargo, si en lugar de trabajar directamente con la variable, efectuamos una transformación previa, en particular, si trabajamos con la raíz cuadrada de la variable, el problema puede simplificarse notablemente.
Puede demostrarse que
$$
X \rightarrow P(\lambda) \Rightarrow \sqrt{X} \rightarrow N(\sqrt{\lambda} ; 1 / 2)
$$
La transformación de la raíz cuadrada es una transformación estabilizadora de la varianza, la ventaja es que la varianza resultante $(0,25)$ no depende del parámetro $\lambda$ que se ha de estimar, facilitando la obtención de resultados. En nuestro caso,
$$
\sqrt{\sum_{i=1}^{n} X_{i}} \rightarrow N\left(\sqrt{n \lambda_{3}} 1 / 2\right)
$$
y se obtiene fácilmente el intervalo de confianza
$$
\sqrt{\sum_{i=1}^{n} X_{i}}-\frac{z_{\alpha / 2}}{2}<\sqrt{n \lambda}<\sqrt{\sum_{i=1}^{n} X_{i}}+\frac{z_{\alpha / 2}}{2}
$$
donde $z_{\alpha}$ es el valor de una distribución Normal estándar que deja a su derecha una probabilidad de $\alpha$.
Y, si despejamos,
$$
\lambda \in \frac{1}{n}\left(\frac{z_{\alpha / 2}}{2} \pm \sqrt{\sum_{i=1}^{n} X_{i}}\right)^{2}
$$
Comparad la fórmula obtenida con la desarrollada en el caso de no utilizar la transformación.
### Aproximación mediante Chébishev
El teorema de Chébishev nos proporciona una aproximación al problema de construcción de intervalos de confianza para los valores de una variable aleatoria independientemente de su distribución. No es por tanto una estimación paramétrica a través de intervalos de confianza, sino únicamente una manera de acotar la probabilidad de una variable aleatoria alrededor de su esperanza.
La ventaja del enfoque basado en Chébishev es que no es necesaria ninguna suposición sobre la distribución de la variable, la única condición es la existencia de esperanza y de varianza finita para la variable aleatoria.
El inconveniente es la falta de precisión de la estimación, puesto que trabajamos con una cota superior para la probabilidad de desviación de una variable aleatoria respecto a su esperanza.
La fórmula utilizada es
$$
P(|X-E(X)| \geq h) \leq \frac{\operatorname{Var}(X)}{h^{2}}
$$
donde $h>0$.
Una vez que se dispone de los valores de la esperanza y de la varianza de la variable, es posible fijar la probabilidad deseada y despejar el valor de $h$ que nos proporciona el radio del intervalo centrado en la esperanza.
$$
h^{2}=\frac{\operatorname{Var}(X)}{1-\text { Probabilidad deseada del intervalo }}
$$
El resultado final se interpreta en el sentido de que la probabilidad de que la variable se encuentre dentro del intervalo construido es mayor o igual que la probabilidad fijada.