generated from jtr13/bookdown-template
-
Notifications
You must be signed in to change notification settings - Fork 1
/
07-estimacionPuntual.Rmd
1440 lines (997 loc) · 78.2 KB
/
07-estimacionPuntual.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
# Estimación puntual
## El problema de la estimación puntual
Informalmente, la estimación de parámetros consiste en buscar aproximaciones a los valores de estos, calculables a partir de una muestra, que sean lo más precisas posible. El problema, claro, es que para medir cuán precisas son estas aproximaciones sería necesario conocer los valores de los parámetros y, como estos son siempre desconocidos, debemos basarnos en el uso de estimadores con buenas propiedades que, en algún sentido, nos garanticen esa proximidad.
Más formalmente podemos plantear el problema de la siguiente manera:
Sea $X$ una v.a. con distribución $F_{\theta}$ donde $\theta=\left(\theta_{1}, \ldots, \theta_{k}\right) \in \Theta \subset \mathbb{R}^{k}$ y sea $X_{1}, X_{2}, \ldots, X_{n}$ una muestra de $n$ v.a. de $X$. El problema de la estimación puntual consiste en obtener alguna aproximación de $\theta$ en base a la información disponible en la muestra mediante un estimador de $\theta$ que definimos a continuación.
Definició 2.1 Sea $X_{1}, X_{2}, \ldots, X_{n}$ una muestra aleatoria simple de $X$ con distribución $F_{\theta}$ donde $\theta \in \Theta \subset \mathbb{R}^{k}$. Un estadístico $T\left(X_{1}, X_{2}, \ldots, X_{n}\right)$ se denomina un estimador puntual de $\theta$ si $T$ es una función definida en el espacio muestral y cuyos valores pertenecen al mismo espacio paramétrico $\Theta$ que los parámetros."
Ejemplo 2.1.1 Sea $X_{1}, X_{2}, \ldots, X_{n}$ una muestra aleatoria simple de una v.a. de Poisson $X \sim P(\lambda)$. Para estimar $\lambda$ podemos utilizar:
$$
\begin{aligned}
& T_{1}=\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i} \\
& T_{2}=s^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}
\end{aligned}
$$
ya que $E(X)=\operatorname{var}(X)=\lambda$, pero también
$$
\begin{aligned}
T_{3} & =\frac{2}{n(n+1)} \sum_{i=1}^{n} X_{i} \cdot i \\
T_{4} & =X_{i}
\end{aligned}
$$
Ejemplo 2.1.2 Sea $X_{1}, X_{2}, \ldots, X_{n}$ una m.a.s. de $X \sim B(1, p)$, con $p$ desconocido. Podemos estimar p de las siguientes maneras:
$$
\begin{aligned}
& T_{1}=\bar{X}=(1 / n) \sum_{i=1}^{n} X_{i} \\
& T_{2}=1 / 2 \\
& T_{3}=\left(X_{1}+X_{2}\right) / 2
\end{aligned}
$$
En cada caso resulta claro que algunos estimadores no son muy razonables mientras que la decisión entre los otros no está necesariamente clara. Básicamente debemos ocuparnos de dos problemas:
- Dado un modelo estadístico $\left\{X \sim F_{\theta}: \theta \in \Theta\right\}$, ¿cómo podemos obtener estimadores de $\theta$ que tengan "buenas" propiedades?
- Dado varios estimadores para un mismo parámetro ¿cómo podemos escoger el mejor en base a algún criterio?
Para poder alcanzar estos dos objetivos empezaremos por estudiar las propiedades de los estimadores, así como las medidas de optimalidad que podremos utilizar para decidir entre varios estimadores.
De entrada nos restringiremos al caso en que $\Theta \subseteq \mathbb{R}$ o en que queremos aproximar alguna función $g(\theta)$ de los parámetros donde $g$ es del tipo $g: \Theta \rightarrow$ $\mathbb{R}$.
### Criterios de optimalidad de estimadores. El Riesgo
Una forma de poder comparar entre diversos estimadores consiste en definir una función de pérdida que nos permita cuantificar de alguna manera la pérdida, o coste asociado, al estimar el valor real del parámetro, es decir, $\theta$, mediante la aproximación que proporciona un estimador, es decir, $t$.
Definició 2.2 Una función de pérdida es una aplicación
$$
\begin{aligned}
L: & \Theta \times \Theta \rightarrow \mathbb{R} \\
& (\theta, t) \rightarrow L(\theta, t)
\end{aligned}
$$
La función de pérdida cuantifica el coste asociado a la desviación entre un estimador $t$ y el valor verdadero del parámetro $\theta$.
Para ser válida, debe cumplir los siguientes criterios: (a), (b), (c):
a) $L(\theta, t) \geq 0, \quad \forall \theta, t \in \Theta$
b) $L(\theta, t)=0$, si $\theta=t$
c) $L(\theta, t) \leq L\left(\theta, t^{\prime}\right)$, si $d(\theta, t) \leq d\left(\theta, t^{\prime}\right)$ donde $d$ es una distancia en $\Theta$.
Por ejemplo, son funciones de pérdida:
$$
\begin{gathered}
L_{1}(\theta, t)=|\theta-t| \quad L_{2}(\theta, t)=(\theta-t)^{2} \\
L_{3}(\theta, t)=\left|\frac{\theta-t}{\theta}\right| \quad L_{4}(\theta, t)=\left(\frac{\theta-t}{\theta}\right)^{2} \\
L_{5}(\theta, t)= \begin{cases}c>0 & \text { si }|\theta-t|>\epsilon \\
0 & \text { si }|\theta-t| \leq \epsilon\end{cases}
\end{gathered}
$$
<!-- Los valores que toma la función de pérdida dependen de los valores del estimador y de los del parámetro. Para una muestra dada podemos conocer el valor que toma el estimador, pero no el valor del parámetro. Una posibilidad que nos permitirá comparar los posibles estimadores, para un valor dado del parámetro, consiste en promediar los diferentes valores de $L(\theta, t)$ sobre todos los posibles valores de $T$. A este promedio lo llamamos el riesgo del estimador $T$ asociado a cada valor posible $\theta$ del parámetro y lo escribimos $R_{T}(\theta)$. -->
<!-- Definició 2.3 Sea $H_{\theta}(t)$ la distribución en el muestreo de T, es decir -->
<!-- $$ -->
<!-- T\left(X_{1}, X_{2}, \ldots, X_{n}\right) \sim H_{\theta}(t)=P_{\theta}(T \leq t) -->
<!-- $$ -->
<!-- y $h_{\theta}(t)$ representa la función de densidad de probabilidad, si $H_{\theta}(t)$ es absolutamente continua, o $h_{\theta}\left(t_{i}\right)$ la función de masa de probabilidad si $H_{\theta}\left(t_{i}\right)$ es discreta. Entonces el riesgo del estimador $T$ para estimar $\theta$ se define como: -->
<!-- $$ -->
<!-- \begin{aligned} -->
<!-- R_{T}(\theta) & =E_{\theta}\left[L\left(\theta, T\left(X_{1}, X_{2}, \ldots, X_{n}\right)\right)\right]=\int_{\mathbb{R}} L(\theta, t) d H_{\theta}(t) \\ -->
<!-- & = \begin{cases}\int_{-\infty}^{+\infty} L(\theta, t) h_{\theta}(t) d t & \text { si } H_{\theta}(t) \text { es absolutamente continua, } \\ -->
<!-- \sum_{\forall t_{i}} L(\theta, t) h_{\theta}\left(t_{i}\right) & \text { si } H_{\theta}(t) \text { es discreta }\end{cases} -->
<!-- \end{aligned} -->
<!-- $$ -->
<!-- El riesgo permite comparar dos estimadores. -->
<!-- Definició 2.4 Diremos que un estimador $T_{1}$ es preferible a otro $T_{2}$ si: -->
<!-- $$ -->
<!-- \begin{aligned} -->
<!-- & R_{T_{1}}(\theta) \leq R_{T_{2}}(\theta), \forall \theta \in \Theta, y \\ -->
<!-- & R_{T_{1}}(\theta)<R_{T_{2}}(\theta), \text { para algún } \theta \in \Theta . -->
<!-- \end{aligned} -->
<!-- $$ -->
<!-- Ejemplo 2.1.3 Sea $X_{1}, X_{2}, \ldots, X_{n}$ una muestra aleatoria simple de una distribución uniforme $X \sim U(0, \theta)$. El parámetro que nos interesa estimar es $\theta$, el máximo de la distribución. Un estimador razonable puede ser: -->
<!-- $$ -->
<!-- T_{1}\left(X_{1}, X_{2}, \ldots, X_{n}\right)=\max \left\{X_{1}, X_{2}, \ldots, X_{n}\right\} -->
<!-- $$ -->
<!-- el máximo de la muestra, o un múltiplo de este: -->
<!-- $$ -->
<!-- T_{k}\left(X_{1}, X_{2}, \ldots, X_{n}\right)=k T_{1}\left(X_{1}, X_{2}, \ldots, X_{n}\right) -->
<!-- $$ -->
<!-- La distribución en el muestreo de $T_{1}\left(X_{1}, X_{2}, \ldots, X_{n}\right)$ es -->
<!-- $$ -->
<!-- \begin{aligned} -->
<!-- H_{\theta}(t) & =P_{\theta}\left[T_{1} \leq t\right]=P_{\theta}\left[\max _{1 \leq i \leq n}\left\{X_{i}\right\} \leq t\right] \\ -->
<!-- & =P_{\theta}\left[\left(X_{1} \leq t\right) \cap \cdots \cap\left(X_{n} \leq t\right)\right]=\prod_{i=1}^{n} P_{\theta}\left[X_{i} \leq t\right]=\left(\frac{t}{\theta}\right)^{n} -->
<!-- \end{aligned} -->
<!-- $$ -->
<!-- si $t \in(0, \theta)$, y su función de densidad es -->
<!-- $$ -->
<!-- h_{\theta}(t)=H_{\theta}^{\prime}(t)=\frac{n}{\theta}\left(\frac{t}{\theta}\right)^{n-1} -->
<!-- $$ -->
<!-- La esperanza de $T_{1}$ vale: -->
<!-- $$ -->
<!-- E_{\theta}\left(T_{1}\right)=\int_{0}^{\theta} t \cdot\left[\frac{n}{\theta}\left(\frac{t}{\theta}\right)^{n-1}\right] d t=\left.\frac{n}{\theta^{n}} \frac{t^{n+1}}{n+1}\right|_{0} ^{\theta}=\frac{n}{n+1} \theta -->
<!-- $$ -->
<!-- y el momento de segundo orden -->
<!-- $$ -->
<!-- E_{\theta}\left(T_{1}^{2}\right)=\int_{0}^{\theta} t^{2} \cdot\left[\frac{n}{\theta}\left(\frac{t}{\theta}\right)^{n-1}\right] d t=\frac{n}{n+2} \theta^{2} -->
<!-- $$ -->
<!-- Si ahora fijamos una función de pérdida podemos comparar los dos estimadores. Tomamos como función de pérdida el error relativo en la estimación al cuadrado: -->
<!-- $$ -->
<!-- L_{4}(\theta, t)=\frac{(\theta-t)^{2}}{\theta^{2}} -->
<!-- $$ -->
<!-- El riesgo de $T_{k}$ para estimar $\theta$ será -->
<!-- $$ -->
<!-- \begin{aligned} -->
<!-- R_{T_{k}}(\theta) & =E_{\theta}\left[\frac{\left(\theta-T_{k}\right)^{2}}{\theta^{2}}\right]=E_{\theta}\left[1-\frac{2}{\theta} T_{k}+\frac{1}{\theta^{2}} T_{k}^{2}\right] \\ -->
<!-- & =1-\frac{2}{\theta} E_{\theta} T_{k}+\frac{1}{\theta^{2}} E_{\theta} T_{k}^{2}=1-\frac{2 n}{n+1} k+\frac{n}{n+2} k^{2} -->
<!-- \end{aligned} -->
<!-- $$ -->
<!-- Vemos que el riesgo es una función que depende de $k$ y que, como es una parábola $a k^{2}+b k+c$, con $a=n /(n+2), b=-2 n /(n+1)$ y $c=1$, alcanza un mínimo absoluto en el punto de abscisa -->
<!-- $$ -->
<!-- -\frac{b}{2 a}=\frac{n+2}{n+1} -->
<!-- $$ -->
<!-- Por lo tanto, entre los múltiplos de $T_{1}$, el mejor estimador en el sentido de la función de pérdida elegida $L_{4}(\theta, t)=(\theta-t)^{2} / \theta^{2}$ es -->
<!-- $$ -->
<!-- \frac{n+2}{n+1} \max \left\{X_{1}, X_{2}, \ldots, X_{n}\right\} -->
<!-- $$ -->
<!-- El ejemplo anterior es atípico, pues un solo estimador minimiza el riesgo para todos los valores de $\theta$, ya que el riesgo obtenido no depende de $\theta$. A menudo nos encontraremos con que los estimadores no son comparables, ya que el riesgo de uno es inferior al del otro para algunos valores del parámetro, mientras que la situación se invierte para otros valores. Esto hace que este criterio sea limitado, en el sentido de que no es un criterio generalmente bueno para encontrar un estimador óptimo sino para hacer una comparación puntual entre dos estimadores. -->
### El error cuadrático medio
Una de las funciones de pérdida más usuales es la función de pérdida cuadrática $L_{2}(\theta, t)=(\theta-t)^{2}$. Uno de los motivos de su uso es que el riesgo asociado a esta función de pérdida $E_{\theta}\left[(\theta-T)^{2}\right]$, que llamamos error cuadrático medio $E Q M_{T}$, representa una medida de la variabilidad del estimador $T$ en torno a $\theta$ semejante a la medida de dispersión en torno a la media que representa la varianza.
Además, del desarrollo de esta expresión se obtiene un interesante resultado que muestra cuáles pueden ser las propiedades más interesantes para un estimador.
Sea $\left\{X \sim F_{\theta}: \theta \in \Theta\right\}$ y sea $T$ un estimador de $\theta$. El error cuadrático medio de $T$ para estimar $\theta$ vale
$$
E Q M_{T}(\theta)=E_{\theta}\left[(\theta-T)^{2}\right]=E\left[\theta^{2}-2 \theta T+T^{2}\right]=\theta^{2}-2 \theta E_{\theta}(T)+E_{\theta}\left(T^{2}\right)
$$
Ahora, sumando y restando $\left(E_{\theta}(T)\right)^{2}$, obtenemos
$$
\begin{aligned}
E Q M_{T}(\theta) & =E_{\theta}\left(T^{2}\right)-\left(E_{\theta}(T)\right)^{2}+\left(E_{\theta}(T)\right)^{2}+\theta^{2}-2 \theta E_{\theta}(T)= \\
& =\operatorname{var}(T)+\left(E_{\theta}(T)-\theta\right)^{2}
\end{aligned}
$$
El término $\left(E_{\theta}(T)-\theta\right)^{2}$ es el cuadrado del sesgo de $T$, que se define como
$$
b_{\theta}(T)=E_{\theta}(T)-\theta
$$
Definició 2.5 El error cuadrático medio $E Q M_{T}(\theta)$, o simplemente $E Q M$, de un estimador $T$ para estimar el parámetro $\theta$ es la suma de su varianza más el cuadrado de la diferencia entre su valor medio y el verdadero valor del parámetro, que llamamos sesgo.
Si en la búsqueda de estimadores de mínimo riesgo nos basamos en la función de pérdida cuadrática, parece que los estimadores más deseables deberían ser aquellos en los que la varianza y el sesgo sean lo más pequeños posibles. Idealmente, quisiéramos reducir ambas cantidades a la vez. En la práctica, sin embargo, observamos que, en general, no suele ser posible reducir simultáneamente la varianza y el sesgo. Además, incluso si fuera práctico calcular el $E Q M$ para cada estimador, encontraríamos que, para la mayoría de las familias de probabilidad $P_{\theta}$, no existiría ningún estimador que minimizase el $E Q M$ para todos los valores de $\theta$. Es decir, que un estimador puede tener un $E Q M$ mínimo para algunos valores de $\theta$, mientras que otro lo tendrá en otros valores de $\theta$.
Ejemplo 2.1.4 Sea $X_{1}, X_{2}, \ldots, X_{n}$ una muestra aleatoria simple de $X \sim$ $N(\mu, \sigma)$, donde suponemos $\sigma$ conocida, y sean
$$
T_{1}=\bar{X} \quad T_{2}=\frac{\sum_{i=1}^{n} X_{i}}{n+1}
$$
Calculando la media y la varianza de los estimadores, tenemos
$$
\begin{array}{lll}
E_{\mu}\left(T_{1}\right)=\mu & \Rightarrow b_{T_{1}}(\mu)=0 & \operatorname{var}_{\mu}\left(T_{1}\right)=\frac{\sigma^{2}}{n} \\
E_{\mu}\left(T_{2}\right)=\frac{n}{n+1} \mu & \Rightarrow b_{T_{2}}(\mu)=\frac{-1}{n+1} \mu & \operatorname{var}_{\mu}\left(T_{2}\right)=\frac{n}{(n+1)^{2}} \sigma^{2}
\end{array}
$$
de donde
$$
\begin{aligned}
& E Q M_{\mu}\left(T_{1}\right)=\operatorname{var}\left(T_{1}\right)=\frac{\sigma^{2}}{n} \\
& E Q M_{\mu}\left(T_{2}\right)=\frac{1}{(n+1)^{2}} \mu^{2}+\frac{n}{(n+1)^{2}} \sigma^{2}
\end{aligned}
$$
que son respectivamente una recta y una parábola. De manera que para algunos valores de $\mu$ tenemos que $E Q M_{\mu}\left(T_{1}\right)<E Q M_{\mu}\left(T_{2}\right)$ y para otros, al revés. La figura 2.1 muestra esta diferencia.
Ejemplo 2.1.5 Un ejemplo trivial bastante interesante es el siguiente. Para estimar un parámetro $\theta$, el estimador que consiste en un valor fijo $\theta_{0}$, tiene riesgo 0 en $\theta=\theta_{0}$. Sin embargo, el riesgo aumenta considerablemente al alejarnos del valor real de $\theta$. Por lo tanto, no resulta un estimador razonable, aunque su riesgo pueda ser mínimo para algún (único) valor de $\theta$.
Figura 2.1: Comparación del riesgo de dos estimadores
Los ejemplos anteriores nos muestran que los criterios de preferencia entre estimadores basados en el riesgo o en el $E Q M$ no son de gran utilidad general ya que muchos estimadores pueden ser incomparables. Ante este hecho nos planteamos si es posible completar el criterio de minimizar el riesgo mediante alguna propiedad o criterio adicional. Las posibles soluciones obtenidas a esta cuestión siguen dos vías:
1. Restringir la clase de estimadores considerados a aquellos que cumplan alguna propiedad adicional de interés, eliminando estimadores indeseables para que el criterio de minimizar el riesgo permita seleccionar uno preferible a los demás. Este criterio lleva a considerar las propiedades deseables de los estimadores como falta de sesgo, consistencia, eficiencia y analizar cómo combinarlas con el criterio de mínimo riesgo. Este proceso culmina con el estudio de los Estimadores Sin Sesgo Uniformemente de Mínima Varianza (ESUMV).
2. Reforzar el criterio de preferencia de estimadores mediante la reducción de toda la función de riesgo $R_{T}(\theta)$ a un único valor representativo que permita ordenar linealmente todos los estimadores. Este criterio nos lleva a los Estimadores Bayes y a los Estimadores Minimax.
## Estudio de las propiedades deseables de los estimadores
### El sesgo
Supongamos que tenemos un modelo estadístico $\left\{X \sim F_{\theta}: \theta \in \Theta\right\}$ y un estimador $T\left(X_{1}, X_{2}, \ldots, X_{n}\right)$ de una función medible $g(\theta)$ del parámetro. Una forma razonable de valorar qué tan próximos son los valores de $T$ a los de $g(\theta)$ es ver si, en promedio, los valores de $T$ coinciden con el valor medio de $g(\theta)$.
Definició 2.6 Bajo las condiciones mencionadas, si $E_{\theta}(T)$ es la esperanza de $T\left(X_{1}, X_{2}, \ldots, X_{n}\right)$ y $g(\theta)$ es una función del parámetro (en particular la identidad), la diferencia
$$
b_{T}(\theta)=b_{T}(\theta)=E_{\theta}(T)-g(\theta)
$$
se denomina sesgo del estimador $T$ para estimar $g(\theta)$. Si el sesgo es nulo, es decir, si:
$$
E_{\theta}(T)=g(\theta), \quad \forall \theta \in \Theta
$$
diremos que $T$ es un estimador insesgado de $g(\theta)$.
Ejemplo 2.2.1 Los dos ejemplos más conocidos son el de la media y la varianza muestrales.
- La media muestral es un estimador insesgado de $\mu$.
- La varianza muestral es un estimador con sesgo de la varianza poblacional. En concreto, su sesgo vale:
$$
b_{s^{2}}\left(\sigma^{2}\right)=E_{\sigma^{2}}\left(s^{2}\right)-\sigma^{2}=\frac{n-1}{n} \sigma^{2}-\sigma^{2}=\frac{-1}{n} \sigma^{2}
$$
El uso de estimadores insesgados es conveniente en muestras de tamaño grande. En estas, $\operatorname{var}_{\theta}(T)$ es a menudo pequeña y entonces, como $E_{\theta}(T)=$ $g(\theta)+b_{T}(\theta)$, es muy probable obtener estimaciones centradas en este valor en lugar de en el entorno de $g(\theta)$.
Ejemplo 2.2.2 Sea $X_{1}, X_{2}, \ldots, X_{n}$ una muestra aleatoria simple de $X \sim$ $U(0, \theta)$. Tomemos $T=\max \left\{X_{1}, X_{2}, \ldots, X_{n}\right\}$ como el estimador del máximo de la distribución. Obviamente podemos decir que $T<\theta$ y, por lo tanto,
la estimación siempre está sesgada. Como hemos visto en el ejemplo ??, la distribución en el muestreo de $T$ es
$$
H_{\theta}(t)=P_{\theta}[T \leq t]=\left(\frac{t}{\theta}\right)^{n}
$$
y su función de densidad es
$$
f_{\theta}(\theta)=H_{\theta}^{\prime}(\theta)=\frac{n}{\theta}\left(\frac{t}{\theta}\right)^{n-1}
$$
Su esperanza (ver ejemplo ??) vale
$$
E_{\theta}(T)=\int_{0}^{\theta} t \cdot\left[\frac{n}{\theta}\left(\frac{t}{\theta}\right)^{n-1}\right] d t=\frac{n}{n+1} \theta
$$
de donde el sesgo de $T$ para estimar $\theta$ es
$$
b_{T}(\theta)=\frac{n}{n+1} \theta-\theta=-\frac{1}{n+1} \theta
$$
Podemos preguntarnos si podríamos mejorar este estimador corrigiendo el sesgo de forma análoga a lo que hacíamos con $\hat{s}^{2}$, es decir, tomando un estimador corregido para el sesgo
$$
T^{\prime}=\frac{n+1}{n} T \text { que, por construcción, verifica: } E\left(T^{\prime}\right)=\theta \text {. }
$$
Consideremos el estimador de mínimo riesgo en el sentido del error cuadrático medio, es decir, el estimador que minimiza $E\left[(\theta-T)^{2}\right]$. De hecho, como hemos visto en el ejemplo ??, conviene elegir el que minimice $E\left[(\theta-T)^{2} / \theta^{2}\right]$, porque también minimiza el EQM, pero alcanza un mínimo absoluto. Este estimador es
$$
T^{\prime \prime}=\frac{n+2}{n+1} T
$$
y, por tanto, es más adecuado que $T^{\prime}$, ya que tiene un menor riesgo respecto al error cuadrático medio.
Cuando, como aquí, nos encontramos con que dado un estimador podemos encontrar otro de menor riesgo, decimos que el primero no es admisible respecto de la función de pérdida. En este caso decimos que $T^{\prime}$ no es admisible respecto al EQM. ¡Cuidado! Esto no significa que no podamos usarlo, sino que existe otro con menor riesgo, ya que existe otro $T^{\prime \prime}$ preferible a él que, por cierto, no es centrado. Efectivamente
$$
E_{\theta}\left(T^{\prime \prime}\right)=\frac{n+2}{n+1} E_{\theta}(T)=\frac{(n+2) n}{(n+1)^{2}} \theta
$$
El ejemplo anterior muestra que, debido a la descomposición $E Q M_{T}(\theta)=$ $\operatorname{var}_{\theta}(T)+b_{T}^{2}(\theta)$, puede ser preferible un estimador con sesgo a otro que no lo tenga.
En general, sin embargo, eliminar el sesgo no es una mala estrategia, sobre todo porque al restringirnos a la clase de los estimadores insesgados obtenemos una solución constructiva que permitirá obtener estimadores insesgados de mínima varianza en condiciones bastante generales.
Los siguientes ejemplos ilustran dos propiedades interesantes del sesgo. Por un lado, muestran que no siempre existe un estimador insesgado. Por otro lado, vemos cómo a veces, incluso teniendo un estimador insesgado para un parámetro $E_{\theta}(T)=\theta$, una función $g(T)$ no es necesariamente un estimador insesgado de $g(\theta)$.
Ejemplo 2.2.3 Consideremos una variable $X$ con distribución de Bernoulli $B(1, p)$. Supongamos que deseamos estimar $g(p)=p^{2}$ con una única observación. Para que un estimador $T$ no tenga sesgo para estimar $p^{2}$ sería necesario que
$$
p^{2}=E_{p}(T)=p \cdot T(1)+(1-p) \cdot T(0), \quad 0 \leq p \leq 1
$$
es decir, para cualquier valor de $p \in[0,1]$ se debería verificar
$$
p^{2}=p \cdot(T(1)-T(0))+T(0)
$$
Esto claramente no es posible, ya que la única forma en que una función lineal y una función parabólica coincidan en todo el intervalo $[0,1]$ es cuando los coeficientes $T(0)$ y $T(1)$ valen cero.
Ejemplo 2.2.4 El parámetro $\alpha$ de una ley exponencial con función de densidad
$$
f(x)=\alpha e^{-\alpha x} \mathbf{1}_{(0, \infty)}(x)
$$
es el inverso de la media de la distribución, es decir, $\alpha=1 / E(X)$.
Un estimador razonable de $\alpha=g(\mu)$ puede ser $\hat{\alpha}=g(\hat{\mu})$, es decir, $\hat{\alpha}=$ $1 / \bar{X}$. Si aplicamos la propiedad de que la suma de variables aleatorias i.i.d. exponenciales sigue una ley gamma de parámetros $n$ y $\alpha$, se obtiene que este estimador tiene sesgo. Su esperanza es
$$
E(\hat{\alpha})=\frac{n}{n-1} \alpha
$$
El sesgo se corrige simplemente con
$$
\hat{\alpha}^{\prime}=\frac{n-1}{n} \hat{\alpha}
$$
### Consistencia
La consistencia de un estimador es una propiedad bastante intuitiva que indica, de manera informal, que cuando aumenta el tamaño muestral, el valor del estimador se aproxima cada vez más al verdadero valor del parámetro.
Definició 2.7 Sea $X_{1}, X_{2}, \ldots, X_{n}, \ldots$ una sucesión de variables aleatorias i.i.d. $X \sim F_{\theta}, \theta \in \Theta$. Una sucesión de estimadores puntuales $T_{n}=$ $T\left(X_{1}, X_{2}, \ldots, X_{n}\right)$ se denomina consistente para $g(\theta)$ si
$$
T_{n} \xrightarrow[n \rightarrow \infty]{P} g(\theta)
$$
para cada $\theta \in \Theta$, es decir, si
$$
\forall \varepsilon>0 \quad \lim _{n \rightarrow \infty} P\left\{\left|T_{n}-g(\theta)\right|>\varepsilon\right\}=0
$$
Observemos que:
1. Se trata de un concepto asintótico: Hablamos de ?sucesiones de estimadores consistentes? más que de estimadores propiamente dichos.
2. La definición puede reforzarse si, en lugar de considerar convergencia en probabilidad (consistencia débil), consideramos convergencia casi segura o en media cuadrática:
- $T_{n}$ es fuertemente consistente si $T_{n} \xrightarrow{\text { c.s. }} g(\theta)$
- $T_{n}$ es consistente en media- $r$ si $E_{\theta}\left[\left|T_{n}-g(\theta)\right|^{r}\right] \longrightarrow 0$
Ejemplo 2.2.5 Muchos estimadores consistentes lo son como consecuencia de las leyes de los grandes números. Recordemos que la Ley débil de los Grandes Números (Tchebychev) afirma que, dada una sucesión de v.a. independientes e idénticamente distribuidas con medias $\mu<\infty$ y varianzas $\sigma^{2}<\infty$, entonces
$$
\bar{X}_{n} \xrightarrow{P} \mu
$$
Como consecuencia de esta ley y dado que una muestra aleatoria simple es i.i.d., por definición, podemos afirmar que $\bar{X}_{n}$ es consistente para estimar $\mu$.
Ejemplo 2.2.6 La sucesión $T_{n}=\max _{1 \leq i \leq n}\left\{X_{i}\right\}$ es consistente para estimar el máximo de una distribución uniforme en $[0, \theta]$ :
$$
P\left[\left|\max _{1 \leq i \leq n}\left\{X_{i}\right\}-\theta\right|>\varepsilon\right]=P\left[\theta-\max _{1 \leq i \leq n}\left\{X_{i}\right\}>\varepsilon\right]
$$
ya que $X_{i} \in[0, \theta] y$, por lo tanto, podemos escribir:
$$
\begin{aligned}
P\left[\theta-\varepsilon>\max _{1 \leq i \leq n}\left\{X_{i}\right\}\right] & =P\left[\max _{1 \leq i \leq n}\left\{X_{i}\right\}<\theta-\varepsilon\right] \\
& =\left(\frac{\theta-\varepsilon}{\theta}\right)^{n}=\left(1-\frac{\varepsilon}{\theta}\right)^{n} \underset{n \rightarrow \infty}{\longrightarrow} 0
\end{aligned}
$$
Es inmediato comprobar que
$$
E\left[\left(\theta-T_{n}\right)^{2}\right]=\left(1-\frac{2 n}{n+1}+\frac{n}{n+2}\right) \theta^{2}
$$
que también tiende a cero cuando $n \rightarrow \infty$, y por lo tanto $T_{n}=\max _{1 \leq i \leq n}\left\{X_{i}\right\}$ también es consistente en media cuadrática.
Normalmente, cuando se habla de consistencia, se hace referencia a la convergencia en probabilidad, es decir, $T_{n}$ es consistente si $\lim _{n \rightarrow \infty} P\left(\left|T_{n}-g(\theta)\right|>\right.$ $\varepsilon)=0$. Si el estimador no tiene sesgo, estamos en la situación de aplicar la desigualdad de Tchebychev ${ }^{1}$ :
Si $E\left(T_{n}\right)=g(\theta)$, entonces
$$
P\left(\left|T_{n}-g(\theta)\right|>\varepsilon\right)=P\left(\left|T_{n}-E\left(T_{n}\right)\right|>\varepsilon\right) \underset{\text { Tchebychev }}{\leq} \frac{\operatorname{var}\left(T_{n}\right)}{\varepsilon^{2}}
$$
Así, para intentar establecer la consistencia de $T$, debemos probar que
$$
\frac{\operatorname{var}\left(T_{n}\right)}{\varepsilon^{2}} \underset{n \rightarrow \infty}{\longrightarrow} 0
$$
Ejemplo 2.2.7 Sea $M_{n}=\sum_{i=1}^{n} a_{i} X_{i}$ una combinación lineal de los valores de la muestra con coeficientes tales que $\sum_{i=1}^{n} a_{i}=1$ y algún $a_{i}>0$. ¿Es consistente $M_{n}$ para estimar $E(X)$ ?
Comencemos por ver que $M_{n}$ no tiene sesgo
$$
\begin{aligned}
E\left(M_{n}\right) & =E\left(\sum_{i=1}^{n} a_{i} X_{i}\right)=\sum_{i=1}^{n} E\left(a_{i} X_{i}\right) \\
& =\sum_{i=1}^{n} a_{i} E\left(X_{i}\right) \stackrel{\text { i.i.d. }}{=} \sum_{i=1}^{n} a_{i} E(X)=E(X)
\end{aligned}
$$
[^1]Calculemos la varianza
$$
\begin{aligned}
\operatorname{var}\left(M_{n}\right) & =\operatorname{var}\left(\sum_{i=1}^{n} a_{i} X_{i}\right)=\sum_{i=1}^{n} \operatorname{var}\left(a_{i} X_{i}\right) \\
& =\sum_{i=1}^{n} a_{i}^{2} \operatorname{var}\left(X_{i}\right)=\operatorname{var}(X) \sum_{i=1}^{n} a_{i}^{2}
\end{aligned}
$$
Si aplicamos ahora la desigualdad de Tchebychev tenemos:
$$
P\left(\left|M_{n}-\mu\right|>\varepsilon\right) \leq \frac{\sigma^{2} \sum a_{i}^{2}}{\varepsilon^{2}}
$$
lo cual no tiene por qué tender a 0 cuando $n \rightarrow \infty$, y por lo tanto no podemos afirmar que el estimador es consistente. Por ejemplo, si $a_{1}=\frac{1}{2}, a_{2}=a_{3}=$ $\cdots=a_{n}=\frac{1}{2(n-1)}$ tendremos que $\lim _{n \rightarrow \infty} \sum a_{i}^{2}=\frac{1}{4}$.
Observamos que el resultado obtenido no puede asegurar la consistencia de $M_{n}$ para cualquier familia de coeficientes $a_{1}, \ldots, a_{n}$, aunque, obviamente, el estimador es consistente para alguno (caso $a_{i}=1 / n$ ).
## Propiedades de los estimadores consistentes
Muchas de las propiedades de los estimadores son consecuencia directa de las propiedades de la convergencia en probabilidad, que se pueden revisar, por ejemplo, en Martin Pliego (1998a) capítulo 11.
1. Si $T_{n}$ es consistente para estimar $\theta$ y $g: \mathbb{R} \rightarrow \mathbb{R}$ es una función continua, entonces $g\left(T_{n}\right)$ es consistente para estimar $g(\theta)$.
2. Si $T_{1 n}$ y $T_{2 n}$ son consistentes para estimar $\theta_{1}$ y $\theta_{2}$ respectivamente, entonces
$a T_{1 n} \pm b T_{2 n}$ es consistente para estimar $a \theta_{1} \pm b \theta_{2}$
$T_{1 n} \cdot T_{2 n}$ es consistente para estimar $\theta_{1} \cdot \theta_{2}$
$T_{1 n} / T_{2 n}$ es consistente para estimar $\theta_{1} / \theta_{2}$, si $\theta_{2} \neq 0$.
3. Sea $a_{r}=(1 / n) \sum X_{i}^{r}$ el momento muestral de orden $r$. Como se ha visto en el capítulo 1 , la esperanza de $a_{r}$ es
$$
E\left(a_{r}\right)=E\left[\frac{1}{n} \sum X_{i}^{r}\right]=\frac{1}{n} \sum E\left(X^{r}\right)=\frac{1}{n} n \alpha_{r}=\alpha_{r}
$$
donde $\alpha_{r}$ es el momento poblacional de orden $r$. Así pues, $a_{r}$ no tiene sesgo para estimar $\alpha_{r}$. Su varianza es
$$
\begin{aligned}
\operatorname{var}\left(a_{r}\right) & =\operatorname{var}\left(\frac{1}{n} \sum X_{i}^{r}\right)=\frac{1}{n^{2}} \sum \operatorname{var}\left(X^{r}\right)=\frac{1}{n} E\left[X^{r}-E\left(X^{r}\right)\right]^{2} \\
& =\frac{1}{n} E\left[X^{r}-\alpha_{r}\right]^{2}=\frac{1}{n} E\left(X^{2 r}+\alpha_{r}^{2}-2 \alpha_{r} X^{r}\right) \\
& =\frac{1}{n}\left(\alpha_{2 r}-\alpha_{r}^{2}\right) .
\end{aligned}
$$
Y si aplicamos la desigualdad de Tchebychev, se obtiene
$$
P\left(\left|a_{r}-\alpha_{r}\right| \geq \varepsilon\right) \leq \frac{E\left(a_{r}-\alpha_{r}\right)^{2}}{\varepsilon^{2}}=\frac{\operatorname{var}\left(a_{r}\right)}{\varepsilon^{2}}=\frac{\alpha_{2 r}-\alpha_{r}^{2}}{n \varepsilon^{2}} \underset{n \rightarrow \infty}{\longrightarrow} 0
$$
Así pues, hemos visto que los momentos muestrales son estimadores consistentes de los momentos poblacionales.
### Eficiencia
Como ya hemos visto, un objetivo deseable en la búsqueda de estimadores óptimos es considerar estimadores de "mínimo riesgo" o, si nos basamos en la función de pérdida cuadrática, estimadores que minimicen el error cuadrático medio $E(\theta-T)^{2}$.
En general, es difícil encontrar estimadores que hagan mínimo el EQM para todos los valores de $\theta$; sin embargo, si nos restringimos a los estimadores sin sesgo, el problema tiene solución en una gama más amplia de situaciones. Supongamos que $T_{1}, T_{2}$ son dos estimadores sin sesgo de un parámetro $\theta$. Para estos estimadores tenemos que
$$
\begin{aligned}
& E Q M_{T_{1}}(\theta)=\operatorname{var}_{\theta}\left(T_{1}\right)+b_{T_{1}}^{2}(\theta) \\
& E Q M_{T_{2}}(\theta)=\operatorname{var}_{\theta}\left(T_{2}\right)+b_{T_{2}}^{2}(\theta)
\end{aligned}
$$
Si los estimadores no tienen sesgo $b_{T_{1}}(\theta)=b_{T_{2}}(\theta)=0$, el que tenga menor varianza tendrá el menor riesgo para estimar $\theta$. Si, por ejemplo, $\operatorname{var}\left(T_{1}\right) \leq$ $\operatorname{var}\left(T_{2}\right)$, diremos que $T_{1}$ es más eficiente que $T_{2}$ para estimar $\theta$.
Para dos estimadores con sesgo cero $b_{T_{i}}(\theta)=0$, el cociente
$$
E R=\frac{E Q M_{T_{1}}(\theta)}{E Q M_{T_{2}}(\theta)}=\frac{\operatorname{var}_{\theta}\left(T_{1}\right)}{\operatorname{var}_{\theta}\left(T_{2}\right)}
$$
se denomina eficiencia relativa de $T_{1}$ respecto a $T_{2}$. Si solo hay dos estimadores de $\theta$ puede ser fácil ver cuál es el más eficiente. Si hay más, la cosa se complica. El "más eficiente", en caso de que exista, se llamará el estimador sin sesgo de mínima varianza.
Figura 2.2: Comparación de la eficiencia de dos estimadores para un $\theta$ dado
Definició 2.8 Sea $\mathcal{S}(\theta)$ la clase de los estimadores sin sesgo de $\theta$ y con varianza. Si para todos los estimadores de esta clase $T \in \mathcal{S}(\theta)$ se verifica que
$$
\operatorname{var}_{\theta}(T) \leq \operatorname{var}_{\theta}\left(T^{*}\right) \quad \forall T \in \mathcal{S}(\theta)
$$
diremos que $T^{*}$ es un estimador sin sesgo de mínima varianza de $\theta$. Si la desigualdad es cierta $\forall \theta \in \Theta$, diremos que $T^{*}$ es un estimador sin sesgo uniforme de mínima varianza (ESUMV) ${ }^{2}$.
## Información de Fisher y cota de CramerRao
Obviamente, en un problema de estimación lo ideal es disponer de un ESUMV, pero esto no siempre es posible. Nos enfrentamos a varios problemas:
1. ¿Existen ESUMV para un parámetro $\theta$ en un modelo dado?
2. En caso de que exista el ESUMV, ¿sabremos cómo encontrarlo?
Este problema tiene solución, bajo ciertas condiciones, utilizando los teoremas de Lehmann-Scheffé y Rao-Blackwell y el concepto de suficiencia, que se discute más adelante.
[^2]Una solución parcial aparece gracias al Teorema de Cramer-Rao, que permite establecer una cota mínima para la varianza de un estimador. Cuando un estimador alcanza esta cota, sabemos que es un estimador de varianza mínima.
Informalmente, este resultado sugiere que, bajo ciertas condiciones de regularidad, si $T$ es un estimador insesgado de un parámetro $\theta$, su varianza está acotada por una expresión que llamamos cota de Cramer-Rao $\operatorname{CCR}(\theta)$
$$
\operatorname{var}(T) \geq \operatorname{CCR}(\theta)
$$
Antes de establecer con precisión este teorema, consideremos el concepto de información de un modelo estadístico introducido por Fisher.
## Información y verosimilitud de un modelo estadístico
Una idea bastante razonable es esperar que un estimador funcione mejor en su intento de aproximarse al valor de un parámetro cuanto más información tenga para hacerlo. Por este motivo, la varianza del estimador y la información se presentan como cantidades opuestas: a mayor información, menor error (varianza) en la estimación:
$$
\operatorname{var}\left(T_{n}\right) \propto \frac{1}{I_{n}(\theta)}
$$
Ahora nos encontramos con el problema de cómo definir la cantidad de información (contenida en una muestra/de un modelo), para que se ajuste a la idea intuitiva de información. Fisher lo hizo a través de la función de verosimilitud.
Sea un modelo estadístico $\left\{X \sim F_{\theta}: \theta \in \Theta\right\}$ y una m.a.s. $\left(X_{1}, X_{2}, \ldots, X_{n}\right)$, que toma valores $\mathbf{x}=\left(x_{1}, x_{2}, \ldots, x_{n}\right)$. Si $X$ es discreta, la función de masa de probabilidad indica, en términos generales, la probabilidad de observar la muestra, dado un valor del parámetro. Si $X$ es absolutamente continua, esta interpretación ya no es tan directa.
$$
f\left(x_{1}, x_{2}, \ldots, x_{n} ; \theta\right)= \begin{cases}P_{\theta}\left[X=x_{1}\right] \cdots P_{\theta}\left[X=x_{n}\right], & \text { si } X \text { es discreta } \\ f_{\theta}\left(x_{1}\right) \cdots f_{\theta}\left(x_{n}\right), & \text { si } X \text { es abs. continua }\end{cases}
$$
La función de verosimilitud se obtiene si consideramos, en la expresión anterior, que lo que queda fijado es la muestra y no el parámetro. Es decir, fijada una muestra x, la función de verosimilitud indica qué tan verosímil resulta, para cada valor del parámetro, que el modelo la haya generado.
Ejemplo 2.3.1 Supongamos que tenemos una m.a.s. $x_{1}, x_{2}, \ldots, x_{n}$ de tamaño n de una variable aleatoria $X$, que sigue una ley de Poisson de parámetro $\lambda$ desconocido.
$$
X \sim F_{\lambda}=P(\lambda), \quad \lambda>0
$$
La función de probabilidad de la muestra, fijado $\lambda$, es:
$$
g_{\lambda}\left(x_{1}, x_{2}, \ldots, x_{n}\right)=\prod_{i=1}^{n} e^{-\lambda} \frac{\lambda^{x_{i}}}{x_{i}!}=e^{-n \lambda} \frac{\lambda^{\sum x_{i}}}{\prod_{i=1}^{n} x_{i}!}
$$
y la función de verosimilitud del modelo, fijada $\mathbf{x}$, es:
$$
L\left(x_{1}, x_{2}, \ldots, x_{n} ; \lambda\right)=\prod_{i=1}^{n} e^{-\lambda} \frac{\lambda^{x_{i}}}{x_{i}!}=e^{-n \lambda} \frac{\lambda^{\sum x_{i}}}{\prod_{i=1}^{n} x_{i}!}
$$
Aunque la forma funcional de $g_{\lambda}(\mathbf{x})$ y $L(\mathbf{x} ; \lambda)$ es la misma, su aspecto es diferente, como se puede comprobar en la figura 2.3, donde damos valores a $g_{\lambda}(\mathbf{x})$, variando $\mathbf{x}$ o a $L(\lambda ; \mathbf{x})$ variando $\lambda$.
## Información de Fisher
Para calcular la cantidad de información de Fisher contenida en una muestra sobre un parámetro, es necesario considerar modelos estadísticos regulares, es decir, donde se cumplen las siguientes condiciones de regularidad.
Definició 2.9 Diremos que $\left\{X \sim F_{\theta}: \theta \in \Theta\right\}$ es un modelo estadístico regular si se verifican las siguientes condiciones:
1. La población de donde proviene la muestra presenta un ?campo de variación? o soporte $S_{\theta}=\{x \mid f(x ; \theta)>0\}=S$ que no depende de $\theta$.
2. La función $L(\mathbf{x} ; \theta)$ admite, al menos, las dos primeras derivadas.
3. Las operaciones de derivación e integración son intercambiables.
Definició 2.10 Sea $\left\{X \sim F_{\theta}: \theta \in \Theta\right\}$ un modelo estadístico regular, es decir, donde se verifican las condiciones de regularidad 1-3 anteriores. Si $Z=\frac{\partial}{\partial \theta} \log L(\mathbf{X} ; \theta)$, la cantidad de información de Fisher es
$$
I_{n}(\theta)=\operatorname{var}_{\theta}(Z)=\operatorname{var}_{\theta}\left(\frac{\partial}{\partial \theta} \log L(\mathbf{X} ; \theta)\right)
$$
Figura 2.3: Probabilidad de la suma de $n=5$ valores muestrales para 10 muestras de la ley de Poisson con $\lambda=3$ versus la función de verosimilitud para una muestra observada.
Las condiciones de regularidad son necesarias para calcular $E_{\theta}\left(Z^{2}\right)$.
A continuación, presentamos algunas propiedades de la información de Fisher. Puedes ver la demostración en Ruiz-Maya y Pliego (1995).
1. La información de Fisher se puede expresar como:
$$
I_{n}(\theta)=E_{\theta}\left[\left(\frac{\partial \log L(\mathbf{X} ; \theta)}{\partial \theta}\right)^{2}\right]
$$
Esto se puede comprobar, ya que si aplicamos las condiciones de regularidad
$$
\begin{aligned}
E(Z) & =E\left(\frac{\partial \log L(\mathbf{X} ; \theta)}{\partial \theta}\right)=\int_{S^{n}} \frac{\partial \log L(\mathbf{x} ; \theta)}{\partial \theta} L(\mathbf{x} ; \theta) d \mathbf{x} \\
& =\int_{S^{n}} \frac{\frac{\partial L(\mathbf{x} ; \theta)}{\partial \theta}}{L(\mathbf{x} ; \theta)} L(\mathbf{x} ; \theta) d \mathbf{x}=\int_{S^{n}} \frac{\partial L(\mathbf{x} ; \theta)}{\partial \theta} d \mathbf{x} \\
& =\frac{\partial}{\partial \theta}\left(\int_{S^{n}} L(\mathbf{x} ; \theta) d \mathbf{x}\right)=\frac{\partial}{\partial \theta} 1=0
\end{aligned}
$$
:::
De forma que $E(Z)=0$, y por lo tanto, tendremos que $\operatorname{var}_{\theta}(Z)=$ $E_{\theta}\left(Z^{2}\right)$.
2. $I_{n}(\theta)=0$ si y solo si $L(\mathbf{x} ; \theta)$ no depende de $\theta$.
3. Dadas dos m.a.s. $\mathbf{x}_{1}, \mathbf{x}_{2}$ de tamaños $n_{1}, n_{2}$ de la misma población, se verifica:
$$
I_{n_{1}, n_{2}}(\theta)=I_{n_{1}}(\theta)+I_{n_{2}}(\theta)
$$
De manera que podemos considerar una muestra de tamaño $n$ como $n$ muestras de tamaño 1 :
$$
I_{n}(\theta)=\sum_{i=1}^{n} I_{1}(\theta)=n \cdot i(\theta), \text { siendo } i(\theta)=I_{1}(\theta)
$$
Es decir
$$
E\left(\frac{\partial \log (L(\mathbf{X} ; \theta))}{\partial \theta}\right)=n E\left(\frac{\partial \log f(X ; \theta)}{\partial \theta}\right)
$$
4. Se verifica la siguiente relación:
$$
I_{n}(\theta)=E\left[\left(\frac{\partial \log L(\mathbf{X} ; \theta)}{\partial \theta}\right)^{2}\right]=-E\left[\frac{\partial^{2} \log L(\mathbf{X} ; \theta)}{\partial^{2} \theta}\right]
$$
Ejemplo 2.3.2 Vamos a calcular la cantidad de información de Fisher contenida en una m.a.s. extraída de una población $N(\mu, \sigma)$ con $\sigma=\sigma_{0}$ conocida. La función de verosimilitud es
$$
L(\mathbf{x} ; \mu)=\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma_{0}} e^{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma_{0}^{2}}}=\left(2 \pi \sigma_{0}^{2}\right)^{-n / 2} \exp \left(-\sum_{i=1}^{n} \frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma_{0}^{2}}\right)
$$
y su logaritmo
$$
\log L(\mathbf{x} ; \mu)=-\frac{n}{2} \log \left(2 \pi \sigma_{0}^{2}\right)-\frac{1}{2 \sigma_{0}^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}
$$
Si derivamos respecto a $\mu$
$$
\frac{\partial \log L(\mathbf{x} ; \mu)}{\mu}=\frac{\sum_{i=1}^{n}\left(x_{i}-\mu\right)}{\sigma_{0}^{2}}
$$
de donde
$$
\begin{aligned}
I_{n}(\mu) & =E\left(\frac{\partial \log L(\mathbf{X} ; \mu)}{\partial \mu}\right)^{2}=E\left(\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)}{\sigma_{0}^{2}}\right)^{2} \\
& =\frac{1}{\sigma_{0}^{4}} E\left[\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}+\sum_{i \neq j}\left(X_{i}-\mu\right)\left(X_{j}-\mu\right)\right] \\
& =\frac{1}{\sigma_{0}^{4}} n \sigma_{0}^{2}=\frac{n}{\sigma_{0}^{2}}
\end{aligned}
$$
Este cálculo también puede hacerse a partir de la tercera propiedad de la información de Fisher:
$$
I_{n}(\mu)=n E\left[\frac{\partial \log f(X ; \mu)}{\partial \mu}\right]=n \frac{1}{\sigma_{0}^{2}}=\frac{n}{\sigma_{0}^{2}}
$$
## La desigualdad de Cramer-Rao
Una vez establecidas las condiciones de regularidad y características anteriores podemos enunciar el teorema de Cramer-Rao (1945).
Teorema 2.1 Dado un modelo estadístico regular $\left\{X \sim F_{\theta}: \theta \in \Theta\right\}$, es decir, un modelo donde se verifican las condiciones de regularidad enunciadas, cualquier estimador $T \in \mathcal{S}(\theta)$ de la clase de los estimadores no sesgados y con varianza verifica
$$
\operatorname{var}_{\theta}(T) \geq \frac{1}{I_{n}(\theta)}
$$
Demostración:
El estimador $T \in \mathcal{S}(\theta)$ no tiene sesgo, es decir que
$$
E(T)=\int_{S^{n}} T(\mathbf{x}) \cdot L(\mathbf{x} ; \theta) d \mathbf{x}=\theta
$$
Si derivamos e introducimos la derivada bajo el signo de la integral, obtenemos
$$
\begin{aligned}
\frac{\partial}{\partial \theta} E(T) & =\int_{S^{n}} \frac{\partial}{\partial \theta}(T(\mathbf{x}) \cdot L(\mathbf{x} ; \theta)) d \mathbf{x}=\int_{S^{n}} T(\mathbf{x}) \frac{\partial}{\partial \theta} L(\mathbf{x} ; \theta) d \mathbf{x} \\
& =\int_{S^{n}} T(\mathbf{x})\left(\frac{\frac{\partial}{\partial \theta} L(\mathbf{x} ; \theta)}{L(\mathbf{x} ; \theta)}\right) L(\mathbf{x} ; \theta) d \mathbf{x}
\end{aligned}
$$
Así pues
$$
1=\frac{\partial}{\partial \theta} \theta=\frac{\partial}{\partial \theta} E(T)=E(T Z)=\int_{S^{n}} T(\mathbf{x}) \cdot Z L(\mathbf{x} ; \theta) d \mathbf{x}
$$
En resumen
$$
E(T)=\theta, E(T Z)=1, E(Z)=0, \operatorname{var}(Z)=I_{n}(\theta)
$$
Si ahora consideramos el coeficiente de correlación al cuadrado entre $T$ y $Z$, tenemos
$$
\rho^{2}(T, Z)=\frac{[\operatorname{cov}(T, Z)]^{2}}{\operatorname{var}(T) \cdot \operatorname{var}(Z)}=\frac{[E(T Z)-E(T) E(Z)]^{2}}{\operatorname{var}(T) \cdot \operatorname{var}(Z)} \leq 1
$$
Si sustituimos los resultados hallados antes, obtenemos
$$
\frac{1}{\operatorname{var}(T) \cdot I_{n}(\theta)} \leq 1
$$
de donde se deduce la desigualdad enunciada.
Definició 2.11 Si un estimador alcanza la CCR (Cota de Cramer-Rao), diremos que es un estimador eficiente.
Todo estimador eficiente es de mínima varianza en la clase $\mathcal{S}(\theta)$. Sin embargo, también puede suceder que exista un estimador de mínima varianza sin alcanzar necesariamente la CCR.
Ejemplo 2.3.3 Sea $X \sim F_{\theta}=P(\lambda), \lambda>0$ (Poisson). Buscamos la $C C R$ de los estimadores de $\lambda$.
$$
\begin{aligned}
L(\mathbf{x} ; \lambda) & =\prod_{i=1}^{n} e^{-\lambda} \frac{\lambda^{x_{i}}}{x_{i}!}=e^{-n \lambda} \frac{\lambda^{\sum x_{i}}}{\prod_{i=1}^{n} x_{i}!} \\
\log L(\mathbf{x} ; \lambda) & =-n \lambda+\left(\sum x_{i}\right) \log \lambda-\log \left(\prod_{i=1}^{n} x_{i}!\right) \\
\frac{\partial \log (L(\mathbf{x} ; \lambda))}{\partial \lambda} & =-n+\frac{\sum x_{i}}{\lambda} \\
E\left[\frac{\partial \log L(\mathbf{x} ; \lambda)}{\partial \lambda}\right]^{2} & =E\left[n^{2}+\left(\frac{\sum X_{i}}{\lambda}\right)^{2}-\frac{2 n \sum X_{i}}{\lambda}\right] \\
& =n^{2}+\frac{1}{\lambda^{2}} E\left(\sum X_{i}\right)^{2}-\frac{2 n}{\lambda} n E(X)
\end{aligned}
$$
Aquí recordamos que la suma de variables de Poisson también es una Poisson, es decir:
$$
\sum X_{i} \sim P(n \lambda)
$$
por lo que
$$
E\left(\sum X_{i}\right)^{2}=\operatorname{var}\left(\sum X_{i}\right)+\left[E\left(\sum X_{i}\right)\right]^{2}=n \lambda+(n \lambda)^{2}
$$
Finalmente, se obtiene:
$$
E\left(Z^{2}\right)=n^{2}+\frac{n \lambda}{\lambda^{2}}+\frac{n^{2} \lambda^{2}}{\lambda^{2}}-2 n^{2}=\frac{n}{\lambda}
$$
De esta forma,
$$
I_{n}(\lambda)=\frac{n}{\lambda} \quad \Longrightarrow \quad \operatorname{var}(T) \geq \frac{\lambda}{n}
$$
Sabemos que la media aritmética verifica
$$
\operatorname{var}\left(\bar{X}_{n}\right)=\frac{\lambda}{n}
$$
lo cual coincide con la cota de Cramer-Rao, indicando que $\bar{X}_{n}$ es el estimador eficiente de $\lambda$.
Ejemplo 2.3.4 Para calcular la CCR o, dicho de otro modo, para que el inverso de
$$
E\left[\frac{\partial \log L(\mathbf{x} ; \theta)}{\partial \theta}\right]^{2}
$$
sea realmente la cota minima de $\operatorname{var}(\widehat{\theta})$ en la clase $\mathcal{S}(\theta)$, es necesario que se verifiquen las condiciones de regularidad. De lo contrario, se pueden obtener resultados absurdos.
Consideremos, por ejemplo, una variable aleatoria $X$ con función de densidad
$$
f(x ; \theta)=\frac{3}{\theta^{3}} x^{2} \mathbf{1}_{[0, \theta]}(x)
$$
y esperanza
$$
E(X)=\int_{0}^{\theta} x \cdot \frac{3}{\theta^{3}} x^{2} d x=\frac{3}{4} \theta
$$
Ya que $\theta=\frac{4}{3} E(X)$, esto sugiere estimar $\theta$ mediante $\widehat{\theta}=\frac{4}{3} \bar{X}$, que no tiene sesgo.
Por otro lado, si calculamos la varianza de $X$, tenemos
$$
\operatorname{var}(X)=E\left(X^{2}\right)-E(X)^{2}=\frac{3}{80} \theta^{2}
$$
Sabemos que $E(\widehat{\theta})=\theta, y$ además
$$
\operatorname{var}(\widehat{\theta})=\operatorname{var}\left(\frac{4}{3} \bar{X}\right)=\frac{\theta^{2}}{15 n}
$$
Si evaluamos $I_{n}(\theta)$ en su forma más sencilla, obtenemos
$$
I_{n}(\theta)=n I(\theta)=n \frac{9}{\theta^{2}}
$$
Así, la CCR resulta ser mayor que la varianza de este estimador:
$$
\operatorname{var}(\widehat{\theta})=\frac{\theta^{2}}{15 n}<\frac{\theta^{2}}{9 n}
$$
lo cual es un resultado absurdo. Este error se debe a no considerar que el soporte de $X$ depende de $\theta$, por lo que no se cumplen las condiciones de regularidad, y la cota de Cramer-Rao no existe.
También ocurre que la varianza de un estimador es inferior a la CCR aunque esta exista. Esto puede pasar, por ejemplo, con algún estimador sesgado.
## Caracterización del estimador eficiente
Calcular la cota de Cramer-Rao es una cosa; encontrar el estimador que alcanza esta cota y, en consecuencia, tiene varianza mínima es otra. La siguiente caracterización permite, en algunos casos, obtener directamente la forma del estimador eficiente.
Teorema 2.2 Sea $T$ el estimador eficiente de $\theta$, entonces se verifica
$$
\sum_{i=1}^{n} \frac{\partial}{\partial \theta} \log f\left(X_{i} ; \theta\right)=K(\theta, n)(T-\theta)
$$
donde $K(\theta, n)$ es una función que depende de $\theta$ y de $n$ y que suele coincidir con la información de Fisher.
Demostración:
Si $T$ es el estimador eficiente, entonces
$$
\operatorname{var}(T)=\frac{1}{I_{n}(\theta)}
$$
y, por lo tanto, $\rho^{2}(T, Z)=1$.
En general, dadas dos variables aleatorias $X$ e $Y$, se sabe que si $\rho(X, Y)=1$, entonces
$$
Y-E(Y)=\beta(X-E(X))
$$
Si aplicamos este resultado a $T$ y $Z$, tenemos
$$
\begin{aligned}
Z-E(Z) & =\beta(T-E(T)) \\
\frac{\partial \log L(\mathbf{x} ; \theta)}{\partial \theta} & =K(\theta, n)(T-\theta)
\end{aligned}
$$
Ejemplo 2.3.5 En el caso de la distribución de Poisson, tenemos
$$
\begin{aligned}
f(x ; \lambda) & =e^{-\lambda} \frac{\lambda^{x}}{x!} \\
\log f(x ; \lambda) & =-\lambda+x \log (\lambda)-\log (x!) \\
\frac{\partial \log f(x ; \lambda)}{\partial \lambda} & =-1+x \frac{1}{\lambda} \\
Z=\sum_{i=1}^{n} \frac{\partial \log f\left(X_{i} ; \lambda\right)}{\partial \lambda} & =\sum_{i=1}^{n}\left(-1+\frac{X_{i}}{\lambda}\right)
\end{aligned}
$$
Queremos ver que
$$
\sum_{i=1}^{n}\left(\frac{X_{i}}{\lambda}-1\right)=K(\theta, n)(T-\theta)
$$
Si reescribimos esta expresión, obtenemos
$$
\frac{1}{\lambda} \sum_{i=1}^{n} X_{i}-n=\frac{1}{\lambda}\left(\sum_{i=1}^{n} X_{i}-n \lambda\right)=\frac{n}{\lambda}\left(\frac{1}{n} \sum_{i=1}^{n} X_{i}-\lambda\right)
$$
Así, $K(\lambda, n)=\frac{n}{\lambda}$, que coincide con la información de Fisher $I_{n}(\lambda)$. Por el teorema anterior, se deduce que $T=\bar{X}$ es el estimador eficiente $y$, por lo tanto, de mínima varianza.
## Estadísticos suficientes
En un problema de inferencia puede suceder que los datos contengan información superflua o irrelevante a la hora de estimar el parámetro. También puede ocurrir lo contrario, que intentemos hacer la estimación sin utilizar toda la información disponible en la muestra. Ambas situaciones son indeseables. Parece razonable que, para estimar un parámetro, dada la dificultad derivada de disponer de varios estimadores entre los que queremos elegir el óptimo, nos basemos únicamente en aquellos que utilizan (solo) toda la información relevante.
Ejemplo 2.4.1 Supongamos que queremos estimar la proporción de piezas defectuosas $\theta$ en un proceso de fabricación. Para ello, examinamos $n$ piezas extraídas al azar a lo largo de una jornada y asignamos un 1 a las piezas defectuosas y un 0 a las que no lo son. Así, obtenemos una muestra aleatoria simple $X_{1}, X_{2}, \ldots, X_{n}$ donde
$$
X_{i}= \begin{cases}1 & \text { con probabilidad } \theta \\ 0 & \text { con probabilidad }(1-\theta)\end{cases}
$$
Intuitivamente, está claro que para estimar $\theta$ solo nos interesa el número de ceros y unos, es decir, el valor del estadístico
$$
T(\mathbf{X})=\sum_{i=1}^{n} X_{i}
$$
En este caso, un estadístico que considere la posición de los unos y los ceros en la muestra no aportaría nada relevante. En cambio, un estadístico que no considere todos los valores, como por ejemplo $T(\mathbf{X})=X_{1}$, sería claramente menos adecuado.
Las observaciones del ejemplo anterior se justifican al observar que todas las muestras de tamaño $n$ con el mismo número $t$ de unos (1) tienen la misma probabilidad. En concreto, la función de probabilidad de una muestra $x_{1}, x_{2}, \ldots, x_{n}$ es
$$
f_{\theta}\left(x_{1}, x_{2}, \ldots, x_{n}\right)=\theta^{t}(1-\theta)^{n-t}
$$
donde $t=\sum_{i=1}^{n} x_{i}, x_{i} \in\{0,1\}, i=1,2, \ldots, n$.
Como se puede ver, la probabilidad de la muestra solo depende del número de unos (o ceros) y no del orden en que aparecen en la muestra. El hecho de que la posición de los unos y los ceros en la muestra no aporte información relevante equivale a decir que el estadístico
$$
T(\mathbf{X})=\sum_{i=1}^{n} X_{i}
$$
contiene la misma información que $X_{1}, X_{2}, \ldots, X_{n}$ para estimar $\theta$. Observamos, sin embargo, varias diferencias entre basarse en $T(\mathbf{X})$ o en $X_{1}, X_{2}, \ldots, X_{n}$ :
- Al pasar de $X_{1}, X_{2}, \ldots, X_{n}$ a $\sum_{i=1}^{n} X_{i}$ hay una reducción de los datos que no implica pérdida de información.
- Muchas muestras diferentes dan lugar al mismo valor de $T$.
Fisher formalizó esta idea con el cálculo de la probabilidad condicionada de la observación muestral con $T(\mathbf{X})=\sum_{i=1}^{n} X_{i}$ y para todo $t=0,1, \ldots, n$ :
$$
\begin{aligned}
P_{\theta}[\mathbf{X}=\mathbf{x} \mid T=t] & =\frac{P_{\theta}[\mathbf{X}=\mathbf{x}, T=t]}{P_{\theta}(T=t)} \\
& =\frac{\theta^{t}(1-\theta)^{n-t}}{\binom{n}{t} \theta^{t}(1-\theta)^{n-t}}=\frac{1}{\binom{n}{t}}
\end{aligned}
$$
Es decir, dados $\left(x_{1}, x_{2}, \ldots, x_{n}\right) \in\{0,1\}^{n} \mathrm{y} t \in\{0,1, \ldots, n\}$, tenemos
$$
P_{\theta}[\mathbf{X}=\mathbf{x} \mid T=t]=\left\{\begin{array}{cc}
0 & \text { si } t \neq \sum_{i=1}^{n} x_{i} \\
\frac{1}{\binom{n}{t}} & \text { si } t=\sum_{i=1}^{n} x_{i}
\end{array}\right.
$$
Obviamente, $P_{\theta}[\mathbf{X}=\mathbf{x}]$ depende de $\theta$, que es el parámetro que queremos estimar. Sin embargo, la probabilidad condicionada $P_{\theta}[\mathbf{X}=\mathbf{x} \mid T=t]$ no depende de $\theta$. Tenemos entonces la siguiente expresión de la función de probabilidad de la muestra:
$$
P_{\theta}(\mathbf{X}=\mathbf{x})=P_{\theta}(T=t) \cdot P_{\theta}[\mathbf{X}=\mathbf{x} \mid T=t]
$$
Esta expresión muestra que $P_{\theta}(\mathbf{X})$ se puede descomponer en dos factores, uno que depende de $\theta, P_{\theta}(T=t)$, y otro que no depende de $\theta$,
$$
P_{\theta}[\mathbf{X}=\mathbf{x} \mid T=t] .
$$
Una forma de ver esta descomposición es pensar que el estadístico $T=$ $\sum_{i=1}^{n} X_{i}$ ?acumula? o ?absorbe? toda la información relativa a $\theta$, lo que se refleja en que la probabilidad de la muestra, dado $T=t$, ya no depende de $\theta$. Es decir, podemos imaginar la construcción de la muestra en dos etapas:
- En una primera etapa se elige el valor $t$ para $T$ con distribución $B(n, \theta)$.
- A continuación, se sitúan aleatoriamente $t$ unos y $n-t$ ceros en las $n$ posiciones.
Cuando la estructura del estadístico $T(\mathbf{X})$ hace que el segundo factor en la expresión anterior no dependa de $\theta$, significa que la observación adicional de la muestra es irrelevante. En este caso diremos que $T(\mathbf{X})$ es suficiente para la estimación de $\theta$. Dado que esta propiedad de $T$ queda caracterizada por la independencia de $P_{\theta}[\mathbf{X}=\mathbf{x} \mid T=t]$ respecto a $\theta$, se utiliza esta independencia para definir la suficiencia.
### Definició de estadísticop suficiente
Dado un modelo estadístico $\left\{X \sim F_{\theta}: \theta \in \Theta\right\}$ y un estadístico $T$, diremos que $T$ es suficiente para $\theta$ si, dada una muestra $\mathbf{X}=\left(X_{1}, X_{2}, \ldots, X_{n}\right)$, se verifica que la distribución de $\mathbf{X}$ condicionada por el valor de $T$ no depende de $\theta$.
- No es necesario que $F_{\theta}$ sea discreta, como en el ejemplo introductorio, o que la muestra sea una muestra aleatoria simple.
- El estadístico suficiente para un parámetro puede ser $k$-dimensional.
Ejemplo 2.4.2 Dada una muestra $X_{1}, X_{2}, \ldots, X_{n}$ de una distribución de Poisson, la función de probabilidad de la muestra es
$$
P_{\theta}\left(X_{1}=x_{1}, \ldots, X_{n}=x_{n}\right)=\frac{e^{-n \lambda} \lambda \sum x_{i}}{x_{1}!\cdots x_{n}!}
$$
Calculemos la probabilidad de la muestra condicionada por el valor del estadístico $T=\sum_{i=1}^{n} X_{i}$ :
$$
\begin{aligned}
& P_{\theta}\left[X_{1}=x_{1}, \ldots, X_{n}=x_{n} \mid T=t\right]=\frac{P_{\theta}\left(X_{1}=x_{1}, \ldots, X_{n}=x_{n}, T=t\right)}{P_{\theta}(T=t)}
\end{aligned}
$$
$$
\begin{aligned}
& =\frac{t!}{x_{1}!\cdots x_{n}!}\left(\frac{1}{n}\right)^{t} \mathbf{1}_{\left\{\sum x_{i}=t\right\}}\left(x_{1}, \ldots, x_{n}\right)
\end{aligned}
$$
La probabilidad condicional no depende de $\lambda y$, por lo tanto, $T$ es suficiente para $\lambda$. Conviene observar que, en este ejemplo, no todas las muestras tienen la misma probabilidad.
### Teorema de factorización
La justificación de la suficiencia de un estadístico mediante la definición no siempre es sencilla, ya que la distribución condicional puede ser intratable con las herramientas disponibles. El teorema que se presenta a continuación proporciona un método sencillo para comprobar la suficiencia de un estadístico y, a menudo, sugiere cuál es el estadístico suficiente de menor dimensión posible.
Teorema 2.3 Neyman-Fisher. Sea $\left\{X \sim F_{\theta}: \theta \in \Theta\right\}$ un modelo estadístico y $X_{1}, X_{2}, \ldots, X_{n}$ una muestra aleatoria simple de $X$. Sea $f_{\theta}(\mathbf{x})$ la función de probabilidad o la función de densidad de la muestra, según si $X$ es discreta o absolutamente continua. Un estadístico $T$ es suficiente para $\theta$ si y solo si existen dos funciones medibles $g_{\theta}$ y $h$ tales que
$$
f_{\theta}(\mathbf{x})=g_{\theta}(T(\mathbf{x})) \cdot h(\mathbf{x})
$$
donde $h$ no depende de $\theta$ y g depende de $\theta$ y, además, solo depende de la muestra a través de $T$.
Veamos ahora la demostración del teorema de factorización, restringida al caso de variables discretas.
Demostración:
Comenzaremos suponiendo que $T$ es suficiente y concluiremos que es posible la factorización.
Si $T(\mathbf{X})$ es suficiente para la familia de distribuciones $\left\{F_{\theta} ; \theta \in \Theta\right\}$, la función de probabilidad de la muestra condicionada por $T$ no depende de $\theta$. Dado que
$$
f_{\theta}(\mathbf{x})=P_{\theta}[T=T(\mathbf{x})] \cdot f_{\theta}[\mathbf{x} \mid T=T(\mathbf{x})]
$$
solo es necesario tomar $g_{\theta}(t)=P_{\theta}[T=T(\mathbf{x})=t]$ y $h(\mathbf{x})=f_{\theta}[\mathbf{x} \mid T=T(\mathbf{x})]$ para obtener el resultado.
Ahora supongamos que es posible la factorización y deduzcamos la suficiencia.
Si $f_{\theta}(\mathbf{x})=g_{\theta}(T(\mathbf{x})) \cdot h(\mathbf{x})$ y llamamos $A_{t}=\left\{\mathbf{x} \in X(\Omega)^{n} \mid T(\mathbf{x})=t\right\}$, entonces
$$