From c42c018dbfa0cf98bfbc3cc8676b0cd4349523f8 Mon Sep 17 00:00:00 2001 From: alexsanchezpla Date: Mon, 21 Oct 2024 19:19:28 +0200 Subject: [PATCH] SOlved minor typos --- 03-distribucionesNotables.Rmd | 4 +- 04-vectoresAleatorios.Rmd | 4 +- docs/_main.pdf | Bin 3576986 -> 3576989 bytes docs/_main.tex | 8 +- ...es-de-probabilidad-multidimensionales.html | 4 +- docs/distribuciones-notables.html | 4 +- docs/reference-keys.txt | 224 ++++++++++++++++++ docs/search_index.json | 2 +- 8 files changed, 237 insertions(+), 13 deletions(-) create mode 100644 docs/reference-keys.txt diff --git a/03-distribucionesNotables.Rmd b/03-distribucionesNotables.Rmd index 16e9088..3e2db7f 100644 --- a/03-distribucionesNotables.Rmd +++ b/03-distribucionesNotables.Rmd @@ -371,7 +371,7 @@ $$ - Si del conjunto anterior extraemos $n$ individuos sin reemplazamiento $(n \leq N)$, la variable $X$ que representa el número k de individuos que pertenecen a la categoría A (de los n extraídos) tiene por función de densidad: $$ -f(k)=P[X=k]=\frac{\binom{\mathbf{N}_{1}}{\mathbf{k}}\binom{\mathrm{N}_{2}}{\mathbf{n}-\mathbf{k}}}{\binom{\mathbf{N}}{\mathbf{k}}} +f(k)=P[X=k]=\frac{\binom{\mathbf{N}_{1}}{\mathbf{k}}\binom{\mathrm{N}_{2}}{\mathbf{n}-\mathbf{k}}}{\binom{\mathbf{N}}{\mathbf{n}}} $$ si $\operatorname{max}\left\{0, \mathrm{n}-N_{2}\right\} \leq \mathrm{k} \leq \min \left\{N_{1}, n\right\}$ @@ -482,7 +482,7 @@ $$ | Poisson | $\lambda>0$ | $e^{-\lambda} \frac{\lambda^{k}}{k!}$
$k=012, \ldots$ | $\lambda$ | $\lambda$ | | Multinomial | $0 \leq p_{1}, \ldots$
$p_{r} \leq 1$
$\left(p_{1}+\ldots+\right.$
$\left.p_{\mathrm{r}}=1\right)$
$n=1,2$ | $\frac{n!}{k_{1}!k_{2}!\cdots k_{r}!} p_{1}^{k_{1}} p_{2}^{k_{2}} \cdots p_{r}^{k_{r}}$
$\sum_{i=1}^{r} k_{i}=n$ | $\left(\begin{array}{c}n p_{1} \\ n p_{2} \\ \vdots \\ n p_{r}\end{array}\right)$ | $\boldsymbol{\sigma}_{i i}=n p_{i}\left(1-p_{i}\right)$
$\boldsymbol{\sigma}_{i j}=n p_{i} p_{j} \quad i \neq j$ | | Uniforme
discreta | $n=1,2, \ldots$ | $\frac{1}{n}$
$k=1,2, \ldots . n$ | $\frac{n+1}{2}$ | $\frac{(n+1)[2(2 n+1)-3(n+1)}{12}$ | -| Hipergeométrica | $\left\{\begin{array}{c}N=N_{1}+ \\ N_{2} \\ p=N_{1} / N\end{array}\right.$ | $\frac{\binom{\mathrm{N}_{1}}{\mathrm{k}}\binom{\mathrm{N}_{2}}{\mathrm{n}-\mathrm{k}}}{\binom{\mathrm{N}}{\mathrm{k}}}$
$\operatorname{max}\left\{0, \mathrm{n}-N_{2}\right\} \leq \mathrm{k} \leq \min \left\{N_{1}, n\right\}$ | $n p$ | $n p(1-p) \frac{N-n}{N-1}$ | +| Hipergeométrica | $\left\{\begin{array}{c}N=N_{1}+ \\ N_{2} \\ p=N_{1} / N\end{array}\right.$ | $\frac{\binom{\mathrm{N}_{1}}{\mathrm{k}}\binom{\mathrm{N}_{2}}{\mathrm{n}-\mathrm{k}}}{\binom{\mathrm{N}}{\mathrm{n}}}$
$\operatorname{max}\left\{0, \mathrm{n}-N_{2}\right\} \leq \mathrm{k} \leq \min \left\{N_{1}, n\right\}$ | $n p$ | $n p(1-p) \frac{N-n}{N-1}$ | | Pascal | $0 \leq p \leq 1$ | $p(1-p)^{k}$
$k=0,1,2, \ldots$ | $\frac{1-p}{p}$ | $\frac{1-p}{p^{2}}$ | | Binomial
negativa | $0 \leq p \leq 1$
$r>0$ | | $\frac{r(1-p)}{p}$ | $\frac{r(1-p)}{p^{2}}$ | diff --git a/04-vectoresAleatorios.Rmd b/04-vectoresAleatorios.Rmd index d1f7611..d0313ac 100644 --- a/04-vectoresAleatorios.Rmd +++ b/04-vectoresAleatorios.Rmd @@ -218,7 +218,7 @@ La distribución conjunta se refleja en la siguiente tabla de probabilidades con Puede comprobarse como la suma de todos los valores de la tabla es 1, y calcular probabilidades de sucesos como -**Probabilidad de 1uye hayan dos celulas infectadas y un linfocito:** +**Probabilidad de que hayan dos células infectadas y un linfocito:** Para calcular la probabilidad de que haya exactamente 2 células infectadas y 1 linfocito activado, se puede usar el valor directamente de la tabla. @@ -240,7 +240,7 @@ $$ P(X < 3, Y < 2) = 0.12 + 0.06 + 0.10 + 0.10 + 0.06 + 0.12 = 0.56 $$ -Recordemos que, al tratarse de variables discretas, no es lo mismo $P[X< x]$ que $P[X\leq x]$, por lo que si la pregunta fuera "Probabilidad de que hayan al menos tres celulas infectadas y al menos dos linfocitos" deberíamos calcular: +Recordemos que, al tratarse de variables discretas, no es lo mismo $P[X < x]$ que $P[X \leq x]$, por lo que si la pregunta fuera "Probabilidad de que hayan al menos tres celulas infectadas y al menos dos linfocitos" deberíamos calcular: $$ P(X \leq 3, Y \leq 2) diff --git a/docs/_main.pdf b/docs/_main.pdf index 8c10b67398325f73dd9d43d583727de37aac8954..ecbfd56b43cc3801ded32e2c6795b73706d5590d 100644 GIT binary patch delta 19362 zcmahw30O_r_uWzwN(xVsB1*_T^Erk{2^ljbo*_epXpqX(6*ogg%5aE~@sXhtNf{D} zG9+FvsU%O)B)!bTe;q%?-MjDmzwf)B_pP({+H0-7=CzAH@kAB_zqLx4QeCN`Y@yUt zYAIVPwUw=uI?C3{Hp;e2U8SC~ol;-fUTL5-RCZ8yRCZGSq3oi9Q9$ebO>ENZ}BZc0tBlZk@Y7_+IJF;Dc?v-<4c2>Aw6!OO1x|H5#Wj8O>SYdH14T zG5yHyY-IHG=`D!Jtd++yl-ezxdTj4`_tNoIZ@zV$=5^TeT6p!_>?DoA!LOVf4xLyz zw^Gewp{LjN?fa}1yQ-&owTnJBbOHTNGj&(5+qCxyy&IXbi+1I^;{QoqbADlMw9&=8 zU2ZTwm-_~~tVphze%fK2&4Pg`)gFOZn>Nw><68)xhfv$dSXM}1$v{z0C>=8ao4(;g^_`TQLzw-z6a z?Q9TrO+7HZdvS+<-~VUH=(TyH%H9wE{Z{<%;gm><$j@a z3!**yzfj5^+dZ)w6rnqDqWIT~1=cf&?tiV+-a4&3&O9%_GT}dy2azKte5OnKMSU@w z`mMxcLd@fXtF!JJkDfwbd@^j#WCbzk&b+`!;-8*hqyBXNs9oT1Mh}`jR=;0db=rUf ztjmc_euJ%1Y5m&= zEqPjA9h6ef5liP+UU+Udu%fuSa_y`g_s<9Cle$&qS@RF~Tci}6OB&w4@m!s)wnU-a z)pur|f15I0Q{T$y_@ai^*PrY*emI>Uv1ezQeV$9q(gE+4Q-%HXBy&nAw@ z39y<$4ZRqZxpiXxyy8azchA&(x>tXht4Ited||Wt2nsmP`!uxdZ zaa}@NJ3lj->+o)?`oTvg_i{>i-OIaNNXG@HDth#iJy>nwUhCzQ9F_P;h{(*HmT9n^ z{_;h8kZ`F^dxP7<5_^k5_x#jSQZwgjq`a)Q+F!7C<@~F$$(@bM`_~vGU1>|LC&H8G zUi`Er|4>aC>9Ey%PF;22^rDIZIqDx~()w-7&knX9A3OAWCKE8X{$pTiRj%(VV=ecm zdp38AQEUhpmvJaxmYecdhYkBfBClL_DJlNq;bo{c_ifr+>bplqj?tLz8O2jgLL$Oe znl$8gn!DoQDwpHpr6DG_{p!8$TaHdS^p9@GC3_3cxf@nwRBZaoE~i7vvxxLU+c&o+ zbh+n|uh-W3Uz-o_KOJd*$zfmdhb~`MCg1MnZ1fQbrH}G@cxb>H(^*z+1#Ixm$iJ^ha;d9U^#H?HaT*POrihOE79I>kTv z&vw?U#wxDnRZZEiZerbk>FC7o7ZYyZpY&$S1&f;4jEt{Fz2CTNO=+PQGfRJGk0puE zKQ%nQDk~5A7MuKfoYl$p;JRbKnYH*vB19y6!yghPvX!WoM zYmN{aJL@|C5tqbS?TA6j|b1 zU!+GB*Jt$GuwYUA;lkqDyC-x8`vnG9Ul%_=ksj_B>d@Y6#DE*2 z*NhV%9$m%k+h+YJ$HDPI_odFcrKx4TpWSnBnOI*Cyp)PJ8E0xru4;Ae>E~bHEq9coAP`WN8EOAv$#_17P{QuF7JTa<<`NMy~`fm4Xf&#TVAx@v0!{! zyV(^=s?*5HeY?%rv~DZ;=f7_MwcYW0Y2d?j{f)e_>}|$_@Ix8apQ=4xRvdDVPPsGu z+^s@E&TDj?XYp|wwYZrD*Z|kkw zmv(nP{w}B3?fa+0=681WiZ-v-+GwJFJZmsio(Ki@{yB0r$vkmG(S16K-(>3|K?c-&Q3d; zo!aJ>k;m}sb)y~pNBvRJue-0#Y@a1}xOcImkAEv*W?z{XKD_qqMP*NynWv6CZol$n zPxt>S82z(%_&}=lr$EKMu?69GKRRkV)wG0iayn{(P;ZDTP4_ikvebP0Y^&hvs zntq~w;OC;6BV9g^wwhm2JKtZr&?)N50EVxr+lEB6yj7O%ewV!x4LiA-N1rSZ3^JrFzv`ZzhYM?}c5v z7P_MIMYZu8ZuHQfKhJE&=C_~X7k?h@v^l2s?7-FU@`9?)>W<6t2)h2U&@SLi#hBv# zecE~CnXq>&Mr`|jdhZ|azwUmknDh0i|GELC+eS^Y4D=n^F?stEN>I$wTCw-7{~+fy z<1gox_$RL_IeM-v{HuK3nt?|Y(Yi%iC26nxi?ny;WOaPCe(}gIJ35`LPW2h`!7`<$ z*PACNYL|K+tdCUOsCe~nVp-m|_?j+53QM2m+m&~@+rWP~;Z{Do#iuum(t5fU<+ydu z*mOCe#NVuUf_%O2n6GzZYp?s-*jSf-86Q<}Rx>m3zTtD3QctnFx^ssqDP7-Po~J0? zl{@RZT=)6h%8@;G<_p_`&bK^OU#(kE#0GJ(S2I@x%s+U*c+ZL}(Gi|xirt=dKCT|G z9ZH5?p1PoRif={U8dED5A5JfI-6|)}xlq`o67GE0-*t*V&ieT?%yc zTyth$|FO2)_toAlYc-o46)y|A_n@ZM*m0ZV@r7p^VmcM4xTzJ;@7Gv0u;x1h$0*yn zwpD9AS20GpFu|qWWZ&2NMi=^b%Y75|=D@^+6*WnpT$09^Y@PCM(4FYXQ~q7^CcpSn zl59@llfY$eNF$e3wk|1Clrhg z3jE`J&3tve`?I=rF>%-zb9&??$31gS+G=mKP~So9-fdi~=u~w&_Amd>W1Y88AJ9Lg zxOk=Bd5uY4n%kzQgjA1Ai?1#WDXRY?$33X>eDcjZ6_>triQ=x#)H%AkFthDv&z5J? z5`28J#+GXPuPWJ6zw7hFxNYQt7K$^Qrh5EWR^?{X&oZD__Mr*pl=Jfe^ zN5-3%9ehUrf$vj{i)(Nncssf{91HOEcSerhmlY1<1Xs~VoQ z?NVm1W0`K|#GW6p;_5E-0N<42k9n#0_RIO<+I@}gJAEx3J=Z$q`+(Rh*_(&B+2>Ahesx^%ShhZtIBhqe#-T2xw^5|pbtZ~`pxiewa4_lLxIBZ>i)0Uik4$yRLyEp% zHL9u@^D(T<{mHFcPi>;8kC_KXMH@IwxGt=^l302BVf^-oUuu~Qg{jMp@|NQa>I1!t0Nv0eEJOA*~&XD>YdH5_L*n>M>SI`r=a)io0E6ii?vn{!ahQ_tV&I zpX2j9e#!HsVbxk+SqZ$253KTW$ zKT*Q)-A5hImqdG8_BLJn?%ojHX(97YYUOw`pR8v44hSo|ut;lj=Z-FQUadS<=j&V^ z`)&V}2Ps2u#0^>$@WRT`+jaGc&l-w}H+x+fz0P)P_Kglvsm5FTn7?l8*iU{j?5Smk zqIsvo7XB4S&klUuYIs7o+y8tSRk>qfbyqgXiT{x8zPH>n@%`4ypsMS$a`x36(G7hy zK03eCKD#0hMU@#HX(&5)vVC_x>$~QQ6}eOYmjL=Ma9tw(pV!<)I-Hy|m78vSG7@6= zNNf1@ho2mN1pG+&QShUapNwRb&n*Rlr^!BY(n2n`=&jR#tk-;dSHA_Omi7ZkIY|?8 zk|2I8N#4+hHPVoAVyrc5Afv?d)~rPb)>JP2XS&o>2mYaGSjkah9jxdesD5HdK*uC^ z?$5T@R42&fel*)jHkejfMDjex(G&s`2!fWY!UQ=%u%sBwum*!w&mjet=6F@INP(9N zB#7iUQUS(M0x9N7D0t+PAg4J-1x5jLJWHT3j^R1cj0F^`L{oB-q!6Md7|p0MEWsFp z5PblJ0!2Xyw16(B1cv4iDky=KqU7`sx&AKQA25a!i2;BDrHz&o94bi~1fhBh5(<*1#b7|8z&??nm53N< zl4S996p3CWO;Wt7F2GSFO{wb9518wnUfozzJ7llFWEg2)q2D4!ukj)I3EiZ_%gV_P7P8J!$Fgk7vICE2hpn9W{WGIRiOPyH@L^#qXMy@KHA29F<#57Pj)w`5Fv7D+VOE8X7 zy~-ajK`sVMC{%Ax`UGAqWD-!wc~#>gd5$1R3?^q7j4O_W(DcJE>Hf4}*eqvRUQ7U*2BS1_ za*jjK=j1$vuj3(d$YuZvMA3jWxf~?}U@R(Jj)jOMIspm=DoBnX5xWPX8J5D(GOU21 zWjF?t48zM2tpj{K`}5r2B*O?KA=XJWVNzh_h!iM>q~ttCJA@eYR>2+`Z{gP^uq1w~ z0!94v%fHbiP^=(E{t2SS_!np%;~(r1<6mF|PArvBpycupe^GLIh$7g93%tOK#7sbe zN|Gme%mwhIfJq!+ECe$Ng=+ADoQH(~j+g={5)x;m+=!RU#asym&Il<-?+o%A8i&zx zMl_oRDDY1V=0!kH8nc6@tK&Hq{F{%2LiI){MoO|!aS8;5DZd~GH4)P#6euGC0rrN- z0`fmh(FKB}1yO%CMg@dD8WKPh1x*O3sR{%bmFOy=z=)@3`nFBvcp@B@0%LU93APZ&@&4#^l1~ob< zxt2rn05l<240=sd==}(g6JiOsoS?yO>m(G&T>uJ#!N{P=M%!;xG+0Lh3R~CasNliR zp;BPM&tfphxx`37feKduQJ{Ar!5TBZUsOOCR8>gObGg8%stmxu09BP4U{sSmGtp?A`5sq@YJH&JYY*zT+)$pG$;uWR#9sL7%qO6r;s{^gmthRVHIGFy4}c@ zWGrAUVmi=-lxKiLs{c?NB-hMY0?&y0^P6D{P*AAELAYp~7C0y_RJ8?;ryzwvj_2ik zBMVL12X$+s^c&fdidk0jIzSVeeh55GV;anZt3=P|X-KO?*#ba;+7VB41S(yCVfMyD z^o0yYLZPbnl4J=ElMIw3_&Sm&#aIais^UBcoS*`N+(tFzNJlY{^Vb0i%)$jZL!mMT z8)=m1FByXqN96-9P{3gnT5<^B`&i6?!d#&y53#mNOqH1oieP{KhV^~etxBCa22K^f~Kp-^Q3K0)rO zdRx+RG)|MeEi8OjX zLt{5cFc8y3CkX{YE)7WtQd39~0Idq)C@FamW1FRdfx;Q30(>QUgMb1oybe%c7Y<#{ zW|qTcAZQ^o;LuATp=qes02e&dubh1dm`ZpD4L;~LZtwWG8%=E0z?}z7*HVY6R<;n0HaLu zU#M^)N5F&tnKmX|0l#l4ru-!7H{l9UoQh^kfGt!@!PIC}kf3BpmJSvNO&X}1BorvQ zz!;_rumRHrfI+)CT|$9M0UBjUu_v9#A^}T63Q`dDmx6H7`=J0iDj*74fE6mLmM2G3=O&fb(4ewy&sSdk}^v@Vgic|;PHTwItc};CGZL9 zGyn<;MhdEwLDEA((PQh~j4WtS6U3Lna+p-8q5!mTcVZ-<&_{S=C^2#XYv@5ivW{(n zW}hkykV9Wz751Zo#CQYwV0#G=u}JuUs^ZJRv8$qGD59yQ)ue(nO(NCm4~K)~B^2z1 zkgSSNa!ida1I2F$IT9fTHnV6o2%FJPqI57cdQ=aAy$q83N$a2ur?Rd;02#;{RDcrI zG*U1~>j;t&eSC5Kf#nnyx?vuLr6M!~6|a~MD3Fv|!rsiaGXhfGNtD55s8TD3iUaeB z5LuC?t+W?Xy8rF{blA8WkrA z(_>LT5Ktfl!g8oru;q9K2Ma0a`${N~6M<-GuAnGjDuL)51I0A-z!LxkW`Yd#oG{9G z=we}LDa=$E@P5e6!BOag2#_tsG-hDGOpu{C&=RK=z!qXgu%5?q6>$7$Aqi)J0L0j4 zQP4EfdjUn0x=koskefkeB%#1=9|mctBY?*Yn2j>fUzLltD{&Ms;sajL6X9VAB3z)1 zfF5fkpuj>H14Sji96FB}S{ikm(u5I9pGZzXVX%&C3UKS@4E`v!dPITdyJkB zEmmY5LxR_Y>9m9bVL{G7`j4;x%OMP6XhBcJTnPof9O%ZD|9DCS7t-{^2ab~RGPBiy z0<#|$nlva1XeT1f0c8|Ni#`$xghz1M@Qydm3Mq1|!P90rSSAF=&eCiV;~0V=D<;4$WE2b* z20b*)m|>!ZT@$Dlf)@6|y8x79=zC-LBQ&-8e&+ znp-qU1{U%p)IbVcGSCFW#zJzI#Izq^;L^p?W>83}2oO)iVAzM+E-YuTRt)$LEJ#V+VtC&op+JoSW>siuC5O2b+WUf| zpbQnwf^ivw5Mn=eBCNQ@{n1gi;Ji2fN6lj$T%VD^oDhrqp;-LysT0E4~ zEY>@PSsG^j;Ex);M3aug!4Q{4*?Qa~!TD%$DzOEnEk>t+OpL%Iz*fZWU@yEGMfbw= z<0s!uG{I)*+K9106MEs&CzO9^5@Rq}2f4LaC$WVd3Dp}`O2arAnSoGph-Ijwg}BQ% zc4M2=69N{R6~KHJYWV-L`s+O*ENrZHf7{$t&HRFa6F_tU5H>Z_eqYBy3s(tZ!gz%8 zA3*^V255UB;^%-PLL@?(6B8sh$PG%18~Y@`sE`~7iWZ_W8d)KqLB%A8EVglu|LgW) zIsxzUawVEj7NBg!BnU==T^&4vLfbD=IgdP7f)XEMG#X#wonPZ)fnU8KNS4vw8%%H^ z`9K(lsV*{el-eU$Ull4ec%-7b7bHd?*-(FI8Q~2l02tO3+39jktq@$c*)! z2m$&&h%Y6;cS8Z}3Mi1NJ_YY@88j;*3FvzvVF+MN$#A27kOaK{K^!5#FpmLGg2A-^ zCz2+)lTa372UF15L=+POB7^phNs7a2V}N1R8D!3I87g<7fJO{Fl0c}21_f5b0}OIg zmCZn$luckTh*bzo>QW&}KtUjZRJU#u+#@1f3I^?sm0+WADVQgtMn%CBDrhU)ZpOVQ zJPOD9L-3xPL#cqW8{W!^k_6yU8< zF9O;K(;<-v#TkL_DimHQ3aB|zwD9^29xenohXRH?=*R+|;A0Q@;RO%qxtJ@Vz_7y~ zFd&);lSz1{ph}rk;}UYwEDTT}mkM1Z$O6&j(&Pk%(J;sreIyi!IH632hh^w;7HS|A z2Crsdq9mcfP6P`;m%|ed0l8@KPz=nq^uzIRA?0CMLJsZ#n-UPlQRDjE+lNwi?`j{98DlLRF8lIw7CKOD+bdeiox6#tixNg6jX&j&uEGXP*0Gk zYX%r_i82Wd9E?eL;)cT@-9-07?xPCp4-Ktm)D(gY>H=ULypI!uBS05WbB8|)Xw={) z?V~``kwgcYc$@&O8$f|p!|;+3q8Li9fK41>T{G;%yc-o0*aMnVLB9}U{{PNsN?!p8 zRU>jRG!`*=f-#}>7ef>H5RaCg7K-WHKuo9}L2`u7bU@4m<`ASm?|}(-B%nZj1q?k% z3$b_eX7>n>|6kg>4 z3QSdLc#epk3sD`{A{e=2f`*hE6EysV2&REN6b1j&%3p3vDpY7Oayy6wf*Z%_tbgh*`%tDq{o`MT~8Dii(ICvodB;5ECk9 z6eAeM5fwqe9KnEs@&7Ig(slQofA_Gvr>3gw-nx~m-fq}+&tfh9W|}R`mga)yLS`#- zVY9W_#%yaYVlHYfW-e|nVJ>MdWiD+lV=ikhXSOq!H&-y*n=6_tnJb&Cn5&wrnH|iI z=IZ7e=9=bOW+$_=xwg5Ex$ePwYul^y)r(IB`(2~^JodBhd*w)z4R5?kH7#{>uwC(O zMW0-?bM{_$KYO!ze@y8=dk*qFVL!s{fLCXiQSuI196eqiGqsZ`^=SjEOL3b!EVoIm zl66vTTBX-;iz#Pq|7kh#MEj`J>kefn?RM>9-LLp@L-i5U-lq)w>~JqMphfRa<=fgn zsQrif+NVq0*H(kqteQ~JP_X#s+ry4EweqUftj`-M*y2v)F0kHS@(~=Lq^qNt}``Ol$yPh_&R{QVnQz&3#g@J~Qm4#OL zov7j+BU||K+AGWt_V60^SU+Zxr64u28#|JA9n&04)kDOvc%wJ(LcmUcS* z?#`NV4#!9CY&)=~)1iYlf7Mu;*>R3-X`6jFoI9+Y*yU5ow}$(Y+jtbHnD{tkWI+0q zn-MSEyJw!eZPDrGog{N@Wq{fsG4i&f*vaDZh%rU|s&-oT{6RN|`9U$>0kI8-L{9uN z>fdCeaqv3R{FkXy`ey8Z=an?EU(ot#m!sA+!OIP|I{>!avW~nNX@fF%{k4PB$xY_2K z!K*)xJlVHacI!P~Puf$!z5jKq z5&kFF*67zOaq`6GWA}F}y?1Dn_YQ};H2ANcxc9$dr^3&6_?8)8+vdUO5yz%FhYzSW z;llI;uVYJ(MsMCXu-4amN3JD)8~?P?U-vKG9(z8(@A`?v1d9`OHjOSAF}%v1YfCS+ zX>!ZPH~jd^^whgqt1RxRHVyk8+y2@B9H)N|5*+c#ctNbS{qy;QD3_{nDH7QM2wYPqY~`ZY058+J^M8rkdZc(rXu z%gx!H;|D(YXN=SEUB1xc4`0d6CRc>7Ps}({LcRCM-~`ADe!#Z@o|Yg zn;x*pyf~wUw;;z4x?g+5^va%vhuV9e_jzC0+db*R@I_TpPp2imJ$UTK#MM?A(IaY9 zihnR={>E0bz6ZU0eJ=U^+mm;V?|EjB-s+%T+ADZ0WFk{uW)U*)}sY$)PEgh%b@=@FF`~KiBp;wu} zpwHf?+>K8XuiT6Z32mG(Wbs0``0*3FeVS}h^k~|U%5A;YFMb-QTkrR=Z!hbqk$v3S zp1fQ5uus&>Qb}coevhbh=i{Q49j1oQ85{4nFIzn|XL=pW{pzW+v2t{Q+Wms7m8sRt z`AziSmR7U%wT5)8^{(WXeqGP(F%`8~?z;Px*HOp*AE$huvE%N#rdCb+54^u>*pG2T zmv7pUQh98b`>g{4z8JfuTr0NQrds0@HR`p!H|%`o%P_T|=f3aVLtLlSD;xE#bG?u< z7E;L4hxO}5og7l{W-;|(O`ElkUfuE9RO(!tpf?K&$1U_7nSOZwF8 zl6kFnc7v31fp;G_3on{FWBJ}5O~!TjsCzV{UdT@8nnUUxF6#PeX>73`v40QV6T48H zo2CDEZ~Y^;Ok*P>!q(T2r=RTP?^Hl`tO3lw{99ya#fe+|zs{uq62x>WFnI-yRN zoqkclAL}3bJpJN6<4WA57FYeRm5j1q zwd>4cuc@a@JL-M7ILl_+zI(|LWe1+P`ewtnWJ%p!puvEkO<`rDj%2xPGBzG8C!ChU z+D@kc(d=OUs z-`~+Aa@v^cMH*lBS-I|psq60O)b`eGtEBl9x>&Ncu&_k*v#2d=wghe*`J`TjxN6={ zPp1@{uxLY8m+x(z79?~y(%|7nzelq7i1z6nOjlD?H7W8&k>Os$d?$<#v3*duXuxWp zdibj!wc4kFF8-%})K|Ul%Vkb}>HVxu!IAU2Ed682mBGu;mna;1v?{|6z4Ex8 zG=A%wyKldKZn(^S!I%SMYY%O(Kf|>~-+JZ477l85@8FTTBi?=z7GB%r5hdE@$$W0 z*o4U;seKCWZ70vTbkW7O;0brP&Z+goJ7vc_@z*AK=lsV>91xs_lu{PPNYY9KEy9I^jm$rIrmHvOB+;UTHN>w2##ySI>2$2ot_Uu%E9X~?9C^+)~lvbKN9w0AAK zooer|pE|Kd)rN1Dcqk)UtvSEA@1-Z1T`HCsY}j7#Ou+g}1upEI-_iNN_TWxx`Ocs8 zF^lI|+kfly>dpS%8#`39XE3ej z;)>pXmX5Ev?Qz%2qKEIwIj=vLzB6Omh3Ez;w^N=<^WHjGd1snZ8vf{f{6uiIMO{6s zE-Jt0`th!9j;!;GoZBV2a{KK`dY-kL*`?RV zQ=97B&PuJWUt%g>30r&+qUyud~ib5=3hp( z_}JUJw&%g-sh?kmHt9XV+54KE&B2i+*Li*rF8;XPaM70;9kW~PQ{Tw08+{xjw!f3&5bb;B^0&}U!8IoL92mS|Q~IkueS_|dw3)m4UhB#u4wMiR60>6HhqYygM#-hW(k7Rl9Wx@KWatN}dqy zRj7mKu)q&zj9ZIeF8bfcq$3W~R`j1#*8labNhbM5_Qe)|efTi`ZuUsE&!?b4uYKOV z41M1yE>q6h=J~Wmq0bp3r_~ygbk(zB%=|5p5B#dvjnvH<-|<^qX!=>d=FMGFzjj%s zL|DaUT`iYpVJ@kzd0o}6=h3PkPYg{xd_x`hLsv2_Epcg^dJ(>k-$pg+^YlTJVUrTG z{x!d?l#sM?*0}M*pJa|Yx&KmHiQz?J=kD57`CHK!hw4p@Sk`*e#)2M~7Di9LV>fK? z0`r|$xAwRBGI_Go#iD;Na$hCbCJ(6oWKH6@BSj{yT3;Yx#GnCXw>{Dyb~$}7_5R0h z?dGK){r9X`Pn~X33I%TVw|MI3D%+1uX}RZ2aLveXSI6}2u%JhQTZ zirZG$Zm(qa@vqUc;+zGS-cCM~tX5h$YEtq9)2?mrm%V(w_fyv<`pjMhcCAdj6MwF9 zVr0^tX2EBsJ&77P_0K(v!mpgFKKXs(wyu{?B_0{F>2=CVljKt3sMGp0L(&7rC66C8 z%C6g!9h9pW`LdYlx~VYHib zd_}eIK#NtqU4(g?o#kVTY97wI+w{e;e|9GYy$zq*a?`ye@y|_?RsUHPtpDrx*Jnf4 znZtt~?hj1Nm~i<-xwWlbX1mSWYBf5txVg-*r1bD;zXy9_vff-;FJ(MW88-II^d$#J ze(F^^AR<7)1-J*ZMeqS^oWAK>wsxJ6F%iQtMwox#Dq)n(6c3g`K-LczxF0=epQhw|XC&GNn}7$)IIn zS!-(jwRqCexc(PvlsX=NJ89W9i=`V+mtle2!fD zXsl@&80*_ZJ<|T_wv1Dqccza|3$ExP-s<^zWalc5CA`AjE%s!4t_VA8r(WDt9GQW` zCExo4Z?Bxa{suA-&GM?2MaW%4&e&vU0r4*pLL&AjlYOiK8d zn^*Umw;nloN^jm>t*rZ()`bdW7MwfWl=NWYyRP3qroDRE*T(9q&)Kam{!Wg%+wRfL zzI<3yesrI&M+*d4l>8oCGpT(4R?hAAdPwIZ{#JjyJ5_LdXZzK4-<*B(V^DFw2|K1e z%vuxwRzGR+qs}MaPFnWFTzZ91{Kkk^Q}&Cmwu(Qd#$`CPEB`ioR$`&j?!D5oq)Ydj zPFr^~ZACZBx|Mp|U)XiHWtE7nuP<~vd*npw#NrVLXZLQuYx?6WVRO9xoO*6tP{U%+ zuAV-T)_eTq;Y#6Ys%Oe!_rf<0JC}EkY1yEd+hW%Si~g|hQT@>Biu>HHuN;ol_3UhU zNY`gViuq`xSTBd0%hU=KZHF z*UtJiKA2Q!U5h@$gv2o+p|Qy&vKy~;?dO#7H0o2^xZtiW=j;n;@@I{qbHDyM)Y>aH zb56t1?p9q752#b^s>j;`51agu2U{&3S!rM7%4cEIjy~TL)OL5pTEqJcKL4X_%ZJVD zFOssWg>Cj7H-Bu?QP+ND`&osZTA>Bstsm-if2gHAbDnfCDR6M5a3YvYoF2greIx^K9p z=rh~9}d5PvTCYlJ@?{`B}W z;7`Dx7%qmKQ{(aW(2{!0)QN!05?j<`s* z8w>Ow>1C6S!i)x!q=gv`hLBKMDjU_Hkz{FQsZ*kKqEx{`)qc((%O;a((2yErMXwhW zElknr^^%^08T2xNNuo(M5}2%0^uNBR{<@+;kxhb3nJ7AgNQo7lXwn`~fP`eDmN8%^ zqfEr8GZ+lAR#vJ2pdgquCuA_usJ$J78FiG2V3Mftb%G))lvYrTB0Y?tNIHE}!WcmA zCW2zp^TZ}eIc$=SSy~Em$ZP;x&mN|s1-mCOriG|bvh$uDdNfLy#SMb z$)s(rvg$-8DsnHtWRBRNH*$D}kRiTOS=C^W_!gGqCwIzS*ZDp4hC65SQIoWrl`U0Qg2HOG2}>FMj(fzw3Pxa^dV!~ zNq&|_IqFe6_KyuAO*=>nnNzvgL0VPN(g3zmg%l)WYiH6GMF)+8bjg0Sd#Qaf(&LNQUJ^(karW%QJ!Us)yg&+bCM;j{H~h4KVvMB+!f(d z;c{FUtiYL_qEkp_i0{cdPW*~q$LWlsSM{8UDG27&2Y@l>0~Ar@EJqRb3Qud~4=oBm zEeH3{({u&t6cs<1aEhszWd4ID1QVhkiU^-hVJ1n)4+DRc9Y}GhiNP!IQa}{b;xWI# z**i)WfyR6U4TUpLMb@b#;e(Cnb)+I-Fg%|2CV&}evVn>P0iNO^J=Y$ZeNX)5XVg6L zgBY4biA6n0&p|92NP3TB^q6d(xgt_@2 zfJhlAqE6w=2`@+8E&HH>GRBK=(n7<7DyyoP;0dYr%R0`(!B@adkpm*{k?8GY=m&=< z(yA09(6htj5p4 zf6bj*;Sx^;-iLTSMyva+)jyl50O@o6d_Erf{8DB7a~Kn`0)}p!_I3;=5W7@cX-c8Wx zC3Y+z@xezqVx*`9rq_%A3npnTf_)GD>3p={p93WI8DOv`DjBFCQC3DPlPrhPq8pcw zNe&OANYbzz9x93X=)j}=A>x8L8Hx6T7^zhLo8&M-nXff5#spm&dKg*!<)rfRznl+p z3WEMB>F==iw2pWGTsSARu!dj)fhn>40&X&O8WJR=^ZR zoBuH>=t)}5UnH2gBo~ zB?!E<03)e3qg6<|PJsTSKBJ~1h&VQR62M4s!UvHWaAHNlOqE(dW|n*7JSmt2+W%u8 zM7>QJb7>Rs(67@f5`#(fnc%qcCmT54o$niE9fjDi8@=J80W&JKf7h!zjD0BT_jkL3_7{{N1E zBE}NrFd#;Yfg=|A8w(OC)dkS<`XLIYd`g{@|FKik;VC25k#04^lSx$r7#d{cnGh%W z@gML=8xFLPKlRHXmbqX8wIl;o#u#OdRx+SPfuMykJkp?Kw5FWKG?RaB0>Yv@>G|X! za=}CtF$T~w0WEFgGg^gIy?|jZmd|n+e~6mZ+u9ETQLo8VSbP_az}4b`R^YN64Bki? z$7nG|;b<}cAvXbHeg*kuvqnTBj#$r)eMO@}8WvzI(bSz?_*Vvv`{#-uh{!CoOaK$8 zE?};O44lIgsq+D?k-A_;tLc=0KRcnsYq~`1e4H9x49*l$gODdd`vYmA_JE)@@w#B* z`hPeK6qqNLNb`{4{ST*t?j}!bY1H55zKQp`r{!HN}I z66ta=#%Q3B8yiuJ5wU{SNDqVVHKx`aEnJrt23kA-&Hs!TzY|5m2a&4q#9TNA9_a_* zA_f%o9PO{+1AI?j{s%FsDI^a z0MRilJ0Kli0w$obM{kTh5KgKHl}2s4j8+&ej>9qL%QN8pPIz~ojw&k-P3J*4AX)_Udn(qYs3L)wHV+vwrVrZN0mem2(9(u8 zqczdg46vLa#^Qfo1O%~x%jdB>MB_Fz6-lA?FrcNQ8ZhS9^8iDZnMeCG{{yj(`fr9v z;{jmY))-j83FLk7XTE?6oJK&f>q*_D}b6bEQ=0hs*cv^H?dB%v`lm{jpIp&W0{}w;|46#ob zv1VQEr?k+6=ERR2f&?ArSb57q4v}Bdg>%HOgq)d$T|jJa5&k-Kba<6OI>7Uy+c|hu zG;s6t`pJs+yWur4nq-fl)kWkI^pda(`qUs6xi$~*xXfHaFM~fc>iyp@^HUdrNJBM9 z`Sc%MC>k7f5>|x>6TrBLjzgp1`OP@zRVBSj2N>wT=s6t&F`X|mJefW}7L>5apk-o2 zH;&Uq;QchT{JMyZ9h!fFSmvJu-jBYqgw&FR3eeI`EgTxfNPb%IXF$$OK`hb3Fg(r( z&{Lo9v;tN`?mjTV9tAV&MqT^2&^t%=T zF`c+GM1bk3;j+230lSOj-9bx7$oL*Ma5YjuEdmbs56T36Elz~k4dfghhOC@cV;)5g zh;;{4rdl3Yt&{~?ivZEc)r^>B@%ak!i~Nd|qeuTEq9f1e6D3sLzod{?i|8!E%Dw0r{{ zcqWn5BABC-Wff+g*a)ESiE5vFcfh!g4wePE@e!H=d9ft77Qxa7Hn_A3f<;fxoJ7o| zHO&n6?!e=!FEoF-rWl5NG;XN)Am1+pBG+F6jQR>p4f$w?Av_lkuvW!i4u!5nYZ3I> z>AOQRdY&=dnO2b?1>`H71i8sP@Q@+o$g234x?&fXOuIpr=cR>#Wb4ziIlj7SUs`iu!asI=WL@CRjq#)0Qw`Mp{N1 z^yu}H0|Lg?Ck8!saegbq&-s7>%YD=#;io_E_Dm^Bp0k~BOmHjmil znEZ2-VF0rSSXsqWUE%^;&{89h2;_^2z2Zne>6$$>A z8*rgG!RUn0qKx@n?*Ei3JQQ8F!W0ai9p7;?CxVZ!pGj7EL;SXD|^n=Eb>Vc@{U{plmQHWrxm!jhrEF28m>qMQf zk1f(Y3hbw$Cr!Qw7nIXV$#2aVhzPsA()?BVO9BVx90@N#|8_sQVxrziZu5tm4 zo5lgAd?3KgQBLHAI8o0Z_w$ zRJr~en-f#JK<9&t6i9=(1~yx|$f3>e*^vj)>H{er{(l7M0kK+5tsdJM{9!Q7r=9>g zl%{8F%RIY?*1iyuwOn#*jXptZQ!ClEjXV4Ow&0FA2Lf1Y#m!w7TOrkL?%4GILkUq= RNOra+rHGT0dzUsv{trU@#Jd0h diff --git a/docs/_main.tex b/docs/_main.tex index 84a6c13..77f0822 100644 --- a/docs/_main.tex +++ b/docs/_main.tex @@ -2929,7 +2929,7 @@ \subsubsection{La distribución Hipergeométrica}\label{la-distribuciuxf3n-hiper \end{itemize} \[ -f(k)=P[X=k]=\frac{\binom{\mathbf{N}_{1}}{\mathbf{k}}\binom{\mathrm{N}_{2}}{\mathbf{n}-\mathbf{k}}}{\binom{\mathbf{N}}{\mathbf{k}}} +f(k)=P[X=k]=\frac{\binom{\mathbf{N}_{1}}{\mathbf{k}}\binom{\mathrm{N}_{2}}{\mathbf{n}-\mathbf{k}}}{\binom{\mathbf{N}}{\mathbf{n}}} \] si \(\operatorname{max}\left\{0, \mathrm{n}-N_{2}\right\} \leq \mathrm{k} \leq \min \left\{N_{1}, n\right\}\) @@ -3085,7 +3085,7 @@ \subsubsection{Tabla resumen de las distribuciones discretas principales}\label{ Poisson & \(\lambda>0\) & \(e^{-\lambda} \frac{\lambda^{k}}{k!}\) \(k=012, \ldots\) & \(\lambda\) & \(\lambda\) \\ Multinomial & \(0 \leq p_{1}, \ldots\) \(p_{r} \leq 1\) \(\left(p_{1}+\ldots+\right.\) \(\left.p_{\mathrm{r}}=1\right)\) \(n=1,2\) & \(\frac{n!}{k_{1}!k_{2}!\cdots k_{r}!} p_{1}^{k_{1}} p_{2}^{k_{2}} \cdots p_{r}^{k_{r}}\) \(\sum_{i=1}^{r} k_{i}=n\) & \(\left(\begin{array}{c}n p_{1} \\ n p_{2} \\ \vdots \\ n p_{r}\end{array}\right)\) & \(\boldsymbol{\sigma}_{i i}=n p_{i}\left(1-p_{i}\right)\) \(\boldsymbol{\sigma}_{i j}=n p_{i} p_{j} \quad i \neq j\) \\ Uniforme discreta & \(n=1,2, \ldots\) & \(\frac{1}{n}\) \(k=1,2, \ldots . n\) & \(\frac{n+1}{2}\) & \(\frac{(n+1)[2(2 n+1)-3(n+1)}{12}\) \\ -Hipergeométrica & \(\left\{\begin{array}{c}N=N_{1}+ \\ N_{2} \\ p=N_{1} / N\end{array}\right.\) & \(\frac{\binom{\mathrm{N}_{1}}{\mathrm{k}}\binom{\mathrm{N}_{2}}{\mathrm{n}-\mathrm{k}}}{\binom{\mathrm{N}}{\mathrm{k}}}\) \(\operatorname{max}\left\{0, \mathrm{n}-N_{2}\right\} \leq \mathrm{k} \leq \min \left\{N_{1}, n\right\}\) & \(n p\) & \(n p(1-p) \frac{N-n}{N-1}\) \\ +Hipergeométrica & \(\left\{\begin{array}{c}N=N_{1}+ \\ N_{2} \\ p=N_{1} / N\end{array}\right.\) & \(\frac{\binom{\mathrm{N}_{1}}{\mathrm{k}}\binom{\mathrm{N}_{2}}{\mathrm{n}-\mathrm{k}}}{\binom{\mathrm{N}}{\mathrm{n}}}\) \(\operatorname{max}\left\{0, \mathrm{n}-N_{2}\right\} \leq \mathrm{k} \leq \min \left\{N_{1}, n\right\}\) & \(n p\) & \(n p(1-p) \frac{N-n}{N-1}\) \\ Pascal & \(0 \leq p \leq 1\) & \(p(1-p)^{k}\) \(k=0,1,2, \ldots\) & \(\frac{1-p}{p}\) & \(\frac{1-p}{p^{2}}\) \\ Binomial negativa & \(0 \leq p \leq 1\) \(r>0\) & & \(\frac{r(1-p)}{p}\) & \(\frac{r(1-p)}{p^{2}}\) \\ \end{longtable} @@ -3869,7 +3869,7 @@ \subsubsection{Ejemplo de distribución bivariante discreta}\label{ejemplo-de-di Puede comprobarse como la suma de todos los valores de la tabla es 1, y calcular probabilidades de sucesos como -\textbf{Probabilidad de 1uye hayan dos celulas infectadas y un linfocito:} +\textbf{Probabilidad de que hayan dos células infectadas y un linfocito:} Para calcular la probabilidad de que haya exactamente 2 células infectadas y 1 linfocito activado, se puede usar el valor directamente de la tabla. @@ -3891,7 +3891,7 @@ \subsubsection{Ejemplo de distribución bivariante discreta}\label{ejemplo-de-di P(X < 3, Y < 2) = 0.12 + 0.06 + 0.10 + 0.10 + 0.06 + 0.12 = 0.56 \] -Recordemos que, al tratarse de variables discretas, no es lo mismo \(P[X< x]\) que \(P[X\leq x]\), por lo que si la pregunta fuera ``Probabilidad de que hayan al menos tres celulas infectadas y al menos dos linfocitos'' deberíamos calcular: +Recordemos que, al tratarse de variables discretas, no es lo mismo \(P[X < x]\) que \(P[X \leq x]\), por lo que si la pregunta fuera ``Probabilidad de que hayan al menos tres celulas infectadas y al menos dos linfocitos'' deberíamos calcular: \[ P(X \leq 3, Y \leq 2) diff --git a/docs/distribuciones-de-probabilidad-multidimensionales.html b/docs/distribuciones-de-probabilidad-multidimensionales.html index 55af67b..ad4547d 100644 --- a/docs/distribuciones-de-probabilidad-multidimensionales.html +++ b/docs/distribuciones-de-probabilidad-multidimensionales.html @@ -667,7 +667,7 @@

4.2.3 Ejemplo de distribución bi

Puede comprobarse como la suma de todos los valores de la tabla es 1, y calcular probabilidades de sucesos como

-

Probabilidad de 1uye hayan dos celulas infectadas y un linfocito:

+

Probabilidad de que hayan dos células infectadas y un linfocito:

Para calcular la probabilidad de que haya exactamente 2 células infectadas y 1 linfocito activado, se puede usar el valor directamente de la tabla.

\[ P(X = 2, Y = 1) = 0.12 @@ -681,7 +681,7 @@

4.2.3 Ejemplo de distribución bi

\[ P(X < 3, Y < 2) = 0.12 + 0.06 + 0.10 + 0.10 + 0.06 + 0.12 = 0.56 \]

-

Recordemos que, al tratarse de variables discretas, no es lo mismo \(P[X< x]\) que \(P[X\leq x]\), por lo que si la pregunta fuera “Probabilidad de que hayan al menos tres celulas infectadas y al menos dos linfocitos” deberíamos calcular:

+

Recordemos que, al tratarse de variables discretas, no es lo mismo \(P[X < x]\) que \(P[X \leq x]\), por lo que si la pregunta fuera “Probabilidad de que hayan al menos tres celulas infectadas y al menos dos linfocitos” deberíamos calcular:

\[ P(X \leq 3, Y \leq 2) \] diff --git a/docs/distribuciones-notables.html b/docs/distribuciones-notables.html index 3cd7b80..85f9433 100644 --- a/docs/distribuciones-notables.html +++ b/docs/distribuciones-notables.html @@ -844,7 +844,7 @@

3.1.5 La distribución Hipergeom
  • Si del conjunto anterior extraemos \(n\) individuos sin reemplazamiento \((n \leq N)\), la variable \(X\) que representa el número k de individuos que pertenecen a la categoría A (de los n extraídos) tiene por función de densidad:
  • \[ -f(k)=P[X=k]=\frac{\binom{\mathbf{N}_{1}}{\mathbf{k}}\binom{\mathrm{N}_{2}}{\mathbf{n}-\mathbf{k}}}{\binom{\mathbf{N}}{\mathbf{k}}} +f(k)=P[X=k]=\frac{\binom{\mathbf{N}_{1}}{\mathbf{k}}\binom{\mathrm{N}_{2}}{\mathbf{n}-\mathbf{k}}}{\binom{\mathbf{N}}{\mathbf{n}}} \]

    si \(\operatorname{max}\left\{0, \mathrm{n}-N_{2}\right\} \leq \mathrm{k} \leq \min \left\{N_{1}, n\right\}\)

    La dependencia se debe al hecho de que \(N\) es finito y las extracciones se efectúan sin reemplazamiento. El caso de extracciones con reemplazamiento sería equivalente al de \(N\) infinito y se resolvería mediante el modelo Binomial.

    @@ -990,7 +990,7 @@

    3.1.8 Tabla resumen de las distri Hipergeométrica \(\left\{\begin{array}{c}N=N_{1}+ \\ N_{2} \\ p=N_{1} / N\end{array}\right.\) -\(\frac{\binom{\mathrm{N}_{1}}{\mathrm{k}}\binom{\mathrm{N}_{2}}{\mathrm{n}-\mathrm{k}}}{\binom{\mathrm{N}}{\mathrm{k}}}\)
    \(\operatorname{max}\left\{0, \mathrm{n}-N_{2}\right\} \leq \mathrm{k} \leq \min \left\{N_{1}, n\right\}\) +\(\frac{\binom{\mathrm{N}_{1}}{\mathrm{k}}\binom{\mathrm{N}_{2}}{\mathrm{n}-\mathrm{k}}}{\binom{\mathrm{N}}{\mathrm{n}}}\)
    \(\operatorname{max}\left\{0, \mathrm{n}-N_{2}\right\} \leq \mathrm{k} \leq \min \left\{N_{1}, n\right\}\) \(n p\) \(n p(1-p) \frac{N-n}{N-1}\) diff --git a/docs/reference-keys.txt b/docs/reference-keys.txt new file mode 100644 index 0000000..81ce002 --- /dev/null +++ b/docs/reference-keys.txt @@ -0,0 +1,224 @@ +probabilidad-y-experimentos-aleatorios +introducción +fenómenos-deterministas-y-fenómenos-aleatorios +sucesos +sucesos-y-conjuntos +función-de-probabilidad +diferentes-funciones-de-probabilidad-para-una-misma-experiencia-aleatoria +cómo-se-calculan-las-probabilidades +sucesos-elementales-y-sucesos-observables +propiedades-inmediatas-de-la-probabilidad +succeso-imposible +suceso-implicado +complementario-de-un-suceso +ocurrencia-de-algun-suceso +probabilidad-de-que-ocurra-algun-suceso +probabilidad-de-que-ocurran-dos-o-más-sucesos-a-la-vez +espacios-de-probabilidad +probabilidad-condicionada +sucesos-dependientes-y-sucesos-independientes +incompatibilidad-e-independencia +dos-teoremas-importantes +teorema-de-las-probabilidades-totales +teorema-de-bayes +introducción-a-los-experimentos-múltiples +combinatoria +permutaciones +variaciones +variaciones-con-repetición +combinaciones +permutaciones-con-repetición +frecuencia-relativa-y-probabilidad +caso-de-estudio-eficacia-de-una-prueba-diagnóstica +aplicación-del-teorema-de-bayes +ejemplo-numérico +variables-aleatorias-y-distribuciones-de-probabilidad +el-espacio-muestral-y-sus-elementos +representación-numérica-de-los-sucesos-elementales.-variables-aleatorias +caracterización-de-una-variable-aleatoria-a-través-de-la-probabilidad.-función-de-distribución +propiedades-de-la-función-de-distribución +clasificación-de-las-variables-aleatorias +variables-aleatorias-discretas +variables-aleatorias-continuas +variable-aleatoria-discretas +ejercicio-propuesto +solución +caracterización-de-las-v.a.-discretas +propiedades-de-la-función-de-densidad-discreta +relaciones-entre-la-función-de-distribución-y-la-función-de-densidad-discreta.-probabilidad-de-intervalos. +variables-aleatorias-continuas-1 +función-de-densidad-continua +relaciones-entre-la-función-de-distribución-y-la-función-de-densidad. +probabilidad-de-intervalos +caracterización-de-una-variable-aleatoria-a-través-de-parámetros +esperanza-de-una-variable-aleatoria-discreta +esperanza-de-una-variable-aleatoria-continua +propiedades-de-la-esperanza-matemática +linealidad-de-la-esperanza-matemática +esperanza-del-producto +varianza-de-una-variable-aleatoria +propiedades-de-la-varianza +momentos-de-orden-k-de-una-variable-aleatoria +definición-formal-de-variable-aleatoria +caso-práctico-lanzamiento-de-dos-dados +espacio-muestral +representación-numérica +algunas-probabilidades +función-de-distribución +clasificación-de-las-variables +función-de-densidad-discreta +probabilidad-de-intervalos-1 +esperanza +esperanza-de-un-juego +esperanza-con-recorrido-infinito +esperanza-infinita +varianza +distribuciones-notables +distribuciones-discretas +la-distribución-de-bernouilli +propiedades-del-modelo-de-bernouilli +la-distribución-binomial +los-parámetros-de-la-distribución-binomial +propiedades-del-modelo-binomial +la-distribución-de-poisson +propiedades-del-modelo-de-poisson +la-distribución-uniforme-discreta +propiedades-del-modelo-uniforme-discreto +esperanza-1 +varianza-1 +la-distribución-hipergeométrica +propiedades-del-modelo-hipergeométrico +la-distribución-geométrica-o-de-pascal +propiedades-del-modelo-geométrico-o-de-pascal +preguntas +la-distribución-binomial-negativa +propiedades-del-modelo-binomial-negativo +tabla-resumen-de-las-distribuciones-discretas-principales +distribuciones-continuas +la-distribución-uniforme +propiedades-del-modelo-uniforme +una-aplicación-del-modelo-uniforme-el-muestreo-de-montecarlo +generación-de-una-muestra-procedente-de-una-distribución-binomial +la-distribución-exponencial +propiedades-del-modelo-exponencial +la-distribución-normal +propiedades-del-modelo-normal +la-distribución-gamma +propiedades-de-la-distribución-gamma +la-distribución-de-cauchy +propiedades-de-la-distribución-de-cauchy +la-distribución-de-weibull +propiedades-de-la-distribución-weibull +tabla-resumen-de-las-principales-distribuciones-continuas +distribuciones-con-r-y-python +la-familia-exponencial-de-distribuciones +ejemplos-de-distribuciones-de-esta-familia +distribución-de-poisson +distribución-normal-uniparamétrica +caso-1-fijando-la-media-mu_0 +caso-2-fijando-la-varianza-sigma_02 +distribución-binomial +importancia-y-utilidad-de-la-familia-exponencial +los-modelos-lineales-generalizados-glms +estimación-en-la-familia-exponencial +distribuciones-de-probabilidad-multidimensionales +distribuciones-conjuntas-de-probabilidades +variable-aleatoria-bivariante +función-de-distribución-bivariante +ejemplo-distribución-conjunta-del-estado-de-infección-y-activación-de-células +función-de-distribución-conjunta +cálculo-de-la-probabilidad-de-eventos-específicos +implementación-en-r +variable-aleatorias-bivariantes-discretas +función-de-masa-de-probabilidad-discreta-fmp +propiedades-de-la-fmp-bivariante +intuición-frente-a-construcción +ejemplo-de-distribución-bivariante-discreta +código-r-para-el-cálculo-de-la-pmf +código-r-para-visualizar-la-distribución-conjunta +la-distribución-multinomial +generación-de-las-observaciones +funcion-de-masa-de-probabilidad-de-la-distribución-multinomial +relación-con-la-distribución-binomial +un-caso-particular-la-distribución-trinomial +distribuciones-marginales +las-marginales-están-en-los-márgenes +densidades-marginales-discretas +trinomial-m5-0.6-0.2-distribuciones-marginales +distribuciones-condicionales +densidad-condicional +trinomial-m5-0.6-0.2-distribución-condicional +vectores-aleatorios-absolutamente-continuos +propiedades-de-la-función-de-densidad-conjunta +densidades-marginales-en-el-caso-continuo +densidad-condicional-en-el-caso-continuo +la-distribución-normal-bivariante +función-de-densidad-conjunta +ejemplo +distribuciones-marginales-1 +ejemplo-1 +distribuciones-condicionales-1 +ejemplo-2 +independencia-de-variables-aleatorias +primera-caracterización-de-la-independencia +variables-discretas-independientes +propiedades-de-las-variables-independientes +momentos-de-vectores-aleatorios +esperanza-de-un-vector-aleatorio-o-vector-de-medias +covarianza-entre-dos-variables-aleatorias +covarianza-y-correlación +matriz-de-varianzas-covarianzas +matriz-de-correlaciones +relación-con-la-matriz-de-covarianzas +segunda-caracterización-de-la-independencia +relación-entre-incorrelación-e-independencia +grandes-muestras +introducción-aproximaciones-asintóticas +convergencia-de-variables-aleatorias +leyes-de-los-grandes-números +el-teorema-central-del-límite +sumas-de-variables-aleatorias +presentación-de-los-ejemplos +definición-de-convergencia-en-ley +representación-gráfica-de-la-convergencia +enunciado-del-teorema-central-del-límite +comentarios-al-teorema +aplicación-del-tcl-a-los-ejemplos +casos-particulares-más-notables +promedio-de-boldsymboln-variables-aleatorias +binomial-de-parámetros-n-y-p +poisson-de-parámetro-n-lambda +interpretación-del-teorema-central-del-límite +aproximaciones-y-errores-numéricos +acerca-de-las-variables-aproximadamente-normales +introducción-a-la-inferencia-estadística +los-problemas-de-la-inferencia-estadística. +muestreo-y-distribuciones-en-el-muestreo. +la-verosimilitud-y-su-papel-en-la-inferencia-estadística +el-problema-de-la-estimación.-tipos-de-estimadores. +métodos-de-obtención-de-estimadores.-estimadores-máximo-verosímiles-y-estimadores-bayesianos. +propiedades-de-los-estimadores. +estimación-por-intérvalos +preliminares-estimación-del-error-estándar-e-introducción-al-bootstrap +estimadores-por-intervalo-intervalos-de-confianza +intervalos-de-confianza-para-características-de-una-población-normal-media-varianza +intervalos-de-confianza-bootstrap. +intervalos-de-confianza-para-proporciones-binomiales +intervalos-de-confianza-para-parámetros-en-muestra-grandes-y-para-casos-generales-tasas-or +aplicaciones-cálculo-del-tamaño-muestral +pruebas-de-hipótesis +conceptos-básicos-pruebas-de-hipótesis-y-de-significación-pruebas-unilaterales-y-bilaterales-tipos-de-error-valores-críticos-de-test-y-p-valores +potencia-de-un-test.-cálculos-de-potencia-y-de-tamaño-de-la-muestra.-tamaño-del-efecto. +métodos-de-construcción-de-tests. +problemas-asociados-al-uso-de-tests-estadísticos.-la-crisis-de-la-significación +inferencia-aplicada +pruebas-de-normalidad.pruebas-gráficas.-el-test-de-shapiro-wilks +pruebas-de-hipótesis-para-constrastar-variables-cuantitativas-pruebas-paramètricas-t-test-y-anova +pruebas-de-hipótesis-para-constrastar-variables-cuantitativas-pruebas-de-hipótesis-no-paramétricas-de-wilcoxon-y-kruskal-wallis +contrastes-para-datos-categóricos.-pruebas-binomiales-ji-cuadrado-y-test-de-fisher. +riesgo-relativo-y-razón-de-odds +computación-intensiva-y-multiple-testing +tests-de-permutaciones-qué-cuándo-cómo +el-bootstrap-en-contraste-de-hipótesis +el-problema-de-las-comparaciones-múltiples +métodos-de-control-de-error-fwer-y-fdr diff --git a/docs/search_index.json b/docs/search_index.json index 50c1bc3..d184637 100644 --- a/docs/search_index.json +++ b/docs/search_index.json @@ -1 +1 @@ -[["index.html", "Fundamentos de Inferencia Estadistica Presentación Objetivo Prerequisitos y organización del material Referencias", " Fundamentos de Inferencia Estadistica Alex Sanchez Pla y Santiago Pérez Hoyos 2024-10-21 Presentación Objetivo El objetivo de estas notas es presentar un material de soporte para la asignatura de “Inferencia Estadística” del Máster interuniversitario de Bioiestadística y Bioinformática impartido conjuntamente por la Universitat Oberta de Catalunya (UOC) y la Universidad de Barcelona (UB). Esta asignatura adolece de las características habituales de las asignaturas de posgrado, y especialmente de un posgrado de estadística (y bioinformática), que muestran algunas de las cosas que no debe de ser esta asignatura: No puede ser un primer curso de estadística, porque se supone que los estudiantes del máster ya lo han cursado en sus grados. Por no decir que, a quien viene a especializarse en estadística se le puede suponer una base mínima. Tampoco debe ser como los segundos cursos de estadística de algunos grados, que tratan temas como la regresión, el diseño de experimentos o el análisis multivariante, porque esto ya se trata en diversas asignaturas del máster. ¿Que debemos pues esperar que sea este curso? Puestos a pedir, este curso debería servir para repasar y consolidar los conceptos básicos que la mayoría de estudiantes traerán consigo. Además, y sobretodo, debe proporcionar una visión general, lo más completa posible dentro de las limitaciones de tiempo, del campo de la inferencia estadística Y, naturalmente, esto significa proporcionar aquellos conceptos sobre los que se apoyaran muchas de las restantes asignaturas como “Regresión modelos y métodos”, “Diseño de Experimentos”, “Análisis Multivariante”, “Análisis de la Supervivencia” o “Análisis de datos ómicos”. Prerequisitos y organización del material Uno de los problemas “eternos” en el estudio de la estadística ha sido siempre la falta de acuerdo, entre la comunidad de docentes, de cual debería ser el nivel matemático a que se impartan los cursos. En los cursos de pre-grado ha habido un cierto consenso, y con los años el nivel de formalismo ha disminuido, incluso en estudios de tipo “STEM”, tendiendo a centrarse en la aplicación de los conceptos, por ejemplo usando R, más que en un tratamiento formal (“matemático”) de los mismos. Aunque esto puede ser práctico para aquellos estudios en los que la estadística és una asignatura de un grado, es también obvio que dicha aproximación no permite profundizar en muchos de los puntos que se tratan. Es por ello que en este curso seguiremos la indicación habitual en cursos similares de asumir que el estudiante: Se siente comodo con el lenguaje algebráico, desarrollo de expresiones, sumatorios etc. Está familiarizado con el cálculo diferencial en una o varias variables, aunque esta familiaridad no será imprescindible para seguir la mayoría de los contenidos del curso. Conoce el lenguaje estadístico R, que en muchas ocasiones nos ofrecerá una solución directa a los problemas de cálculo. Referencias Los prerequisitos anteriores corresponden básicamente a las matemáticas del bachilerato. Algunas funetes adiconales pueden ser: Iniciación a las matemáticas para la ingeniería. M. Besalú y Joana Villalonga Colección de (100) videos de soporte a las matemáticas para la ingeniería "],["agradecimiento-y-fuentes-utilizadas.html", "Agradecimiento y fuentes utilizadas El proyecto Statmedia Otros materiales utilizados", " Agradecimiento y fuentes utilizadas Salvo que uno desee escribir un libro sobre algo muy extraño, siempre habran otros libros o manuales similares al que se está planteando. La respuesta a la pregunta, “Y entonces, ¿porque hacer un nuevo matrerial?” suele ser más una excusa que una explicación sólida. Una posible razón puede ser para ajustarlo al máximo al perfil del curso para al que se destinan dichos materiales, condición que otros textos, pensados para cursos y audiencias distintas, pueden no satisfacer. En este caso adoptaremos esta explicación y el tiempo decidirá si el objetivo se alcanza. Dicho esto, debemos agradecer a las distintas fuentes utilizadas, el que hayan puesto a disposición sus materiales para poder reutilizarlos. Entre estos destacamos: El proyecto Statmedia Statmedia es un grupo de innovación docente de la Universidad de Barcelona, cuyo objetivo es desarrollar nuevas herramientas que ayuden en la enseñanza de la estadística aplicada, mejorando así el rendimiento académico de los alumnos y su motivación hacia la estadística. Partiendo de la idea que el aprendizaje debe basarse en casos prácticos para motivar y fomentar la participación de los estudiantes. Se desarrolló primer proyecto, Statmedia I, un texto multimedia de estadística que además de los contenidos, relativamente ampliados, para un curso de introducción a la estadística, incorporaba: Una serie de casos para motivar e ilustrar los conceptos introducidos. Un conjunto de gadgets interactivos con los que interactuar y experimentar y Ejercicios de respuesta múltiple para verificar los conceptos trabajados. Aunque el proyecto Statmedia ha seguido evolucionando en múltiples direcciones, Statmedia I, como tantos otros, no sobrevivió al desarrollo tecnológico, y la evolución (o decadencia) del lenguaje Java lo llevó a dejar de ser funcional. Para estos apuntes hemos recuperado, y en ocasiones adaptado o modificado, algunos de los contenidos de Statmedia I, que habían estado escritos con gran pulcritud. Esto se ha hecho siguiendo las indicaciones de la licencia (CC-Share-alike) que permite adaptar contenidos atribuyendolo a sus autores y citando la fuente. Los gadgets originales ya no son funcionales pero muchos de ellos han sido re-escritos en R como aplicaciones Shiny (disponibles en: https://grbio.upc.edu/en/software/teaching_apps) y se enlazaran desde los puntos necesarios del texto. Dejando aparte (además) de la licencia, vaya nuestro agradecimiento explícito al equipo de profesores del Departamento de Estadística de la Universidad de Barcelona, redactor de la versión inicial del proyecto, que es la que hemos utilizado: Antonio Arcas Pons, Miquel calvo Llorca, Antonio Miñarro Alonso, Sergi Civit Vives y Angel Vilarroya del Campo. Antoni Arcas, Antonio Miñarro and Miguel Calvo (2008) Statmedia projects in Statistical Education Otros materiales utilizados Alex Sanchez y Francesc Carmona (2002). Apunts d’Estadística Matemàtica Licencia CC0 1.0 Universal Molina Peralta, I. and García-Portugués, E. (2024). A First Course on Statistical Inference. Version 2.4.1. ISBN 978-84-09-29680-4. Licencia CC BY-NC-ND 4.0 Peter K. Dunn (2024) The theory of distributions. Licencia CC BY-NC-ND 4.0 "],["probabilidad-y-experimentos-aleatorios.html", "Capítulo 1 Probabilidad y Experimentos aleatorios 1.1 Introducción 1.2 Función de probabilidad 1.3 ¿Cómo se calculan las probabilidades? 1.4 Sucesos elementales y sucesos observables 1.5 Propiedades inmediatas de la probabilidad 1.6 Espacios de probabilidad 1.7 Probabilidad condicionada 1.8 Dos Teoremas importantes 1.9 Introducción a los experimentos múltiples 1.10 Combinatoria 1.11 Frecuencia relativa y probabilidad 1.12 Caso de Estudio: Eficacia de una prueba diagnóstica", " Capítulo 1 Probabilidad y Experimentos aleatorios 1.1 Introducción 1.1.1 Fenómenos deterministas y fenómenos aleatorios Supongamos que disponemos de un dado regular con todas las caras pintadas de blanco y con un número, que irá de 1 a \\(6 \\sin\\) repetir ninguno, en cada una de las seis caras. Definamos los dos experimentos siguientes: Experimento 1: Tirar el dado y anotar el color de la cara resultante. Experimento 2: Tirar el dado y anotar el número de la cara resultante. ¿Qué diferencia fundamental observamos entre ambos experimentos? Muy simple! En el experimento 1, el resultado es obvio: saldrá una cara de color blanco. Es decir, es posible predecir el resultado. Se trata de un experimento o fenómeno determinista. En cambio, en el experimento 2 no podemos predecir cuál será el valor resultante. El resultado puede ser : \\(1,2,3,4,5\\) o 6 . Se trata de un experimento o fenómeno aleatorio. El conjunto de resultados se anotará con el símbolo: \\(\\Omega\\). En este caso, \\(\\Omega=\\{1,2,3,4,5,6\\}\\). En los fenómenos aleatorios, al hacer muchas veces la experiencia, la frecuencia relativa de cualquier elemento del conjunto de resultados debe aproximarse siempre hacia un mismo valor. 1.1.2 Sucesos Supongamos que se ejecuta un experimento aleatorio. Se nos puede ocurrir emitir un enunciado que, una vez realizada la experiencia, pueda decirse si se ha verificado o no se ha verificado. A dichos enunciados los denominamos sucesos. Por otro lado, los sucesos van asociados a subconjuntos del conjunto de resultados. Cada suceso se corresponderá exactamente con uno, y sólo con un, subconjunto del conjunto de resultados. Veamos un ejemplo: Experimento: Tirar un dado regular. Conjunto de resultados : \\(\\Omega=\\{1,2,3,4,5,6\\}\\) Enunciado: Obtener múltiplo de 3. Subconjunto al que se asocia el enunciado: \\(A=\\{3,6\\}\\) Nos referiremos habitualmente al suceso A. 1.1.2.1 Sucesos y conjuntos Al conjunto de resultados \\(\\Omega\\), se le denomina suceso seguro. Al conjunto Ø ( conjunto sin elementos), se le denomina suceso imposible. Al complementario del conjunto \\(\\mathrm{A}\\left(\\mathrm{A}^{\\mathrm{c}}\\right)\\), se le denomina suceso contrario o complementario de \\(A\\). A partir de dos sucesos A y B, podemos formar los sucesos siguientes: A intersección B, que anotaremos como: \\[ A \\cap B \\] A unión B, que anotaremos como: \\[ A \\cup B \\] A intersección B, significa que se verifican a la vez A y B. A unión B, significa que se verifica \\(A\\) o \\(B\\) ( se pueden verificar a la vez). 1.2 Función de probabilidad Lógicamente, una vez tenemos un suceso, nos preocupa saber si hay muchas o pocas posibilidades de que al realizar la experiencia se haya verificado. Por lo tanto, sería interesante el tener alguna función que midiera el grado de confianza a depositar en que se verifique el suceso. A esta función la denominaremos función de probabilidad. La función de probabilidad será, pues, una aplicación entre el conjunto de resultados y el conjunto de números reales, que asignará a cada suceso la probabilidad de que se verifique. La notación: \\(\\mathrm{P}(\\mathrm{A})\\) significará: probabilidad de que se verifique el suceso A . Pero claro, de funciones de probabilidad asociadas a priori a una experiencia aleatoria podrían haber muchas. Lo que se hace para decir qué es y qué no es una función de probabilidad es construir una serie de propiedades (denominadas axiomas) que se exigirán a una función para poder ser catalogada como función de probabilidad. Y, ¿cuáles son estos axiomas? Pues los siguientes: Sea S el conjunto de sucesos. Axioma 1: Para cualquier suceso A, la probabilidad debe ser mayor o igual que 0. Axioma 2: La probabilidad del suceso seguro debe ser 1: \\(\\mathrm{P}(\\Omega)=1\\) Axioma 3: Para sucesos \\(\\mathrm{A}_{\\mathrm{i}}\\), de modo que cada par de sucesos no tengan ningún resultado común, se verifica que: \\[ P\\left(\\bigcup_{i=1}^{\\infty} A_{i}\\right)=\\sum_{i=1}^{\\infty} P\\left(A_{i}\\right) \\] De este modo, pueden haber muchas funciones de probabilidad que se podrían asociar con la experiencia. El problema pasa entonces al investigador para decidir cual o cuales son las funciones de probabilidad más razonables asociadas con la experiencia que está manejando. 1.2.1 ¿Diferentes funciones de probabilidad para una misma experiencia aleatoria? Supongamos la experiencia de tirar un dado regular. A todo el mundo se le ocurriría pensar que la función de probabilidad se obtiene de contar el número de resultados que contiene el suceso dividido por 6 , que es el número total de resultados posibles. Así pues, la probabilidad de obtener un múltiplo de 3 sería igual a \\(2 / 6\\), la probabilidad de obtener el número 2 sería \\(1 / 6\\) i la probabilidad de obtener un número par sería 3/6. Es decir, parece inmediato construir la función de probabilidad que, además, parece única. A nadie se le ocurre decir, por ejemplo, que la probabilidad de obtener un número par es \\(5 / 6\\) ! En este caso, todo ha sido muy fácil. Hemos visto que existe una única función de probabilidad que encaje de forma lógica con la experiencia y, además, ha sido muy sencillo encontrarla. Pero esto, por desgracia, no siempre es así. En muchísimas ocasiones resulta muy complejo el decidir cuál es la función de probabilidad. En el tema de variables aleatorias y de función de distribución se explica el problema de la modelización de muchas situaciones reales. 1.3 ¿Cómo se calculan las probabilidades? No siempre es fácil conocer los valores de la función de probabilidad de todos los sucesos. Sin embargo, muchas veces se pueden conocer las probabilidades de algunos de estos sucesos. Con la ayuda de ciertas propiedades que se deducen de manera inmediata a partir de la axiomática es posible calcular las probabilidades de más sucesos. Por otro lado, en caso de que el número de resultados sea finito y de que todos los resultados tengan las mismas posibilidades de verificarse, la probabilidad de un suceso cualquiera se puede calcular a partir de la regla de Laplace: Si A es un suceso : \\[ \\text { Probabilidad }(A)=\\frac{\\text { Número de casos favorables }}{\\text { Número de casos posibles }} \\] donde: Número de casos favorables \\(=\\) Número de resultados contenidos en \\(\\mathrm{A}(\\) cardinal de A\\()\\) Número de casos posibles \\(=\\) Número total de resultados posibles (cardinal del conjunto total de resultados) En este caso, el contar número de resultados, ya sean favorables o posibles, debe hacerse por medio de la combinatoria. Veamos con unos ejemplos muy sencillos y visuales cómo se obtienen y qué representan los casos posibles y los casos favorables. También es posible obtener de manera aproximada la probabilidad de un suceso si se puede repetir muchas veces la experiencia: la probabilidad del suceso sería el valor al que tendería la frecuencia relativa del suceso. Podéis consultar más detalles acerca de esta aproximación. En este caso, la cuestión estriba en poder hacer muchas veces la experiencia en condiciones independientes. 1.4 Sucesos elementales y sucesos observables En el contexto de la probabilidad, es fundamental diferenciar entre los sucesos elementales y los sucesos observables. Los sucesos elementales son los resultados individuales que pueden ocurrir al realizar un experimento aleatorio, es decir, cada uno de los elementos que conforman el conjunto de resultados \\(\\Omega\\). En nuestro ejemplo del dado, los sucesos elementales son los números \\(1, 2, 3, 4, 5\\) y \\(6\\). Sin embargo, no todos los sucesos elementales son necesariamente observables. Un suceso observable es un subconjunto de estos sucesos elementales que permite formular afirmaciones verificables sobre el resultado del experimento. Ejemplo Podemos imaginar un dado en el que pintamos de blanco las caras pares y de negro las impares. En este caso los sucesos elementales serían los habituales 1, 2, 3,…6. Sin embargo tan solo “Par” (“blanco”) o impar (“negro”) se pueden observar. Si repintamos el dado de forma que las caras 1 y 2 esten blancas, las 3 y 4, azules y las 5 y 6 rojas podremos observar el suceso “Sale 1 o 2 (=Sale blanco)” o “sale blanco o azul”, pero no el suceso “sale par” dado que cada color contiene un número par y uno impar Para formalizar estos conceptos, definimos el espacio de probabilizable como el par de conjuntos formados por: \\((\\Omega, \\mathcal{A})\\) \\(\\Omega\\) es el conjunto de todos los resultados posibles (el conjunto de resultados o sucesos elementales). \\(\\mathcal{A}\\) es el conjunto de todos los sucesos observables, que vienen definidos por el nivel de observación del experimento. 1.5 Propiedades inmediatas de la probabilidad Veremos a continuación una serie de propiedades que se deducen de manera inmediata de la axiomática de la probabilidad. 1.5.1 Succeso imposible El suceso imposible se identifica con el conjunto vacío, puesto que no hay ningún resultado asociado a él. La probabilidad del suceso imposible es: \\[ P(\\varnothing)=0 \\] 1.5.2 Suceso implicado Decimos que un suceso, B, esta implicado por otro suceso A, si siempre que se presenta A, también lo hace B. Por ejemplo, si al tirar un dado se obtiene un dos (suceso A), ello implica que ha salido un número par (suceso B). En terminos de conjuntos, A es un suceso que está contenido en B (todos los resultados de A también pertenecen a B ), por lo que: \\[ \\mathrm{P}(\\mathrm{A}) \\leq \\mathrm{P}(\\mathrm{B}) \\] 1.5.3 Complementario de un suceso Sea \\(A^{\\mathrm{c}}\\) el suceso formado por todos los elementos de \\(\\Omega\\) que no pertenecen a A (Suceso complementario de A). La probabilidad de dicho suceso es igual a: \\[ \\mathrm{P}\\left(\\mathrm{A}^{\\mathrm{c}}\\right)=1-\\mathrm{P}(\\mathrm{A}) \\] 1.5.4 Ocurrencia de algun suceso La probabilidad de la unión de dos sucesos A y B es igual a: \\[ P(A \\cup B)=P(A)+P(B)-P(A \\cap B) \\] 1.5.5 Probabilidad de que ocurra algun suceso Si tenemos una colección de \\(k\\) sucesos, la probabilidad de la unión de dichos sucesos será: \\[ P\\left(\\bigcup_{i=1}^{k} A_{i}\\right)=\\sum_{i=1}^{k} P\\left(A_{i}\\right)-\\sum_{i<j} P\\left(A_{i} \\cap A_{j}\\right)+\\sum P\\left(A_{i} \\cap A_{j} \\cap A_{k}\\right)+\\ldots+(-1)^{k+1} \\cdot P\\left(A_{1} \\cap . . \\cap A_{k}\\right) \\] 1.5.6 Probabilidad de que ocurran dos (o más) sucesos a la vez No existe una expresión cerrada única para la probabilidad de que ocurran dos o más sucesos a la vez, pues esto depende de si los sucesos que consideramos son dependientes o independientes, conceptos éstos, que introduciremos en la próxima sección. Lo que si que existe es una cota para dicha probabilidad, es decir, podemos decir que valor alcanza dicha probabilidad, como mínimo. \\[ P\\left(\\bigcap_{i=1}^{n} A_{i}\\right) \\geq 1-\\sum_{i=1}^{n} P\\left(\\bar{A}_{i}\\right) \\] 1.6 Espacios de probabilidad Para concluir esta introducción introduciremos los espacio de probabilidad que, extienden los espacios probabilizables definidos en la sección anterior La terna \\((\\Omega, \\mathcal{A}, P)\\) donde: \\(Omega\\) es el conjunto de todos los resultados posibles (el conjunto de resultados o sucesos elementales), \\(\\mathcal{A}\\) es el conjunto de todos los sucesos observables, que vienen definidos por el nivel de observación del experimento y \\(P\\) es una función de probabilidad, que asigna a cada suceso observable \\(A \\in \\mathcal{A}\\) un número real \\(P(A)\\) que representa la probabilidad de que ocurra dicho suceso se conoce como espacio de probabilidad. Es importante destacar que la probabilidad se calcula exclusivamente para los sucesos observables, lo que garantiza que la medida sea coherente y verificada a través de experimentos. Los espacios de probabilidad proporcionan una estructura fundamental para analizar y medir las incertidumbres asociadas a los fenómenos aleatorios, facilitando el estudio de sus propiedades, la construcción, sobre ellos de diversos conceptos fundamentales como el de variables aleatorias, y, en general, la aplicación de teorías de la probabilidad a diversas áreas de conocimiento. 1.7 Probabilidad condicionada Imaginemos que en la experiencia de tirar un dado regular supiéramos de antemano que se ha obtenido un número par. Es decir, que se ha verificado el suceso: \\(\\{B = \\mbox{número par}\\}\\)“. Pregunta: ¿Cuál es ahora la probabilidad de que se verifique el suceso mayor o igual a cuatro? Lógicamente, el resultado sería : \\(2 / 3\\). Por lo tanto, la probabilidad del suceso \\(\\mathrm{A}=\\) mayor o igual a cuatro se ha modificado. Evidentemente, ha pasado de ser \\(1 / 2\\) ( cuando no tenemos ninguna información previa) a ser \\(2 / 3\\) (cuando sabemos que se ha verificado el suceso B). ¿Cómo podemos anotar esta última probabilidad \\((2 / 3)\\) ? Muy sencillo. Anotaremos \\(\\mathrm{P}(\\mathrm{A} / \\mathrm{B})\\), que se lee como probabilidad de A condicionada a B . Así, en este ejemplo, \\[ \\begin{gathered} \\mathrm{P}(\\mathrm{A} / \\mathrm{B})=2 / 3 \\\\ \\mathrm{P}(\\mathrm{A})=1 / 2 \\end{gathered} \\] En términos generales, estamos en condiciones de poder definir la probabilidad condicionada, y lo hacemos como: \\[ P(A / B)=\\frac{P(A \\cap B)}{P(B)} \\] Podemos ahora visualizar de una manera práctica y divertida el ejemplo anterior. Siguiendo con la notación utilizada, el suceso A será lo que denominamos suceso de obtención, mientras que el suceso B será lo que denominamos suceso condicionado. La pantalla nos proporcionará los casos posibles para el condicionante elegido y los casos favorables, calculando mediante la regla de Laplace la probabilidad del suceso. Elegid suceso a estudiar. Desplazad, si procede, las barras de puntos. Elegir suceso condicionante. Desplazad, si procede, las barras de puntos. Comprobad los sucesos posibles y los favorables. La probabilidad condicionada se comporta, entonces, como una función de probabilidad. Es decir, verifica los tres axiomas siguientes: Axioma 1: \\[ \\mathrm{P}(\\mathrm{A} / \\mathrm{B}) \\geq 0 \\] Axioma 2: \\[ P(\\Omega / B)=1 \\] Axioma 3: \\[ P\\left(\\bigcup_{i=1}^{\\infty} A_{i} / B\\right)=\\sum_{i=1}^{\\infty} P\\left(A_{i} / B\\right) \\] para sucesos \\(\\mathrm{A}_{\\mathrm{i}}\\) con intersección vacía dos a dos. 1.7.1 Sucesos dependientes y sucesos independientes Sean A y B dos sucesos con probabilidad mayor que 0 . Evidentemente, si \\[ \\mathrm{P}(\\mathrm{A} / \\mathrm{B})=\\mathrm{P}(\\mathrm{A}) \\] B no ha modificado la probabilidad de que suceda A. En este caso diremos que son sucesos independientes. En caso contrario diremos que son sucesos dependientes. En el ejemplo del apartado anterior, se observa que los sucesos son dependientes puesto que las probabilidades anteriores no coinciden. Se verifica que independencia de los sucesos A y B es equivalente a decir que la probabilidad de la intersección es igual a producto de probabilidades de los dos sucesos. Se verifica también que si A y B son independientes: a) El complementario del suceso A y el suceso B son independientes. b) El complementario del suceso A y el complementario del suceso B son independientes. c) El complementario del suceso B y el suceso A son independientes. 1.7.2 Incompatibilidad e independencia Dos sucesos con intersección vacía se denominan sucesos incompatibles. Esto, ¿qué implica? Pues, que si se verifica uno seguro que no se verifica el otro, ya que no tienen resultados en común. Por lo tanto es el caso extremo de dependencia. Obtenemos en este caso que: \\[ \\mathrm{P}(\\mathrm{A} / \\mathrm{B})=0 \\] y, en consecuencia, si \\(\\mathrm{P}(\\mathrm{A})\\) y \\(\\mathrm{P}(\\mathrm{B})\\) son diferentes de cero, la probabilidad condicionada anterior es diferente de \\(\\mathrm{P}(\\mathrm{A})\\), y así se deduce la dependencia. La única posibilidad de que se dé incompatibilidad e independencia a la vez, es que alguno de los dos sucesos tenga probabilidad igual a cero. 1.8 Dos Teoremas importantes 1.8.1 Teorema de las probabilidades totales Sea \\(\\Omega\\) el conjunto total formado por una partición (colección de sucesos con intersección vacía dos a dos): \\[ \\Omega=H_{1} \\cup \\ldots \\ldots \\cup H_{n} \\] La probabilidad de cualquier otro suceso A , se puede obtener a partir de las probabilidades de los sucesos de la partición y de las probabilidades de A condicionado a los sucesos de la partición, de la manera siguiente: \\[ P(A)=\\sum_{i=1}^{n} P\\left(A / H_{i}\\right) \\cdot P\\left(H_{i}\\right) \\] Esto es lo que se conoce como teorema de las probabilidades totales. 1.8.2 Teorema de Bayes Es una consecuencia del teorema de las probabilidades totales. Sea \\(\\Omega\\) el conjunto total formado por una partición (colección de sucesos con intersección vacía dos a dos). \\[ \\Omega=H_{1} \\cup \\ldots \\ldots \\cup H_{n} \\] Ahora el interés se centrará en la obtención de la probabilidad de cualquier suceso de la partición condicionada a un suceso A cualquiera. El resultado será: \\[ P\\left(\\mathrm{H}_{\\mathrm{i}} / \\mathrm{A}\\right)=\\frac{\\mathrm{P}\\left(\\mathrm{A} / \\mathrm{H}_{\\mathrm{i}}\\right) \\cdot \\mathrm{P}\\left(\\mathrm{H}_{\\mathrm{i}}\\right)}{\\sum_{i=1}^{n} \\mathrm{P}\\left(\\mathrm{A} / \\mathrm{H}_{\\mathrm{i}}\\right) \\cdot \\mathrm{P}\\left(\\mathrm{H}_{\\mathrm{i}}\\right)} \\] Esto es conocido como teorema o regla de Bayes. 1.9 Introducción a los experimentos múltiples Supongamos que tiramos a la vez un dado y una moneda. Tenemos una experiencia múltiple, puesto que la experiencia que se realiza es la composición de dos experiencias (experiencia \\(1=\\) tirar un dado regular; experiencia 2 = tirar una moneda regular). ¿Cuál es en este caso el conjunto de resultados? Si \\(\\Omega_{1}\\) es el conjunto de resultados asociado con la experiencia tirar un dado y \\(\\Omega_{2}\\) es el conjunto de resultados asociado con la experiencia tirar una moneda, el conjunto de resultados asociado a la experiencia múltiple será \\(\\Omega_{1} \\times \\Omega_{2}\\). Es decir, \\(\\Omega_{1}=\\{1,2,3,4,5,6\\}\\) \\(\\Omega_{2}=\\{\\) cara, cruz \\(\\}\\) \\(\\Omega_{1} \\times \\Omega_{2}=\\{(1\\), cara \\(),(2\\), cara \\(),(3\\), cara \\(),(4\\), cara \\(),(5\\), cara \\(),(6\\), cara \\(),(1\\), cruz ), ( 2 , cruz ), ( 3, cruz ), (4, cruz \\(),(5\\), cruz \\(),(6\\), cruz \\()\\}\\) Si \\(\\mathrm{P}_{1}\\) y \\(\\mathrm{P}_{2}\\) son, respectivamente, las funciones de probabilidad asociadas a las experiencias 1 y 2 , ¿es posible calcular probabilidades de la experiencia múltiple a partir de \\(\\mathrm{P}_{1}\\) y \\(\\mathrm{P}_{2}\\) ? Efectivamente! Pero hemos de distinguir dos situaciones: Experiencias independientes: cuando el resultado de una no influya en la otra. Experiencias dependientes: cuando el resultado de una influya en la otra. En nuestro caso se trata de experiencias independientes, puesto que el resultado que se obtenga al tirar el dado no influye sobre el resultado que se obtenga al lanzar la moneda y al revés. ¿Como se calculan, pues, las probabilidades de la experiencia múltiple? Sea un suceso de la experiencia múltiple: A x B. Caso de experiencias independientes: \\[ \\mathrm{P}(\\mathrm{A} \\times \\mathrm{B})=\\mathrm{P}_{1}(\\mathrm{~A}) \\times \\mathrm{P}_{2}(\\mathrm{~B}) \\] Caso de experiencias dependientes: \\[ \\mathrm{P}(\\mathrm{A} \\times \\mathrm{B})=\\mathrm{P}_{1}(\\mathrm{~A}) \\times \\mathrm{P}_{2}(\\mathrm{~B} / \\mathrm{A}) \\] Entendemos que existe una \\(\\mathrm{P}_{2}\\) para cada suceso A . Esto que hemos explicado se puede, lógicamente, generalizar a una experiencia múltiple formada por \\(n\\) experiencias. 1.10 Combinatoria Veamos algunas fórmulas simples que se utilizan en combinatoria y que nos pueden ayudar a calcular el número de casos posibles o el número de casos favorables. 1.10.1 Permutaciones Sea un conjunto de \\(n\\) elementos. A las ordenaciones que se pueden hacer con estos \\(n\\) elementos \\(\\sin\\) repetir ningún elemento y utilizándolos todos se las denomina permutaciones. El número de permutaciones que se pueden realizar coincide con el factorial de \\(n\\), y su cálculo es: \\[ n!=n \\cdot(n-1) \\cdot(n-2) \\ldots \\ldots .2 \\cdot 1 \\] Ejemplo: ¿De cuántas maneras distintas podemos alinear a seis personas en una fila? Respuesta De \\(6!=6 \\cdot 5 \\cdot 4 \\cdot 3 \\cdot 2 \\cdot 1=720\\) maneras (permutaciones de 6 elementos). 1.10.2 Variaciones Sea un conjunto de \\(n\\) elementos. Supongamos que deseamos ordenar \\(r\\) elementos de entre los \\(n\\). A cada una de estas ordenaciones la denominamos variación. El número de variaciones que se pueden hacer de los \\(n\\) elementos tomados de \\(r\\) en \\(r\\) es: \\[ V_{n}^{r}=n \\cdot(n-1) \\ldots \\ldots(n-r+1) \\] Ejemplo En una carrera de velocidad compiten diez atletas. ¿De cuántas maneras distintas podría estar formado el podio? (el podio lo forman el primer, el segundo y el tercer clasificado) Respuesta Cada podio posible es una variación de diez elementos tomado de tres en tres. Por tanto, el número posible de podios es: \\[ \\mathrm{V}_{10}^{3}=10.9 .8=720 \\] 1.10.3 Variaciones con repetición Sea un conjunto de \\(n\\) elementos. Supongamos que se trata de ordenar \\(r\\) elementos que pueden estar repetidos. Cada ordenación es una variación con repetición. El número de variaciones con repetición para un conjunto de \\(n\\) tomados de \\(r\\) en \\(r\\) es : \\[ \\mathrm{RV}_{\\mathrm{n}}^{\\mathrm{r}}=\\mathrm{n}^{\\mathrm{r}} \\] Ejemplo En una urna tenemos cinco bolas numeradas del 1 al 5 . Se extraen tres bolas sucesivamente con reposición (devolviendo cada vez la bola a la urna). ¿Cuántos resultados distintos es posible obtener? Respuesta: Se trata de variaciones con repetición de un conjunto de cinco bolas tomadas de tres en tres. En total tendremos: \\[ \\mathrm{RV}_{5}^{3}=5^{3}=125 \\] 1.10.4 Combinaciones Cuando se trata de contar el número de subconjuntos de \\(x\\) elementos en un conjunto de \\(n\\) elementos tenemos lo que se denomina combinaciones de x elementos en un conjunto de n . El cálculo del contaje se hace mediante el número combinatorio, de la manera siguiente: \\[ \\mathrm{C}_{\\mathrm{n}}^{\\mathrm{x}}=\\binom{n}{\\mathrm{x}}=\\frac{\\mathrm{n!}}{\\mathrm{x}!.(\\mathrm{n}-\\mathrm{x})!} \\] Ejemplo ¿De cuántas maneras podemos elegir, en la urna anterior (recordemos que había cinco bolas), tres bolas en una única extracción? Respuesta Serán combinaciones de cinco elementos tomados de tres en tres, por tanto, tendremos: \\[ \\mathrm{C}_{5}^{3}=\\binom{5}{3}=\\frac{5!}{3!(5-3)!}=10 \\] 1.10.5 Permutaciones con repetición Sea un conjunto de \\(n\\) elementos, de entre los cuales tenemos \\(a\\) elementos indistinguibles entre sí, \\(b\\) elementos indistinguibles entre sí, \\(c\\) elementos indistinguibles entre sí, etc. Cada ordenación de estos elementos se denominará permutación con repetición. El número de permutaciones con repetición es: \\[ R P{ }_{n}^{a, b, c, \\ldots}=\\frac{n!}{a!b!c!\\ldots} \\] Ejemplo ¿Cuantas palabras con sentido o sin él pueden formarse con las letras PATATA? Respuesta: Tenemos tres veces la letra A, dos veces la T y una vez la P. Por tanto, serán: \\[ \\mathrm{RP}_{6}^{3,2,1}=\\frac{6!}{3!2!!}=60 \\] 1.11 Frecuencia relativa y probabilidad La definición moderna de probabilidad basada en la axiomática de Kolmogorov (presentada anteriormente) es relativamente reciente. Históricamente hubo otros intentos previos de definir el escurridizo concepto de probabilidad, descartados por diferentes razones. Sin embargo conviene destacar aquí algunas ideas que aparecen en la antigua definición basada en la frecuencia relativa, ya que permiten intuir algunas profundas propiedades de la probabilidad. Recordemos antes que si en un experimento que se ha repetido \\(n\\) veces un determinado suceso A se ha observado en \\(k\\) de estas repeticiones, la frecuencia relativa \\(\\mathrm{f}_{\\mathrm{r}}\\) del suceso A es: \\[ \\mathrm{f}_{\\mathrm{r}}=k / n \\] El interés por la frecuencia relativa y su relación con el concepto de probabilidad aparece a lo largo de los siglos XVIII a XX al observar el comportamiento de numerosas repeticiones de experimentos reales. A título de ejemplo de un experimento de este tipo, supongamos que se dispone de una moneda ideal perfectamente equilibrada. Aplicando directamente la regla de Laplace resulta claro que el suceso \\(\\mathrm{A}=\\) obtener cara tiene probabilidad: \\[ \\mathrm{p}(\\mathrm{A})=1 / 2=0,5 \\] ### Ilustración por simulación En el enlace siguiente se accede a una simulación por ordenador de la ley de los grandes números en la que se basa precisamente la idea de asimilar “a la larga” (es decir a medida que crece el número de repeticiones) frecuencia relativa y probabilidad. Enlace a la simulación En la simulación podéis definir: La verdadera probabilidad” de que al tirar la moneda salga cara, EL número de tiradas. Como podréis comprobar, sea cual sea la probabilidad (una moneda justa es un 0.5) a la larga la frecuencia relativa converge hacia el valor que habéis fijado. Eso sí, observad lo que sucede si fijais probabilidades cercanas a 0.5 o muy alejadas de ell. ¿La idea de lo que sucede a la larga es la misma? ¿En que encontráis diferencias? Aunque no deje de llamar la atención el carácter errático del comportamiento de \\(\\mathrm{f}_{\\mathrm{r}}\\) entre los valores 0 y 1, estaréis seguramente de acuerdo que a mayor número de lanzamientos \\(n\\), más improbable es que \\(f_{r}\\) se aleje mucho de \\(p(A)\\). La teoría moderna de la probabilidad enlaza formalmente estas ideas con el estudio de las leyes de los grandes números, que se discutiran con más detalle en el capítulo dedicado a las “Grandes muestras”. 1.12 Caso de Estudio: Eficacia de una prueba diagnóstica Para decidir la presencia(E) o ausencia (A) de sordera profunda a la edad de seis meses, se está ensayando una batería de tests. Considerando el caso en que la prueba pueda dar positivo \\((+)\\) o negativo \\((-)\\), hay que tener en cuenta que en individuos con dicha sordera la prueba dará a veces positivo y a veces negativo, e igual ocurrirá con individuos que no presentan la sordera. En este contexto todas las probabilidades pueden ser interpretadas en terminos de resultados positivos o neghativos, correctamente o no y cada una ha recibe un nombre que la ha popularizado dentro de la literatura médica: Así tenemos: \\(\\mathrm{P}(+/ \\mathrm{E})\\) Probabilidad de test positivo en individuos que padecen la sordera. Este valor se conoce como sensibilidad del test. \\(\\mathrm{P}(+/ \\mathrm{A})=\\) Probabilidad de test positivo en individuos que no padecen la sordera. Este valor se conoce como probabilidad de falso-positivo. \\(\\mathrm{P}(-/ \\mathrm{E})=\\) Probabilidad de test negativo en individuos que padecen la sordera Este valor se conoce como probabilidad de falso-negativo. \\(P(-/ A)=\\) Probabilidad de test negativo en individuos que no padecen sordera. Este valor se conoce como especificidad del test. Finalmente a la probabilidad, \\(\\mathrm{P}(\\mathrm{E})\\), de presentar la enfermedad se le conoce como prevalencia de la enfermedad. Lógicamente, en un “buen test” nos interesa que la sensibilidad y la especificidad sean elevadas, mientras que los falsos-positivos y falsos-negativos sean valores bajos. Además no debemos olvidar que, el interés de aplicar el test, consiste en que sirva de elemento predictivo para diagnosticar la sordera. Por lo tanto, interesa que las probabilidades: \\(\\mathrm{P}(\\mathrm{E} /+)=\\) Probabilidad de padecer sordera si el test da positivo \\(\\mathrm{P}(\\mathrm{A} /-)=\\) Probabilidad de no padecer sordera si el test da negativo sean realmente altas. A las probabilidades anteriores se las conoce como: valores predictivos del test, en concreto: \\(\\mathrm{P}(\\mathrm{E} /+)=\\) es el valor predictivo positivo y \\(\\mathrm{P}(\\mathrm{A} /-)=\\) es el valor predictivo negativo 1.12.1 Aplicación del Teorema de Bayes Estamos en una situación en que, a partir de conocimiento de unas probabilidades, nos interesa calcular otras, para lo que utilizaremos el teorema de Bayes. Habitualmente, a partir de estudios epidemiológicos y muestras experimentales, se estiman: La prevalencia La sensibilidad del test La especificidad del test La probabilidad de falso positivo La probabilidad de falso negativo ¿Cómo se obtiene entonces el valor predictivo del test? Veamos como aplicar el teorema de Bayes a este problema: Si dividimos a la población global (en este caso, el conjunto de todos los bebés de seis meses) entre los que padecen sordera y los que no la padecen, aplicando el teorema de Bayes resulta que: \\[ \\mathrm{P}(\\mathrm{E} /+)=(\\mathrm{P}(+/ \\mathrm{E}) \\times \\mathrm{P}(\\mathrm{E})) /(\\mathrm{P}(+/ \\mathrm{E}) \\times \\mathrm{P}(\\mathrm{E})+\\mathrm{P}(+/ \\mathrm{A}) \\times \\mathrm{P}(\\mathrm{~A})) \\] y \\[ \\mathrm{P}(\\mathrm{~A} /-)=(\\mathrm{P}(-/ \\mathrm{A}) \\times \\mathrm{P}(\\mathrm{~A})) /(\\mathrm{P}(-/ \\mathrm{A}) \\times \\mathrm{P}(\\mathrm{~A})+\\mathrm{P}(-/ \\mathrm{E}) \\times \\mathrm{P}(\\mathrm{E})) \\] 1.12.2 Ejemplo numérico Supongamos que en el ejemplo de la sordera, se sabe que: Prevalencia \\(=0,003\\), Es decir, que un tres por mil padece sordera profunda a esta edad. Sensibilidad \\(=0,98\\) Especificidad \\(=0,95\\) Probabilidad de falso positivo \\(=0,05\\) Probabilidad de falso negativo \\(=0,02\\) ¿Cuál es el valor predictivo del test? \\[ \\begin{aligned} & \\mathrm{P}(\\mathrm{E} /+)=(0,98 \\times 0,003) /(0,98 \\times 0,003+0,05 \\times 0,997)=0,00294 / 0,05279=0,055692 \\\\ & \\mathrm{P}(\\mathrm{~A} /-)=(0,95 \\times 0,997) /(0,95 \\times 0,997+0,02 \\times 0,003)=0,94715 / 0,94721=0,999936 \\end{aligned} \\] En conclusión, Podemos afirmar que se trata de un test muy válido para decidir que no hay sordera en caso de que el resultado del test sea negativo. Sin embargo, el valor tan bajo de \\(\\mathrm{P}(\\mathrm{E} /+)\\) no permite poder considerar al test como un predictor válido para diagnosticar la sordera. Obsérvese que: Probabilidad de falso positivo \\(=1-\\) especificidad Probabilidad de falso negativo \\(=1-\\) sensibilidad "],["variables-aleatorias-y-distribuciones-de-probabilidad.html", "Capítulo 2 Variables aleatorias y Distribuciones de probabilidad 2.1 El espacio muestral y sus elementos 2.2 Representación numérica de los sucesos elementales. Variables aleatorias 2.3 Caracterización de una variable aleatoria a través de la probabilidad. Función de distribución 2.4 Propiedades de la función de distribución 2.5 Clasificación de las variables aleatorias 2.6 Variable aleatoria discretas 2.7 Variables aleatorias continuas 2.8 Caracterización de una variable aleatoria a través de parámetros 2.9 Esperanza de una variable aleatoria discreta 2.10 Esperanza de una variable aleatoria continua 2.11 Propiedades de la esperanza matemática 2.12 Varianza de una variable aleatoria 2.13 Momentos (de orden \\(k\\)) de una variable aleatoria 2.14 Definición formal de variable aleatoria 2.15 Caso práctico: Lanzamiento de dos dados", " Capítulo 2 Variables aleatorias y Distribuciones de probabilidad En el capítulo anterior hemos introducido el concepto de probabilidad y como calcular probabilidades asociadas a sucesos observables, formados por uno o mas sucesos elementales, resultado de un experimento aleatorio. En muchas ocasiones nos interesa representar los resultados de un experimento aleatorio mediante un valor numérico que lo caracterice. Por ejemplo si tiramos tres monedas y contamos el número de caras, nos será indiferente cuando salgan dos caras, en que monedas ha salido una cara y en cual ha salido una cruz. En la práctica, esto significa que en dichas ocasiones, aunque haya un experimento aleatorio detras de los valores que observamos, tan sólo nos interesan los resultados que expresamos a traves de valores numéricos. Las variables aleatorias son la forma que hemos desarrollado para trasladar la estructura proporcionada por los espacios de probabilidad el espacio muestral, el conjunto de sucesos elementales, al conjunto de los números, en concreto a la recta real, haciéndolo de tal forma que podamos seguir calculando probabilidades de sucesos observables. En este capítulo veremos que las variables aleatorias permiten pues transportar la probabilidad del espacio de probabilidad original a la recta real. Para ello, introduciremos una función que es la que se ocupa de ello, la función de distribución de probabilidad. 2.1 El espacio muestral y sus elementos Cuando llevamos a cabo un experimento aleatorio, el conjunto \\(\\Omega\\) de resultados posibles forman el denominado espacio muestral. Sus elementos \\(\\omega\\) (resultados o sucesos elementales) deben ser conocidos por el investigador que realiza la experiencia, aun cuando no podamos determinar a priori el resultado particular de una realización concreta. Supondremos que también conocemos la manera de asignar una probabilidad sobre el conjunto de enunciados o sucesos observables que se pueden construir a partir de \\(\\Omega\\). Es decir, supondremos la existencia de un espacio de probabilidad construido a partir de los resultados de \\(\\Omega\\). Generalmente, la estructura del espacio muestral no permite, o por lo menos no facilita, su tratamiento matemático. Pensemos en la inmensa variedad en la naturaleza de resultados posibles de diferentes experimentos. Además es bastante frecuente que no nos interesen los resultados en sí, sino una característica que, de alguna manera, resuma el resultado del experimento. 2.2 Representación numérica de los sucesos elementales. Variables aleatorias La forma de resumen que adoptaremos es la asignación a cada suceso elemental de un valor numérico, en particular, de un número real. En la práctica la asignación de un valor numérico a cada elemento del espacio muestral se hace siguiendo una regla o enunciado, según el interés concreto del experimentador. Evidentemente, podemos construir diversas maneras de asignar valores numéricos a los mismos resultados de un experimento. Hablando en términos coloquiales, podemos decir que cada regla de asignación corresponde a una determinada variable que se puede medir sobre los sucesos elementales. Nótese que es posible construir múltiples variables sobre un mismo espacio de probabilidad. En términos algo más formales, las reglas de asignación se pueden interpretar como una aplicación de \\(\\Omega\\) en el conjunto de números reales. \\[ \\begin{aligned} X: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow X(\\omega) \\end{aligned} \\] \\(X\\) representa la variable o regla de asignación concreta. El conjunto de valores numéricos que puede tomar una variable, y que depende de la naturaleza de la misma variable, recibe el nombre de recorrido de la variable. A partir de este momento, los sucesos elementales quedan substituidos por sus valores numéricos de acuerdo a una determinada variable y permiten un mayor tratamiento matemático en el marco de la teoría de la probabilidad. El apelativo aleatoria que reciben las variables hace referencia al hecho de que los posibles valores que toman dependen de los resultados de un fenómeno aleatorio que se presentan con una determinada probabilidad. Como un complemento al tema, al final del capítulo, presentamos la definición formal de variable aleatoria, donde se introducen las restricciones a las reglas de asignación numérica que posibilitan el tratamiento matemático de las variables. 2.3 Caracterización de una variable aleatoria a través de la probabilidad. Función de distribución Una vez que tenemos definida una variable aleatoria, ésta queda totalmente caracterizada en el momento en que somos capaces de determinar la probabilidad de que la variable tome valores en cualquier intervalo de la recta real. Dado que los posibles valores que puede tomar la variable, es decir, su recorrido, pueden ser muy grandes (infinitos de hecho), el problema de caracterizar una variable aleatoria se resuelve introduciendo una función especial, la función de distribución. Definición La función de distribución de una variable aleatoria \\(X\\) es la aplicación que, a cada punto de la recta real, le asigna la probabilidad del suceso formado por los resultados del experimento que tienen asignado un valor de la variable aleatoria menor o igual a dicho punto. \\[ \\begin{array}{rll} F: & \\mathbb{R} & \\rightarrow[0,1] \\\\ & x & \\rightarrow F(x)=P(X \\leq x)=P\\{\\omega \\in \\Omega \\mid X(\\omega) \\leq x\\} \\end{array} \\] También podemos decir que es la probabilidad inducida en el intervalo de la recta \\((-\\infty, x]\\) Hay que hacer notar que siempre será posible determinar dicha probabilidad gracias a los requerimientos exigidos en la definición formal de variable aleatoria. Por tanto, toda variable aleatoria tiene asociada una función de distribución. Nos referimos a esta función cuando decimos que conocemos la distribución de la variable aleatoria. 2.4 Propiedades de la función de distribución La forma en que hemos definido las funciones de distribución determina que dichas funciones deban de tener las siguientes propiedades: \\(0 \\leq F(x) \\leq 1. \\quad\\) Efectivamente, se trata de una probabilidad, por lo que toma valores entre 0 y 1 \\(\\lim _{x \\rightarrow+\\infty} F(x)=1. \\quad\\) A medida que un valor se hace más y más grande, la probabilidad de encontrar valores anteriores a él crece y, en el límite, valdrá uno (el valor máximo para una probabilidad). \\(\\lim _{x \\rightarrow-\\infty} F(x)=0. \\quad\\) A medida que un valor se hace más y más negativo, la probabilidad de encontrar valores anteriores a él disminuye, y en el límite es cero (el valor mínimo para una probabilidad). \\(x_{1}<x_{2} \\Rightarrow F\\left(x_{1}\\right) \\leq F\\left(x_{2}\\right). \\quad\\) Por construcción, es una función monótona, es decir, si un valor es inferior a otro, la probabilidad de encontrar valores inferiores al menor de los dos será menor o igual que la de encontrarlos inferiores al mayor de los dos. \\(\\lim _{x \\rightarrow a^{+}} F(x)=F(a) \\quad \\forall a \\in \\mathbb{R}. \\quad\\) Por la forma en que se ha definido, la función de distribución es contínua por la derecha. Toda función que verifique las propiedades anteriores es una función de distribución y toda función de distribución caracteriza una determinada variable aleatoria sobre algún espacio de probabilidad. Las propiedades anteriores determinan la forma de la función de distribución. En concreto, según la variable sea contínua o discreta, conceptos definidos a continuación en el capítulo, la forma de la función será: : Primer tipo (Variables contínuas) Segundo tipo (variables discretas) 2.5 Clasificación de las variables aleatorias Para su estudio, las variables aleatorias se clasifican en variables discretas o variables contínuas. 2.5.1 Variables aleatorias discretas Definición: Variable aleatoria discreta Diremos que una variable aleatoria es discreta si su recorrido, es decir, el conjunto de valores que puede tomar, es finito o infinito numerable. Generalmente, este tipo de variables van asociadas a experimentos en los cuales se cuenta el número de veces que se ha presentado un suceso o donde el resultado es una puntuación concreta. Los puntos del recorrido se corresponden con saltos en la gráfica de la función de distribución, que correspondería al segundo tipo de gráfica visto anteriormente. 2.5.2 Variables aleatorias continuas Definición: Variable aleatoria contínua Diremos que una variable aleatoria es continua si su función de distribución es una función continua. También puede definirse, de forma análoga a las variables discretas como aquellas cuyo recorrido, es decir, el conjunto de valores que puede tomar, es un intervalo o subconjunto no numerable de los números reales. En otras palabras, aquellas que pueden tomar cualquier valor dentro de un rango continuo, sin saltos entre los valores posibles. Se corresponde con el primer tipo de gráfica visto. Generalmente, se corresponden con variables asociadas a experimentos en los cuales la variable medida puede tomar cualquier valor en un intervalo; mediciones biométricas, por ejemplo. Un caso particular dentro de las variables aleatorias continuas y al cual pertenecen todos los ejemplos usualmente utilizados, son las denominadas variables aleatorias absolutamente continuas. Definición: Distribución absolutamente contínua Diremos que una variable aleatoria \\(X\\) continua tiene una distribución absolutamente continua si existe una función real \\(f\\), positiva e integrable en el conjunto de números reales, tal que la función de distribución \\(F\\) de \\(X\\) se puede expresar como \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] Una variable aleatoria con distribución absolutamente continua, por extensión, se la clasifica como variable aleatoria absolutamente continua. Definición: función de densidad de probabilidad A la función \\(f\\) se la denomina función de densidad de probabilidad de la variable \\(X\\). Hay que hacer notar que no toda variable continua es absolutamente continua, pero los ejemplos son complicados, algunos utilizan para su construcción el conjunto de Cantor, y quedan fuera del nivel y del objetivo de este curso. Igualmente indicaremos que los tipos de variables comentados anteriormente forman únicamente una parte de todos los posibles tipos de variables, sin embargo contienen prácticamente todas las variables aleatorias que encontramos usualmente. Tal como se estudiará más adelante, existen algunas familias de funciones de distribución, tanto dentro del grupo de las discretas como de las continuas, que por su importancia reciben un nombre propio y se estudiarán en los capítulos siguientes. En ocasiones encontramos variables de tipo mixto, es decir que se comportan como discretas o contínuas para distintos grupos de valores. 2.6 Variable aleatoria discretas Tal como se ha definido, una variable aleatoria \\(X\\) discreta toma valores en un conjunrto finito o numerables. Indicaremos el recorrido de la variable \\(X\\) como: \\(\\left\\{x_{1}, x_{2}, \\ldots, x_{\\mathrm{k}}, \\ldots\\right\\}\\). El ejemplo más sencillo de variable aleatoria discreta lo constituyen las variables indicadoras. Sea \\(A\\) un suceso observable, se llama indicador de \\(A\\) a la variable aleatoria definida por \\[ \\begin{aligned} I_{A}: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow I_{A}(\\omega)=\\left\\{\\begin{array}{lll} 1 & \\text { si } \\omega \\in A \\\\ 0 & \\text { si } & A \\end{array}\\right. \\end{aligned} \\] 2.6.0.1 Ejercicio propuesto Construir, a partir de las variables indicadoras de \\(A\\) y \\(B\\), las siguientes variables indicadoras \\[ I_{A \\cap B} ; I_{A \\cup B} ; I_{A} c ; I_{\\Omega} \\] 2.6.0.1.1 Solución \\[ \\begin{gathered} I_{A \\cap B}=I_{A} \\cdot I_{B} \\\\ I_{A \\cup B}=I_{A}+I_{B}-I_{A \\cap B} \\\\ I_{A} c=1-I_{A} \\\\ \\Omega=1 \\end{gathered} \\] 2.6.1 Caracterización de las v.a. discretas Una variable aleatoria discreta puede caracterizarse a través de la función que asocia cada elemento del recorrido su probabilidad. Dicha función recibe varios nombres según los autores: - función de probabilidad - ley de probabilidad, - función de densidad de la variable aleatoria discreta. - función de masa de probabilidad. Aunque es habitual encontrar, en muchos libros el término función de densidad para variables (absolutamente) contínuas y el término función de masa de probabilidad para variables discretas, también lo es referirse a ambas como “función de densidad”. La función de probabilidad de una variable discreta se puede representar de la manera siguiente: \\[ \\begin{array}{rll} f: & \\mathbb{R} & \\rightarrow[0,1] \\\\ & x & \\rightarrow f(x)=P(X=x)=P\\{\\omega \\in \\Omega \\mid X(\\omega)=x\\} \\end{array} \\] Obsérvese que, a diferencia de la función de distribución que toma valores para cualquier valor real, la función definida anteriormente es nula en todo punto que no pertenezca al recorrido. En cambio, siguiendo con la análogía, y dado que se trata de una probabilidad, la función de densidad discreta está acotada \\(0 \\leq f(x) \\leq 1\\). Toda función de densidad discreta puede expresarse de manera explícita a través de una tabla que asocie directamente puntos del recorrido con sus probabilidades. Ejemplo: Función de densidad de una variable indicadora Consideremos la variable indicadora del suceso \\(A\\) : \\[ \\begin{aligned} I_{A}: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow I_{A}(\\omega)=\\left\\{\\begin{array}{lll} 1 & \\text { si } & \\omega \\in A \\\\ 0 & \\text { si } & A \\end{array}\\right. \\end{aligned} \\] La función de densidad de esta variable sería la siguiente: \\(x\\) 0 1 \\(f(x)=P(X=x)\\) \\(1-P(A)=P\\left(A^{\\mathrm{c}}\\right)\\) \\(P(A)\\) El recorrido está formado por dos valores: 1 y 0 , con las mismas probabilidades que las del suceso \\(A\\) y su complementario, respectivamente. En muchos casos será posible expresar la función de probabilidadmediante una fórmula matemática que define una regla de asignación de probabilidades para los valores del recorrido. Ejemplo: Un modelo matemático para la función de probabilidad \\[ P(X=x)=0,2 \\cdot 0,8^{x-1}, \\quad x=1,2, \\ldots \\] es la función de densidad de una variable aleatoria discreta con recorrido numerable. 2.6.2 Propiedades de la función de densidad discreta \\[ 0 \\leq f(x) \\leq 1 \\] \\(\\sum_{i=1}^{n} f\\left(x_{i}\\right)=1\\), si el recorrido es finito. \\(\\sum_{i=1}^{\\infty} f\\left(x_{i}\\right)=1\\), si el recorrido es numerable. 2.6.3 Relaciones entre la función de distribución y la función de densidad discreta. Probabilidad de intervalos. Existe una relación muy importante entre las funciones de distribución \\(F(x)\\) y de densidad \\(f(x)\\) de una variable aleatoria discreta. La función de distribución en un punto se obtiene acumulando el valor de la función de densidad para todos los valores del recorrido menores o iguales al punto en cuestión. \\[ F(x)=\\sum_{x_{i} \\leq x} f\\left(x_{i}\\right) \\quad \\text { para todo } \\mathrm{x}_{\\mathrm{i}} \\text { perteneciente al recorrido de la variable. } \\] En efecto, supongamos que el recorrido de una variable discreta \\(X\\) es \\(\\left\\{x_{1}, x_{2}, \\ldots, x_{k}, \\ldots\\right\\}\\) y que deseamos conocer el valor de la función de distribución en un punto \\(x\\) tal que \\(x_{i} \\leq x<x_{i+1}\\), entonces es inmediato que \\[ F(x)=P(X \\leq x)=P\\left(X=x_{1}\\right)+P\\left(X=x_{2}\\right)+\\ldots+P\\left(X=x_{i}\\right)=f\\left(x_{1}\\right)+f\\left(x_{2}\\right)+f\\left(x_{3}\\right)+\\ldots+f\\left(x_{i}\\right) \\] Por ejemplo, para una variable indicadora de un suceso \\(A\\), tenemos la relación siguiente: Valor de \\(\\boldsymbol{x}\\) \\(\\boldsymbol{f}(\\boldsymbol{x})\\) \\(\\boldsymbol{F}(\\boldsymbol{x})\\) \\((-\\infty, 0)\\) 0 0 \\(P\\left(A^{c}\\right)\\) \\(P\\left(A^{\\mathrm{c}}\\right)\\) \\((0,1)\\) \\(P\\left(A^{\\mathrm{c}}\\right)\\) 1 \\(P(A)\\) \\(P\\left(A^{\\mathrm{c}}\\right)+P(A)=1\\) \\((1,+\\infty)\\) 1 A partir de las funciones de densidad y de distribución es posible expresar las probabilidades para cualquier posible intervalo de valores de la variable. Por ejemplo: Intervalo \\(P(X \\leq a)=F(a)\\) \\(P(X<a)=F(a)-f(a)\\) \\(P(X>a)=1-F(a)=1-P(X \\leq a)\\) \\(P(X \\geq a)=1-F(a)+f(a)=1-P(X>a)\\) \\(P(a<X \\leq b)=F(b)-F(a)\\) \\(P(a<X<b)=F(b)-f(b)-F(a)\\) \\(P(a \\leq X \\leq b)=F(b)-F(a)+f(a)\\) \\(P(a \\leq X<b)=F(b)-f(b)-F(a)+f(a)\\) 2.7 Variables aleatorias continuas Una variable aleatoria \\(X\\) diremos que es continua si su función de distribución es una función continua. En la práctica, se corresponden con variables asociadas con experimentos en los cuales la variable medida puede tomar cualquier valor en un intervalo: mediciones biométricas, intervalos de tiempo, áreas, etc. Ejemplo: Variables aleatorias continuas Resultado de un generador de números aleatorios entre 0 y 1. Es el ejemplo más sencillo que podemos considerar, es un caso particular de una familia de variables aleatorias que tienen una distribución uniforme en un intervalo \\([a, b]\\). Se corresponde con la elección al azar de cualquier valor entre \\(a\\) y \\(b\\). Estatura de una persona elegida al azar en una población. El valor que se obtenga será una medición en cualquier unidad de longitud ( m , cm , etc.) dentro de unos límites condicionados por la naturaleza de la variable. El resultado es impredecible con antelación, pero existen intervalos de valores más probables que otros debido a la distribución de alturas en la población. Más adelante veremos que, generalmente, variables biométricas como la altura se adaptan un modelo de distribución denominado distribución Normal y representado por una campana de Gauss. Dentro de las variables aleatorias continuas tenemos las variables aleatorias absolutamente continuas. Diremos que una variable aleatoria \\(X\\) continua tiene una distribución absolutamente continua si existe una función real \\(f\\), positiva e integrable en el conjunto de números reales, tal que la función de distribución \\(F\\) de \\(X\\) se puede expresar como \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] Una variable aleatoria con distribución absolutamente continua, por extensión, se clasifica como variable aleatoria absolutamente continua. En cuanto a nuestro manual, todas las variables aleatorias continuas con las que trabajemos pertenecen al grupo de las variables absolutamente continuas, en particular, los ejemplos y casos expuestos. 2.7.1 Función de densidad continua La función que caracteriza las variables continuas es aquella función \\(f\\) positiva e integrable en los reales, tal que acumulada desde \\(-\\infty\\) hasta un punto \\(x\\), nos proporciona el valor de la función de distribución en \\(x, F(\\mathrm{x})\\). Recibe el nombre de función de densidad de la variable aleatoria continua. \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] Las funciones de densidad discreta y continua tienen, por tanto, un significado análogo, ambas son las funciones que acumuladas (en forma de sumatorio en el caso discreto o en forma de integral en el caso continuo) dan como resultado la función de distribución. La diferencia entre ambas, sin embargo, es notable. La función de densidad discreta toma valores positivos únicamente en los puntos del recorrido y se interpreta como la probabilidad de la que la variable tome ese valor \\(f(x)=P(X=x)\\). La función de densidad continua toma valores en el conjunto de números reales y no se interpreta como una probabilidad. No está acotada por 1, puede tomar cualquier valor positivo. Es más, en una variable continua se cumple que probabilidades definidas sobre puntos concretos siempre son nulas. \\[ P(X=x)=0 \\text { para todo } x \\text { real. } \\] ¿Cómo se interpreta, entonces, la función de densidad continua? Las probabilidades son las áreas bajo la función de densidad. El área bajo la función de densidad entre dos puntos a y b se interpreta como la probabilidad de que la variable aleatoria tome valores comprendidos entre \\(a\\) y \\(b\\). Por tanto, siempre se cumple lo siguiente: \\[ \\int_{-\\infty}^{+\\infty} f(x) d x=1 \\] La función de densidad se expresa a través de una función matemática. La forma específica de la función matemática generalmente pasa por considerar a la variable aleatoria como miembro de una determinada familia de distribuciones, un determinado modelo de probabilidad. Estas familias generalmente dependen de uno o más parámetros y serán objeto de un estudio específico en un capítulo posterior. La atribución a una determinada familia depende de la naturaleza de la variable en cuestión. Podemos ver, únicamente con ánimo ilustrativo, la expresión analítica y la gráfica para los ejemplos comentados con anterioridad: Resultado de un generador de números aleatorios entre \\(\\boldsymbol{a}\\) y \\(\\boldsymbol{b}\\). Modelo Uniforme. \\(f(x)=\\left\\{\\begin{array}{cc}\\frac{1}{b-a} & x \\in[a, b] \\\\ 0 & x \\notin[a, b]\\end{array}\\right\\}\\) Estatura de una persona elegida al azar en una población. Modelo Normal. \\[ f(x)=\\frac{1}{\\sqrt{2 \\pi}} e^{\\frac{-(x-170)^{2}}{2}}-\\infty<x<\\infty \\] 2.7.2 Relaciones entre la función de distribución y la función de densidad. Para una variable continua, la relación entre las funciones de distribución y de densidad viene dada directamente a través de la definición. La función de distribución en un punto se obtiene integrando el valor de la función de densidad desde menos infinito hasta el punto en cuestión. Por ejemplo: \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] 2.7.2.1 Probabilidad de intervalos A partir de las funciones de densidad y de distribución, y teniendo en cuenta que \\(P(X=x)=0\\) para todo \\(x\\) real, es posible expresar las probabilidades para cualquier posible intervalo de valores de la variable. Por ejemplo: Intervalo \\(P(X \\leq a)=P(X<a)=F(a)=\\int_{-\\infty}^{a} f(x) d x\\) \\(P(X \\geq a)=P(X>a)=1-F(a)=\\int_{a}^{+\\infty} f(x) d x\\) \\(P(a<X \\leq b)=P(a<X<b)=P(a \\leq X \\leq b)=P(a \\leq X<b)\\) \\(=F(b)-F(a)=\\int^{b} f(x) d x\\) Fijémonos que la probabilidad de los intervalos se corresponde con el área bajo la función de densidad dentro del intervalo considerado. 2.8 Caracterización de una variable aleatoria a través de parámetros Hasta el momento hemos visto que toda variable aleatoria viene caracterizada a través de unas determinadas funciones matemáticas, las funciones de distribución y de densidad. Una vez caracterizada, y por tanto conocida, la distribución de una variable aleatoria, podemos obtener cualquier probabilidad asociada. En ocasiones podemos acotar más el problema y reducir el estudio de una variable aleatoria a determinar una serie de características numéricas asociadas con la distribución de la variable. Dichas características tienen como propiedad fundamental el hecho de resumir gran parte de las propiedades de la variable aleatoria y juegan un papel muy destacado en las técnicas estadísticas que desarrollaremos a lo largo del curso. Por ejemplo, supuesta la pertenencia de una variable aleatoria a una determinada familia de distribuciones de probabilidad, bien sea discreta o continua, los diferentes miembros de la familia diferirán en el valor de esas características numéricas. En este caso, denominaremos a tales características los parámetros de la distribución. Existe un buen número de tales características, pero nos centraremos en las dos más importantes: la esperanza y la varianza. La primera nos informa sobre la localización de los valores de la variable y la segunda, sobre el grado de dispersión de estos valores. 2.9 Esperanza de una variable aleatoria discreta La esperanza matemática de una variable aleatoria es una característica numérica que proporciona una idea de la localización de la variable aleatoria sobre la recta real. Decimos que es un parámetro de centralización o de localización. Su interpretación intuitiva o significado se corresponde con el valor medio teórico de los posibles valores que pueda tomar la variable aleatoria, o también con el centro de gravedad de los valores de la variable supuesto que cada valor tuviera una masa proporcional a la función de densidad en ellos. La definición matemática de la esperanza en el caso de las variables aleatorias discretas se corresponde directamente con las interpretaciones proporcionadas en el párrafo anterior. Efectivamente, supuesta una variable aleatoria discreta \\(X\\) con recorrido \\(\\left\\{x_{1}, x_{2}, \\ldots, x_{k}, \\ldots\\right\\}\\) y con función de densidad \\(f(x)\\), se define la esperanza matemática de \\(X\\) como el valor \\[ E(X)=\\sum_{x_{i} \\in X(\\Omega)} x_{i} f\\left(x_{i}\\right) \\] donde el sumatorio se efectúa para todo valor que pertenece al recorrido de \\(X\\). En caso de que el recorrido sea infinito la esperanza existe si la serie resultante es absolutamente convergente, condición que no siempre se cumple. La definición se corresponde con un promedio ponderado según su probabilidad de los valores del recorrido y, por tanto, se corresponde con la idea de un valor medio teórico. 2.10 Esperanza de una variable aleatoria continua La idea intuitiva que más nos puede ayudar en la definición de la esperanza matemática de una variable aleatoria continua es la idea del centro de gravedad de los valores de la variable, donde cada valor tiene una masa proporcional a la función de densidad en ellos. Dada una variable aleatoria absolutamente continua \\(X\\) con función de densidad \\(f(x)\\), se define la esperanza matemática de \\(X\\) como el valor \\[ E(X)=\\int_{-\\infty}^{+\\infty} x f(x) d x \\] suponiendo que la integral exista. 2.11 Propiedades de la esperanza matemática Esperanza de una función de una variable aleatoria Variable discreta \\[ E(h(X))=\\sum_{x_{i} \\in X(\\Omega)} h\\left(x_{i}\\right) f\\left(x_{i}\\right) \\] Variable continua \\[ E(h(X))=\\int_{-\\infty}^{+\\infty} h(x) f(x) d x \\] 2.11.1 Linealidad de la esperanza matemática \\(E(X+Y)=E(X)+E(Y)\\) \\(E(k \\cdot X)=k \\cdot E(X)\\) para todo número real \\(k\\). \\(E(k)=k\\) para todo número real \\(k\\). \\(E(a \\cdot X+b)=a \\cdot E(X)+b\\) para todo par de números reales \\(a\\) y \\(b\\). 2.11.2 Esperanza del producto \\(E(X \\cdot Y)=E(X) \\cdot E(Y)\\) únicamente en el caso de que \\(X\\) e \\(Y\\) sean variables aleatorias independientes. 2.12 Varianza de una variable aleatoria La varianza de una variable aleatoria es una característica numérica que proporciona una idea de la dispersión de la variable aleatoria respecto de su esperanza. Decimos que es un parámetro de dispersión. La definición es la siguiente: \\[ \\operatorname{Var}(X)=E\\left((X-E(X))^{2}\\right) \\] Es, por tanto, el promedio teórico de las desviaciones cuadráticas de los diferentes valores que puede tomar la variable respecto de su valor medio teórico o esperanza. En el caso de las variables discretas, la expresión se convierte en: \\[ \\operatorname{Var}(X)=\\sum_{x_{i} \\in X(\\Omega)}\\left(x_{i}-E(X)\\right)^{2} f\\left(x_{i}\\right) \\] mientras que para las variables continuas tenemos: \\[ \\operatorname{Var}(X)=\\int_{-\\infty}^{+\\infty}(x-E(X))^{2} f(x) d x \\] En ambos casos existe una expresión equivalente alternativa y generalmente de cálculo más fácil: \\[ \\operatorname{Var}(X)=E\\left(X^{2}\\right)-(E(X))^{2} \\] Una de las características de la varianza es que viene expresada en unidades cuadráticas respecto de las unidades originales de la variable. Un parámetro de dispersión derivado de la varianza y que tiene las mismas unidades de la variable aleatoria es la desviación típica, que se define como la raíz cuadrada de la varianza. \\[ \\sigma_{X}=\\sqrt{\\operatorname{Var}(X)}=\\sqrt{E\\left((X-E(X))^{2}\\right)} \\] 2.12.1 Propiedades de la varianza \\(\\operatorname{Var}(X) \\geq 0\\) \\(\\operatorname{Var}(k \\cdot X)=k^{2} \\cdot \\operatorname{Var}(X)\\) para todo numero real \\(k\\). \\(\\operatorname{Var}(k)=0\\) para todo numero real \\(k\\). \\(\\operatorname{Var}(a \\cdot X+b)=a^{2} \\cdot \\operatorname{Var}(X)\\) para todo par de números reales \\(a\\) i \\(b\\). \\(\\operatorname{Var}(X+Y)=\\operatorname{Var}(X)+\\operatorname{Var}(Y)\\) únicamente en el caso que \\(X\\) y \\(Y\\) sean independientes. 2.13 Momentos (de orden \\(k\\)) de una variable aleatoria Dada una variable aleatoria \\(X\\), definimos el momento de orden \\(k\\) como: \\[ m_{k}=E\\left(X^{k}\\right) \\] suponiendo que tal esperanza exista. Podemos ver que la esperanza es el momento de orden \\(1, E(X)=m_{1}\\). Definimos el momento central de orden \\(k\\) como: \\[ \\mu_{k}=E\\left((X-E(X))^{k}\\right) \\] Con la denominación anterior, la varianza es el momento central de orden \\(2, \\operatorname{Var}(X)=\\mu_{2}\\). Es posible también definir momentos mixtos de dos variables aleatorias. Dadas dos variables aleatorias \\(X\\) e \\(Y\\) definimos el momento mixto de orden \\((r, k)\\) como \\[ m_{r k}=E\\left(X^{r} \\cdot Y^{k}\\right) \\] y el momento mixto central de orden \\((r, k)\\) como \\[ \\left.\\mu_{r k}=E(X-E(X))^{r} \\cdot(Y-E(Y))^{k}\\right) \\] El momento mixto central más importante es el \\(\\mu_{11}\\), denominado la covarianza de \\(X\\) e \\(Y\\), y con una interpretación en el sentido de cuantificar el grado de dependencia entre dos variables aleatorias, puesto que si \\(X\\) e \\(Y\\) son independientes se verifica que \\(\\mu_{11}=0\\), mientras que si \\(\\mu_{11} \\neq 0\\) entonces las variables son dependientes. 2.14 Definición formal de variable aleatoria Tal como hemos comentado, la definición formal de variable aleatoria impone una restricción matemática en la formulación vista hasta el momento. Definiremos una variable aleatoria como una aplicación de \\(\\Omega\\) en el conjunto de números reales \\[ \\begin{aligned} X: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow X(\\omega) \\end{aligned} \\] que verifique la propiedad siguiente \\[ \\forall x \\in \\mathbb{R} \\quad \\text { el conjunto } \\mathrm{A}=\\{a \\mid \\mathrm{X}(a) \\leq \\mathrm{x}\\} \\text { es un suceso observable } \\] es decir, para todo número real \\(x\\), el conjunto de resultados elementales tales que la variable aleatoria toma sobre ellos valores inferiores o iguales a \\(x\\) ha de ser un suceso sobre el cual podamos definir una probabilidad. Dicha propiedad recibe el nombre de medibilidad y por tanto podríamos decir que una variable aleatoria es una función medible de \\(\\Omega\\) en los reales. Esta condición nos asegura que podremos calcular sin problemas, probabilidades sobre intervalos de la recta real a partir de las probabilidades de los sucesos correspondientes. \\[ P(X \\leq x)=P\\{\\omega \\mid X(\\omega) \\leq x\\} \\] La expresión anterior se leería de la manera siguiente: La probabilidad de que la variable aleatoria tome valores inferiores o iguales a \\(x\\) es igual a la probabilidad del suceso formado por el conjunto de resultados elementales sobre los que el valor de la variable es menor o igual que \\(x\\). La probabilidad obtenida de esta manera se denomina probabilidad inducida. Se puede comprobar que, a partir de la condición requerida, se pueden obtener probabilidades sobre cualquier tipo de intervalo de la recta real. Por ejemplo: \\[ P(a<X \\leq b)=P(X \\leq b)-P(X \\leq a) \\] La condición exigida para ser variable aleatoria discreta ahora puede ser expresada como: \\[ \\forall k=1,2, \\ldots \\text { el conjunto } \\mathrm{A}=\\left\\{\\omega \\mid \\mathrm{X}(\\omega)=\\mathrm{x}_{\\mathrm{k}}\\right\\}=\\mathrm{X}^{-1}\\left(\\left\\{\\mathrm{x}_{\\mathrm{k}}\\right\\}\\right) \\text { es un suceso observable } \\] Toda variable aleatoria definida sobre un espacio de probabilidad finito es necesariamente discreta. La suma y el producto de variables aleatorias discretas, definido por: \\[ (X+Y)(w)=X(w)+Y(w) \\text { y }(X \\cdot Y)(w)=X(w) \\cdot Y(w) \\] es también una variable aleatoria discreta. 2.15 Caso práctico: Lanzamiento de dos dados 2.15.1 Espacio muestral Supongamos que estamos realizando un experimento consistente en el lanzamiento simultáneo de dos dados y en la observación del resultado obtenido. El conjunto de resultados posibles forma el espacio muestral \\(\\Omega\\) asociado a dicho experimento. Sus elementos serán como los que se muestran a continuación: En total, el espacio muestral estaría formado por 36 resultados posibles que, en principio y suponiendo los dados regulares, son todos ellos equiprobables con probabilidad \\(1 / 36\\). Nótese que consideramos diferentes resultados del tipo: un uno en el primer dado y un dos en el segundo o un dos en el primer dado y un uno en el segundo. Una vez fijados los enunciados anteriores, es fácil asignar probabilidades a diferentes sucesos observables, por ejemplo: Suceso Probabilidad Que aparezcan dos cifras iguales \\(6 \\cdot 1 / 36=1 / 6\\) Que la suma sea 10 \\(3 \\cdot 1 / 36=1 / 12\\) No entramos en detalles de la obtención de las probabilidades dado que se ha estudiado suficientemente en el tema anterior. 2.15.2 Representación numérica Continuando con el experimento anterior, podemos representar los resultados obtenidos al lanzar dos dados por valores numéricos. ¿Cómo hacerlo? Definiendo una regla de asignación numérica para cada resultado. Una posible regla sería, por ejemplo, asignar a cada resultado la suma de puntos de las caras. Este enunciado nos define una variable que representa cada suceso elemental por un valor numérico. Los 36 posibles resultados del experimento se transforman en 11 posibles valores numéricos para la variable: \\(2,3,4,5,6,7,8,9,10,11\\) y 12 . Este conjunto de valores forman el recorrido de la variable suma de puntos de las caras. A partir de las probabilidades definidas sobre los sucesos observables es fácil extender las probabilidades a los diferentes resultados de la variable. Por ejemplo, la probabilidad de que la variable tome el valor 10 es equivalente a la probabilidad del suceso observable que la suma sea 10 , calculada anteriormente e igual a \\(1 / 12\\). La variable considerada hasta el momento es sólo una de las múltiples variables que podríamos definir sobre el mismo experimento. Por ejemplo, podemos estar interesados no en la suma de puntos sino en el punto más bajo de cada tirada, de forma que podríamos construir una nueva variable a partir del enunciado o regla de asignación asignar a cada resultado el menor de los puntos de las dos caras. Tenemos una nueva variable sobre el mismo espacio anterior. El recorrido, en este caso, está formado por los valores: \\(1,2,3,4,5\\) y 6 . Las dos variables estudiadas y otras muchas que se podrían definir sobre este experimento son ejemplos absolutamente equivalentes desde el punto de vista formal. 2.15.3 Algunas probabilidades En el ejemplo de los dados vamos a centrarnos en la variable aleatoria \\[ X=\\text { Suma de puntos de las caras } \\] El recorrido de la variable está formado por los números \\(\\{2,3,4,5,6,7,8,9,10,11\\) i 12\\(\\}\\). Vamos a calcular algunas probabilidades: \\(P(X \\leq 1)=P\\{\\varnothing\\}=0\\) (Ningún resultado tiene asignado un valor menor o igual a 1) \\(P(X \\leq 2)=P\\{(1,1)\\}=1/36\\) (Sólo hay un caso al que se le asigne un valor inferior o igual a 2). \\(P(X \\leq 3.5)=P\\{(1,1), (1,2), (2,1)\\}=3/36\\) (Tres resultados elementales tienen asignado un valor menor o igual a 3.5) Ahora podéis intentar calcular por vosotros mismos algunas probabilidades: (a) \\(P(X \\leq 6)\\) (b) \\(P(X \\leq 8,2)\\); (c) \\(P(X \\leq 12)\\); (d) \\(P(X \\leq 20)\\) i (e) \\(P(2,2<X \\leq 7)\\) 2.15.4 Función de distribución Para calcular la función de distribución de la variable X \\(=\\) Suma de puntos de las caras : necesitamos conocer el recorrido de la variable, que es: \\(\\{2,3,4,5,6,7,8,9,10,11, 12\\}\\) y, utilizando este recorrido como pauta, determinar para todo punto \\(x\\) de la recta real la probabilidad \\(P(X \\leq x)\\). En nuestro ejemplo: \\[ F(x)=P(X \\leq x)= \\begin{cases}0 & x<2 \\\\ 1 / 36 & 2 \\leq x<3 \\\\ 3 / 36 & 3 \\leq x<4 \\\\ 6 / 36 & 4 \\leq x<5 \\\\ 10 / 36 & 5 \\leq x<6 \\\\ 15 / 36 & 6 \\leq x<7 \\\\ 21 / 36 & 7 \\leq x<8 \\\\ 26 / 36 & 8 \\leq x<9 \\\\ 30 / 36 & 9 \\leq x<10 \\\\ 33 / 36 & 10 \\leq x<11 \\\\ 35 / 36 & 11 \\leq x<12 \\\\ 36 / 36=1 & x \\geq 12\\end{cases} \\] Acabamos de construir la función de distribución de la variable suma de la puntuación al lanzar dos dados. Vamos a ver su representación gráfica: Ejercicio : Haced lo mismo para la variable aleatoria el menor de los puntos de las dos caras al lanzar dos dados. 2.15.5 Clasificación de las variables En el experimento que estamos considerando, lanzar simultáneamente dos dados, cualquiera de las dos variables aleatorias que hemos considerado hasta el momento: \\[ X=\\text {Suma los puntos de las dos caras } \\] \\[ Y=\\text { El menor de los puntos de las dos caras } \\] se clasifican dentro del tipo de variables aleatorias discretas, puesto que en ambos casos el recorrido es finito: \\(\\{2,3,4,5,6,7,8,9,10,11, 12\\}\\) para la variable \\(X\\) y \\(\\{1,2,3,4,5, 6\\}\\) para la variable \\(Y\\). También son discretas aquellas variables aleatorias con recorrido infinito numerable. Ejercicio: ¿Sabríais construir una variable aleatoria discreta con recorrido infinito numerable basada en el experimento que consiste en el lanzamiento de dos dados? 2.15.6 Función de densidad discreta Para calcular la función de densidad de la variable \\[ X=\\text { suma de puntos de las caras } \\] necesitamos conocer el recorrido de la variable, es decir: \\(\\{2,3,4,5,6,7,8,9,10,11, 12\\}\\) y, a partir del recorrido, determinar para todo punto del recorrido la probabilidad \\(P(X=x)\\). En nuestro ejemplo \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] Acabamos de construir la función de densidad de la variable suma de la puntuación al lanzar dos dados. Vamos a ver su representación gráfica: Hemos optado por la representación con barras en lugar de puntos para permitir una visualización de la función óptima. Ejercicio: Haced lo mismo para la variable aleatoria el menor de los puntos de las dos caras al lanzar dos dados. 2.15.7 Probabilidad de intervalos Vamos a centrarnos en la variable \\[ X=\\text { Suma de puntos de las caras } \\] Las funciones de distribución y de densidad son, respectivamente, \\[ F(x)=P(X \\leq x)=\\left\\{\\begin{array}{ll} 0 & x<2 \\\\ 1 / 36 & 2 \\leq x<3 \\\\ 3 / 36 & 3 \\leq x<4 \\\\ 6 / 36 & 4 \\leq x<5 \\\\ 10 / 36 & 5 \\leq x<6 \\\\ 15 / 36 & 6 \\leq x<7 \\\\ 21 / 36 & 7 \\leq x<8 \\\\ 26 / 36 & 8 \\leq x<9 \\\\ 30 / 36 & 9 \\leq x<10 \\\\ 33 / 36 & 10 \\leq x<11 \\\\ 35 / 36 & 11 \\leq x<12 \\\\ 36 / 36=1 & x \\geq 12 \\end{array} \\quad f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases}\\right. \\] Puede observarse cómo los valores de la función de distribución se obtienen acumulando los valores de la función de densidad correspondientes. Vamos a calcular algunas probabilidades utilizando las funciones anteriores. Compárese con los resultados obtenidos con anterioridad basados directamente en los resultados elementales. \\(P(X \\leq 1)=F(1)=0\\) \\(P(X \\leq 3,5)=F(3,5)=3 / 36=f(2)+f(3)\\) \\(P(X<6)=F(6)-f(6)=15 / 36-5 / 36=10 / 36=f(2)+f(3)+f(4)+f(5)\\) \\(P(2,2<X \\leq 7)=F(7)-F(2,2)=21 / 36-1 / 36=20 / 36=f(3)+f(4)+f(5)+f(6)+f(7)\\) \\(P(2<X<7)=F(7)-f(7)-F(2)=21 / 36-6 / 36-1 / 36=14 / 36=f(3)+f(4)+f(5)+f(6)\\) 2.15.8 Esperanza Supongamos que estamos interesados en determinar cual sería el valor medio teórico de la variable \\[ X=\\text { Suma de puntos de las caras } \\] La función de densidad es: \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] La misma función de densidad nos da información sobre el recorrido de la variable. Calcular el valor medio teórico de la variable quiere decir calcular la esperanza. A partir de la fórmula de la esperanza para variables discretas, tenemos \\[ \\begin{aligned} E(X) &=2 \\cdot 1 / 36+3 \\cdot 2 / 36+4 \\cdot 3 / 36+5 \\cdot 4 / 36+6 \\cdot 5 / 36+\\\\ & + 7 \\cdot 6 / 36+8 \\cdot 5 / 36+9 \\cdot 4 / 36+\\\\ &+ 10 \\cdot 3 / 36+ 11 \\cdot 2 / 36+12 \\cdot 1 / 36=\\\\ & =7 \\end{aligned} \\] Por tanto, 7 es la esperanza de la variable \\(X=\\) Suma de puntos de las caras. Fijaos que la esperanza para la variable Puntuación de un dado sería \\[ 1 \\cdot 1 / 6+2 \\cdot 1 / 6+3 \\cdot 1 / 6+4 \\cdot 1 / 6+5 \\cdot 1 / 6+6 \\cdot 1 / 6=3,5 \\] y que se puede considerar la variable Suma de puntos de las dos caras como la suma de dos variables que representen la puntuación de cada dado. La esperanza de la suma es, efectivamente, la suma de las esperanzas de cada variable sumada. En la aplicación siguiente, podéis calcular la esperanza de la variable Puntuación de un dado y modificar las probabilidades de las diferentes caras, de este modo se modifica la esperanza. Ejercicio: ¿Podríais hacer lo mismo para la variable \\(X=\\) El menor de los puntos de las dos caras al lanzar dos dados? 2.15.9 Esperanza de un juego Imaginemos que alguien os propone el juego siguiente: lanzad dos dados, si la suma obtenida es menor o igual a 6 ganáis 100 euros, sin embargo, si la suma obtenida es mayor que 6 tenéis que pagar 100 euros. ¿Nos conviene jugar a este juego? Veamos, podemos considerar el resultado del juego como una variable aleatoria discreta que toma dos valores: +100 si ganamos y -100 si perdemos. Nos interesa conocer las probabilidades de los diferentes resultados. Consideremos la variable \\(X=\\) Suma de puntos de las caras, cuya función de densidad conocemos: \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] A partir de aquí es fácil ver que la función de densidad de la variable \\(Y=\\) Resultado del juego será la siguiente: \\[ f(100)=15 / 36 ; f(-100)=21 / 36 \\] Por tanto, la esperanza del juego, que puede ser interpretada como la ganancia media por jugada, será \\[ E(Y)=100 \\cdot 15 / 36-100 \\cdot 21 / 36=-100 / 6 \\approx-16,667 \\] Es decir, la ganancia media por jugada es negativa, por tanto no es favorable dicho juego para el jugador, es un juego no equitativo. 2.15.10 Esperanza con recorrido infinito Vamos a tratar de calcular la esperanza de la siguiente variable aleatoria: \\(X=\\) Número de lanzamientos que hemos de hacer para conseguir que aparezca un doble seis La variable que acabamos de definir es una variable discreta con recorrido infinito numerable. El recorrido sería el siguiente: \\[ \\{1,2,3,4, \\ldots\\} \\] Vamos a ver como calculamos la función de densidad: \\(P(X=1)=\\) Probabilidad de que aparezca un doble seis en el primer lanzamiento \\(=1 / 36\\) \\(P(X=2)=\\) Probabilidad de que el doble seis no aparezca en el primer lanzamiento y sí en el segundo = \\(35 / 36 \\cdot 1 / 36=35 / 36^{2}\\) \\(P(X=3)=\\) Probabilidad de que el doble seis no aparezca ni en el primer ni en el segundo lanzamientos y sí en el tercero \\(=35 / 36 \\cdot 35 / 361 / 36=35^{2} / 36^{3}\\) En general, \\(P(X=k)=35^{k-1} / 36^{k}\\) Para simplificar, vamos a llamar \\(p=1 / 36\\) y \\(q=1-p=35 / 36\\), con esta nomenclatura \\(P(X=\\mathrm{k})=q^{k-1} p\\). Por tanto, la esperanza será: \\[ \\begin{aligned} E(X)& =\\sum_{i=1}^{\\infty} i q^{i-1} p=p \\sum_{i=1}^{\\infty} i q^{i-1}=p \\frac{d}{d q} \\sum_{i=1}^{\\infty} q^{i}= \\\\ &= p \\frac{d}{d q}\\left(\\frac{q}{1-q}\\right)=p \\frac{1}{(1-q)^{2}}=\\\\ & = \\frac{1}{p} \\end{aligned} \\] En nuestro ejemplo el número medio de tiradas antes de salir un doble seis será 36 . 2.15.11 Esperanza infinita Ahora calcularemos la esperanza del juego siguiente: lanzamos un dado hasta que aparece un número par, el jugador gana \\(2^{n}\\) unidades monetarias si aparece un número par por primera vez en la tirada nésima. El recorrido de la variable aleatoria \\(X=\\) Ganancia del juego, está formado por todos los números de la forma \\(2^{n}\\) con \\(n=1,2,3, \\ldots\\) La probabilidad de cada valor del recorrido es la probabilidad de que aparezca un número par por primera vez en la tirada nésima, es decir \\((1 / 2)^{n-1} \\cdot(1 / 2)=(1 / 2)^{n}\\). Por tanto, la esperanza del juego es la siguiente: \\[ E(X)=\\sum_{n=1}^{\\infty} 2^{n}(1 / 2)^{n}=\\sum_{n=1}^{\\infty} 1=\\infty \\] Como vemos, la variable aleatoria \\(X\\) no tiene esperanza finita. El enunciado presentado es una versión del problema presentado alrededor de 1730 por el matemático Daniel Bernouilli a la Academia de San Petersburgo y conocido como la paradoja de San Petersburgo, dado que la esperanza del juego es aparentemente infinita. 2.15.12 Varianza Si ahora queremos calcular la varianza de la variable \\[ X=\\text { Suma de puntos de las caras } \\] con función de densidad: \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] Podemos aplicar la fórmula \\[ \\operatorname{Var}(X)=E\\left(X^{2}\\right)-(E(X))^{2} \\] La esperanza ya la tenemos calculada con anterioridad \\[ \\begin{aligned} E(X) & =2 \\cdot 1 / 36+3 \\cdot 2 / 36+4 \\cdot 3 / 36+5 \\cdot 4 / 36+\\\\ & +6 \\cdot 5 / 36+7 \\cdot 6 / 36+8 \\cdot 5 / 36+9 \\cdot 4 / 36+\\\\ & +10 \\cdot 3 / 36+ 11 \\cdot 2 / 36+12 \\cdot 1 / 36=\\\\ & =7 \\end{aligned} \\] Necesitamos calcular la esperanza de la variable al cuadrado, que en este caso resulta: \\[ \\begin{aligned} E\\left(X^{2}\\right)& =2^{2} \\cdot 1 / 36+3^{2} \\cdot 2 / 36+4^{2} \\cdot 3 / 36+5^{2} \\cdot 4 / 36+6^{2} \\cdot 5 / 36+\\\\ & + 7^{2} \\cdot 6 / 36+8^{2} \\cdot 5 / 36+9^{2} \\cdot 4 / 36+ 10^{2} \\cdot 3 / 36+\\\\ & + 11^{2} \\cdot 2 / 36+12^{2} \\cdot 1 / 36=329 / 6 \\\\ &\\approx 54,833 \\end{aligned} \\] Con lo que la varianza resulta ser \\[ \\operatorname{Var}(X)=329 / 6-7^{2}=35 / 6 \\approx 5,833 \\] Nuevamente, para la variable Puntuación de un dado, la varianza se obtendría de la manera siguiente: \\[ \\begin{aligned} E(X)& =1 \\cdot 1 / 6+2 \\cdot 1 / 6+3 \\cdot 1 / 6+4 \\cdot 1 / 6+5 \\cdot 1 / 6+6 \\cdot 1 / 6= \\\\& =3,5\\\\ E \\left(X^{2}\\right)&=1^{2} \\cdot 1 / 6+2^{2} \\cdot 1 / 6+3^{2} \\cdot 1 / 6+4^{2} \\cdot 1 / 6+\\\\ & + 5^{2} \\cdot 1 / 6+6^{2} \\cdot 1 / 6=91 / 6\\\\ & \\approx 15,167 \\\\ \\operatorname{Var}(X)&=91 / 6-3,5^{2}=35 / 12 \\approx 2,9167 \\end{aligned} \\] y se cumple que la varianza de la variable Suma de puntos de las dos caras es la suma de las varianzas de las puntuaciones de cada dado por separado. Recordemos que esto sólo sucede si las variables sumadas son independientes, como así ocurre con las puntuaciones de cada dado por separado. "],["distribuciones-notables.html", "Capítulo 3 Distribuciones Notables 3.1 Distribuciones discretas 3.2 Distribuciones Continuas 3.3 Distribuciones con R (y Python) 3.4 La familia exponencial de distribuciones", " Capítulo 3 Distribuciones Notables 3.1 Distribuciones discretas 3.1.1 La distribución de Bernouilli Es el modelo discreto más sencillo en que podamos pensar. Hace referencia a situaciones en las que el resultado de un experimento sólo puede ser: se ha dado el suceso \\(A\\) ó no se ha dado el suceso \\(A\\). Por ejemplo, en el lanzamiento de una moneda sólo puede darse el suceso sale cara o su complementario no sale cara (sale cruz). Por lo tanto, definimos la variable aleatoria \\(X\\) de la siguiente manera: \\(X=1\\) si se ha dado \\(A\\). \\(X=0\\) si no se ha dado \\(A\\), es decir, se ha dado el complementario \\(A^{c}\\). Si además, conocemos la probabilidad de que suceda \\(A\\) : \\[ P[A]=p \\] y, por tanto, \\[ P\\left[A^{c}\\right]=1-p \\] ya podemos definir la distribución de la variable aleatoria \\(X\\). En estas condiciones diremos que \\(X\\) sigue una distribución de Bernouilli de parámetro \\(p\\), que abreviaremos así \\(X \\sim \\operatorname{Bernouilli}(p)\\), y su función de densidad se define así: \\[ f(k)=P[X=k]=\\left\\{\\begin{array}{cc} p & \\text { si } k=1(\\text { se ha dado } A) \\\\ 1-p & \\text { si } k=0\\left(\\text { se ha dado } A^{c}\\right) \\end{array}\\right\\} \\] Gráficamente: Mientras que la función de distribución será: \\[ F(k)=P[X \\leq k]=\\left\\{\\begin{array}{lc} 0 & \\text { si } \\mathbf{k}<0 \\\\ \\mathbf{p} & \\text { si } 0 \\leq \\mathbf{k}<1 \\\\ 1 & \\text { si } \\mathbf{p} \\geq 1 \\end{array}\\right\\} \\] Gráficamente: 3.1.1.1 Propiedades del modelo de Bernouilli La esperanza vale \\(E(X)=p\\). La varianza vale \\(V(X)=p(1-p)\\). 3.1.2 La distribución Binomial Al igual que el modelo de Bernouilli, hace referencia a experiencias con resultados dicotómicos (el resultado sólo puede ser \\(A\\) o \\(A^{\\mathcal{C}}\\) ). Sin embargo en este modelo estamos interesados en la repetición de \\(n\\) veces una experiencia de este tipo en condiciones independientes. Tomemos el ejemplo del contaje del número de caras en el lanzamiento \\(n\\) veces de una moneda regular. Para concretar, vamos a suponer que disponemos de una moneda regular \\((P[\\) cara \\(]=P[c r u z]=1 / 2)\\) que lanzamos cuatro veces. Es evidente que, en estas condiciones, la variable X: número de caras en cuatro lanzamientos independientes de una moneda regular es una variable aleatoria discreta que sólo puede tomar cinco posibles valores: \\[ x=0,1,2,3,4 \\] Pasemos ahora a calcular la probabilidad de cada valor (en terminología estadística, vamos a calcular la función de densidad de la variable \\(X\\) ). Es evidente que la \\(P[X=0]\\) es igual a la probabilidad de salgan cuatro cruces seguidas: \\[ P[X=0]=P[c r u z, c r u z, c r u z, c r u z]=\\mathrm{P}[c r u z]^{4}=(1 / 2)^{4}=0,0625 \\] ya que la moneda es regular y, por tanto, \\(P[\\) cara \\(]=P[\\) cruz \\(]=1 / 2\\). La \\(P[X=3]\\) corresponde al suceso de que salgan tres caras ( \\(c\\) en adelante) y una cruz ( + en adelante). Sin embargo, en este caso tenemos hasta cuatro posibles maneras de obtener dicho resultado, según el orden en que aparezcan las tres caras y la cruz: +ccc \\(\\mathrm{c}+\\mathrm{cc}\\) \\(\\mathrm{cc}+\\mathrm{c}\\) \\(\\mathrm{ccc}+\\) También debería resultar evidente que la probabilidad de cada uno de estos sucesos es la misma: \\[ P[+\\mathrm{ccc}]=P[\\mathrm{c}+\\mathrm{cc}]=P[\\mathrm{cc}+\\mathrm{c}]=P[\\mathrm{ccc}+]=(1 / 2)^{4}=(1 / 2)^{4}=0,0625 \\] de manera que, finalmente, la probabilidad de que salgan tres caras y una cruz es la suma de las probabilidades de los 4 casos anteriores: \\[ P[X=3]=4(1 / 2)^{4}=0,25 \\] Y así podríamos ir calculando el resto de casos. Podemos ver que, en este ejemplo, todos los casos tienen la misma probabilidad \\((0,0625)\\) y que el número total de casos posibles es 16 . En términos de combinatoria dicho número se obtendría como variaciones con repetición de dos valores (cara o cruz) tomados de cuatro en cuatro (el número de lanzamientos de la moneda): \\[ V R_{2}{ }^{4}=2^{4}=16 \\] En la siguiente tabla se muestran los dieciséis posibles resultados: \\(k=\\) número de caras Casos 0 +++++ 1 +++c \\(++\\mathrm{c}+\\) \\(+\\mathrm{c}++\\) \\(\\mathrm{c}+++\\) ++cc \\(+\\mathrm{c}+\\mathrm{c}\\) \\(\\mathrm{c}++\\mathrm{c}+\\) \\(\\mathrm{c}+\\mathrm{c}+\\) cc++ \\(\\mathrm{ccc}+\\) \\(\\mathrm{c}+\\mathrm{cc}\\) Si hacemos uso de nuestros conocimientos de combinatoria, comprobamos que el número de casos para cada posible valor \\(k(k=0,1,2,3,4)\\) puede calcularse como permutaciones con repetición de cuatro elementos tomado de \\(k\\) y \\(4-k\\) : \\[ R P_{4}^{k, 4-k}=\\frac{4!}{k!(4-k)!}=\\binom{4}{k} \\] y obtenemos finalmente el número combinatorio 4 sobre \\(k\\). En efecto, para el caso \\(k=3\\), tendríamos: \\[ \\binom{4}{3}=\\frac{4!}{3!1!}=4 \\] que son los cuatro posibles casos que nos dan tres caras y una cruz. Finalmente, recordando que todos los casos tienen la misma probabilidad, se construye la siguiente tabla: \\(k=\\) número de caras Número de casos \\(P[X=k]\\) 0 1 0,0625 1 4 0,2500 2 6 0,3750 3 4 0,2500 4 1 0,0625 Total 16 1 3.1.2.1 Los parámetros de la distribución Binomial La última tabla de la página anterior es, justamente, la función de densidad de nuestra variable \\(X\\). Función de densidad de \\(X\\) \\(k\\) \\(P[X=k]\\) 0 0,0625 1 0,2500 2 0,3750 3 0,2500 4 0,0625 En otro caso 0 Como hemos visto, para obtener los resultados anteriores, hemos tenido que definir dos valores: \\(n\\) : el número de lanzamientos (repeticiones de la experiencia aleatoria en condiciones independientes), en nuestro caso \\(n=4\\). \\(p\\) : la probabilidad de que salga cara \\((P[c])\\), en nuestro caso \\(p=1 / 2\\). Se dice, por tanto, que la distribución Binomial depende de dos parámetros: \\(n\\) y \\(p\\). En nuestro ejemplo, diremos que \\(X\\) sigue una distribución Binomial de parámetros \\(n=4\\) i \\(p=1 / 2\\). De forma abreviada: \\[ X \\sim B(n=4 ; p=1 / 2) \\] En el ejemplo que hemos visto, suponíamos que la moneda era regular y, por tanto, \\[ P[c]=P[+]=1 / 2 \\] Si tenemos una moneda trucada con las siguientes probabilidades: \\[ P[c]=2 / 3 \\quad \\text { i } \\quad P[+]=1 / 3 \\] diremos que en este caso la variable \\(X\\) : número de caras en cuatro lanzamientos independientes de nuestra moneda trucada sigue una distribución Binomial de parámetros: \\[ X \\sim B(n=4 ; p=2 / 3) \\] El problema se nos complica levemente ya que ahora no todos los posibles resultados tienen la misma probabilidad. Veamos dos ejemplos: La probabilidad de obtener cuatro caras es: \\[ P[c c c c]=(2 / 3)^{4}=0,1975 \\] La probabilidad de que el primer lanzamiento sea cara y el resto sean cruces valdrá: \\[ P\\left[c^{+++}\\right]=(2 / 3)^{\\prime}(1 / 3)^{3}=0,0247 \\] Sin embargo sí se cumplirá que la probabilidad de que todos los caso que resulten en el mismo número de caras y cruces tendrán la misma probabilidad. Por ejemplo, para los cuatro casos en los que el número total de caras es 1 y el de cruces 3 : \\[ P[c+++]=P[+c++]=P[++c+]=P[+++c]=(2 / 3)^{\\prime}(1 / 3)^{3}=0,0247 \\] Y, por tanto, la probabilidad de obtener una sola cara en el lanzamiento de nuestra moneda trucada será: \\[ P[X=1]=4^{\\prime} 0,0247=0,0988 \\] O, generalizando, si \\(P[A]=p\\) y \\(P\\left[A^{c}\\right]=1-p\\) tenemos que \\[ P[X=k]=c(n, k) p^{k}(1-\\mathrm{p})^{n-k} \\quad \\text { si } k=0,1, \\ldots, n \\] donde \\(c(n, k)\\) representa el número de posibles resultados en los que obtenemos \\(k\\) caras y \\(n-k\\) cruces en \\(n\\) lanzamientos. Tal como hemos visto, dicho número se puede calcular como permutaciones con repetición de \\(n\\) unidades tomadas de \\(k\\) y \\(n-k\\). Todo lo anterior nos lleva a formular el model binoial a traves de la siguiente función de densidad: \\[ f(k)=P[X=k]=\\left\\{\\begin{array}{ll} \\binom{\\mathbf{n}}{\\mathbf{k}} p^{k}(1-p)^{n-k} & \\text { si } \\quad k=0, \\ldots, n \\\\ 0 & \\text { en caso contrario } \\end{array}\\right\\} \\] con lo que la función de distribución se calcularía: \\[ F(k)=P[X \\leq k]=\\left\\{\\begin{array}{cc} 0 & \\text { si } k<0 \\\\ \\sum_{i=0}^{k}\\binom{\\mathbf{i}}{\\mathbf{n}} p^{i}(\\mathbf{1}-p)^{n-i} \\\\ \\mathbf{1} & \\text { si } k \\geq n \\end{array}\\right\\} \\] 3.1.2.2 Propiedades del modelo Binomial La esperanza vale \\(E(X)=n p\\). La varianza es \\(V(X)=n p(1-p)\\). Es una generalización del modelo de Bernouilli. En efecto, la Binomial con \\(n=1\\) (una sola realización) coincide con la distribución de Bernouilli. La suma de dos variables aleatorias binomiales independientes con igual parámetro \\(p\\) también sigue una distribución Binomial: \\[ X_{1} \\sim B\\left(n=n_{1} ; p=p_{0}\\right) \\quad \\text { i } \\quad X_{2} \\sim B\\left(n=n_{2} ; p=p_{0}\\right) \\] Si definimos \\(Z=X_{1}+X_{2}\\) entonces, \\[ Z \\sim B\\left(n=n_{1}+n_{2} ; p=p_{0}\\right) \\] 3.1.3 La distribución de Poisson Se trata de un modelo discreto, pero en el que el conjunto de valores con probabilidad no nula no es finito, sino numerable. Se dice que una variable aleatoria \\(X\\) sigue la distribución de Poisson si su función de densidad viene dada por: \\[ f(k)=P[X=k]=\\left\\{\\begin{array}{ll} e^{-\\lambda \\frac{\\lambda^{k}}{k!}} & \\text { si } k=0,12, \\ldots \\\\ 0 & \\text { en caso contrario } \\end{array}\\right\\} \\] Como vemos, este modelo se caracteriza por un sólo parámetro \\(\\lambda\\), que debe ser positivo. Esta distribución suele utilizarse para contajes del tipo número de individuos por unidad de tiempo, de espacio, etc. 3.1.3.1 Propiedades del modelo de Poisson Esperanza: \\(E(X)=\\lambda\\). Varianza: \\(V(X)=\\lambda\\). En esta distribución la esperanza y la varianza coinciden. La suma de dos variables aleatorias independientes con distribución de Poisson resulta en una nueva variable aleatoria, también con distribución de Poisson, de parámetro igual a la suma de parámetros: \\[ X_{1} \\sim P\\left(\\lambda=\\lambda_{1}\\right) \\quad \\text { y } \\quad X_{2} \\sim P\\left(\\lambda=\\lambda_{2}\\right) \\] y definimos \\(Z=X_{1}+X_{2}\\), entonces, \\[ Z \\sim P\\left(\\lambda=\\lambda_{1}+\\lambda_{2}\\right) \\] Este resultado se extiende inmediatamente al caso de \\(n\\) variables aleatorias independientes con distribución de Poisson. En este caso, la variable suma de todas ellas sigue una distribución de Poisson de parámetro igual a la suma de los parámetros. 3.1.4 La distribución Uniforme discreta Tenemos esta distribución cuando el resultado de una experiencia aleatoria puede ser un conjunto finito de \\(n\\) posibles resultados, todos ellos igualmente probables. Un ejemplo puede ser la variable \\(X\\), puntuación en el lanzamiento de un dado regular. Esta variable toma seis valores posibles, todos con la misma probabilidad \\(p=1 / 6\\). La función de densidad de esta variable será: \\[ f(k)=P[X=k]=1 / 6 \\quad k=1,2,3,4,5,6 \\] En general, si la variable \\(X\\) puede tomar \\(n(k=1,2, \\ldots, n)\\) valores, todos con igual probabilidad, su función de densidad será: \\[ f(k)=P[X=k]=1 / n \\quad k=1,2, \\ldots, n \\] 3.1.4.1 Propiedades del modelo Uniforme discreto Sea \\(n\\) el número de valores equiprobables posibles: 3.1.4.2 Esperanza: \\[ E(X)=\\frac{n+1}{2} \\] 3.1.4.3 Varianza: \\[ V(X)=\\frac{(n+1)[2(2 n+1)-3(n+1)]}{12} \\] 3.1.5 La distribución Hipergeométrica Este modelo presenta similitudes con el Binomial, pero sin la suposición de independencia de éste último. Veámoslo: Partimos de un conjunto formado por \\(N\\) individuos divididos en dos categorías mutuamente excluyentes: \\(A\\) y \\(A^{c}\\); de manera que \\(N_{1}\\) individuos pertenecen a la categoría \\(A\\) y \\(N_{2}\\) individuos, a la categoría \\(A^{c}\\). Por tanto, se cumple que \\[ N=N_{1}+N_{2} \\] Si del conjunto anterior extraemos \\(n\\) individuos sin reemplazamiento \\((n \\leq N)\\), la variable \\(X\\) que representa el número k de individuos que pertenecen a la categoría A (de los n extraídos) tiene por función de densidad: \\[ f(k)=P[X=k]=\\frac{\\binom{\\mathbf{N}_{1}}{\\mathbf{k}}\\binom{\\mathrm{N}_{2}}{\\mathbf{n}-\\mathbf{k}}}{\\binom{\\mathbf{N}}{\\mathbf{k}}} \\] si \\(\\operatorname{max}\\left\\{0, \\mathrm{n}-N_{2}\\right\\} \\leq \\mathrm{k} \\leq \\min \\left\\{N_{1}, n\\right\\}\\) La dependencia se debe al hecho de que \\(N\\) es finito y las extracciones se efectúan sin reemplazamiento. El caso de extracciones con reemplazamiento sería equivalente al de \\(N\\) infinito y se resolvería mediante el modelo Binomial. 3.1.5.1 Propiedades del modelo hipergeométrico Esperanza: \\(\\mathrm{E}(\\mathrm{X})=\\mathrm{n} \\mathrm{N}_{1} / \\mathrm{N}_{2}\\). Varianza: \\(V(X)=\\left(n N_{1} N_{2}(N-n)\\right) /\\left(N_{2}(N-1)\\right)\\) 3.1.6 La distribución Geométrica o de Pascal Definamos una experiencia aleatoria cuyo resultado sólo puede ser el suceso \\(A\\) o su complementario \\(A^{c}\\), y que se repite secuencialmente hasta que aparece el suceso \\(A\\) por primera vez. Definamos la variable aleatoria \\(X\\) como el número de veces que repetimos la experiencia en condiciones independientes hasta que se dé A por primera vez. Bajo estas condiciones, decimos que la variable \\(X\\) sigue una distribución geométrica o de Pascal de parámetro \\(p=P(A)\\). La función de densidad puede deducirse fácilmente de la definición: \\[ f(k)=P[X=k]=(1-p)^{k} p \\quad k=0,1,2, \\ldots \\] En el programa siguiente podéis ver su forma y obtener los valores de la función de densidad y de la de distribución: Algunas puntualizaciones de la definición de \\(X\\) : Notése que, en esta definición, condiciones independientes significa que \\(p\\), la probabilidad de \\(A\\), y \\(1-p\\), la de su complementario \\(A^{c}\\), no varían a lo largo de las sucesivas repeticiones de la experiencia. Tal y como la hemos definido, \\(X\\) se refiere al número de lanzamientos hasta que se produce \\(A\\), pero sin contabilizar el último caso en que se da \\(A\\). Por dicha razón \\(X\\) puede tomar los valores \\(k=\\) \\(0,1,2, \\ldots\\) con probabilidad no nula. Un ejemplo de este modelo podría ser la experiencia consistente en lanzar sucesivamente un dado regular hasta que aparezca el número 6 . Si definimos la variable aleatoria \\(X\\) como el número de lanzamientos de un dado regular hasta que aparezca un 6 , queda claro que \\(X\\) sigue una distribución geométrica de parámetro \\(p=1 / 6\\). 3.1.6.1 Propiedades del modelo Geométrico o de Pascal Esperanza: \\(E(X)=(1-p) / p\\) Varianza: \\(V(X)=(1-p) / p^{2}\\) 3.1.6.2 Preguntas: ¿A que suceso nos referimos cuando decimos \\(X=0\\) ? Respuesta. Cuando decimos que \\(X=0\\) nos referimos al caso en que el 6 aparece en el primer lanzamiento. La probabilidad de que esto suceda, suponiendo un dado regular, es de \\(1 / 6\\) : \\[ P[X=0]=1 / 6 \\] ¿Cuál es la probabilidad de que el primer 6 aparezca en el cuarto lanzamiento? Respuesta. La probabilidad de que el primer 6 aparezca en el cuarto lanzamiento corresponde a: \\[ P[X=3]=(5 / 6)^{3 \\cdot} 1 / 6=0,0965 \\] Fijémonos en que, si definimos \\(A\\) como el suceso sale un 6, la probabilidad anterior corresponde a la del suceso: \\(\\left\\{A^{c} A^{c} A^{c} A\\right\\}\\) (en este orden). 3.1.7 La distribución Binomial negativa Puede definirse como una generalización del modelo Geométrico o de Pascal. Así, dado un suceso \\(A\\) y su complementario \\(A^{c}\\), cuando \\(X\\) representa el número de veces que se da \\(\\mathrm{A}^{\\mathrm{c}}\\) (ausencias, fallos, etc.) hasta que se produce r veces el suceso A , en una serie de repeticiones de la experiencia aleatoria en condiciones independientes, decimos que \\(X\\) sigue la distribución Binomial negativa. Nótese que, cuando \\(r=1\\), tenemos exactamente el modelo geométrico. Este modelo queda definido por dos parámetros \\(p\\) (la probabilidad de \\(A: p=P(A)\\) ) y \\(r\\) (el número de veces que debe producirse \\(A\\) para que detengamos la experiencia). La función de densidad viene dada por: \\[ f(k)=P[X=k]=\\binom{\\mathbf{k}+\\mathbf{r}-\\mathbf{1}}{\\mathbf{r}-\\mathbf{1}} \\mathbf{p}^{\\mathbf{r}} \\mathbf{q}^{\\mathbf{k}} \\quad \\mathbf{k}=\\mathbf{0}, \\mathbf{1}, \\mathbf{2}, \\ldots \\] donde \\(q\\) representa el complementario de \\(p: q=1-p\\). 3.1.7.1 Propiedades del modelo Binomial negativo Esperanza: \\(E(X)=r^{\\prime} q / p\\) Varianza: \\(V(X)=r^{\\prime} q / p^{2}\\) Se cumplen las siguientes propiedades respecto la función de densidad: \\[ f(0)=p^{r} \\quad \\text { y } \\quad f(k+1)=\\frac{(1-p)(k+r)}{k+1} f(k) \\] Este modelo se ajusta bien a contajes (números de individuos por unidad de superficie) cuando se produce una distribución contagiosa (los individuos tienden a agruparse). La distribución Binomial negativa puede definirse con mayor generalidad si tomamos \\(r\\) como un número real positivo cualquiera (no necesariamente entero). Pero, en dicho caso, se pierde el carácter intuitivo del modelo y se complican ligeramente los cálculos. Por dichas razones, se ha excluido dicha posibilidad en esta presentación. 3.1.8 Tabla resumen de las distribuciones discretas principales Distribución Parámetros Función de densidad Esperanza Varianza Bernouilli \\(0 \\leq p \\leq 1\\) \\(p^{k}(1-p)^{1-k}\\) \\(k=0,1\\) \\(p\\) \\(p(1-p)\\) Binomial \\(0 \\leq p \\leq 1\\) \\(n=1,2, \\ldots\\) \\(\\binom{\\mathbf{n}}{\\mathbf{k}} p^{k}(1-p)^{n-k}\\) \\(k=0,1, \\ldots, n\\) \\(n p\\) \\(n p(1-p)\\) Poisson \\(\\lambda>0\\) \\(e^{-\\lambda} \\frac{\\lambda^{k}}{k!}\\) \\(k=012, \\ldots\\) \\(\\lambda\\) \\(\\lambda\\) Multinomial \\(0 \\leq p_{1}, \\ldots\\) \\(p_{r} \\leq 1\\) \\(\\left(p_{1}+\\ldots+\\right.\\) \\(\\left.p_{\\mathrm{r}}=1\\right)\\) \\(n=1,2\\) \\(\\frac{n!}{k_{1}!k_{2}!\\cdots k_{r}!} p_{1}^{k_{1}} p_{2}^{k_{2}} \\cdots p_{r}^{k_{r}}\\) \\(\\sum_{i=1}^{r} k_{i}=n\\) \\(\\left(\\begin{array}{c}n p_{1} \\\\ n p_{2} \\\\ \\vdots \\\\ n p_{r}\\end{array}\\right)\\) \\(\\boldsymbol{\\sigma}_{i i}=n p_{i}\\left(1-p_{i}\\right)\\) \\(\\boldsymbol{\\sigma}_{i j}=n p_{i} p_{j} \\quad i \\neq j\\) Uniforme discreta \\(n=1,2, \\ldots\\) \\(\\frac{1}{n}\\) \\(k=1,2, \\ldots . n\\) \\(\\frac{n+1}{2}\\) \\(\\frac{(n+1)[2(2 n+1)-3(n+1)}{12}\\) Hipergeométrica \\(\\left\\{\\begin{array}{c}N=N_{1}+ \\\\ N_{2} \\\\ p=N_{1} / N\\end{array}\\right.\\) \\(\\frac{\\binom{\\mathrm{N}_{1}}{\\mathrm{k}}\\binom{\\mathrm{N}_{2}}{\\mathrm{n}-\\mathrm{k}}}{\\binom{\\mathrm{N}}{\\mathrm{k}}}\\) \\(\\operatorname{max}\\left\\{0, \\mathrm{n}-N_{2}\\right\\} \\leq \\mathrm{k} \\leq \\min \\left\\{N_{1}, n\\right\\}\\) \\(n p\\) \\(n p(1-p) \\frac{N-n}{N-1}\\) Pascal \\(0 \\leq p \\leq 1\\) \\(p(1-p)^{k}\\) \\(k=0,1,2, \\ldots\\) \\(\\frac{1-p}{p}\\) \\(\\frac{1-p}{p^{2}}\\) Binomial negativa \\(0 \\leq p \\leq 1\\) \\(r>0\\) \\(\\frac{r(1-p)}{p}\\) \\(\\frac{r(1-p)}{p^{2}}\\) 3.2 Distribuciones Continuas 3.2.1 La distribución Uniforme La distribución Uniforme es el modelo (absolutamente) continuo más simple. Corresponde al caso de una variable aleatoria que sólo puede tomar valores comprendidos entre dos extremos \\(a\\) y \\(b\\), de manera que todos los intervalos de una misma longitud (dentro de \\((a, b)\\) ) tienen la misma probabilidad. También puede expresarse como el modelo probabilístico correspondiente a tomar un número al azar dentro de un intervalo \\((a, b)\\). De la anterior definición se desprende que la función de densidad debe tomar el mismo valor para todos los puntos dentro del intervalo \\((a, b)\\) (y cero fuera del intervalo). Es decir, \\[ f_{X}(x)=\\left\\{\\begin{array}{ll} \\frac{1}{b-a} & \\text { si } x \\in(a, b) \\\\ 0 & \\text { si } x \\notin(a, b) \\end{array}\\right\\} \\] Gráficamente: La función de distribución se obtiene integrando la función de densidad y viene dada por: \\[ F_{X}(x)=P(X \\leq x)=\\left\\{\\begin{array}{ll} 0 & \\text { si } x \\leq a \\\\ \\frac{x-a}{b-a} & \\text { si } x \\in(a, b) \\\\ 1 & \\text { si } x \\geq b \\end{array}\\right\\} \\] Gráficamente: Función de distribución del modelo uniforme 3.2.1.1 Propiedades del modelo Uniforme Su esperanza vale \\((b+a) / 2\\) Su varianza es \\((b-a)^{2} / 12\\) 3.2.1.2 Una aplicación del modelo Uniforme: el muestreo de Montecarlo En ciertos casos es útil simular el muestreo de una variable aleatoria con una distribución dada. El muestreo de Montecarlo es un procedimiento general para obtener muestras aleatorias de cualquier tipo de variable (discreta o continua) si su función de distribución es conocida o se puede calcular. Supongamos que queremos generar una muestra procedente de una variable aleatoria \\(X\\) con función de distribución \\(F(x)\\). El proceso comprende los siguientes pasos: Obtener un valor aleatorio \\(y\\) entre cero y uno. Es decir, obtener una muestra de una distribución Uniforme entre cero y uno. La mayoría de lenguajes de programación incorporan un generador de este tipo. Considerar el valor obtenido como el valor de la función de distribución a generar: \\(y=F(x)\\). El valor \\(x=F^{-1}(y)\\) (la inversa de la función de distribución en el punto \\(y\\) ) es un valor procedente de la distribución de la que deseábamos generar la muestra. Si queremos obtener una muestra con \\(n\\) individuos debemos repetir los pasos anteriores \\(n\\) veces. 3.2.1.3 Generación de una muestra procedente de una distribución Binomial Supongamos que queremos simular el experimento de contar el número de caras obtenidas en 5 lanzamientos de una moneda trucada con probabilidad de cara igual a 0,75 . Es decir, queremos obtener una muestra de una distribución Binomial con \\(n=5\\) y \\(p=0,75\\). Siguiendo los pasos anteriores deberemos obtener un número al azar entre 0 y 1 (un valor procedente de una distribución Uniforme entre 0 y 1) y si este valor es menor o igual a 0,75 diremos que ha salido cara y, si es superior a 0,75 , cruz. Utiliza el siguiente programa para simular cinco lanzamientos con nuestra moneda trucada: 3.2.2 La distribución Exponencial Este modelo suele utilizarse para variables que describen el tiempo hasta que se produce un determinado suceso. Su función de densidad es de la forma: \\[ f(x)=\\left\\{\\begin{array}{lll} \\frac{1}{\\alpha} \\exp \\left(-\\frac{x}{\\alpha}\\right) & \\text { si } & x>0 \\\\ 0 & \\text { si } & x \\leq 0 \\end{array}\\right\\} \\] Como vemos este modelo depende de un único parámetro \\(\\alpha\\) que debe ser positivo: \\(\\alpha>0\\). A continuación se muestra un programa que nos permite ver cómo cambia la forma de la función de densidad según el parámetro \\(\\alpha\\). La función de distribución se obtiene integrando la de densidad y es de la forma: \\[ F(x)=\\left\\{\\begin{array}{lll} 1-\\exp \\left(-\\frac{x}{\\alpha}\\right) & \\text { si } & x>0 \\\\ 0 & \\text { si } & x \\leq 0 \\end{array}\\right\\} \\] Podemos utilizar el programa siguiente para calcular dicha función de distribución: 3.2.2.1 Propiedades del modelo Exponencial Su esperanza es \\(\\alpha\\). Su varianza es \\(\\alpha^{2}\\). Una propiedad importante es la denominada carencia de memoria, que podemos definir así: si la variable \\(X\\) mide el tiempo de vida y sigue una distribución Exponencial, significará que la probabilidad de que siga con vida dentro de 20 años es la misma para un individuo que a fecha de hoy tiene 25 años que para otro que tenga 60 años. Cuando el número de sucesos por unidad de tiempo sigue una distribución de Poisson de parámetro \\(\\lambda\\) (proceso de Poisson), el tiempo entre dos sucesos consecutivos sigue una distribución Exponencial de parámetro \\(\\alpha=1 / \\lambda\\). 3.2.3 La distribución Normal Se trata, sin duda, del modelo continuo más importante en estadística, tanto por su aplicación directa, veremos que muchas variables de interés general pueden describirse por dicho modelo, como por sus propiedades, que han permitido el desarrollo de numerosas técnicas de inferencia estadística. En realidad, el nombre de Normal proviene del hecho de que durante un tiempo se creyó, por parte de médicos y biólogos, que todas las variables naturales de interés seguían este modelo. Su función de densidad viene dada por la fórmula: \\[ f(x)=\\frac{1}{\\sqrt{2 \\pi} \\sigma} \\exp \\left\\{-\\frac{(x-\\mu)^{2}}{2 \\sigma^{2}}\\right\\} \\quad \\text { donde }-\\infty<x<+\\infty \\] que, como vemos, depende de dos parámetros \\(\\mu\\) (que puede ser cualquier valor real) y \\(\\sigma\\) (que ha de ser positiva). Por esta razón, a partir de ahora indicaremos de forma abreviada que una variable \\(X\\) sigue el modelo Normal así: \\(X \\sim N(\\mu, \\sigma)\\). Por ejemplo, si nos referimos a una distribución Normal con \\(\\mu=0\\) y \\(\\sigma\\) \\(=1\\) lo abreviaremos \\(N(0,1)\\). A continuación vemos gráfica de esta función de densidad (podeis probar a cambiar los parámetros): Como puedes ver, la función de densidad del modelo Normal tiene forma de campana, la que habitualmente se denomina campana de Gauss. De hecho, a este modelo, también se le conoce con el nombre de distribución gaussiana. 3.2.3.1 Propiedades del modelo Normal Su esperanza es \\(\\mu\\). Su varianza es \\(\\sigma^{2} \\mathrm{y}\\), por tanto, su desviación típica es \\(\\sigma\\). Es simétrica respecto a su media \\(\\mu\\), como puede apreciarse en la representación anterior. Media, moda y mediana coinciden \\((\\mu)\\). Cualquier transformación lineal de una variable con distribución Normal seguirá también el modelo Normal. Si \\(X \\sim N(\\mu, \\sigma)\\) y definimos \\(Y=a X+b(\\operatorname{con} a \\neq 0)\\), entonces \\(Y \\sim N(a \\mu+b,|a| \\sigma)\\). Es decir, la esperanza de \\(Y\\) será \\(a \\mu+b\\) y su desviación típica, \\(|a| \\sigma\\). Cualquier combinación lineal de variables normales independientes sigue también una distribución Normal. Es decir, dadas \\(n\\) variables aleatorias independientes con distribución \\(X_{i} \\sim\\) \\(N\\left(\\mu_{i}, \\sigma_{i}\\right)\\) para \\(i=1,2, \\ldots, n\\) la combinación lineal: \\(Y=a_{n} X_{n}+a_{n-1} X_{n-1}+\\ldots+a_{1} X_{1}+\\mathrm{a}_{0}\\) sigue también el modelo Normal: \\[ Y \\approx N\\left(a_{0}+\\sum_{i=1}^{n} a_{i} \\boldsymbol{\\mu}_{i}, \\sqrt{\\sum_{i=1}^{n} a_{i}^{2} \\boldsymbol{\\sigma}^{2}}\\right) \\] ###La función de distribución del modelo Normal La función de distribución del modelo Normal se debería calcular, como en el resto de distribuciones continuas, integrando la función de densidad: \\[ F(x)=P[X \\leq x]=\\int_{-\\infty}^{x} \\frac{1}{\\sqrt{2 \\pi} \\sigma} \\exp \\left\\{-\\frac{(t-\\mu)^{2}}{2 \\sigma^{2}}\\right\\} \\mathrm{dt} \\] Pero nos encontramos con el problema de que no existe ninguna primitiva conocida para esta función, es decir, no sabemos resolver la anterior integral. Sin embargo, si somos incapaces de calcular la función distribución no podremos efectuar ningún cálculo con este modelo. ¿Cómo solucionamos el problema? Una primera solución podría consistir en aproximar la integral a través de técnicas de cálculo numérico. Sin embargo, dado que el conjunto de valores que pueden tomar los parámetros \\(\\mu\\) y \\(\\sigma\\) son infinitos, deberíamos repetir el proceso para cada valor diferente de algún parámetro. Afortunadamente, podemos ahorrarnos el esfuerzo aprovechando la propiedad de que cualquier transformación lineal de una variable Normal sigue también el modelo Normal. Por tanto, replantearemos cualquier problema en términos de una Normal concreta, que suele ser la \\(\\mathrm{N}(0,1)\\), de la siguiente manera: Si \\(X \\sim N(\\mu, \\sigma)\\) y entonces definimos \\(Z=(\\mathrm{X}-\\mu) / \\sigma\\) se cumplirá que \\(Z \\sim N(0,1)\\) \\[ \\begin{gathered} \\text { y, por tanto: } \\\\ F_{X}(x)=P[X \\leq x]=P\\left[\\frac{X-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}} \\leq \\frac{x-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}}\\right]=P\\left[Z \\leq \\frac{x-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}}\\right]=F_{Z}\\left(\\frac{x-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}}\\right) \\end{gathered} \\] A la distribución \\(N(0,1)\\), es decir, la que tiene por media cero y por desviación típica uno, se le denomina Normal reducida o tipificada. En cambio, al proceso de transformación del cálculo de la función de distribución de una Normal cualquiera a través de la Normal tipificada, se le denomina tipificación. Debemos remarcar que el proceso de tipificación no resuelve el problema de la inexistencia de la función primitiva correspondiente. Sin embargo, sí es posible, mediante técnicas de cálculo numérico, obtener la integral numérica correspondiente y elaborar unas tablas que podemos consultar. Naturalmente, la tipificación permite que con una sola tabla, la de la \\(N(0,1)\\), tengamos suficiente. Hoy en día, cada vez se utilizan menos tablas como la mencionada anteriormente, ya que los ordenadores, junto con los abundantes programas estadísticos existentes nos resuelven este problema. Sin embargo, la imposibilidad de integrar analíticamente la función de densidad persiste y, aunque nosotros no seamos conscientes, los programas informáticos realizan el proceso de tipificación para simplificar el problema. 3.2.4 La distribución Gamma Este modelo es una generalización del modelo Exponencial ya que, en ocasiones, se utiliza para modelar variables que describen el tiempo hasta que se produce p veces un determinado suceso. Su función de densidad es de la forma: \\[ f(x)=\\left\\{\\begin{array}{lll} \\frac{1}{\\alpha^{p} \\Gamma(p)} e^{-\\frac{x}{\\alpha}} x^{p-1} & \\text { si } & x>0 \\\\ 0 & \\text { si } & x \\leq 0 \\end{array}\\right\\} \\] Como vemos, este modelo depende de dos parámetros positivos: \\(\\alpha\\) y p. La función \\(\\Gamma(p)\\) es la denominada función Gamma de Euler que representa la siguiente integral: \\[ \\Gamma(p)=\\int_{0}^{\\infty} x^{p-1} e^{-x} d x \\] que verifica \\(\\Gamma(p+1)=p \\Gamma(p)\\), con lo que, si \\(p\\) es un número entero positivo, \\(\\Gamma(p+1)=p\\). 3.2.4.1 Propiedades de la distribución Gamma Su esperanza es \\(p \\alpha\\). Su varianza es \\(p \\alpha^{2}\\) La distribución Gamma \\((\\alpha, p=1)\\) es una distribución Exponencial de parámetro \\(\\alpha\\). Es decir, el modelo Exponencial es un caso particular de la Gamma \\(\\operatorname{con} p=1\\). Dadas dos variables aleatorias con distribución Gamma y parámetro \\(\\alpha\\) común \\[ X \\sim G\\left(\\alpha, p_{1}\\right) \\text { y } Y \\sim G\\left(\\alpha, p_{2}\\right) \\] se cumplirá que la suma también sigue una distribución Gamma \\[ X+Y \\sim G\\left(\\alpha, p_{1}+p_{2}\\right) \\] Una consecuencia inmediata de esta propiedad es que, si tenemos \\(k\\) variables aleatorias con distribución Exponencial de parámetro \\(\\alpha\\) (común) e independientes, la suma de todas ellas seguirá una distribución \\(G(\\alpha, k)\\). 3.2.5 La distribución de Cauchy Se trata de un modelo continuo cuya función de densidad es: \\[ f(x)=\\frac{1}{\\pi\\left(1+x^{2}\\right)} \\quad \\text { para } \\quad-\\infty<x<\\infty \\] Cuya integral nos proporciona la función de distribución: \\[ F(x)=\\int_{-\\infty}^{x} \\frac{1}{\\pi\\left(1+t^{2}\\right)} d t=\\frac{1}{\\pi}[\\arctan (t)]_{t=-\\infty}^{t=x}=\\frac{1}{2}+\\frac{\\arctan (x)}{\\pi} \\] El siguiente programa permite visualizar la forma de la función de densidad de este modelo y el valor de la función de distribución: 3.2.5.1 Propiedades de la distribución de Cauchy Se trata de un ejemplo de variable aleatoria que carece de esperanza (y, por tanto, también de varianza o cualquier otro momento), ya que la integral impropia correspondiente no es convergente: \\[ E(X)=\\int_{-\\infty}^{\\infty} \\frac{x}{\\pi\\left(1+x^{2}\\right)} d x=\\frac{1}{2 \\pi} \\int_{-\\infty}^{\\infty} \\frac{2 x}{1+x^{2}} d x=\\frac{1}{2 \\pi}\\left[\\lim _{x \\rightarrow \\infty} \\ln \\left(x^{2}\\right)-\\lim _{x \\rightarrow-\\infty} \\ln \\left(x^{2}\\right)\\right]=\\frac{1}{2 \\pi}[\\infty-\\infty] \\] y nos queda una indeterminación. Por tanto, la esperanza de una distribución de Cauchy no existe. Cabe señalar que la función de densidad es simétrica respecto al valor cero (que sería la mediana y la moda), pero al no existir la integral anterior, la esperanza no existe. 3.2.6 La distribución de Weibull Se trata de un modelo continuo asociado a variables del tipo tiempo de vida, tiempo hasta que un mecanismo falla, etc. La función de densidad de este modelo viene dada por: \\[ f(x)=\\left\\{\\begin{array}{ll} \\frac{\\beta}{\\alpha}\\left(\\frac{x}{\\alpha}\\right)^{\\beta-1} e^{-\\left(\\frac{x}{\\alpha}\\right)^{\\beta}} & \\text { si } x \\geq 0 \\\\ 0 & \\text { si } x<0 \\end{array}\\right\\} \\] que, como vemos, depende de dos parámetros: \\(\\alpha>0\\) y \\(\\beta>0\\), donde \\(\\alpha\\) es un parámetro de escala y \\(\\beta\\) es un parámetro de forma (lo que proporciona una gran flexibilidad a este modelo). La función de distribución se obtiene por la integración de la función de densidad y vale: \\[ F(x)=1-e^{-\\left(\\frac{x}{\\alpha}\\right)^{\\beta}} \\] El siguiente programa permite visualizar la forma de la función de densidad de este modelo y el valor de la función de distribución: 3.2.6.1 Propiedades de la distribución Weibull Si tomamos \\(\\beta=1\\) tenemos una distribución Exponencial. Su esperanza vale: \\[ E(X)=\\alpha \\Gamma\\left(\\frac{1}{\\boldsymbol{\\beta}}+\\mathbf{1}\\right) \\] Su varianza vale: \\[ V(X)=\\alpha^{2}\\left\\{\\Gamma\\left(\\frac{2}{\\beta}+1\\right)-\\left[\\Gamma\\left(\\frac{1}{\\beta}+1\\right)\\right]^{2}\\right\\} \\] donde \\(\\Gamma(x)\\) representa la función Gamma de Euler definida anteriormente. 3.2.7 Tabla resumen de las principales distribuciones continuas Distribución Parámetros Función de densidad Esperanza Varianza Uniforme \\(a, b\\) \\(\\frac{1}{b-a}\\) \\(a<x<b\\) \\(\\frac{a+b}{2}\\) \\(\\frac{(b-a)^{2}}{12}\\) Exponencial \\(\\alpha>0\\) \\(\\frac{1}{\\alpha} \\exp \\left(-\\frac{x}{\\alpha}\\right)\\) \\(x>0\\) \\(\\alpha\\) \\(\\alpha^{2}\\) Normal \\(-\\infty<\\mu<\\infty\\) \\(\\sigma>0\\) \\(\\frac{1}{\\sqrt{2 \\pi} \\sigma} \\exp \\left\\{-\\frac{(x-\\mu)^{2}}{2 \\sigma^{2}}\\right\\}\\) \\(-\\infty<x<+\\infty\\) \\(\\mu\\) \\(\\sigma^{2}\\) Cauchy | - | \\(\\frac{1}{\\pi\\left(1+x^{2}\\right)}\\) \\(-\\infty<\\mathbf{x}<\\infty\\) | – | – | Weibull | \\(\\alpha>0\\) \\(\\beta>0\\) | \\(\\frac{\\boldsymbol{\\beta}}{\\boldsymbol{\\alpha}}\\left(\\frac{x}{\\boldsymbol{\\alpha}}\\right)^{\\beta-1} e^{-\\left(\\frac{x}{\\alpha}\\right)^{\\beta}}\\) \\(x \\geq 0\\) | \\(\\alpha \\Gamma\\left(\\frac{1}{\\beta}+1\\right)\\) | \\(\\alpha^{2}\\left\\{\\Gamma\\left(\\frac{2}{\\beta}+1\\right)-\\left[\\Gamma\\left(\\frac{1}{\\beta}+1\\right)\\right]^{2}\\right\\}\\) | 3.3 Distribuciones con R (y Python) El lenguaje estadístico R es muy potente en cuanto al cálculo con distribuciones de probabilidad. Dado que el trabajo con distribucines de probabilidad usando R está muy estandarizado y explicado en múltiples fuentes no repetiremos aquí estas explicaciones. Tan solo os referimos a dos buenas fuentes de información que podéis utilizar para aprender como hacer los cálculos con R y también una aplicación que os permite visualizar casi cualquier distribución conocida. R Tutorials Explicación detallada y de nivel básico del manejo de las principales distribuciones con R https://www.r-tutor.com/elementary-statistics/probability-distributions The distribution Zoo Permite visualizar de forma interactiva distintas distribuciones y proporciona información diversa sobre sus propiedades e incluso su aplicación. https://ben18785.shinyapps.io/distribution-zoo/ Distribution explorer Más completo que los anteriores. No se basa en R sino en python. https://distribution-explorer.github.io/index.html 3.4 La familia exponencial de distribuciones En el estudio de las propiedades de los estimadores, vemos que algunas distribuciones se comportan mejor que otras. Muchas veces, este buen comportamiento refleja una estructura común que proviene de pertenecer a una misma familia de distribuciones llamada familia exponencial. Definición: Sea \\(f_{\\theta}\\) una familia de probabilidades que depende de un parámetro unidimensional \\(\\left\\{f_{\\theta}(x), \\theta \\in \\Theta \\subseteq \\mathbb{R}\\right\\}\\) tal que el soporte \\(S(\\theta)=\\left\\{x \\mid f_{\\theta}(x)>0\\right\\}\\) no depende de \\(\\theta\\). Si existen funciones de los parámetros \\(Q(\\theta)\\) y \\(C(\\theta)\\) y funciones de las muestras, \\(T(x)\\) y \\(h(x)\\), tales que la función de densidad puede escribirse como: \\[f_{\\theta}(x)=C(\\theta) h(x) \\exp\\{Q(\\theta) \\cdot T(x)\\}\\] diremos que \\(f_{\\theta}(x)\\) pertenece a la familia exponencial de distribuciones. La familia exponencial no representa un nuevo tipo de distribuciones, sino la constatación de que muchas distribuciones comunes, que pueden reformularse para ajustarse a la expresión anterior, pertenecen a esta familia. Veamos algunos ejemplos de que esto es efectivamente así. 3.4.1 Ejemplos de distribuciones de esta familia 3.4.1.1 Distribución de Poisson La ley de Poisson pertenece a la familia exponencial uniparamétrica. Efectivamente, \\[f_{\\lambda}(x)=e^{-\\lambda} \\frac{\\lambda^{x}}{x!}=\\exp\\{-\\lambda+x \\log \\lambda-\\log(x!)\\}\\] y si hacemos \\[Q(\\lambda)=\\log(\\lambda) \\quad T(x)=x \\quad D(\\lambda)=-\\lambda \\quad S(x)=-\\log(x!)\\] se hace evidente que \\(f_{\\lambda}\\) pertenece a la familia exponencial. 3.4.1.2 Distribución normal uniparamétrica La ley normal depende de dos parámetros \\(\\mu\\) y \\(\\sigma\\). Fijado uno de ellos, nos queda una distribución que depende de un solo parámetro, y de aquí la denominación “normal uniparamétrica”. Si, con el subíndice “0”, indicamos el parámetro fijado, tenemos: \\[ \\begin{aligned} &f_{\\sigma}=\\left\\{N\\left(\\mu_0, \\sigma\\right), \\sigma>0\\right\\} \\text{ Normal uniparamétrica, de parámetro } \\sigma^2, \\\\ &f_{\\mu}=\\left\\{N\\left(\\mu, \\sigma_0\\right), \\mu \\in \\mathbb{R}\\right\\} \\text{ normal uniparamétrica, de parámetro } \\mu. \\end{aligned} \\] Si queremos considerar ambos parámetros a la vez, debemos extender la definición al caso de parámetros \\(k\\)-dimensionales. En estos materiales no trataremos esta extensión. 3.4.1.2.1 Caso 1: Fijando la media \\(\\mu_0\\) Consideramos la distribución normal \\(N(\\mu_0, \\sigma^2)\\), donde fijamos \\(\\mu = \\mu_0\\) y \\(\\sigma^2\\) es el parámetro libre. La función de densidad de probabilidad es \\[f_{\\sigma}(x) = \\frac{1}{\\sqrt{2\\pi\\sigma^2}} \\exp\\left\\{-\\frac{(x - \\mu_0)^2}{2\\sigma^2}\\right\\}\\] Vamos a reescribir esta función en forma de la familia exponencial. Primero, reorganizamos los términos de la densidad: \\[f_{\\sigma}(x) = \\frac{1}{\\sqrt{2\\pi}} \\cdot \\sigma^{-1} \\exp\\left\\{-\\frac{1}{2\\sigma^2}(x - \\mu_0)^2\\right\\}\\] Ahora identificamos las funciones que se corresponden con la forma de la familia exponencial \\(f_{\\theta}(x) = C(\\theta) h(x) \\exp\\{Q(\\theta) T(x)\\}\\): \\(Q(\\sigma) = -\\frac{1}{2\\sigma^2}\\) \\(T(x) = (x - \\mu_0)^2\\) \\(C(\\sigma) = \\frac{1}{\\sqrt{2\\pi}\\sigma}\\) \\(h(x) = 1\\) Esto confirma que la distribución normal, con \\(\\mu_0\\) fijo, pertenece a la familia exponencial. 3.4.1.2.2 Caso 2: Fijando la varianza \\(\\sigma_0^2\\) Ahora consideramos la distribución \\(N(\\mu, \\sigma_0^2)\\), donde la varianza está fijada y el parámetro libre es \\(\\mu\\). La función de densidad es \\[f_{\\mu}(x) = \\frac{1}{\\sqrt{2\\pi\\sigma_0^2}} \\exp\\left\\{-\\frac{(x - \\mu)^2}{2\\sigma_0^2}\\right\\}\\] Vamos a reescribir esta función de la misma manera: \\[f_{\\mu}(x) = \\frac{1}{\\sqrt{2\\pi\\sigma_0^2}} \\exp\\left\\{-\\frac{1}{2\\sigma_0^2}(x^2 - 2\\mu x + \\mu^2)\\right\\}\\] Identificamos las funciones correspondientes: \\(Q(\\mu) = \\frac{\\mu}{\\sigma_0^2}\\) \\(T(x) = x\\) \\(D(\\mu) = -\\frac{\\mu^2}{2\\sigma_0^2}\\) \\(S(x) = -\\frac{x^2}{2\\sigma_0^2}\\) Esto prueba que la distribución normal con \\(\\sigma_0\\) fijo pertenece a la familia exponencial. 3.4.2 Distribución Binomial La distribución binomial es un ejemplo interesante, puesto que, a priori, no parece tener la estructura propia de la distribución exponencial, cosa que si pasa con la distribución de Poisson o con la Normales uniparamétricas que acabamos de ver. Sin embargo, tras aplicar algunas transformaciones se puede ver como, también esta distribución pertenece a la familia exponencial La función de masa de probabilidad para la distribución binomial es \\[f(x; n, p) = \\binom{n}{x} p^x (1 - p)^{n - x}, \\quad x = 0, 1, \\dots, n\\] Reescribimos esta función en términos exponenciales: \\[f(x; n, p) = \\binom{n}{x} \\exp\\{x \\log(p) + (n - x) \\log(1 - p)\\}\\] Agrupamos los términos dependientes de \\(x\\): \\[f(x; n, p) = \\binom{n}{x} \\exp\\left\\{x \\log\\left(\\frac{p}{1 - p}\\right) + n \\log(1 - p)\\right\\}\\] Identificamos las funciones correspondientes a la familia exponencial: \\(Q(p) = \\log\\left(\\frac{p}{1 - p}\\right)\\) \\(T(x) = x\\) \\(D(p) = n \\log(1 - p)\\) \\(S(x) = \\log \\binom{n}{x}\\) Por lo tanto, la distribución binomial pertenece a la familia exponencial. 3.4.3 Importancia y utilidad de la familia exponencial Muchas de las distribuciones usadas para modelar gran cantidad de situaciones prácticas pertenecen a esta familia. Esto significa que es posible estudiar sus propiedades en conjunto. Es decir, si establecemos que una propiedad se verifica en una distribución que pertenece a la familia exponencial, automáticamente sabemos que todos los miembros de la familia verifican esa propiedad. A continuación, se describen tres ventajas importantes de trabajar con esta familia: 3.4.4 Los modelos lineales generalizados (GLMs) Una de las aplicaciones más importantes de la familia exponencial es su uso en los Modelos Lineales Generalizados (GLMs). Estos modelos nos permiten extender la regresión lineal clásica a diferentes tipos de datos, como los resultados binarios (por ejemplo, éxito o fracaso), mediante la regresión logística, recuentos de eventos (como el número de llamadas recibidas en una hora) mediante la regresión de Poisson, y muchos otros. Gracias a la estructura de la familia exponencial, podemos conectar la media de la variable que estamos modelando con las variables explicativas de forma flexible, lo que hace posible aplicar GLMs en una amplia variedad de situaciones. 3.4.5 Estimación en la familia exponencial Otra ventaja importante es que, al trabajar con distribuciones de la familia exponencial, los métodos que usamos para hacer inferencias estadísticas suelen tener buenas propiedades. Esto, que se explicará con más detalle en capítulos siguientes, implica que los estimadores que obtenemos con estos modelos suelen ser precisos y reflejar correctamente la información que contienen los datos. Naturalmente esto se puede ver al revés: Si podemos trabajar con distribuciones de la familia exponencial, solemos tener, de entrada, una serie de ventajas, como el buen comportamiento de los etimadores, por lo que siempre es una buena opción intentar utilizarlas en nuestros modelos. "],["distribuciones-de-probabilidad-multidimensionales.html", "Capítulo 4 Distribuciones de probabilidad multidimensionales 4.1 Distribuciones conjuntas de probabilidades 4.2 Variable aleatorias bivariantes discretas 4.3 La distribución multinomial 4.4 Distribuciones marginales 4.5 Distribuciones condicionales 4.6 Vectores aleatorios absolutamente continuos 4.7 Independencia de variables aleatorias 4.8 Momentos de vectores aleatorios", " Capítulo 4 Distribuciones de probabilidad multidimensionales En este capítulo se extiende el concepto de variable aleatoria a un conjunto de variables que pueden interpretarse asociadas a un conjunto de medidas distintas y que pueden estar, o no relacionadas. Tras introducir los conceptos de distribuciones multidimensionales, condicionales y marginales, se pasa a considerar el caso más habitual en inferencia estadística en el que las componentes de los vectrores son independientes entre ellas. Este es, de hecho, el punto de partida de muchos modelos y métodos en estadística. 4.1 Distribuciones conjuntas de probabilidades A menudo nos interesa estudiar múltiples características de un fenómeno aleatorio: La altura, el peso y el sexo de un individuo. La expresión coordinada de los genes que participan en una determinada via metabólica. El número de nucleótidos A, C, G, T en una región del genoma de tamaño \\(n\\). Estas características numéricas que, de forma análoga al caso univariante, podemos suponer asociadas a los resultados de experimentos aleatorios se denominan variables aleatorias multidimensionales o, atendiendo a sus componentes, vectores aleatorios. Las distribuciones de probabilidad que, siguiendo con la analogía, asociaremos a los vectores aleatorios se denominan distribuciones de probabilidades conjuntas o multivariantes. Antes de desarrollar el tema es importante remarcar que consideraremos dos escenarios: El primero, el “natural” es considerar que si trabajamos con distintas variables asociadas a un mismo fenómeno, es razonable suponer que varien de alguna forma coordinada. De ahí la expresión distribución conjnta. En ocasiones, sin embargo, dispondremos de vectores aleatorios que varian independientemente los unos de los otros. En este caso su distribución conjunta será de un tipo especial que se conoce independencia. 4.1.1 Variable aleatoria bivariante Empezaremos por el caso más sencillo que, sin embargo permite estudiar la mayoría de los conceptos quenos interesas: Las distribuciones conjuntas de dos variables aleatorias. Una variable aleatoria bivariante es una aplicación que, a cada resultado de un experimento, le asocia dos números: \\[ (X, Y): \\Omega \\to \\mathbb{R}^2 \\] \\[ w \\mapsto (X(w), Y(w)) \\] De modo que, para todo par de valores numéricos, \\((x, y) \\in \\mathbb{R}^2\\), se tiene \\[ \\{w \\in \\Omega \\mid X(w) \\leq x,\\quad Y(w) \\leq y\\} \\in \\mathcal{A} \\] donde \\(\\mathcal{A}\\) representa el conjunto de sucesos observables definido en el capítulo 1. Lo que viene a significar esta definición es que una variable aleatoria bidimensional es un conjunto de medidas (números reales) a los que, por el ehecho de poderse asociar con sucesos observables a traves de los intérvalos \\(X(w) \\leq x,\\quad Y(w) \\leq y\\) se les puede asociar (calcular) una probabilidad. Fijémonos también que, como en el caso univariante, la función que transporta la probabilidad, del espació de probabilidad al conjunto de los reales, será la función de distribución, que se define a continuación. 4.1.2 Función de distribución bivariante La función de distribución conjunta de \\(X\\) y \\(Y\\), \\(F\\), es una generalización inmediata del caso univariado y se define como: \\[ F(x, y) = P\\{w \\in \\Omega \\mid X(w) \\leq x, Y(w) \\leq y\\} = P[X \\leq x, Y \\leq y] \\] Como en el caso univariante, esta es la función que define la forma en que podemos calcular probabilidades sobre los valores de las variables, en este caso de dimensión 2. 4.1.3 Ejemplo: Distribución conjunta del estado de infección y activación de células Supongamos que estamos observando dos características de células en un experimento de inmunología. Las variables que describen las células son: \\(X\\): La célula está infectada (\\(X = 1\\)) o no infectada (\\(X = 0\\)). \\(Y\\): La célula está activada (\\(Y = 1\\)) o no activada (\\(Y = 0\\)). La siguiente tabla muestra la probabilidad conjunta de observar cada combinación de infección y activación en una célula: \\(X \\backslash Y\\) \\(Y = 0\\) (No activada) \\(Y = 1\\) (Activada) \\(X = 0\\) (No infectada) 0.4 0.2 \\(X = 1\\) (Infectada) 0.1 0.3 4.1.3.1 1. Función de distribución conjunta La función de distribución conjunta \\(F(x, y)\\) para esta situación se calcula como: \\[ F(x, y) = P(X \\leq x, Y \\leq y) \\] Los valores para los pares posibles de \\(x\\) y \\(y\\) son: \\(F(0, 0) = P(X = 0, Y = 0) = 0.4\\) \\(F(0, 1) = P(X = 0, Y \\leq 1) = P(X = 0, Y = 0) + P(X = 0, Y = 1) = 0.4 + 0.2 = 0.6\\) \\(F(1, 0) = P(X \\leq 1, Y = 0) = P(X = 0, Y = 0) + P(X = 1, Y = 0) = 0.4 + 0.1 = 0.5\\) \\(F(1, 1) = P(X \\leq 1, Y \\leq 1) = 1\\) 4.1.3.2 2. Cálculo de la probabilidad de eventos específicos Por ejemplo, la probabilidad de que una célula esté infectada pero no activada es: \\[ P(X = 1, Y = 0) = 0.1 \\] 4.1.4 Implementación en R Podemos visualizar esta distribución conjunta con un gráfico en R. library(ggplot2) # Crear los datos de la distribución conjunta data <- expand.grid(X = c(0, 1), Y = c(0, 1)) data$Prob <- c(0.4, 0.2, 0.1, 0.3) # Crear el gráfico p <- ggplot(data, aes(x = factor(X, labels = c("No infectada", "Infectada")), y = factor(Y, labels = c("No activada", "Activada")))) + geom_tile(aes(fill = Prob), color = "white") + scale_fill_gradient(low = "white", high = "blue") + geom_text(aes(label = round(Prob, 2)), size = 5) + labs(x = "Estado de infección (X)", y = "Estado de activación (Y)", title = "Distribución Conjunta de Infección y Activación Celular") + theme_minimal() # Guardar el gráfico en el subdirectorio imagenes ggsave("images/distribucion_conjunta.png", plot = p, width = 6, height = 4, dpi = 300) knitr::include_graphics("images/distribucion_conjunta.png") 4.2 Variable aleatorias bivariantes discretas Una vez introducidos los conceptos de forma general pasamos a estudiar el problema en el caso discreto, que es muy intuitivo y, a la vez permite introducir todos los conceptos relevantes. Un vector aleatorio discreto, \\((X, Y)\\) es aquel cuyo recorrido o conjunto de valores posibles es finito o numerable. En este caso, toda probabilidad \\[ P\\{(X, Y) \\in B\\}, \\quad \\text{donde } B \\text{ es un conjunto de posibles valores de } X, Y, \\] se puede calcular a partir de la función de masa de probabilidad discreta bivariante. 4.2.1 Función de masa de probabilidad discreta (fmp) La funcion de masa de probabilidad de los vectores aleatorios generaliza la función del mismo nombre en el caso univariante, es decir, es una función: \\[ f: \\mathbb{R}^2 \\to [0, 1] \\] Que asigna la probabilidad a cada punto del plano: para todo \\((x, y) \\in \\mathbb{R}^{2}\\): \\[ f(x, y) = P\\{w \\in \\Omega \\mid X(w) = x, Y(w) = y\\} = P[X = x, Y = y] \\] 4.2.2 Propiedades de la fmp bivariante La masa total de probabilidad sobre el plano es 1: \\[ \\sum_{(x_i, y_j) \\in \\mathbb{R}^{2}} f(x_i, y_j) = 1 \\] Para todo subconjunto \\(B \\subseteq \\mathbb{R}^2\\), se verifica: \\[ F(x, y) = P[X \\leq x, Y \\leq y] = \\sum_{x_i \\leq x, y_j \\leq y} f(x_i, y_j) \\] Es decir, como en el caso univariante la función de distribución se puede calcular a partir de la función de masa de probabilidad. 4.2.2.1 Intuición frente a construcción La presentación de los conceptos anteriores suele generar cierto desasosiego entre los estudiantes que afrontan estos conceptos por primera (o siguientes) vez. El motivo de este desasosiego es que el papel de la función de distribución no suele ser tan intuitivo como el de la función de masa de probabilidad. Es decir, es más intuitivo pensar en como calcular lña probabilidad que la variable tome un valor concreto (\\(P[X=x]\\)) , que la probabilidad de que no alcance cierto valor (\\(P[X\\leq x]\\)). Sin embargo, la función que realmente permite transportar la probabilidad no es la función de masa de probabilidad (fmp) sino la función de distribución (fdd). De ahí el contraste entre intuición (fmp) y construcción (fdd) 4.2.3 Ejemplo de distribución bivariante discreta Supongamos que un estudio mide el número de células infectadas y el número de linfocitos activados en un campo microscópico. Dado el tamaño del campo y el grado de infección los valores observados de cada variables son: \\(X\\): Número de células infectadas (\\(X \\in \\{0, 1, 2, 3, 4, 5\\}\\))). \\(Y\\): Número de linfocitos activados (\\(Y \\in \\{0, 1, 2, 3\\}\\))). La distribución conjunta se refleja en la siguiente tabla de probabilidades conjuntas: \\(P[X=x]\\) \\(P[Y = 0]\\) \\(P[Y = 1]\\) \\(P[Y = 2]\\) \\(P[Y = 3]\\) 0 0.12 0.06 0.02 0.00 1 0.10 0.10 0.04 0.01 2 0.06 0.12 0.08 0.02 3 0.03 0.12 0.10 0.05 4 0.01 0.08 0.12 0.06 5 0.00 0.03 0.10 0.07 Puede comprobarse como la suma de todos los valores de la tabla es 1, y calcular probabilidades de sucesos como Probabilidad de 1uye hayan dos celulas infectadas y un linfocito: Para calcular la probabilidad de que haya exactamente 2 células infectadas y 1 linfocito activado, se puede usar el valor directamente de la tabla. \\[ P(X = 2, Y = 1) = 0.12 \\] Probabilidad de que hayan menos de tres celulas infectadas y menos de dos linfocitos: Esta probabilidad es la suma de todas las combinaciones de \\(X\\) y \\(Y\\)) que cumplen con la condición de \\(X < 3\\)) y \\(Y < 2\\)). Es decir, sumamos las probabilidades de los casos \\((X = 0, Y = 0)\\)), \\((X = 0, Y = 1)\\)), \\((X = 1, Y = 0)\\)), \\((X = 1, Y = 1)\\)), \\((X = 2, Y = 0)\\)), y \\((X = 2, Y = 1)\\)). \\[ P(X < 3, Y < 2) = P(X = 0, Y = 0) + P(X = 0, Y = 1) + P(X = 1, Y = 0) + P(X = 1, Y = 1) + P(X = 2, Y = 0) + P(X = 2, Y = 1) \\] \\[ P(X < 3, Y < 2) = 0.12 + 0.06 + 0.10 + 0.10 + 0.06 + 0.12 = 0.56 \\] Recordemos que, al tratarse de variables discretas, no es lo mismo \\(P[X< x]\\) que \\(P[X\\leq x]\\), por lo que si la pregunta fuera “Probabilidad de que hayan al menos tres celulas infectadas y al menos dos linfocitos” deberíamos calcular: \\[ P(X \\leq 3, Y \\leq 2) \\] Esta última expresión se corresponde con la función de distribución evaluada en \\((3,2)\\). 4.2.3.1 Código R para el cálculo de la pmf Podemos hacer los cálculos usando R: prob_table <- matrix(c(0.12, 0.06, 0.02, 0.00, 0.10, 0.10, 0.04, 0.01, 0.06, 0.12, 0.08, 0.02, 0.03, 0.12, 0.10, 0.05, 0.01, 0.08, 0.12, 0.06, 0.00, 0.03, 0.10, 0.07), nrow = 6, byrow = TRUE) # Asignar nombres a las filas y columnas rownames(prob_table) <- 0:5 colnames(prob_table) <- 0:3 # Mostrar la tabla prob_table ## 0 1 2 3 ## 0 0.12 0.06 0.02 0.00 ## 1 0.10 0.10 0.04 0.01 ## 2 0.06 0.12 0.08 0.02 ## 3 0.03 0.12 0.10 0.05 ## 4 0.01 0.08 0.12 0.06 ## 5 0.00 0.03 0.10 0.07 # Calcular la probabilidad de (X = 2, Y = 1) prob_X2_Y1 <- prob_table["2", "1"] cat("P(X = 2, Y = 1) =", prob_X2_Y1, "\\n") ## P(X = 2, Y = 1) = 0.12 # Calcular la probabilidad de (X < 3, Y < 2) prob_X_lt_3_Y_lt_2 <- sum(prob_table[1:3, 1:2]) cat("P(X < 3, Y < 2) =", prob_X_lt_3_Y_lt_2, "\\n") ## P(X < 3, Y < 2) = 0.56 4.2.3.2 Código R para visualizar la distribución conjunta Para visualizar la distribución conjunta, podemos usar el código siguiente; # Es preciso instalar y cargar el paquete scatterplot3d si no lo tienes instalado # install.packages("scatterplot3d") library(scatterplot3d) # Crear una matriz con los datos de la tabla de probabilidades X_vals <- as.numeric(rownames(prob_table)) Y_vals <- as.numeric(colnames(prob_table)) # Crear un grid de valores X e Y X_grid <- rep(X_vals, each = length(Y_vals)) Y_grid <- rep(Y_vals, times = length(X_vals)) # Extraer las probabilidades como un vector Z_vals <- as.vector(prob_table) # Enviar el gráfico 3D de barras simuladas a pdf png("images/pmfTrinomial.png") scatterplot3d(X_grid, Y_grid, Z_vals, type = "h", color = "lightblue", pch = 16, lwd = 5, cex.symbols = 1, angle=60, xlab = "Celulas Infectadas (X)", ylab = "Linfocitos Activados (Y)", zlab = "Probabilidad", main = "Distribución Conjunta de \\n Celulas Infectadas y Linfocitos Activados") dev.off() ## png ## 2 # Añadir texto con los valores de las probabilidades en la parte superior de las barras # s3d$text(X_grid, Y_grid, Z_vals, labels = round(Z_vals, 2), pos = 3, col = "black") knitr::include_graphics("images/pmfTrinomial.png", rel_path = TRUE ) 4.3 La distribución multinomial Antes de seguir con el estudio de las distribuciones discretas presentamos un caso importante de distribucion multivariante discreta, la distribución multinomial. 4.3.1 Generación de las observaciones Supongamos un experimentoaleatorio que puede producir \\(k\\) resultados posibles \\(A_1, A_2, \\dots, A_k\\) con probabilidades \\(p_1, p_2, \\dots, p_k\\), tales que \\(p_1 + p_2 + \\dots + p_k = 1\\). Repetimos el experimento \\(n\\) veces y llamamos \\(X_1, X_2, \\dots, X_k\\) al número de veces que se presenta \\(A_1, A_2, \\dots, A_k\\). La distribución conjunta de \\(X_1, X_2, \\dots, X_k\\) recibe el nombre de multinomial. 4.3.2 Funcion de masa de probabilidad de la distribución multinomial El vector \\(\\mathbf{X} = (X_1, \\dots, X_k)\\) tiene distribución multinomial de parámetros \\(n\\) y \\(\\mathbf{p} = (p_1, \\dots, p_k),\\) denotado por \\(\\mathbf{X} \\sim \\mathrm{M}(n, \\mathbf{p})\\), con \\(n\\) entero positivo, \\(p_i \\geq 0\\) y \\(\\sum_{i=1}^{k} p_i = 1\\). Su función de densidad conjunta es: \\[ f(\\mathbf{x}) = P[\\mathbf{X} = \\mathbf{x}] = \\frac{n!}{x_1!x_2!\\cdots x_k!} p_1^{x_1} p_2^{x_2} \\dots p_k^{x_k} \\] donde \\(x_i\\) son enteros no negativos tales que \\(\\sum_{i=1}^{k} x_i = n\\). 4.3.3 Relación con la distribución binomial Esta distribución puede verse como una generalización de la distribución binomial en el que, en lugar de tener dos posibles resultados, tenemos \\(r\\) resultados posibles. 4.3.4 Un caso particular: La distribución trinomial Veamos un ejemplo propio del análisis de secuencias en el que se aplica esta distribución: Si consideramos el alineamiento de dos secuencias \\(x, y\\) de tamaño \\(n\\), podemos observar: $A_1 $: \\(x_i\\) alineado con $y_i $, con $P(A_1) = p_1 $ $A_2 $: \\(x_i\\) alineado con “-”, con $P(A_2) = p_2 $ $A_3 $: “-” alineado con $y_i $, con $P(A_3) = 1 - p_1 - p_2 $ La variable $(X_1, X_2) $, que cuenta el número de veces que se observa \\(A_1, A_2\\) (con $X_3 = n - X_1 - X_2 $), sigue una distribución trinomial de parámetros \\(n\\), $p_1 $, $p_2 $. Obsérvese que, dado que el total de observaciones \\(n\\) está prefijado, aunque haya tres categorías, \\(A_1\\), \\(A_2\\), \\(A_3\\) el número de observaciones de \\(A_3\\) es el total menos la suma de las observaciones de \\(A_1+A_2\\). O dicho de otra forma el número de probabilidades que són parámetros de la distribución es \\(n-1=2\\), lo que junto con \\(n\\) que es otyro parámetro determina que “trinomial” se refiera tanto al total de categorías como al número de parámetros, aunque, en realidad tan sólo hay dos componentes \\(X_1\\) y \\(X_2\\) independientes (concepto este que se definirá con precisión más adelante). Estudiamos los posibles alineamientos de dos secuencias de 5 nucleótidos, en un contexto en el que las probabilidades de \\(A_1\\) y \\(A_2\\) son, respectivamente 0.6 y 0.2, es decir una Trinomial M(5; 0.6, 0.2) que dan lugar a la tabla siguiente. \\(X_{1} \\backslash X_{2}\\) 0 1 2 3 4 5 0 (0,0,5) (0,1,4) (0,2,3) (0,3,2) (0,4,1) (0,5,0) 1 (1,0,4) (1,1,3) (1,2,2) (1,3,1) (1,4,0) 2 (2,0,3) (2,1,2) (2,2,1) (2,3,0) 3 (3,0,2) (3,1,1) (3,2,0) 4 (4,0,1) (4,1,0) 5 (5,0,0) A partir de la tabla anterior podemos determinar las probabilidades conjuntas: \\(X_{1} \\backslash X_{2}\\) 0 1 2 3 4 5 0 0.0003 0.0016 0.0032 0.0032 0.0016 0.0003 1 0.0048 0.0192 0.0288 0.0192 0.0048 2 0.0288 0.0864 0.0864 0.0288 3 0.0864 0.1728 0.0864 4 0.1296 0.1296 5 0.0778 4.4 Distribuciones marginales Dado un vector aleatorio, puede interesar el comportamiento individual de una o cada una de sus componentes \\(X_i\\). La distribución de la componente \\(i\\)-ésima se denomina distribución marginal de \\(X_i\\). Representa el comportamiento de \\(X_i\\) sin tener en cuenta las otras componentes, es decir, como si fuera una variable aleatoria unidimensional. 4.4.1 Las marginales están en los márgenes El nombre de distribución marginal proviene del hecho de que en una distribución bivariada discreta como la trinomial, los valores de una fila coinciden con los valores de \\(X_2\\), y todos los de una columna con los de \\(X_1\\). Los valores en la fila 0 o columna 0 (los márgenes) representan precisamente las distribuciones marginales. 4.4.2 Densidades marginales discretas La densidad marginal de \\(X\\) es: \\[ f_X(x) = f_1(x) = \\sum_j f(x, y_j) \\] y la de \\(Y\\) es: \\[ f_Y(y) = f_2(y) = \\sum_i f(x_i, y) \\] 4.4.3 Trinomial M(5; 0.6, 0.2): Distribuciones marginales \\(X_1 \\backslash X_2\\) 0 1 2 3 4 5 \\(X_2\\) \\(P[X_2 = x]\\) 0 (0,0,5) (0,1,4) (0,2,3) (0,3,2) (0,4,1) (0,5,0) 0 0.0102 1 (1,0,4) (1,1,3) (1,2,2) (1,3,1) (1,4,0) 1 0.0768 2 (2,0,3) (2,1,2) (2,2,1) (2,3,0) 2 0.2304 3 (3,0,2) (3,1,1) (3,2,0) 3 0.3456 4 (4,0,1) (4,1,0) 4 0.2592 5 (5,0,0) 5 0.0778 X_2 0 1 2 3 4 5 1.0000 \\(P[X_2 = x]\\) 0.3277 0.4096 0.2048 0.0512 0.0064 0.0003 1.0000 4.5 Distribuciones condicionales A veces nos interesa la distribución de una componente si conocemos que la otra ha tomado un valor determinado. En el ejemplo de los alineamientos, podríamos querer conocer los posibles valores y probabilidades de un alineamiento, si sabemos que hay exactamente un “gap” en la secuencia de prueba. 4.5.1 Densidad condicional ¿Qué podemos decir de la distribución de \\(Y\\) si conocemos el valor de \\(X\\)? \\[ f(y \\mid X = x) = P[Y = y \\mid X = x] = \\frac{P[X = x, Y = y]}{P[X = x]} = \\frac{f(x, y)}{f_X(x)} \\] siempre que \\(f_X(x) > 0\\). 4.5.2 Trinomial M(5; 0.6, 0.2): Distribución condicional Distribución de \\(X_1\\) condicionada a que \\(X_2 = 1\\). \\((X_1, 1)\\) \\(P(X_1, 1)\\) \\(P_{X_2}(1)\\) \\(P(X_1 \\mid X_2 = 1)\\) (0,1,4) 0.002 0.41 0.004 (1,1,3) 0.019 0.41 0.047 (2,1,2) 0.086 0.41 0.211 (3,1,1) 0.173 0.41 0.422 (4,1,0) 0.13 0.41 0.316 Total 1 4.6 Vectores aleatorios absolutamente continuos Diremos que \\((X, Y)\\) es absolutamente continua si existe una función \\(f(x, y)\\), llamada función de densidad conjunta absolutamente continua o bivariada, tal que, para todo \\((x, y) \\in \\mathbb{R}^2\\), \\[ F(x, y) = \\int_{-\\infty}^{x} \\int_{-\\infty}^{y} f(u, v)\\, du \\, dv \\] Si existe, la función de densidad absolutamente continua es única. 4.6.1 Propiedades de la función de densidad conjunta \\(f(x, y) \\geq 0\\) La masa total de probabilidad es 1: \\[ \\int_{-\\infty}^{\\infty} \\int_{-\\infty}^{\\infty} f(x, y)\\, dx\\,dy = 1 \\] Para cualquier conjunto \\(S\\): \\[ P\\{(X, Y) \\in S\\} = \\int_S f(x, y) \\, dx \\, dy \\] En particular, la probabilidad de que \\((X, Y)\\) esté en un rectángulo: \\[ P(a_1 < X \\leq a_2, b_1 < Y \\leq b_2) = \\int_{a_1}^{a_2} \\int_{b_1}^{b_2} f(x, y) \\, dx \\, dy \\] 4.6.2 Densidades marginales en el caso continuo Las densidades marginales son: \\[ f_X(x) = \\int_{-\\infty}^{\\infty} f(x, y) \\, dy \\] \\[ f_Y(y) = \\int_{-\\infty}^{\\infty} f(x, y) \\, dx \\] 4.6.3 Densidad condicional en el caso continuo La densidad de \\(Y\\) condicionada a un valor de \\(X\\) es: \\[ f(y \\mid X = x) = \\frac{f(x, y)}{f_X(x)} \\] siempre que \\(f_X(x) > 0\\). 4.6.4 La Distribución Normal Bivariante El ejemplo más importante de una distribución de probabilidad absolutamente continua para vectores aleatorios es la distribución normal bivariante. Esta distribución describe dos variables aleatorias continuas, \\(X\\) y \\(Y\\), cuya relación está modelada por una correlación lineal y tiene forma de campana (gaussiana) en dos dimensiones. 4.6.4.1 Función de Densidad Conjunta La función de densidad conjunta de la distribución normal bivariante con medias \\(\\mu_X\\), \\(\\mu_Y\\), desviaciones estándar \\(\\sigma_X\\), \\(\\sigma_Y\\) y coeficiente de correlación \\(\\rho\\) es: \\[ f(x, y) = \\frac{1}{2 \\pi \\sigma_X \\sigma_Y \\sqrt{1 - \\rho^2}} \\exp \\left( -\\frac{1}{2(1 - \\rho^2)} \\left[ \\frac{(x - \\mu_X)^2}{\\sigma_X^2} + \\frac{(y - \\mu_Y)^2}{\\sigma_Y^2} - \\frac{2\\rho(x - \\mu_X)(y - \\mu_Y)}{\\sigma_X \\sigma_Y} \\right] \\right) \\] Esta expresión se generaliza fácilmente de la distribución normal univariante, pero en este caso incluye términos adicionales que representan la interacción entre \\(X\\) y \\(Y\\). 4.6.4.2 Ejemplo En vez de proporcionar un código para visualizar la distribución normal bivariante podéis seguir este enlace: https://datasciencegenie.com/3d-contour-plots-of-bivariate-normal-distribution/ en donde se extiende lo que acabamos de discutir y se proporciona algunos ejemplos con R. 4.6.4.3 Distribuciones Marginales Para obtener las distribuciones marginales a partir de una normal bivariante, debemos integrar la densidad conjunta sobre una de las variables. Dado que estamos trabajando con una distribución normal bivariante, su densidad conjunta está dada por: \\[ f_{X,Y}(x, y) = \\frac{1}{2 \\pi \\sigma_X \\sigma_Y \\sqrt{1 - \\rho^2}} \\exp\\left( -\\frac{1}{2(1 - \\rho^2)} \\left[ \\frac{(x - \\mu_X)^2}{\\sigma_X^2} + \\frac{(y - \\mu_Y)^2}{\\sigma_Y^2} - \\frac{2\\rho(x - \\mu_X)(y - \\mu_Y)}{\\sigma_X \\sigma_Y} \\right] \\right) \\] Para obtener la marginal de \\(X\\), debemos integrar sobre \\(Y\\): \\[ f_X(x) = \\int_{-\\infty}^{\\infty} f_{X,Y}(x, y) \\, dy \\] Al realizar esta integral, se obtiene que la distribución marginal de \\(X\\) es: \\[ f_X(x) = \\frac{1}{\\sqrt{2 \\pi \\sigma_X^2}} \\exp\\left( -\\frac{(x - \\mu_X)^2}{2 \\sigma_X^2} \\right) \\] Esto muestra que \\(X\\) sigue una distribución normal con media \\(\\mu_X\\) y varianza \\(\\sigma_X^2\\), es decir, \\(X \\sim N(\\mu_X, \\sigma_X^2)\\). Del mismo modo, para la marginal de \\(Y\\), integramos sobre \\(X\\): \\[ f_Y(y) = \\int_{-\\infty}^{\\infty} f_{X,Y}(x, y) \\, dx \\] La solución de esta integral da: \\[ f_Y(y) = \\frac{1}{\\sqrt{2 \\pi \\sigma_Y^2}} \\exp\\left( -\\frac{(y - \\mu_Y)^2}{2 \\sigma_Y^2} \\right) \\] Lo que significa que \\(Y\\) sigue una distribución normal con media \\(\\mu_Y\\) y varianza \\(\\sigma_Y^2\\), es decir, \\(Y \\sim N(\\mu_Y, \\sigma_Y^2)\\). 4.6.4.4 Ejemplo Supongamos que tenemos una distribución normal bivariante con los siguientes parámetros: \\(\\mu_X = 100\\), \\(\\sigma_X = 15\\) \\(\\mu_Y = 50\\), \\(\\sigma_Y = 10\\) \\(\\rho = 0.5\\) La densidad conjunta es: \\[ f_{X,Y}(x, y) = \\frac{1}{2 \\pi (15)(10) \\sqrt{1 - 0.5^2}} \\exp\\left( -\\frac{1}{2(1 - 0.5^2)} \\left[ \\frac{(x - 100)^2}{15^2} + \\frac{(y - 50)^2}{10^2} - \\frac{2(0.5)(x - 100)(y - 50)}{(15)(10)} \\right] \\right) \\] Integrando sobre \\(Y\\), obtenemos la distribución marginal de \\(X\\): \\[ f_X(x) = \\frac{1}{\\sqrt{2 \\pi (15^2)}} \\exp\\left( -\\frac{(x - 100)^2}{2 \\cdot 15^2} \\right) \\] De manera análoga, la marginal de \\(Y\\) es: \\[ f_Y(y) = \\frac{1}{\\sqrt{2 \\pi (10^2)}} \\exp\\left( -\\frac{(y - 50)^2}{2 \\cdot 10^2} \\right) \\] 4.6.5 Distribuciones Condicionales La distribución condicional de una variable dado un valor específico de la otra también es normal univariante. Por ejemplo, la distribución condicional de \\(X\\) dado \\(Y = y\\) es: \\[ X \\mid Y = y \\sim N \\left( \\mu_X + \\rho \\frac{\\sigma_X}{\\sigma_Y} (y - \\mu_Y), (1 - \\rho^2)\\sigma_X^2 \\right) \\] De forma análoga, la distribución condicional de \\(Y\\) dado \\(X = x\\) es: \\[ Y \\mid X = x \\sim N \\left( \\mu_Y + \\rho \\frac{\\sigma_Y}{\\sigma_X} (x - \\mu_X), (1 - \\rho^2)\\sigma_Y^2 \\right) \\] 4.6.5.1 Ejemplo Podemos calcular la distribución condicional de \\(X\\) dado que \\(Y = 180\\) cm, y mostrar cómo cambia la distribución de \\(X\\) bajo esta condición: # Valores originales mu <- c(100, 50) sigma <- c(15, 10) rho <- 0.5 # Condicionar X dado Y = 180 y_cond <- 180 mu_cond <- mu[1] + 0.6 * (10/7) * (y_cond - mu[2]) sigma_cond <- sqrt(1 - 0.6^2) * 10 # Mostrar la media y desviación estándar condicionales mu_cond ## [1] 211.4286 sigma_cond ## [1] 8 Esto nos dice que el peso medio de una persona con altura de 180 cm es mayor que el peso medio de la población total, y su desviación estándar es menor debido a la correlación positiva entre peso y altura. 4.7 Independencia de variables aleatorias Una vez introducido el concepto de distribución conjunta pasamos a estudiar un caso particularmente importante de distribución conjunta, la independencia. De forma aparentemente contradictoria, en este caso, las variables se caracterizan por el hecho de que no varían conjuntamente sino que lo hacen independientemente las unas de las otras. De manera intuitiva podemos decir que dos variables aleatorias son independientes si los valores que toma una de ellas no afectan a los de la otra ni a sus probabilidades. En muchas ocasiones la independencia será evidente a partir del experimento, por ejemplo, es independiente el resultado del lanzamiento de un dado y el de una moneda tres veces. Por tanto las variables: \\(X_1\\): “Puntuación obtenida con el dado” y \\(X_2\\): “Número de caras obtenidas al lanzar tres veces una moneda” serán variables independientes. En otras ocasiones tenemos una dependencia clara, por ejemplo, al lanzar un dado consideremos las variables \\(Y_1=\\): puntuación del dado, \\(Y_2=\\): variable indicadora de puntuación par. Es evidente que existe una clara dependencia, si sabemos que \\(Y=1\\), la variable \\(X\\) sólo puede tomar los valores 2 , 4 o 6 ; si sabemos que \\(X=3\\), entonces, \\(Y=0\\) forzosamente. Algunas veces podemos suponer la existencia de una cierta relación entre variables, aunque sea en forma algo abstracta y sin concretar. Por ejemplo si realizamos unas mediciones sobre unos individuos, las variables altura en cm y peso en Kg probablemente estarán relacionadas, los valores de una influirán en los valores de la otra. Intentar determinar la naturaleza exacta de la relación entre ambas es lo que en estadística conocemos como un problema de correlación (si nos interesa unicamente la asociación) o de regresión (si uqeremos modelizar una variable en función d ela otra). Si queremos una definición algo más formal, basta con que recordemos que dos sucesos son independientes si la probabilidad de la intersección es igual al producto de probabilidades, aplicando esta definición a sucesos del tipo \\(X \\leq a\\) tenemos la definición siguiente: 4.7.1 Primera caracterización de la independencia Diremos que dos variables aleatorias \\(X\\) e \\(Y\\) son independientes si y sólo si su función de distribución conjunta puede expresarse como el producto de las funciones de distribución marginales, es decir si \\[ F_{X,Y}(x,y)= P\\left( (X \\leq x) \\cap (Y \\leq b)\\right)=P(X \\leq x) \\times P(Y \\leq y)=F_{X}(x) \\times F_{Y}(y) \\] Fijémonos que, como en otros casos, la función que nos permite caracterizar una condición de forma general es la función de distribución. 4.7.1.1 Variables discretas independientes En el caso de las variables discretas la caracterización de la independencia puede hacerse, además, por las funciones de masa de probabilidad: Diremos que dos variables aleatorias discretas \\(X\\) e \\(Y\\) son independientes si y sólo si su función de masa de probabilidad conjunta puede expresarse como el producto de las funciones de masa de probabilidad marginales, es decir si \\[ f_{X,Y}(x,y)= P\\left( (X = x) \\cap (Y = y)\\right)=P(X = x) \\times P(Y = y)=f_{X}(x) \\times f_{Y}(y) \\] 4.7.2 Propiedades de las variables independientes Como consecuencia inmediata de la independencia de \\(X\\) e \\(Y\\), se cumple lo siguiente: \\[ P(a<X \\leq c \\cap b<Y \\leq d)=P(a<X \\leq c) \\cdot P(b<Y \\leq d) \\] Que podría re-enunciarse diciendo que la probabilidad conjunta en un rectangulo definido por los valores “a, c, b, d” es el producto de las probabilidades marginales en los segmentos “ac”, para \\(X\\) y “bd” para \\(Y\\). 4.8 Momentos de vectores aleatorios Una vez hemos introducido los vectores aleatorios, que como hemos señalado, son variables aleatorias bi, tri o \\(n\\)-dimensionales tiene sentido preguntarse como se extienden a dichos vectores los conceptos y propiedades que introdujimos para variables aleatorias unidimensionales. Ya hemos visto como, para las funciones de probabilidad, la función de densidad o la función de distribución, existen extensiones imediatas, la función de densidad conjunta o la función de distribución conjunmta. Hemos visto también que, además de dichas extensiones, aparecen nuevos conceptos, que sólo tienen sentido en dos o más dimensiones, como las funciones de densidad condicionales o funciones de densidad marginales. Al considerar conceptos como la media o la varianza veremos que sucede algo similar: Por un lado conceptos como el de esperanza se extiende imediatamente al vector de medias. Por otro, conceptos como la varianza, han de tener en cuenta ahora, la posibilidad de variación conjunta entre dos o más variables lo que lleva a introducir magnitudes como la covarianza y la correlación. La extensión del concepto de varianza pasa ahora a combinar extensiones y conceptos nuevos en lo que se conoce como matriz de varianzas-covarianzas. 4.8.1 Esperanza de un vector aleatorio o vector de medias La esperanza matemática de un vector aleatorio es un vector que contiene las esperanzas matemáticas de cada una de las componentes de dicho vector. Si tenemos un vector aleatorio bivariante \\(\\mathbf{X}=(X_1,X_2)\\), su esperanza \\(\\mathbb{E}(\\mathbf{X})\\) está dada por: \\[ \\mathbb{E}(\\mathbf{X})= \\begin{pmatrix} \\mathbb{E}(X_1)\\\\ \\mathbb{E}(X_2) \\end{pmatrix} \\] Consideremos un experimento en el que estamos midiendo el nivel de expresión génica de dos genes \\(X_1\\) y \\(X_2\\) en una muestra de células. Si los niveles promedio de expresión son \\(\\mu_1=5\\) y \\(\\mu_2=8\\), entonces la esperanza del vector aleatorio sería: \\[ \\mathbb{E}(\\mathbf{X})= \\begin{pmatrix} 5\\\\ 8 \\end{pmatrix} \\] 4.8.2 Covarianza entre dos variables aleatorias La covarianza entre dos variables aleatorias \\(X_1\\) y \\(X_2\\) es una medida del grado de dependencia lineal entre ellas. La covarianza se define como \\[ \\text{Cov}(X_1,X_2)=\\mathbb{E}[(X_1-\\mathbb{E}(X_1))(X_2-\\mathbb{E}(X_2))] \\] Supongamos que estamos midiendo la cantidad de dos metabolitos \\(X_1\\) y \\(X_2\\) en una muestra, y queremos saber si sus concentraciones tienden a aumentar o disminuir juntas. Si obtenemos una covarianza de 0.5, y conocemos la escala en que varían los datos, podemos concluir que existe ligera tendencia a que los aumentos en \\(X_1\\) estén asociados con aumentos en \\(X_2\\). 4.8.3 Covarianza y correlación El ejemplo anterior es claramente insatisfactorio, puesto que valores de 0.5 pueden sugerir una gran dependencia o cas ninguna, segun cual sea la escala o el rango de variación de los valores que se consideran. Para evitar esta arbitrariedad se introduce la correlación lineal. La correlación entre dos variables aleatorias es una medida estandarizada del grado de dependencia lineal entre dos variables (es decir de lacovarianza), que toma valores entre -1 y 1 y que se define como: \\[ \\text{Corr}(X_1,X_2)=\\frac{\\text{Cov}(X_1,X_2)}{\\sqrt{\\text{Var}(X_1)\\text{Var}(X_2)}} \\] En el caso de los metabolitos mencionados anteriormente, si \\(\\text{Cov}(X_1,X_2)=0.5\\), \\(\\text{Var}(X_1)=2\\) y \\(\\text{Var}(X_2)=3\\), podemos calcular la correlación, que valdría: \\[ \\text{Corr}(X_1,X_2)=\\frac{0.5}{\\sqrt{2\\times 3}}=\\frac{0.5}{\\sqrt{6}}\\approx 0.204 \\] Esto indica una correlación positiva débil entre las concentraciones de los dos metabolitos. Obsérvese, sin embargo que si en vez de los valores anteriores para las varianzas de \\(X\\) e \\(Y\\) hubiéramos tenido \\(\\text{Var}(X_1)=1\\) y \\(\\text{Var}(X_2)=.5\\) el valor de la correlación habría sido: \\[ \\text{Corr}(X_1,X_2)=\\frac{0.5}{\\sqrt{1\\times 0.5}}=\\frac{0.5}{\\sqrt{0.5}}\\approx 0.7071 \\] Este ejemplo muestra como la correlación aporta más información sobre la dependencia lineal, puesto que, además de tener en cuenta la variación conjunta, tiene en cuenta la variabilidad individual de cada componente. 4.8.4 Matriz de varianzas-covarianzas La matriz de varianzas-covarianzas de un vector aleatorio \\(\\mathbf{X}=(X_1,X_2)\\) es una matriz que contiene las varianzas de las componentes en la diagonal y las covarianzas fuera de la diagonal. Está definida como: \\[ \\text{Cov}(\\mathbf{X})= \\begin{pmatrix} \\text{Var}(X_1)&\\text{Cov}(X_1,X_2)\\\\ \\text{Cov}(X_2,X_1)&\\text{Var}(X_2) \\end{pmatrix} \\] Siguiendo con el ejemplo de los metabolitos, si \\(\\text{Var}(X_1)=2\\), \\(\\text{Var}(X_2)=3\\), y la covarianza es \\(0.5\\), la matriz de covarianzas sería: \\[ \\text{Cov}(\\mathbf{X})= \\begin{pmatrix} 2&0.5\\\\ 0.5&3 \\end{pmatrix} \\] Esto nos indica la dispersión de cada variable y la relación entre ambas. La distribución normal bivariante Una de las distribuciones más importantes que describe el comportamiento conjunto de dos variables aleatorias es la distribución normal bivariante. Un vector aleatorio \\(\\mathbf{X}=(X_1,X_2)\\) tiene una distribución normal bivariante si su función de densidad conjunta está dada por: \\[ f(x_1,x_2)=\\frac{1}{2\\pi\\sigma_1\\sigma_2\\sqrt{1-\\rho^2}}\\exp\\left(-\\frac{1}{2(1-\\rho^2)}\\left[\\frac{(x_1-\\mu_1)^2}{\\sigma_1^2}-2\\rho\\frac{(x_1-\\mu_1)(x_2-\\mu_2)}{\\sigma_1\\sigma_2}+\\frac{(x_2-\\mu_2)^2}{\\sigma_2^2}\\right]\\right) \\] Aquí, \\(\\mu_1\\) y \\(\\mu_2\\) son las medias de \\(X_1\\) y \\(X_2\\), \\(\\sigma_1^2\\) y \\(\\sigma_2^2\\) son las varianzas, y \\(\\rho\\) es el coeficiente de correlación. 4.8.5 Matriz de correlaciones La matriz de correlaciones de un vector aleatorio bivariante \\(\\mathbf{X}=(X_1,X_2)\\) es una matriz simétrica \\(2\\times 2\\) que contiene los coeficientes de correlación entre las componentes \\(X_1\\) y \\(X_2\\). La correlación mide la relación lineal entre las variables y se define como: \\[ \\text{Corr}(X_1,X_2)=\\frac{\\text{Cov}(X_1,X_2)}{\\sqrt{\\text{Var}(X_1)\\text{Var}(X_2)}} \\] La matriz de correlaciones \\(\\text{Corr}(\\mathbf{X})\\) está dada por: \\[ \\text{Corr}(\\mathbf{X})= \\begin{pmatrix} 1 & \\text{Corr}(X_1,X_2)\\\\ \\text{Corr}(X_2,X_1) & 1 \\end{pmatrix} \\] Dado que \\(\\text{Corr}(X_1,X_2)=\\text{Corr}(X_2,X_1)\\), la matriz es simétrica, y los elementos diagonales son siempre \\(1\\) porque la correlación de una variable consigo misma es \\(1\\). 4.8.5.1 Relación con la matriz de covarianzas La matriz de correlaciones está relacionada con la matriz de covarianzas de la forma siguiente: Si \\(\\Sigma\\) es la matriz de covarianzas de \\(\\mathbf{X}=(X_1,X_2)\\), con \\(\\Sigma=\\begin{pmatrix} \\text{Var}(X_1) & \\text{Cov}(X_1,X_2)\\\\ \\text{Cov}(X_2,X_1) & \\text{Var}(X_2) \\end{pmatrix}\\), la matriz de correlaciones se obtiene “normalizando” cada covarianza dividiendo por el producto de las desviaciones estándar de las respectivas variables: \\[ \\text{Corr}(\\mathbf{X})= \\begin{pmatrix} 1 & \\frac{\\text{Cov}(X_1,X_2)}{\\sigma_1\\sigma_2}\\\\ \\frac{\\text{Cov}(X_2,X_1)}{\\sigma_1\\sigma_2} & 1 \\end{pmatrix} \\] donde \\(\\sigma_1=\\sqrt{\\text{Var}(X_1)}\\) y \\(\\sigma_2=\\sqrt{\\text{Var}(X_2)}\\). Supongamos que medimos dos variables, como la altura \\(X_1\\) y el peso \\(X_2\\) de un grupo de personas. Sabemos que: \\(\\text{Var}(X_1)=25\\) (varianza de la altura), \\(\\text{Var}(X_2)=100\\) (varianza del peso), \\(\\text{Cov}(X_1,X_2)=40\\) (covarianza entre altura y peso). La matriz de covarianzas sería: \\[ \\Sigma= \\begin{pmatrix} 25 & 40\\\\ 40 & 100 \\end{pmatrix} \\] La correlación entre \\(X_1\\) y \\(X_2\\) se calcula como: \\[ \\text{Corr}(X_1,X_2)=\\frac{40}{\\sqrt{25 \\times 100}}=\\frac{40}{50}=0.8 \\] Por lo tanto, la matriz de correlaciones será: \\[ \\text{Corr}(\\mathbf{X})= \\begin{pmatrix} 1 & 0.8\\\\ 0.8 & 1 \\end{pmatrix} \\] Esto indica una fuerte correlación positiva entre la altura y el peso de las personas en este grupo. La matriz de correlaciones nos proporciona una forma normalizada de comparar la dependencia entre las variables, sin depender de las unidades de medida. 4.8.6 Segunda caracterización de la independencia La independencia entre dos variables aleatorias \\(X_1\\) y \\(X_2\\) puede caracterizarse también a través de sus esperanzas de la siguiente manera: Dos variables son independientes si la esperanza del producto de ambas es igual al producto de las esperanzas de cada una por separado. Es decir si se verifica que: \\[ \\mathbb{E}[X_1 X_2] = \\mathbb{E}[X_1] \\mathbb{E}[X_2] \\] Esta propiedad refleja que, cuando las variables son independientes, el valor esperado del producto no se ve afectado por la interacción entre ellas, lo que implica que no hay dependencia entre las dos. Una consecuencia importante de esta propiedad es cómo afecta a la covarianza entre \\(X_1\\) y \\(X_2\\). Si \\(X_1\\) y \\(X_2\\) son independientes, entonces, por la propiedad anterior, \\(\\mathbb{E}[X_1 X_2] = \\mathbb{E}[X_1] \\mathbb{E}[X_2]\\) lo que, a su vez, significa que la covarianza es cero: \\[ \\text{Cov}(X_1, X_2) = \\mathbb{E}[X_1]\\mathbb{E}[X_2] - \\mathbb{E}[X_1]\\mathbb{E}[X_2] = 0 \\] Por lo tanto, si dos variables son independientes, necesariamente su covarianza es cero. Sin embargo, la inversa no es cierta: el hecho de que la covarianza sea cero no implica que las variables sean independientes. 4.8.7 Relación entre incorrelación e independencia Cuando la covarianza entre dos variables es cero, se dice que las variables son incorreladas. Aunque la independencia implica que las variables son incorreladas, lo contrario no siempre es verdad: dos variables pueden ser incorreladas (tener covarianza cero) pero no independientes. Un ejemplo clásico es el siguiente: si consideramos una variable aleatoria \\(X\\) y definimos \\(Y = X^2\\), entonces, aunque la covarianza entre \\(X\\) y \\(Y\\) puede ser cero (especialmente si \\(X\\) tiene una distribución simétrica alrededor de 0, como la normal estándar), \\(X\\) y \\(Y\\) no son independientes, porque el valor de \\(Y\\) está completamente determinado por \\(X\\). Consideremos dos variables aleatorias \\(X_1\\) y \\(X_2\\) que siguen una distribución normal conjunta bivariante con media cero: \\[ (X_1, X_2) \\sim \\mathcal{N}\\left(\\mathbf{0}, \\Sigma \\right) \\] Si la matriz de covarianzas \\(\\Sigma\\) es diagonal, es decir, \\(\\text{Cov}(X_1, X_2) = 0\\), entonces \\(X_1\\) y \\(X_2\\) son incorreladas. En este caso particular, cuando las variables son normales, la incorrelación sí implica independencia, porque en distribuciones normales la ausencia de correlación (covarianza cero) también implica que no hay ninguna dependencia entre las variables. Sin embargo, en otras distribuciones que no son normales, la incorrelación no garantiza la independencia, lo que subraya la importancia de distinguir entre los dos conceptos. "],["grandes-muestras.html", "Capítulo 5 Grandes muestras 5.1 Introducción: Aproximaciones asintóticas 5.2 Leyes de los grandes números 5.3 El teorema central del límite", " Capítulo 5 Grandes muestras Este capítulo está pendiente de revisión, para corregir posibles problemas derivados de la importación, desde la antigua version en HTML, a la versión actual. Estos problemas siempre serán estéticos y no conceptuales, por lo que la lectura del texto en su estado actual no inducirá a errores conceptuales en ningún caso. La primera sección, además, está pendiente de ser introducida en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). 5.1 Introducción: Aproximaciones asintóticas 5.1.1 Convergencia de variables aleatorias 5.2 Leyes de los grandes números 5.3 El teorema central del límite El teorema central del límite (a partir de ahora, TCL) presenta un doble interés. Por un lado, proporciona a la estadística un resultado crucial para abordar el estudio de la distribución asintótica de muchos tipos de variables aleatorias. Como se verá en próximos capítulos, va a resultar básico en la construcción de contrastes de hipótesis y de intervalos de confianza, dos herramientas esenciales en estadística aplicada. Además, el TCL proporciona una explicación teórica fundamentada a un fenómeno habitual en experimentos reales: las variables estudiadas presentan muchas veces una distribución empírica aproximadamente normal. El TCL forma parte de un conjunto de propiedades relativas a las convergencias de variables aleatorias. En este tema se estudia sólo un tipo de convergencia, la convergencia en ley, ya que es necesaria para entender el enunciado del TCL. Se descarta, pues, en este documento el estudio de los otros tipos de convergencias (en probabilidad, casi segura, etc.) y el estudio de las leyes de los grandes números. Posiblemente el lector con poca formación en análisis matemático hallará alguna dificultad en la primera lectura de la definición de convergencia en ley y en el enunciado del TCL. Si es este el caso, los ejemplos incluidos han de ayudar en su comprensión. Consideramos al TCL un resultado básico con el que hay que familiarizarse, ya que se aplicará repetidamente en los próximos temas. 5.3.1 Sumas de variables aleatorias El TCL estudia el comportamiento de las sumas de variables aleatorias. En temas anteriores se han visto ya ejemplos de sumas de variables aleatorias. Formalmente, la suma de dos variables aleatorias corresponde a la siguiente aplicación: si \\(X_{1}\\) y \\(X_{2}\\) son dos variables aleatorias definidas sobre \\(\\Omega\\), la suma es: \\[ \\begin{aligned} X_{1}+X_{2}: & \\Omega \\rightarrow \\mathbb{R} \\\\ & \\omega \\mapsto X_{1}(\\omega)+X_{2}(\\omega) \\end{aligned} \\] La suma de dos variables puede extenderse sin dificultad a sumas de tres, cuatro,… y, en general, \\(n\\) variables aleatorias. El TCL se ocupa de las sucesiones de variables aleatorias. En el contexto del TCL una sucesión corresponde a un conjunto donde el primer elemento es una variable aleatoria, el segundo elemento es la suma de dos variables aleatorias, el tercero es la suma de tres variables aleatorias, y así sucesivamente. Una sucesión es un conjunto de elementos infinitos, que se designan simbólicamente mediante \\(\\left\\{X_{n}\\right\\}\\). Cada uno de los elementos de la sucesión (que es una variable aleatoria) lleva asociada una determinada función de distribución: \\[ X_{n} \\rightarrow F_{n} \\] Así pues, la sucesión de variables aleatorias lleva asociada una secuencia paralela de funciones de distribución. En los ejemplos se presentan sumas de variables aleatorias de diferentes tipos. 5.3.1.1 Presentación de los ejemplos Ejemplo 1: sumas de variables binomiales. Ejemplo 2: sumas de variables Poisson. Ejemplo 3: sumas de \\(n\\) puntuaciones de dados. Ejemplo 4: sumas de variables uniformes. Ejemplo 5: sumas de variables exponenciales. 5.3.2 Definición de convergencia en ley La siguiente definición se ocupa del comportamiento de las sucesiones. Sea \\(\\left\\{X_{n}\\right\\}\\) una sucesión de variables aleatorias, y sea \\(\\left\\{F_{n}\\right\\}\\) la correspondiente sucesión de funciones de distribución. Se dice que \\(\\left\\{X_{n}\\right\\}\\) converge en ley a una variable aleatoria \\(X\\) de función de distribución \\(F\\) si: \\[ \\lim _{n \\rightarrow \\infty} F_{n}(x)=F(x) \\quad \\text { para todo } \\mathrm{x} \\text { donde } F \\text { es contínua. } \\] Se indica que la sucesión converge en ley mediante el símbolo: \\[ X_{n} \\stackrel{\\mathrm{L}}{\\rightarrow} X \\] El significado de la definición es que, al aumentar arbitrariamente \\(n\\), las sucesivas funciones de distribución de la secuencia se aproximan a la distribución \\(F\\) de la variable \\(X\\). En los ejemplos se presentan gráficamente algunas situaciones donde diferentes sucesiones de variables aleatorias convergen en ley a una variable aleatoria normal. 5.3.2.1 Representación gráfica de la convergencia Ejemplo 1: primeros elementos de una sucesión de sumas de variables binomiales. Ejemplo 2: primeros elementos de una sucesión de sumas de variables Poisson. Ejemplo 3: primeros elementos de una sucesión de sumas de variables discretas. Ejemplo 4: primeros elementos de una sucesión de sumas de variables uniformes. Ejemplo 5: primeros elementos de una sucesión de sumas de variables exponenciales. 5.3.3 Enunciado del teorema central del límite A continuación se presenta el enunciado del TCL en la versión de Lindeberg y Lévy. Teorema: Sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\), un conjunto de variables aleatorias independientes idénticamente distribuidas, cada una de ellas con función de distribución \\(F\\), y supongamos que \\(E\\left(X_{k}\\right)\\) \\(=\\mu \\mathrm{y} \\operatorname{var}\\left(X_{k}\\right)=\\sigma^{2}\\) para cualquier elemento del conjunto. Si designamos a la suma normalizada de \\(n\\) términos con el símbolo: \\[ S_{n}^{*}=\\frac{X_{1}+X_{2}+\\cdots+X_{n}-n \\mu}{\\sigma \\sqrt{n}} \\] entonces la sucesión de sumas normalizadas converge en ley a la variable aleatoria normal tipificada \\(\\mathrm{Z} \\sim N(0,1)\\), es decir: \\[ S_{n}^{*} \\xrightarrow{\\mathrm{L}} \\] El teorema anterior tiene dos importantes corolarios: Si consideramos la suma ordinaria de las \\(n\\) variables aleatorias, es decir, \\(S_{n}=X_{1}+X_{2}+\\ldots+X_{n}\\), entonces la sucesión de sumas ordinarias converge en ley a una normal de media \\(n \\mu\\) y varianza \\(n \\sigma^{2}\\). Si consideramos el promedio de las \\(n\\) variables aleatorias, es decir, \\(n^{-1} S_{n}\\), entonces la sucesión de promedios converge en ley a una normal de media \\(\\mu\\) y varianza \\(n^{-1} \\sigma^{2}\\). 5.3.3.1 Comentarios al teorema: La convergencia a la normal tipificada se produce con cualquier tipo de variable que cumpla las condiciones del teorema, sea discreta o absolutamente continua. Un sinónimo para indicar que una sucesión converge en ley a una normal es señalar que es asintóticamente normal. El TCL presenta el comportamiento de sumas infinitas de variables aleatorias. Veremos posteriormente como interpretar el resultado para valores finitos. Existen otras versiones del TCL dónde se relajan las condiciones de la versión de Lindeberg y Lévy, que, como se ha visto, obliga a las variables aleatorias a tener idénticas medias y varianzas. Dichas versiones del TCL necesitan el conocimiento de conceptos matemáticos que exceden el nivel al que se orienta Statmedia, y por esta razón se omite su enunciado. 5.3.4 Aplicación del TCL a los ejemplos Ejemplo 1: normalidad asintótica de la Binomial. Ejemplo 2: normalidad asintótica de la Poisson. Ejemplo 3: normalidad asintótica de la suma de puntuaciones de un dado. Ejemplo 4: normalidad asintótica de la suma de uniformes. Ejemplo 5: normalidad asintótica de la suma de exponenciales. 5.3.5 Casos particulares más notables Aunque el TCL tiene multitud de casos particulares interesantes, son especialmente relevantes para el desarrollo de los próximos temas los siguientes casos: 5.3.5.1 Promedio de \\(\\boldsymbol{n}\\) variables aleatorias Al considerar \\(n\\) variables independientes, todas con la misma distribución, cada una de ellas con esperanza igual a \\(\\mu\\) y varianza igual a \\(\\sigma^{2}\\), el promedio es asintóticamente normal con media \\(\\mu\\) y varianza \\(n^{-1} \\sigma^{2}\\). Este resultado proporciona una distribución asintótica a la media de \\(n\\) observaciones en el muestreo aleatorio simple que se estudiará en el próximo tema. 5.3.5.2 Binomial de parámetros \\(n\\) y \\(p\\) Es asintóticamente normal con media \\(n p\\) y varianza \\(n p\\) (1-p). Históricamente (de Moivre, 1733), es el primer resultado demostrado de convergencia a una normal. 5.3.5.3 Poisson de parámetro \\(n \\lambda\\) Es asintóticamente normal con media \\(n \\lambda\\) y varianza \\(n \\lambda\\). 5.3.6 Interpretación del teorema central del límite El TCL hace referencia a sucesiones infinitas, por tanto, la igualdad de las distribuciones se alcanza sólo en el límite, y hace mención a una distribución final teórica o de referencia. Sin embargo, puede utilizarse esta distribución final de referencia para aproximar distribuciones correspondientes a sumas finitas. Algunos casos particulares importantes (binomial, Poisson, etc.) alcanzan grados de aproximación suficientes para sumas con no demasiados términos. Los resultados que se indican a continuación son, por tanto, aproximaciones que se consideran usualmente suficientes, pero conllevan errores numéricos de aproximación. Binomial: aproximar si \\(n \\geq 30\\) y \\(0.1 \\leq p \\leq 0.9\\) a una normal de media \\(n p\\), varianza \\(n p(1-p)\\). Ver aquí más detalles. Poisson: aproximar si \\(\\lambda \\geq 10\\) a una normal de media \\(\\lambda\\) y varianza \\(\\lambda\\). Ver aquí más detalles. Para evaluar aproximadamente el error cometido en las aproximaciones, puede consultarse los cuadros gráficos de los ejemplos de este tema. El TCL permite aproximar funciones de distribución, independientemente del carácter (continuo o discreto) de las variables sumadas. No sirve, por tanto, para aproximar la funciones de densidad discretas por una normal. En el caso continuo sí puede establecerse también una convergencia de las densidades asociadas. Finalmente, es conveniente mencionar que existen resultados teóricos que permiten estudiar la velocidad de convergencia de una suma de variables aleatorias a la normal, sin embargo la dificultad técnica que conllevan trasciende el nivel marcado para el conjunto de documentos marcado para Statmedia. 5.3.7 Aproximaciones y errores numéricos Ejemplo 1: error en la aproximación de la binomial. Ejemplo 2: error en la aproximación de la Poisson. Ejemplo 3: error en la aproximación de la suma de puntuaciones de un dado. Ejemplo 4: error en la aproximación de la suma de uniformes. Ejemplo 5: error en la aproximación de la suma de exponenciales. 5.3.8 Acerca de las variables aproximadamente normales En general, cuando se estudia en experimentos reales una determinada variable no se conoce su distribución teórica. Sin embargo, puede establecerse su distribución empirica a partir de una muestra más o menos amplia. Una forma habitual de presentar la distribución empírica es construir el histograma de clases de dicha variable. Es un hecho conocido desde el siglo XIX que esta distribución empírica presenta muchas veces una forma que es aproximadamente normal. Por ejemplo, al realizar un estudio sobre el peso de adultos varones de dieciocho años en Catalunya, se observó la distribución siguiente en la muestra: El TCL permite dar una explicación a este fenómeno. La variable peso de un adulto viene determinada en cada individuo por la conjunción de multitud de diferentes factores. Algunos de estos factores son ambientales (dietas, ejercicio, enfermedades, etc.) y otros son congénitos. Con el nivel actual de conocimiento no se pueden desglosar completamente todos los factores que intervienen, pero puede aceptarse en cambio que la variable peso es el resultante de la suma de diferentes variables primarias, congénitas o ambientales, y que posiblemente no todas tienen el mismo grado de influencia. Seguramente, estas variables primarias tampoco tienen la misma media, varianza o, incluso, la misma distribución. La versión del TCL que se ha presentado aquí exige estas condiciones para la convergencia a la normal, pero, como ya se ha comentado antes otras versiones más elaboradas del TCL permiten modelar la suma de variables de forma menos restringida. En este contexto, al considerar la variable peso como una suma más o menos extensa (pero finita) de diferentes variables primarias, es esperable que ocurra que la variable resultante, el peso, siga una distribución aproximadamente normal. De forma similar es explicable la normalidad aproximada que se observa en muchas variables biométricas (pesos, alturas, longitudes, concentraciones de metabolitos, distribuciones de edad, etc.) así cómo en muchos otros contextos (distribución de rentas, errores de medición, etc.). A pesar de esta ubicuidad de la distribución normal, el lector no debe inferir que es forzosamente, ni mucho menos, la distribución de referencia en todo estudio aplicado. "],["introducción-a-la-inferencia-estadística.html", "Capítulo 6 Introducción a la inferencia estadística 6.1 Los problemas de la inferencia estadística. 6.2 Muestreo y distribuciones en el muestreo. 6.3 La verosimilitud y su papel en la inferencia estadística 6.4 El problema de la estimación. Tipos de estimadores. 6.5 Métodos de obtención de estimadores. Estimadores máximo verosímiles y estimadores bayesianos. 6.6 Propiedades de los estimadores.", " Capítulo 6 Introducción a la inferencia estadística Este capítulo está pendiente de ser introducido en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se plantean los problemas que trata la inferencia. Se relaciona con el capítulo anterior a través de la idea del muestreo aleatorio simple y las distribuciones en el muestreo. Se plantea el problema de la estimación como una forma de aproximación a las características de las distribucionesa partir de muestras aleatorias simples. Se abordan las distintas formas de construcción de estimadores. 6.1 Los problemas de la inferencia estadística. 6.2 Muestreo y distribuciones en el muestreo. 6.3 La verosimilitud y su papel en la inferencia estadística 6.4 El problema de la estimación. Tipos de estimadores. 6.5 Métodos de obtención de estimadores. Estimadores máximo verosímiles y estimadores bayesianos. 6.6 Propiedades de los estimadores. "],["estimación-por-intérvalos.html", "Capítulo 7 Estimación por intérvalos 7.1 Preliminares: estimación del error estándar e Introducción al bootstrap 7.2 Estimadores por intervalo: intervalos de confianza 7.3 Intervalos de confianza para características de una población normal (media, varianza), 7.4 Intervalos de confianza bootstrap. 7.5 Intervalos de confianza para proporciones binomiales 7.6 Intervalos de confianza para parámetros en muestra grandes y para casos generales (tasas, OR, …) 7.7 Aplicaciones: cálculo del tamaño muestral", " Capítulo 7 Estimación por intérvalos Este capítulo está pendiente de ser introducido en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se plantea el problema de la estimación como una forma de aproximación a las características de las distribucionesa partir de muestras aleatorias simples. Se abordan las distintas filosofías para la construcción de estimadores. 7.1 Preliminares: estimación del error estándar e Introducción al bootstrap 7.2 Estimadores por intervalo: intervalos de confianza 7.3 Intervalos de confianza para características de una población normal (media, varianza), 7.4 Intervalos de confianza bootstrap. 7.5 Intervalos de confianza para proporciones binomiales 7.6 Intervalos de confianza para parámetros en muestra grandes y para casos generales (tasas, OR, …) 7.7 Aplicaciones: cálculo del tamaño muestral "],["pruebas-de-hipótesis.html", "Capítulo 8 Pruebas de hipótesis 8.1 Conceptos básicos: pruebas de hipótesis y de significación, pruebas unilaterales y bilaterales, tipos de error, valores críticos de test y p-valores 8.2 Potencia de un test. Cálculos de potencia y de tamaño de la muestra. Tamaño del efecto. 8.3 Métodos de construcción de tests. 8.4 Problemas asociados al uso de tests estadísticos. La crisis de la significación", " Capítulo 8 Pruebas de hipótesis Este capítulo está pendiente de ser introducida en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se plantea el problema de las pruebas de hipótesis. Se discuten las aproximaciones y los conceptos asociados. Se trata el problema de la crisis de la significación. 8.1 Conceptos básicos: pruebas de hipótesis y de significación, pruebas unilaterales y bilaterales, tipos de error, valores críticos de test y p-valores 8.2 Potencia de un test. Cálculos de potencia y de tamaño de la muestra. Tamaño del efecto. 8.3 Métodos de construcción de tests. 8.4 Problemas asociados al uso de tests estadísticos. La crisis de la significación "],["inferencia-aplicada.html", "Capítulo 9 Inferencia Aplicada 9.1 Pruebas de normalidad.Pruebas gráficas. El test de Shapiro-Wilks 9.2 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas paramètricas t-test y Anova 9.3 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas de hipótesis no paramétricas de Wilcoxon y Kruskal-Wallis 9.4 Contrastes para datos categóricos. Pruebas binomiales, ji cuadrado y test de Fisher. 9.5 Riesgo relativo y razón de «odds»", " Capítulo 9 Inferencia Aplicada Este capítulo está pendiente de ser introducida en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se muestra como deducir y aplicar algunos de los tests mas populares. 9.1 Pruebas de normalidad.Pruebas gráficas. El test de Shapiro-Wilks 9.2 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas paramètricas t-test y Anova 9.3 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas de hipótesis no paramétricas de Wilcoxon y Kruskal-Wallis 9.4 Contrastes para datos categóricos. Pruebas binomiales, ji cuadrado y test de Fisher. 9.5 Riesgo relativo y razón de «odds» "],["computación-intensiva-y-multiple-testing.html", "Capítulo 10 Computación Intensiva y Multiple Testing 10.1 Tests de permutaciones; ¿Qué?, ¿Cuándo?, ¿Cómo? 10.2 El bootstrap en contraste de hipótesis 10.3 El problema de las comparaciones múltiples 10.4 Métodos de control de error: FWER y FDR", " Capítulo 10 Computación Intensiva y Multiple Testing Este capítulo está pendiente de ser introducida en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se introducen distintos métodos cuyo nexo común es la computación intensiva. 10.1 Tests de permutaciones; ¿Qué?, ¿Cuándo?, ¿Cómo? 10.2 El bootstrap en contraste de hipótesis 10.3 El problema de las comparaciones múltiples 10.4 Métodos de control de error: FWER y FDR "],["404.html", "Page not found", " Page not found The page you requested cannot be found (perhaps it was moved or renamed). You may want to try searching to find the page's new location, or use the table of contents to find the page you are looking for. "]] +[["index.html", "Fundamentos de Inferencia Estadistica Presentación Objetivo Prerequisitos y organización del material Referencias", " Fundamentos de Inferencia Estadistica Alex Sanchez Pla y Santiago Pérez Hoyos 2024-10-21 Presentación Objetivo El objetivo de estas notas es presentar un material de soporte para la asignatura de “Inferencia Estadística” del Máster interuniversitario de Bioiestadística y Bioinformática impartido conjuntamente por la Universitat Oberta de Catalunya (UOC) y la Universidad de Barcelona (UB). Esta asignatura adolece de las características habituales de las asignaturas de posgrado, y especialmente de un posgrado de estadística (y bioinformática), que muestran algunas de las cosas que no debe de ser esta asignatura: No puede ser un primer curso de estadística, porque se supone que los estudiantes del máster ya lo han cursado en sus grados. Por no decir que, a quien viene a especializarse en estadística se le puede suponer una base mínima. Tampoco debe ser como los segundos cursos de estadística de algunos grados, que tratan temas como la regresión, el diseño de experimentos o el análisis multivariante, porque esto ya se trata en diversas asignaturas del máster. ¿Que debemos pues esperar que sea este curso? Puestos a pedir, este curso debería servir para repasar y consolidar los conceptos básicos que la mayoría de estudiantes traerán consigo. Además, y sobretodo, debe proporcionar una visión general, lo más completa posible dentro de las limitaciones de tiempo, del campo de la inferencia estadística Y, naturalmente, esto significa proporcionar aquellos conceptos sobre los que se apoyaran muchas de las restantes asignaturas como “Regresión modelos y métodos”, “Diseño de Experimentos”, “Análisis Multivariante”, “Análisis de la Supervivencia” o “Análisis de datos ómicos”. Prerequisitos y organización del material Uno de los problemas “eternos” en el estudio de la estadística ha sido siempre la falta de acuerdo, entre la comunidad de docentes, de cual debería ser el nivel matemático a que se impartan los cursos. En los cursos de pre-grado ha habido un cierto consenso, y con los años el nivel de formalismo ha disminuido, incluso en estudios de tipo “STEM”, tendiendo a centrarse en la aplicación de los conceptos, por ejemplo usando R, más que en un tratamiento formal (“matemático”) de los mismos. Aunque esto puede ser práctico para aquellos estudios en los que la estadística és una asignatura de un grado, es también obvio que dicha aproximación no permite profundizar en muchos de los puntos que se tratan. Es por ello que en este curso seguiremos la indicación habitual en cursos similares de asumir que el estudiante: Se siente comodo con el lenguaje algebráico, desarrollo de expresiones, sumatorios etc. Está familiarizado con el cálculo diferencial en una o varias variables, aunque esta familiaridad no será imprescindible para seguir la mayoría de los contenidos del curso. Conoce el lenguaje estadístico R, que en muchas ocasiones nos ofrecerá una solución directa a los problemas de cálculo. Referencias Los prerequisitos anteriores corresponden básicamente a las matemáticas del bachilerato. Algunas funetes adiconales pueden ser: Iniciación a las matemáticas para la ingeniería. M. Besalú y Joana Villalonga Colección de (100) videos de soporte a las matemáticas para la ingeniería "],["agradecimiento-y-fuentes-utilizadas.html", "Agradecimiento y fuentes utilizadas El proyecto Statmedia Otros materiales utilizados", " Agradecimiento y fuentes utilizadas Salvo que uno desee escribir un libro sobre algo muy extraño, siempre habran otros libros o manuales similares al que se está planteando. La respuesta a la pregunta, “Y entonces, ¿porque hacer un nuevo matrerial?” suele ser más una excusa que una explicación sólida. Una posible razón puede ser para ajustarlo al máximo al perfil del curso para al que se destinan dichos materiales, condición que otros textos, pensados para cursos y audiencias distintas, pueden no satisfacer. En este caso adoptaremos esta explicación y el tiempo decidirá si el objetivo se alcanza. Dicho esto, debemos agradecer a las distintas fuentes utilizadas, el que hayan puesto a disposición sus materiales para poder reutilizarlos. Entre estos destacamos: El proyecto Statmedia Statmedia es un grupo de innovación docente de la Universidad de Barcelona, cuyo objetivo es desarrollar nuevas herramientas que ayuden en la enseñanza de la estadística aplicada, mejorando así el rendimiento académico de los alumnos y su motivación hacia la estadística. Partiendo de la idea que el aprendizaje debe basarse en casos prácticos para motivar y fomentar la participación de los estudiantes. Se desarrolló primer proyecto, Statmedia I, un texto multimedia de estadística que además de los contenidos, relativamente ampliados, para un curso de introducción a la estadística, incorporaba: Una serie de casos para motivar e ilustrar los conceptos introducidos. Un conjunto de gadgets interactivos con los que interactuar y experimentar y Ejercicios de respuesta múltiple para verificar los conceptos trabajados. Aunque el proyecto Statmedia ha seguido evolucionando en múltiples direcciones, Statmedia I, como tantos otros, no sobrevivió al desarrollo tecnológico, y la evolución (o decadencia) del lenguaje Java lo llevó a dejar de ser funcional. Para estos apuntes hemos recuperado, y en ocasiones adaptado o modificado, algunos de los contenidos de Statmedia I, que habían estado escritos con gran pulcritud. Esto se ha hecho siguiendo las indicaciones de la licencia (CC-Share-alike) que permite adaptar contenidos atribuyendolo a sus autores y citando la fuente. Los gadgets originales ya no son funcionales pero muchos de ellos han sido re-escritos en R como aplicaciones Shiny (disponibles en: https://grbio.upc.edu/en/software/teaching_apps) y se enlazaran desde los puntos necesarios del texto. Dejando aparte (además) de la licencia, vaya nuestro agradecimiento explícito al equipo de profesores del Departamento de Estadística de la Universidad de Barcelona, redactor de la versión inicial del proyecto, que es la que hemos utilizado: Antonio Arcas Pons, Miquel calvo Llorca, Antonio Miñarro Alonso, Sergi Civit Vives y Angel Vilarroya del Campo. Antoni Arcas, Antonio Miñarro and Miguel Calvo (2008) Statmedia projects in Statistical Education Otros materiales utilizados Alex Sanchez y Francesc Carmona (2002). Apunts d’Estadística Matemàtica Licencia CC0 1.0 Universal Molina Peralta, I. and García-Portugués, E. (2024). A First Course on Statistical Inference. Version 2.4.1. ISBN 978-84-09-29680-4. Licencia CC BY-NC-ND 4.0 Peter K. Dunn (2024) The theory of distributions. Licencia CC BY-NC-ND 4.0 "],["probabilidad-y-experimentos-aleatorios.html", "Capítulo 1 Probabilidad y Experimentos aleatorios 1.1 Introducción 1.2 Función de probabilidad 1.3 ¿Cómo se calculan las probabilidades? 1.4 Sucesos elementales y sucesos observables 1.5 Propiedades inmediatas de la probabilidad 1.6 Espacios de probabilidad 1.7 Probabilidad condicionada 1.8 Dos Teoremas importantes 1.9 Introducción a los experimentos múltiples 1.10 Combinatoria 1.11 Frecuencia relativa y probabilidad 1.12 Caso de Estudio: Eficacia de una prueba diagnóstica", " Capítulo 1 Probabilidad y Experimentos aleatorios 1.1 Introducción 1.1.1 Fenómenos deterministas y fenómenos aleatorios Supongamos que disponemos de un dado regular con todas las caras pintadas de blanco y con un número, que irá de 1 a \\(6 \\sin\\) repetir ninguno, en cada una de las seis caras. Definamos los dos experimentos siguientes: Experimento 1: Tirar el dado y anotar el color de la cara resultante. Experimento 2: Tirar el dado y anotar el número de la cara resultante. ¿Qué diferencia fundamental observamos entre ambos experimentos? Muy simple! En el experimento 1, el resultado es obvio: saldrá una cara de color blanco. Es decir, es posible predecir el resultado. Se trata de un experimento o fenómeno determinista. En cambio, en el experimento 2 no podemos predecir cuál será el valor resultante. El resultado puede ser : \\(1,2,3,4,5\\) o 6 . Se trata de un experimento o fenómeno aleatorio. El conjunto de resultados se anotará con el símbolo: \\(\\Omega\\). En este caso, \\(\\Omega=\\{1,2,3,4,5,6\\}\\). En los fenómenos aleatorios, al hacer muchas veces la experiencia, la frecuencia relativa de cualquier elemento del conjunto de resultados debe aproximarse siempre hacia un mismo valor. 1.1.2 Sucesos Supongamos que se ejecuta un experimento aleatorio. Se nos puede ocurrir emitir un enunciado que, una vez realizada la experiencia, pueda decirse si se ha verificado o no se ha verificado. A dichos enunciados los denominamos sucesos. Por otro lado, los sucesos van asociados a subconjuntos del conjunto de resultados. Cada suceso se corresponderá exactamente con uno, y sólo con un, subconjunto del conjunto de resultados. Veamos un ejemplo: Experimento: Tirar un dado regular. Conjunto de resultados : \\(\\Omega=\\{1,2,3,4,5,6\\}\\) Enunciado: Obtener múltiplo de 3. Subconjunto al que se asocia el enunciado: \\(A=\\{3,6\\}\\) Nos referiremos habitualmente al suceso A. 1.1.2.1 Sucesos y conjuntos Al conjunto de resultados \\(\\Omega\\), se le denomina suceso seguro. Al conjunto Ø ( conjunto sin elementos), se le denomina suceso imposible. Al complementario del conjunto \\(\\mathrm{A}\\left(\\mathrm{A}^{\\mathrm{c}}\\right)\\), se le denomina suceso contrario o complementario de \\(A\\). A partir de dos sucesos A y B, podemos formar los sucesos siguientes: A intersección B, que anotaremos como: \\[ A \\cap B \\] A unión B, que anotaremos como: \\[ A \\cup B \\] A intersección B, significa que se verifican a la vez A y B. A unión B, significa que se verifica \\(A\\) o \\(B\\) ( se pueden verificar a la vez). 1.2 Función de probabilidad Lógicamente, una vez tenemos un suceso, nos preocupa saber si hay muchas o pocas posibilidades de que al realizar la experiencia se haya verificado. Por lo tanto, sería interesante el tener alguna función que midiera el grado de confianza a depositar en que se verifique el suceso. A esta función la denominaremos función de probabilidad. La función de probabilidad será, pues, una aplicación entre el conjunto de resultados y el conjunto de números reales, que asignará a cada suceso la probabilidad de que se verifique. La notación: \\(\\mathrm{P}(\\mathrm{A})\\) significará: probabilidad de que se verifique el suceso A . Pero claro, de funciones de probabilidad asociadas a priori a una experiencia aleatoria podrían haber muchas. Lo que se hace para decir qué es y qué no es una función de probabilidad es construir una serie de propiedades (denominadas axiomas) que se exigirán a una función para poder ser catalogada como función de probabilidad. Y, ¿cuáles son estos axiomas? Pues los siguientes: Sea S el conjunto de sucesos. Axioma 1: Para cualquier suceso A, la probabilidad debe ser mayor o igual que 0. Axioma 2: La probabilidad del suceso seguro debe ser 1: \\(\\mathrm{P}(\\Omega)=1\\) Axioma 3: Para sucesos \\(\\mathrm{A}_{\\mathrm{i}}\\), de modo que cada par de sucesos no tengan ningún resultado común, se verifica que: \\[ P\\left(\\bigcup_{i=1}^{\\infty} A_{i}\\right)=\\sum_{i=1}^{\\infty} P\\left(A_{i}\\right) \\] De este modo, pueden haber muchas funciones de probabilidad que se podrían asociar con la experiencia. El problema pasa entonces al investigador para decidir cual o cuales son las funciones de probabilidad más razonables asociadas con la experiencia que está manejando. 1.2.1 ¿Diferentes funciones de probabilidad para una misma experiencia aleatoria? Supongamos la experiencia de tirar un dado regular. A todo el mundo se le ocurriría pensar que la función de probabilidad se obtiene de contar el número de resultados que contiene el suceso dividido por 6 , que es el número total de resultados posibles. Así pues, la probabilidad de obtener un múltiplo de 3 sería igual a \\(2 / 6\\), la probabilidad de obtener el número 2 sería \\(1 / 6\\) i la probabilidad de obtener un número par sería 3/6. Es decir, parece inmediato construir la función de probabilidad que, además, parece única. A nadie se le ocurre decir, por ejemplo, que la probabilidad de obtener un número par es \\(5 / 6\\) ! En este caso, todo ha sido muy fácil. Hemos visto que existe una única función de probabilidad que encaje de forma lógica con la experiencia y, además, ha sido muy sencillo encontrarla. Pero esto, por desgracia, no siempre es así. En muchísimas ocasiones resulta muy complejo el decidir cuál es la función de probabilidad. En el tema de variables aleatorias y de función de distribución se explica el problema de la modelización de muchas situaciones reales. 1.3 ¿Cómo se calculan las probabilidades? No siempre es fácil conocer los valores de la función de probabilidad de todos los sucesos. Sin embargo, muchas veces se pueden conocer las probabilidades de algunos de estos sucesos. Con la ayuda de ciertas propiedades que se deducen de manera inmediata a partir de la axiomática es posible calcular las probabilidades de más sucesos. Por otro lado, en caso de que el número de resultados sea finito y de que todos los resultados tengan las mismas posibilidades de verificarse, la probabilidad de un suceso cualquiera se puede calcular a partir de la regla de Laplace: Si A es un suceso : \\[ \\text { Probabilidad }(A)=\\frac{\\text { Número de casos favorables }}{\\text { Número de casos posibles }} \\] donde: Número de casos favorables \\(=\\) Número de resultados contenidos en \\(\\mathrm{A}(\\) cardinal de A\\()\\) Número de casos posibles \\(=\\) Número total de resultados posibles (cardinal del conjunto total de resultados) En este caso, el contar número de resultados, ya sean favorables o posibles, debe hacerse por medio de la combinatoria. Veamos con unos ejemplos muy sencillos y visuales cómo se obtienen y qué representan los casos posibles y los casos favorables. También es posible obtener de manera aproximada la probabilidad de un suceso si se puede repetir muchas veces la experiencia: la probabilidad del suceso sería el valor al que tendería la frecuencia relativa del suceso. Podéis consultar más detalles acerca de esta aproximación. En este caso, la cuestión estriba en poder hacer muchas veces la experiencia en condiciones independientes. 1.4 Sucesos elementales y sucesos observables En el contexto de la probabilidad, es fundamental diferenciar entre los sucesos elementales y los sucesos observables. Los sucesos elementales son los resultados individuales que pueden ocurrir al realizar un experimento aleatorio, es decir, cada uno de los elementos que conforman el conjunto de resultados \\(\\Omega\\). En nuestro ejemplo del dado, los sucesos elementales son los números \\(1, 2, 3, 4, 5\\) y \\(6\\). Sin embargo, no todos los sucesos elementales son necesariamente observables. Un suceso observable es un subconjunto de estos sucesos elementales que permite formular afirmaciones verificables sobre el resultado del experimento. Ejemplo Podemos imaginar un dado en el que pintamos de blanco las caras pares y de negro las impares. En este caso los sucesos elementales serían los habituales 1, 2, 3,…6. Sin embargo tan solo “Par” (“blanco”) o impar (“negro”) se pueden observar. Si repintamos el dado de forma que las caras 1 y 2 esten blancas, las 3 y 4, azules y las 5 y 6 rojas podremos observar el suceso “Sale 1 o 2 (=Sale blanco)” o “sale blanco o azul”, pero no el suceso “sale par” dado que cada color contiene un número par y uno impar Para formalizar estos conceptos, definimos el espacio de probabilizable como el par de conjuntos formados por: \\((\\Omega, \\mathcal{A})\\) \\(\\Omega\\) es el conjunto de todos los resultados posibles (el conjunto de resultados o sucesos elementales). \\(\\mathcal{A}\\) es el conjunto de todos los sucesos observables, que vienen definidos por el nivel de observación del experimento. 1.5 Propiedades inmediatas de la probabilidad Veremos a continuación una serie de propiedades que se deducen de manera inmediata de la axiomática de la probabilidad. 1.5.1 Succeso imposible El suceso imposible se identifica con el conjunto vacío, puesto que no hay ningún resultado asociado a él. La probabilidad del suceso imposible es: \\[ P(\\varnothing)=0 \\] 1.5.2 Suceso implicado Decimos que un suceso, B, esta implicado por otro suceso A, si siempre que se presenta A, también lo hace B. Por ejemplo, si al tirar un dado se obtiene un dos (suceso A), ello implica que ha salido un número par (suceso B). En terminos de conjuntos, A es un suceso que está contenido en B (todos los resultados de A también pertenecen a B ), por lo que: \\[ \\mathrm{P}(\\mathrm{A}) \\leq \\mathrm{P}(\\mathrm{B}) \\] 1.5.3 Complementario de un suceso Sea \\(A^{\\mathrm{c}}\\) el suceso formado por todos los elementos de \\(\\Omega\\) que no pertenecen a A (Suceso complementario de A). La probabilidad de dicho suceso es igual a: \\[ \\mathrm{P}\\left(\\mathrm{A}^{\\mathrm{c}}\\right)=1-\\mathrm{P}(\\mathrm{A}) \\] 1.5.4 Ocurrencia de algun suceso La probabilidad de la unión de dos sucesos A y B es igual a: \\[ P(A \\cup B)=P(A)+P(B)-P(A \\cap B) \\] 1.5.5 Probabilidad de que ocurra algun suceso Si tenemos una colección de \\(k\\) sucesos, la probabilidad de la unión de dichos sucesos será: \\[ P\\left(\\bigcup_{i=1}^{k} A_{i}\\right)=\\sum_{i=1}^{k} P\\left(A_{i}\\right)-\\sum_{i<j} P\\left(A_{i} \\cap A_{j}\\right)+\\sum P\\left(A_{i} \\cap A_{j} \\cap A_{k}\\right)+\\ldots+(-1)^{k+1} \\cdot P\\left(A_{1} \\cap . . \\cap A_{k}\\right) \\] 1.5.6 Probabilidad de que ocurran dos (o más) sucesos a la vez No existe una expresión cerrada única para la probabilidad de que ocurran dos o más sucesos a la vez, pues esto depende de si los sucesos que consideramos son dependientes o independientes, conceptos éstos, que introduciremos en la próxima sección. Lo que si que existe es una cota para dicha probabilidad, es decir, podemos decir que valor alcanza dicha probabilidad, como mínimo. \\[ P\\left(\\bigcap_{i=1}^{n} A_{i}\\right) \\geq 1-\\sum_{i=1}^{n} P\\left(\\bar{A}_{i}\\right) \\] 1.6 Espacios de probabilidad Para concluir esta introducción introduciremos los espacio de probabilidad que, extienden los espacios probabilizables definidos en la sección anterior La terna \\((\\Omega, \\mathcal{A}, P)\\) donde: \\(Omega\\) es el conjunto de todos los resultados posibles (el conjunto de resultados o sucesos elementales), \\(\\mathcal{A}\\) es el conjunto de todos los sucesos observables, que vienen definidos por el nivel de observación del experimento y \\(P\\) es una función de probabilidad, que asigna a cada suceso observable \\(A \\in \\mathcal{A}\\) un número real \\(P(A)\\) que representa la probabilidad de que ocurra dicho suceso se conoce como espacio de probabilidad. Es importante destacar que la probabilidad se calcula exclusivamente para los sucesos observables, lo que garantiza que la medida sea coherente y verificada a través de experimentos. Los espacios de probabilidad proporcionan una estructura fundamental para analizar y medir las incertidumbres asociadas a los fenómenos aleatorios, facilitando el estudio de sus propiedades, la construcción, sobre ellos de diversos conceptos fundamentales como el de variables aleatorias, y, en general, la aplicación de teorías de la probabilidad a diversas áreas de conocimiento. 1.7 Probabilidad condicionada Imaginemos que en la experiencia de tirar un dado regular supiéramos de antemano que se ha obtenido un número par. Es decir, que se ha verificado el suceso: \\(\\{B = \\mbox{número par}\\}\\)“. Pregunta: ¿Cuál es ahora la probabilidad de que se verifique el suceso mayor o igual a cuatro? Lógicamente, el resultado sería : \\(2 / 3\\). Por lo tanto, la probabilidad del suceso \\(\\mathrm{A}=\\) mayor o igual a cuatro se ha modificado. Evidentemente, ha pasado de ser \\(1 / 2\\) ( cuando no tenemos ninguna información previa) a ser \\(2 / 3\\) (cuando sabemos que se ha verificado el suceso B). ¿Cómo podemos anotar esta última probabilidad \\((2 / 3)\\) ? Muy sencillo. Anotaremos \\(\\mathrm{P}(\\mathrm{A} / \\mathrm{B})\\), que se lee como probabilidad de A condicionada a B . Así, en este ejemplo, \\[ \\begin{gathered} \\mathrm{P}(\\mathrm{A} / \\mathrm{B})=2 / 3 \\\\ \\mathrm{P}(\\mathrm{A})=1 / 2 \\end{gathered} \\] En términos generales, estamos en condiciones de poder definir la probabilidad condicionada, y lo hacemos como: \\[ P(A / B)=\\frac{P(A \\cap B)}{P(B)} \\] Podemos ahora visualizar de una manera práctica y divertida el ejemplo anterior. Siguiendo con la notación utilizada, el suceso A será lo que denominamos suceso de obtención, mientras que el suceso B será lo que denominamos suceso condicionado. La pantalla nos proporcionará los casos posibles para el condicionante elegido y los casos favorables, calculando mediante la regla de Laplace la probabilidad del suceso. Elegid suceso a estudiar. Desplazad, si procede, las barras de puntos. Elegir suceso condicionante. Desplazad, si procede, las barras de puntos. Comprobad los sucesos posibles y los favorables. La probabilidad condicionada se comporta, entonces, como una función de probabilidad. Es decir, verifica los tres axiomas siguientes: Axioma 1: \\[ \\mathrm{P}(\\mathrm{A} / \\mathrm{B}) \\geq 0 \\] Axioma 2: \\[ P(\\Omega / B)=1 \\] Axioma 3: \\[ P\\left(\\bigcup_{i=1}^{\\infty} A_{i} / B\\right)=\\sum_{i=1}^{\\infty} P\\left(A_{i} / B\\right) \\] para sucesos \\(\\mathrm{A}_{\\mathrm{i}}\\) con intersección vacía dos a dos. 1.7.1 Sucesos dependientes y sucesos independientes Sean A y B dos sucesos con probabilidad mayor que 0 . Evidentemente, si \\[ \\mathrm{P}(\\mathrm{A} / \\mathrm{B})=\\mathrm{P}(\\mathrm{A}) \\] B no ha modificado la probabilidad de que suceda A. En este caso diremos que son sucesos independientes. En caso contrario diremos que son sucesos dependientes. En el ejemplo del apartado anterior, se observa que los sucesos son dependientes puesto que las probabilidades anteriores no coinciden. Se verifica que independencia de los sucesos A y B es equivalente a decir que la probabilidad de la intersección es igual a producto de probabilidades de los dos sucesos. Se verifica también que si A y B son independientes: a) El complementario del suceso A y el suceso B son independientes. b) El complementario del suceso A y el complementario del suceso B son independientes. c) El complementario del suceso B y el suceso A son independientes. 1.7.2 Incompatibilidad e independencia Dos sucesos con intersección vacía se denominan sucesos incompatibles. Esto, ¿qué implica? Pues, que si se verifica uno seguro que no se verifica el otro, ya que no tienen resultados en común. Por lo tanto es el caso extremo de dependencia. Obtenemos en este caso que: \\[ \\mathrm{P}(\\mathrm{A} / \\mathrm{B})=0 \\] y, en consecuencia, si \\(\\mathrm{P}(\\mathrm{A})\\) y \\(\\mathrm{P}(\\mathrm{B})\\) son diferentes de cero, la probabilidad condicionada anterior es diferente de \\(\\mathrm{P}(\\mathrm{A})\\), y así se deduce la dependencia. La única posibilidad de que se dé incompatibilidad e independencia a la vez, es que alguno de los dos sucesos tenga probabilidad igual a cero. 1.8 Dos Teoremas importantes 1.8.1 Teorema de las probabilidades totales Sea \\(\\Omega\\) el conjunto total formado por una partición (colección de sucesos con intersección vacía dos a dos): \\[ \\Omega=H_{1} \\cup \\ldots \\ldots \\cup H_{n} \\] La probabilidad de cualquier otro suceso A , se puede obtener a partir de las probabilidades de los sucesos de la partición y de las probabilidades de A condicionado a los sucesos de la partición, de la manera siguiente: \\[ P(A)=\\sum_{i=1}^{n} P\\left(A / H_{i}\\right) \\cdot P\\left(H_{i}\\right) \\] Esto es lo que se conoce como teorema de las probabilidades totales. 1.8.2 Teorema de Bayes Es una consecuencia del teorema de las probabilidades totales. Sea \\(\\Omega\\) el conjunto total formado por una partición (colección de sucesos con intersección vacía dos a dos). \\[ \\Omega=H_{1} \\cup \\ldots \\ldots \\cup H_{n} \\] Ahora el interés se centrará en la obtención de la probabilidad de cualquier suceso de la partición condicionada a un suceso A cualquiera. El resultado será: \\[ P\\left(\\mathrm{H}_{\\mathrm{i}} / \\mathrm{A}\\right)=\\frac{\\mathrm{P}\\left(\\mathrm{A} / \\mathrm{H}_{\\mathrm{i}}\\right) \\cdot \\mathrm{P}\\left(\\mathrm{H}_{\\mathrm{i}}\\right)}{\\sum_{i=1}^{n} \\mathrm{P}\\left(\\mathrm{A} / \\mathrm{H}_{\\mathrm{i}}\\right) \\cdot \\mathrm{P}\\left(\\mathrm{H}_{\\mathrm{i}}\\right)} \\] Esto es conocido como teorema o regla de Bayes. 1.9 Introducción a los experimentos múltiples Supongamos que tiramos a la vez un dado y una moneda. Tenemos una experiencia múltiple, puesto que la experiencia que se realiza es la composición de dos experiencias (experiencia \\(1=\\) tirar un dado regular; experiencia 2 = tirar una moneda regular). ¿Cuál es en este caso el conjunto de resultados? Si \\(\\Omega_{1}\\) es el conjunto de resultados asociado con la experiencia tirar un dado y \\(\\Omega_{2}\\) es el conjunto de resultados asociado con la experiencia tirar una moneda, el conjunto de resultados asociado a la experiencia múltiple será \\(\\Omega_{1} \\times \\Omega_{2}\\). Es decir, \\(\\Omega_{1}=\\{1,2,3,4,5,6\\}\\) \\(\\Omega_{2}=\\{\\) cara, cruz \\(\\}\\) \\(\\Omega_{1} \\times \\Omega_{2}=\\{(1\\), cara \\(),(2\\), cara \\(),(3\\), cara \\(),(4\\), cara \\(),(5\\), cara \\(),(6\\), cara \\(),(1\\), cruz ), ( 2 , cruz ), ( 3, cruz ), (4, cruz \\(),(5\\), cruz \\(),(6\\), cruz \\()\\}\\) Si \\(\\mathrm{P}_{1}\\) y \\(\\mathrm{P}_{2}\\) son, respectivamente, las funciones de probabilidad asociadas a las experiencias 1 y 2 , ¿es posible calcular probabilidades de la experiencia múltiple a partir de \\(\\mathrm{P}_{1}\\) y \\(\\mathrm{P}_{2}\\) ? Efectivamente! Pero hemos de distinguir dos situaciones: Experiencias independientes: cuando el resultado de una no influya en la otra. Experiencias dependientes: cuando el resultado de una influya en la otra. En nuestro caso se trata de experiencias independientes, puesto que el resultado que se obtenga al tirar el dado no influye sobre el resultado que se obtenga al lanzar la moneda y al revés. ¿Como se calculan, pues, las probabilidades de la experiencia múltiple? Sea un suceso de la experiencia múltiple: A x B. Caso de experiencias independientes: \\[ \\mathrm{P}(\\mathrm{A} \\times \\mathrm{B})=\\mathrm{P}_{1}(\\mathrm{~A}) \\times \\mathrm{P}_{2}(\\mathrm{~B}) \\] Caso de experiencias dependientes: \\[ \\mathrm{P}(\\mathrm{A} \\times \\mathrm{B})=\\mathrm{P}_{1}(\\mathrm{~A}) \\times \\mathrm{P}_{2}(\\mathrm{~B} / \\mathrm{A}) \\] Entendemos que existe una \\(\\mathrm{P}_{2}\\) para cada suceso A . Esto que hemos explicado se puede, lógicamente, generalizar a una experiencia múltiple formada por \\(n\\) experiencias. 1.10 Combinatoria Veamos algunas fórmulas simples que se utilizan en combinatoria y que nos pueden ayudar a calcular el número de casos posibles o el número de casos favorables. 1.10.1 Permutaciones Sea un conjunto de \\(n\\) elementos. A las ordenaciones que se pueden hacer con estos \\(n\\) elementos \\(\\sin\\) repetir ningún elemento y utilizándolos todos se las denomina permutaciones. El número de permutaciones que se pueden realizar coincide con el factorial de \\(n\\), y su cálculo es: \\[ n!=n \\cdot(n-1) \\cdot(n-2) \\ldots \\ldots .2 \\cdot 1 \\] Ejemplo: ¿De cuántas maneras distintas podemos alinear a seis personas en una fila? Respuesta De \\(6!=6 \\cdot 5 \\cdot 4 \\cdot 3 \\cdot 2 \\cdot 1=720\\) maneras (permutaciones de 6 elementos). 1.10.2 Variaciones Sea un conjunto de \\(n\\) elementos. Supongamos que deseamos ordenar \\(r\\) elementos de entre los \\(n\\). A cada una de estas ordenaciones la denominamos variación. El número de variaciones que se pueden hacer de los \\(n\\) elementos tomados de \\(r\\) en \\(r\\) es: \\[ V_{n}^{r}=n \\cdot(n-1) \\ldots \\ldots(n-r+1) \\] Ejemplo En una carrera de velocidad compiten diez atletas. ¿De cuántas maneras distintas podría estar formado el podio? (el podio lo forman el primer, el segundo y el tercer clasificado) Respuesta Cada podio posible es una variación de diez elementos tomado de tres en tres. Por tanto, el número posible de podios es: \\[ \\mathrm{V}_{10}^{3}=10.9 .8=720 \\] 1.10.3 Variaciones con repetición Sea un conjunto de \\(n\\) elementos. Supongamos que se trata de ordenar \\(r\\) elementos que pueden estar repetidos. Cada ordenación es una variación con repetición. El número de variaciones con repetición para un conjunto de \\(n\\) tomados de \\(r\\) en \\(r\\) es : \\[ \\mathrm{RV}_{\\mathrm{n}}^{\\mathrm{r}}=\\mathrm{n}^{\\mathrm{r}} \\] Ejemplo En una urna tenemos cinco bolas numeradas del 1 al 5 . Se extraen tres bolas sucesivamente con reposición (devolviendo cada vez la bola a la urna). ¿Cuántos resultados distintos es posible obtener? Respuesta: Se trata de variaciones con repetición de un conjunto de cinco bolas tomadas de tres en tres. En total tendremos: \\[ \\mathrm{RV}_{5}^{3}=5^{3}=125 \\] 1.10.4 Combinaciones Cuando se trata de contar el número de subconjuntos de \\(x\\) elementos en un conjunto de \\(n\\) elementos tenemos lo que se denomina combinaciones de x elementos en un conjunto de n . El cálculo del contaje se hace mediante el número combinatorio, de la manera siguiente: \\[ \\mathrm{C}_{\\mathrm{n}}^{\\mathrm{x}}=\\binom{n}{\\mathrm{x}}=\\frac{\\mathrm{n!}}{\\mathrm{x}!.(\\mathrm{n}-\\mathrm{x})!} \\] Ejemplo ¿De cuántas maneras podemos elegir, en la urna anterior (recordemos que había cinco bolas), tres bolas en una única extracción? Respuesta Serán combinaciones de cinco elementos tomados de tres en tres, por tanto, tendremos: \\[ \\mathrm{C}_{5}^{3}=\\binom{5}{3}=\\frac{5!}{3!(5-3)!}=10 \\] 1.10.5 Permutaciones con repetición Sea un conjunto de \\(n\\) elementos, de entre los cuales tenemos \\(a\\) elementos indistinguibles entre sí, \\(b\\) elementos indistinguibles entre sí, \\(c\\) elementos indistinguibles entre sí, etc. Cada ordenación de estos elementos se denominará permutación con repetición. El número de permutaciones con repetición es: \\[ R P{ }_{n}^{a, b, c, \\ldots}=\\frac{n!}{a!b!c!\\ldots} \\] Ejemplo ¿Cuantas palabras con sentido o sin él pueden formarse con las letras PATATA? Respuesta: Tenemos tres veces la letra A, dos veces la T y una vez la P. Por tanto, serán: \\[ \\mathrm{RP}_{6}^{3,2,1}=\\frac{6!}{3!2!!}=60 \\] 1.11 Frecuencia relativa y probabilidad La definición moderna de probabilidad basada en la axiomática de Kolmogorov (presentada anteriormente) es relativamente reciente. Históricamente hubo otros intentos previos de definir el escurridizo concepto de probabilidad, descartados por diferentes razones. Sin embargo conviene destacar aquí algunas ideas que aparecen en la antigua definición basada en la frecuencia relativa, ya que permiten intuir algunas profundas propiedades de la probabilidad. Recordemos antes que si en un experimento que se ha repetido \\(n\\) veces un determinado suceso A se ha observado en \\(k\\) de estas repeticiones, la frecuencia relativa \\(\\mathrm{f}_{\\mathrm{r}}\\) del suceso A es: \\[ \\mathrm{f}_{\\mathrm{r}}=k / n \\] El interés por la frecuencia relativa y su relación con el concepto de probabilidad aparece a lo largo de los siglos XVIII a XX al observar el comportamiento de numerosas repeticiones de experimentos reales. A título de ejemplo de un experimento de este tipo, supongamos que se dispone de una moneda ideal perfectamente equilibrada. Aplicando directamente la regla de Laplace resulta claro que el suceso \\(\\mathrm{A}=\\) obtener cara tiene probabilidad: \\[ \\mathrm{p}(\\mathrm{A})=1 / 2=0,5 \\] ### Ilustración por simulación En el enlace siguiente se accede a una simulación por ordenador de la ley de los grandes números en la que se basa precisamente la idea de asimilar “a la larga” (es decir a medida que crece el número de repeticiones) frecuencia relativa y probabilidad. Enlace a la simulación En la simulación podéis definir: La verdadera probabilidad” de que al tirar la moneda salga cara, EL número de tiradas. Como podréis comprobar, sea cual sea la probabilidad (una moneda justa es un 0.5) a la larga la frecuencia relativa converge hacia el valor que habéis fijado. Eso sí, observad lo que sucede si fijais probabilidades cercanas a 0.5 o muy alejadas de ell. ¿La idea de lo que sucede a la larga es la misma? ¿En que encontráis diferencias? Aunque no deje de llamar la atención el carácter errático del comportamiento de \\(\\mathrm{f}_{\\mathrm{r}}\\) entre los valores 0 y 1, estaréis seguramente de acuerdo que a mayor número de lanzamientos \\(n\\), más improbable es que \\(f_{r}\\) se aleje mucho de \\(p(A)\\). La teoría moderna de la probabilidad enlaza formalmente estas ideas con el estudio de las leyes de los grandes números, que se discutiran con más detalle en el capítulo dedicado a las “Grandes muestras”. 1.12 Caso de Estudio: Eficacia de una prueba diagnóstica Para decidir la presencia(E) o ausencia (A) de sordera profunda a la edad de seis meses, se está ensayando una batería de tests. Considerando el caso en que la prueba pueda dar positivo \\((+)\\) o negativo \\((-)\\), hay que tener en cuenta que en individuos con dicha sordera la prueba dará a veces positivo y a veces negativo, e igual ocurrirá con individuos que no presentan la sordera. En este contexto todas las probabilidades pueden ser interpretadas en terminos de resultados positivos o neghativos, correctamente o no y cada una ha recibe un nombre que la ha popularizado dentro de la literatura médica: Así tenemos: \\(\\mathrm{P}(+/ \\mathrm{E})\\) Probabilidad de test positivo en individuos que padecen la sordera. Este valor se conoce como sensibilidad del test. \\(\\mathrm{P}(+/ \\mathrm{A})=\\) Probabilidad de test positivo en individuos que no padecen la sordera. Este valor se conoce como probabilidad de falso-positivo. \\(\\mathrm{P}(-/ \\mathrm{E})=\\) Probabilidad de test negativo en individuos que padecen la sordera Este valor se conoce como probabilidad de falso-negativo. \\(P(-/ A)=\\) Probabilidad de test negativo en individuos que no padecen sordera. Este valor se conoce como especificidad del test. Finalmente a la probabilidad, \\(\\mathrm{P}(\\mathrm{E})\\), de presentar la enfermedad se le conoce como prevalencia de la enfermedad. Lógicamente, en un “buen test” nos interesa que la sensibilidad y la especificidad sean elevadas, mientras que los falsos-positivos y falsos-negativos sean valores bajos. Además no debemos olvidar que, el interés de aplicar el test, consiste en que sirva de elemento predictivo para diagnosticar la sordera. Por lo tanto, interesa que las probabilidades: \\(\\mathrm{P}(\\mathrm{E} /+)=\\) Probabilidad de padecer sordera si el test da positivo \\(\\mathrm{P}(\\mathrm{A} /-)=\\) Probabilidad de no padecer sordera si el test da negativo sean realmente altas. A las probabilidades anteriores se las conoce como: valores predictivos del test, en concreto: \\(\\mathrm{P}(\\mathrm{E} /+)=\\) es el valor predictivo positivo y \\(\\mathrm{P}(\\mathrm{A} /-)=\\) es el valor predictivo negativo 1.12.1 Aplicación del Teorema de Bayes Estamos en una situación en que, a partir de conocimiento de unas probabilidades, nos interesa calcular otras, para lo que utilizaremos el teorema de Bayes. Habitualmente, a partir de estudios epidemiológicos y muestras experimentales, se estiman: La prevalencia La sensibilidad del test La especificidad del test La probabilidad de falso positivo La probabilidad de falso negativo ¿Cómo se obtiene entonces el valor predictivo del test? Veamos como aplicar el teorema de Bayes a este problema: Si dividimos a la población global (en este caso, el conjunto de todos los bebés de seis meses) entre los que padecen sordera y los que no la padecen, aplicando el teorema de Bayes resulta que: \\[ \\mathrm{P}(\\mathrm{E} /+)=(\\mathrm{P}(+/ \\mathrm{E}) \\times \\mathrm{P}(\\mathrm{E})) /(\\mathrm{P}(+/ \\mathrm{E}) \\times \\mathrm{P}(\\mathrm{E})+\\mathrm{P}(+/ \\mathrm{A}) \\times \\mathrm{P}(\\mathrm{~A})) \\] y \\[ \\mathrm{P}(\\mathrm{~A} /-)=(\\mathrm{P}(-/ \\mathrm{A}) \\times \\mathrm{P}(\\mathrm{~A})) /(\\mathrm{P}(-/ \\mathrm{A}) \\times \\mathrm{P}(\\mathrm{~A})+\\mathrm{P}(-/ \\mathrm{E}) \\times \\mathrm{P}(\\mathrm{E})) \\] 1.12.2 Ejemplo numérico Supongamos que en el ejemplo de la sordera, se sabe que: Prevalencia \\(=0,003\\), Es decir, que un tres por mil padece sordera profunda a esta edad. Sensibilidad \\(=0,98\\) Especificidad \\(=0,95\\) Probabilidad de falso positivo \\(=0,05\\) Probabilidad de falso negativo \\(=0,02\\) ¿Cuál es el valor predictivo del test? \\[ \\begin{aligned} & \\mathrm{P}(\\mathrm{E} /+)=(0,98 \\times 0,003) /(0,98 \\times 0,003+0,05 \\times 0,997)=0,00294 / 0,05279=0,055692 \\\\ & \\mathrm{P}(\\mathrm{~A} /-)=(0,95 \\times 0,997) /(0,95 \\times 0,997+0,02 \\times 0,003)=0,94715 / 0,94721=0,999936 \\end{aligned} \\] En conclusión, Podemos afirmar que se trata de un test muy válido para decidir que no hay sordera en caso de que el resultado del test sea negativo. Sin embargo, el valor tan bajo de \\(\\mathrm{P}(\\mathrm{E} /+)\\) no permite poder considerar al test como un predictor válido para diagnosticar la sordera. Obsérvese que: Probabilidad de falso positivo \\(=1-\\) especificidad Probabilidad de falso negativo \\(=1-\\) sensibilidad "],["variables-aleatorias-y-distribuciones-de-probabilidad.html", "Capítulo 2 Variables aleatorias y Distribuciones de probabilidad 2.1 El espacio muestral y sus elementos 2.2 Representación numérica de los sucesos elementales. Variables aleatorias 2.3 Caracterización de una variable aleatoria a través de la probabilidad. Función de distribución 2.4 Propiedades de la función de distribución 2.5 Clasificación de las variables aleatorias 2.6 Variable aleatoria discretas 2.7 Variables aleatorias continuas 2.8 Caracterización de una variable aleatoria a través de parámetros 2.9 Esperanza de una variable aleatoria discreta 2.10 Esperanza de una variable aleatoria continua 2.11 Propiedades de la esperanza matemática 2.12 Varianza de una variable aleatoria 2.13 Momentos (de orden \\(k\\)) de una variable aleatoria 2.14 Definición formal de variable aleatoria 2.15 Caso práctico: Lanzamiento de dos dados", " Capítulo 2 Variables aleatorias y Distribuciones de probabilidad En el capítulo anterior hemos introducido el concepto de probabilidad y como calcular probabilidades asociadas a sucesos observables, formados por uno o mas sucesos elementales, resultado de un experimento aleatorio. En muchas ocasiones nos interesa representar los resultados de un experimento aleatorio mediante un valor numérico que lo caracterice. Por ejemplo si tiramos tres monedas y contamos el número de caras, nos será indiferente cuando salgan dos caras, en que monedas ha salido una cara y en cual ha salido una cruz. En la práctica, esto significa que en dichas ocasiones, aunque haya un experimento aleatorio detras de los valores que observamos, tan sólo nos interesan los resultados que expresamos a traves de valores numéricos. Las variables aleatorias son la forma que hemos desarrollado para trasladar la estructura proporcionada por los espacios de probabilidad el espacio muestral, el conjunto de sucesos elementales, al conjunto de los números, en concreto a la recta real, haciéndolo de tal forma que podamos seguir calculando probabilidades de sucesos observables. En este capítulo veremos que las variables aleatorias permiten pues transportar la probabilidad del espacio de probabilidad original a la recta real. Para ello, introduciremos una función que es la que se ocupa de ello, la función de distribución de probabilidad. 2.1 El espacio muestral y sus elementos Cuando llevamos a cabo un experimento aleatorio, el conjunto \\(\\Omega\\) de resultados posibles forman el denominado espacio muestral. Sus elementos \\(\\omega\\) (resultados o sucesos elementales) deben ser conocidos por el investigador que realiza la experiencia, aun cuando no podamos determinar a priori el resultado particular de una realización concreta. Supondremos que también conocemos la manera de asignar una probabilidad sobre el conjunto de enunciados o sucesos observables que se pueden construir a partir de \\(\\Omega\\). Es decir, supondremos la existencia de un espacio de probabilidad construido a partir de los resultados de \\(\\Omega\\). Generalmente, la estructura del espacio muestral no permite, o por lo menos no facilita, su tratamiento matemático. Pensemos en la inmensa variedad en la naturaleza de resultados posibles de diferentes experimentos. Además es bastante frecuente que no nos interesen los resultados en sí, sino una característica que, de alguna manera, resuma el resultado del experimento. 2.2 Representación numérica de los sucesos elementales. Variables aleatorias La forma de resumen que adoptaremos es la asignación a cada suceso elemental de un valor numérico, en particular, de un número real. En la práctica la asignación de un valor numérico a cada elemento del espacio muestral se hace siguiendo una regla o enunciado, según el interés concreto del experimentador. Evidentemente, podemos construir diversas maneras de asignar valores numéricos a los mismos resultados de un experimento. Hablando en términos coloquiales, podemos decir que cada regla de asignación corresponde a una determinada variable que se puede medir sobre los sucesos elementales. Nótese que es posible construir múltiples variables sobre un mismo espacio de probabilidad. En términos algo más formales, las reglas de asignación se pueden interpretar como una aplicación de \\(\\Omega\\) en el conjunto de números reales. \\[ \\begin{aligned} X: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow X(\\omega) \\end{aligned} \\] \\(X\\) representa la variable o regla de asignación concreta. El conjunto de valores numéricos que puede tomar una variable, y que depende de la naturaleza de la misma variable, recibe el nombre de recorrido de la variable. A partir de este momento, los sucesos elementales quedan substituidos por sus valores numéricos de acuerdo a una determinada variable y permiten un mayor tratamiento matemático en el marco de la teoría de la probabilidad. El apelativo aleatoria que reciben las variables hace referencia al hecho de que los posibles valores que toman dependen de los resultados de un fenómeno aleatorio que se presentan con una determinada probabilidad. Como un complemento al tema, al final del capítulo, presentamos la definición formal de variable aleatoria, donde se introducen las restricciones a las reglas de asignación numérica que posibilitan el tratamiento matemático de las variables. 2.3 Caracterización de una variable aleatoria a través de la probabilidad. Función de distribución Una vez que tenemos definida una variable aleatoria, ésta queda totalmente caracterizada en el momento en que somos capaces de determinar la probabilidad de que la variable tome valores en cualquier intervalo de la recta real. Dado que los posibles valores que puede tomar la variable, es decir, su recorrido, pueden ser muy grandes (infinitos de hecho), el problema de caracterizar una variable aleatoria se resuelve introduciendo una función especial, la función de distribución. Definición La función de distribución de una variable aleatoria \\(X\\) es la aplicación que, a cada punto de la recta real, le asigna la probabilidad del suceso formado por los resultados del experimento que tienen asignado un valor de la variable aleatoria menor o igual a dicho punto. \\[ \\begin{array}{rll} F: & \\mathbb{R} & \\rightarrow[0,1] \\\\ & x & \\rightarrow F(x)=P(X \\leq x)=P\\{\\omega \\in \\Omega \\mid X(\\omega) \\leq x\\} \\end{array} \\] También podemos decir que es la probabilidad inducida en el intervalo de la recta \\((-\\infty, x]\\) Hay que hacer notar que siempre será posible determinar dicha probabilidad gracias a los requerimientos exigidos en la definición formal de variable aleatoria. Por tanto, toda variable aleatoria tiene asociada una función de distribución. Nos referimos a esta función cuando decimos que conocemos la distribución de la variable aleatoria. 2.4 Propiedades de la función de distribución La forma en que hemos definido las funciones de distribución determina que dichas funciones deban de tener las siguientes propiedades: \\(0 \\leq F(x) \\leq 1. \\quad\\) Efectivamente, se trata de una probabilidad, por lo que toma valores entre 0 y 1 \\(\\lim _{x \\rightarrow+\\infty} F(x)=1. \\quad\\) A medida que un valor se hace más y más grande, la probabilidad de encontrar valores anteriores a él crece y, en el límite, valdrá uno (el valor máximo para una probabilidad). \\(\\lim _{x \\rightarrow-\\infty} F(x)=0. \\quad\\) A medida que un valor se hace más y más negativo, la probabilidad de encontrar valores anteriores a él disminuye, y en el límite es cero (el valor mínimo para una probabilidad). \\(x_{1}<x_{2} \\Rightarrow F\\left(x_{1}\\right) \\leq F\\left(x_{2}\\right). \\quad\\) Por construcción, es una función monótona, es decir, si un valor es inferior a otro, la probabilidad de encontrar valores inferiores al menor de los dos será menor o igual que la de encontrarlos inferiores al mayor de los dos. \\(\\lim _{x \\rightarrow a^{+}} F(x)=F(a) \\quad \\forall a \\in \\mathbb{R}. \\quad\\) Por la forma en que se ha definido, la función de distribución es contínua por la derecha. Toda función que verifique las propiedades anteriores es una función de distribución y toda función de distribución caracteriza una determinada variable aleatoria sobre algún espacio de probabilidad. Las propiedades anteriores determinan la forma de la función de distribución. En concreto, según la variable sea contínua o discreta, conceptos definidos a continuación en el capítulo, la forma de la función será: : Primer tipo (Variables contínuas) Segundo tipo (variables discretas) 2.5 Clasificación de las variables aleatorias Para su estudio, las variables aleatorias se clasifican en variables discretas o variables contínuas. 2.5.1 Variables aleatorias discretas Definición: Variable aleatoria discreta Diremos que una variable aleatoria es discreta si su recorrido, es decir, el conjunto de valores que puede tomar, es finito o infinito numerable. Generalmente, este tipo de variables van asociadas a experimentos en los cuales se cuenta el número de veces que se ha presentado un suceso o donde el resultado es una puntuación concreta. Los puntos del recorrido se corresponden con saltos en la gráfica de la función de distribución, que correspondería al segundo tipo de gráfica visto anteriormente. 2.5.2 Variables aleatorias continuas Definición: Variable aleatoria contínua Diremos que una variable aleatoria es continua si su función de distribución es una función continua. También puede definirse, de forma análoga a las variables discretas como aquellas cuyo recorrido, es decir, el conjunto de valores que puede tomar, es un intervalo o subconjunto no numerable de los números reales. En otras palabras, aquellas que pueden tomar cualquier valor dentro de un rango continuo, sin saltos entre los valores posibles. Se corresponde con el primer tipo de gráfica visto. Generalmente, se corresponden con variables asociadas a experimentos en los cuales la variable medida puede tomar cualquier valor en un intervalo; mediciones biométricas, por ejemplo. Un caso particular dentro de las variables aleatorias continuas y al cual pertenecen todos los ejemplos usualmente utilizados, son las denominadas variables aleatorias absolutamente continuas. Definición: Distribución absolutamente contínua Diremos que una variable aleatoria \\(X\\) continua tiene una distribución absolutamente continua si existe una función real \\(f\\), positiva e integrable en el conjunto de números reales, tal que la función de distribución \\(F\\) de \\(X\\) se puede expresar como \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] Una variable aleatoria con distribución absolutamente continua, por extensión, se la clasifica como variable aleatoria absolutamente continua. Definición: función de densidad de probabilidad A la función \\(f\\) se la denomina función de densidad de probabilidad de la variable \\(X\\). Hay que hacer notar que no toda variable continua es absolutamente continua, pero los ejemplos son complicados, algunos utilizan para su construcción el conjunto de Cantor, y quedan fuera del nivel y del objetivo de este curso. Igualmente indicaremos que los tipos de variables comentados anteriormente forman únicamente una parte de todos los posibles tipos de variables, sin embargo contienen prácticamente todas las variables aleatorias que encontramos usualmente. Tal como se estudiará más adelante, existen algunas familias de funciones de distribución, tanto dentro del grupo de las discretas como de las continuas, que por su importancia reciben un nombre propio y se estudiarán en los capítulos siguientes. En ocasiones encontramos variables de tipo mixto, es decir que se comportan como discretas o contínuas para distintos grupos de valores. 2.6 Variable aleatoria discretas Tal como se ha definido, una variable aleatoria \\(X\\) discreta toma valores en un conjunrto finito o numerables. Indicaremos el recorrido de la variable \\(X\\) como: \\(\\left\\{x_{1}, x_{2}, \\ldots, x_{\\mathrm{k}}, \\ldots\\right\\}\\). El ejemplo más sencillo de variable aleatoria discreta lo constituyen las variables indicadoras. Sea \\(A\\) un suceso observable, se llama indicador de \\(A\\) a la variable aleatoria definida por \\[ \\begin{aligned} I_{A}: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow I_{A}(\\omega)=\\left\\{\\begin{array}{lll} 1 & \\text { si } \\omega \\in A \\\\ 0 & \\text { si } & A \\end{array}\\right. \\end{aligned} \\] 2.6.0.1 Ejercicio propuesto Construir, a partir de las variables indicadoras de \\(A\\) y \\(B\\), las siguientes variables indicadoras \\[ I_{A \\cap B} ; I_{A \\cup B} ; I_{A} c ; I_{\\Omega} \\] 2.6.0.1.1 Solución \\[ \\begin{gathered} I_{A \\cap B}=I_{A} \\cdot I_{B} \\\\ I_{A \\cup B}=I_{A}+I_{B}-I_{A \\cap B} \\\\ I_{A} c=1-I_{A} \\\\ \\Omega=1 \\end{gathered} \\] 2.6.1 Caracterización de las v.a. discretas Una variable aleatoria discreta puede caracterizarse a través de la función que asocia cada elemento del recorrido su probabilidad. Dicha función recibe varios nombres según los autores: - función de probabilidad - ley de probabilidad, - función de densidad de la variable aleatoria discreta. - función de masa de probabilidad. Aunque es habitual encontrar, en muchos libros el término función de densidad para variables (absolutamente) contínuas y el término función de masa de probabilidad para variables discretas, también lo es referirse a ambas como “función de densidad”. La función de probabilidad de una variable discreta se puede representar de la manera siguiente: \\[ \\begin{array}{rll} f: & \\mathbb{R} & \\rightarrow[0,1] \\\\ & x & \\rightarrow f(x)=P(X=x)=P\\{\\omega \\in \\Omega \\mid X(\\omega)=x\\} \\end{array} \\] Obsérvese que, a diferencia de la función de distribución que toma valores para cualquier valor real, la función definida anteriormente es nula en todo punto que no pertenezca al recorrido. En cambio, siguiendo con la análogía, y dado que se trata de una probabilidad, la función de densidad discreta está acotada \\(0 \\leq f(x) \\leq 1\\). Toda función de densidad discreta puede expresarse de manera explícita a través de una tabla que asocie directamente puntos del recorrido con sus probabilidades. Ejemplo: Función de densidad de una variable indicadora Consideremos la variable indicadora del suceso \\(A\\) : \\[ \\begin{aligned} I_{A}: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow I_{A}(\\omega)=\\left\\{\\begin{array}{lll} 1 & \\text { si } & \\omega \\in A \\\\ 0 & \\text { si } & A \\end{array}\\right. \\end{aligned} \\] La función de densidad de esta variable sería la siguiente: \\(x\\) 0 1 \\(f(x)=P(X=x)\\) \\(1-P(A)=P\\left(A^{\\mathrm{c}}\\right)\\) \\(P(A)\\) El recorrido está formado por dos valores: 1 y 0 , con las mismas probabilidades que las del suceso \\(A\\) y su complementario, respectivamente. En muchos casos será posible expresar la función de probabilidadmediante una fórmula matemática que define una regla de asignación de probabilidades para los valores del recorrido. Ejemplo: Un modelo matemático para la función de probabilidad \\[ P(X=x)=0,2 \\cdot 0,8^{x-1}, \\quad x=1,2, \\ldots \\] es la función de densidad de una variable aleatoria discreta con recorrido numerable. 2.6.2 Propiedades de la función de densidad discreta \\[ 0 \\leq f(x) \\leq 1 \\] \\(\\sum_{i=1}^{n} f\\left(x_{i}\\right)=1\\), si el recorrido es finito. \\(\\sum_{i=1}^{\\infty} f\\left(x_{i}\\right)=1\\), si el recorrido es numerable. 2.6.3 Relaciones entre la función de distribución y la función de densidad discreta. Probabilidad de intervalos. Existe una relación muy importante entre las funciones de distribución \\(F(x)\\) y de densidad \\(f(x)\\) de una variable aleatoria discreta. La función de distribución en un punto se obtiene acumulando el valor de la función de densidad para todos los valores del recorrido menores o iguales al punto en cuestión. \\[ F(x)=\\sum_{x_{i} \\leq x} f\\left(x_{i}\\right) \\quad \\text { para todo } \\mathrm{x}_{\\mathrm{i}} \\text { perteneciente al recorrido de la variable. } \\] En efecto, supongamos que el recorrido de una variable discreta \\(X\\) es \\(\\left\\{x_{1}, x_{2}, \\ldots, x_{k}, \\ldots\\right\\}\\) y que deseamos conocer el valor de la función de distribución en un punto \\(x\\) tal que \\(x_{i} \\leq x<x_{i+1}\\), entonces es inmediato que \\[ F(x)=P(X \\leq x)=P\\left(X=x_{1}\\right)+P\\left(X=x_{2}\\right)+\\ldots+P\\left(X=x_{i}\\right)=f\\left(x_{1}\\right)+f\\left(x_{2}\\right)+f\\left(x_{3}\\right)+\\ldots+f\\left(x_{i}\\right) \\] Por ejemplo, para una variable indicadora de un suceso \\(A\\), tenemos la relación siguiente: Valor de \\(\\boldsymbol{x}\\) \\(\\boldsymbol{f}(\\boldsymbol{x})\\) \\(\\boldsymbol{F}(\\boldsymbol{x})\\) \\((-\\infty, 0)\\) 0 0 \\(P\\left(A^{c}\\right)\\) \\(P\\left(A^{\\mathrm{c}}\\right)\\) \\((0,1)\\) \\(P\\left(A^{\\mathrm{c}}\\right)\\) 1 \\(P(A)\\) \\(P\\left(A^{\\mathrm{c}}\\right)+P(A)=1\\) \\((1,+\\infty)\\) 1 A partir de las funciones de densidad y de distribución es posible expresar las probabilidades para cualquier posible intervalo de valores de la variable. Por ejemplo: Intervalo \\(P(X \\leq a)=F(a)\\) \\(P(X<a)=F(a)-f(a)\\) \\(P(X>a)=1-F(a)=1-P(X \\leq a)\\) \\(P(X \\geq a)=1-F(a)+f(a)=1-P(X>a)\\) \\(P(a<X \\leq b)=F(b)-F(a)\\) \\(P(a<X<b)=F(b)-f(b)-F(a)\\) \\(P(a \\leq X \\leq b)=F(b)-F(a)+f(a)\\) \\(P(a \\leq X<b)=F(b)-f(b)-F(a)+f(a)\\) 2.7 Variables aleatorias continuas Una variable aleatoria \\(X\\) diremos que es continua si su función de distribución es una función continua. En la práctica, se corresponden con variables asociadas con experimentos en los cuales la variable medida puede tomar cualquier valor en un intervalo: mediciones biométricas, intervalos de tiempo, áreas, etc. Ejemplo: Variables aleatorias continuas Resultado de un generador de números aleatorios entre 0 y 1. Es el ejemplo más sencillo que podemos considerar, es un caso particular de una familia de variables aleatorias que tienen una distribución uniforme en un intervalo \\([a, b]\\). Se corresponde con la elección al azar de cualquier valor entre \\(a\\) y \\(b\\). Estatura de una persona elegida al azar en una población. El valor que se obtenga será una medición en cualquier unidad de longitud ( m , cm , etc.) dentro de unos límites condicionados por la naturaleza de la variable. El resultado es impredecible con antelación, pero existen intervalos de valores más probables que otros debido a la distribución de alturas en la población. Más adelante veremos que, generalmente, variables biométricas como la altura se adaptan un modelo de distribución denominado distribución Normal y representado por una campana de Gauss. Dentro de las variables aleatorias continuas tenemos las variables aleatorias absolutamente continuas. Diremos que una variable aleatoria \\(X\\) continua tiene una distribución absolutamente continua si existe una función real \\(f\\), positiva e integrable en el conjunto de números reales, tal que la función de distribución \\(F\\) de \\(X\\) se puede expresar como \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] Una variable aleatoria con distribución absolutamente continua, por extensión, se clasifica como variable aleatoria absolutamente continua. En cuanto a nuestro manual, todas las variables aleatorias continuas con las que trabajemos pertenecen al grupo de las variables absolutamente continuas, en particular, los ejemplos y casos expuestos. 2.7.1 Función de densidad continua La función que caracteriza las variables continuas es aquella función \\(f\\) positiva e integrable en los reales, tal que acumulada desde \\(-\\infty\\) hasta un punto \\(x\\), nos proporciona el valor de la función de distribución en \\(x, F(\\mathrm{x})\\). Recibe el nombre de función de densidad de la variable aleatoria continua. \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] Las funciones de densidad discreta y continua tienen, por tanto, un significado análogo, ambas son las funciones que acumuladas (en forma de sumatorio en el caso discreto o en forma de integral en el caso continuo) dan como resultado la función de distribución. La diferencia entre ambas, sin embargo, es notable. La función de densidad discreta toma valores positivos únicamente en los puntos del recorrido y se interpreta como la probabilidad de la que la variable tome ese valor \\(f(x)=P(X=x)\\). La función de densidad continua toma valores en el conjunto de números reales y no se interpreta como una probabilidad. No está acotada por 1, puede tomar cualquier valor positivo. Es más, en una variable continua se cumple que probabilidades definidas sobre puntos concretos siempre son nulas. \\[ P(X=x)=0 \\text { para todo } x \\text { real. } \\] ¿Cómo se interpreta, entonces, la función de densidad continua? Las probabilidades son las áreas bajo la función de densidad. El área bajo la función de densidad entre dos puntos a y b se interpreta como la probabilidad de que la variable aleatoria tome valores comprendidos entre \\(a\\) y \\(b\\). Por tanto, siempre se cumple lo siguiente: \\[ \\int_{-\\infty}^{+\\infty} f(x) d x=1 \\] La función de densidad se expresa a través de una función matemática. La forma específica de la función matemática generalmente pasa por considerar a la variable aleatoria como miembro de una determinada familia de distribuciones, un determinado modelo de probabilidad. Estas familias generalmente dependen de uno o más parámetros y serán objeto de un estudio específico en un capítulo posterior. La atribución a una determinada familia depende de la naturaleza de la variable en cuestión. Podemos ver, únicamente con ánimo ilustrativo, la expresión analítica y la gráfica para los ejemplos comentados con anterioridad: Resultado de un generador de números aleatorios entre \\(\\boldsymbol{a}\\) y \\(\\boldsymbol{b}\\). Modelo Uniforme. \\(f(x)=\\left\\{\\begin{array}{cc}\\frac{1}{b-a} & x \\in[a, b] \\\\ 0 & x \\notin[a, b]\\end{array}\\right\\}\\) Estatura de una persona elegida al azar en una población. Modelo Normal. \\[ f(x)=\\frac{1}{\\sqrt{2 \\pi}} e^{\\frac{-(x-170)^{2}}{2}}-\\infty<x<\\infty \\] 2.7.2 Relaciones entre la función de distribución y la función de densidad. Para una variable continua, la relación entre las funciones de distribución y de densidad viene dada directamente a través de la definición. La función de distribución en un punto se obtiene integrando el valor de la función de densidad desde menos infinito hasta el punto en cuestión. Por ejemplo: \\[ F(x)=\\int_{-\\infty}^{x} f(t) d t \\] 2.7.2.1 Probabilidad de intervalos A partir de las funciones de densidad y de distribución, y teniendo en cuenta que \\(P(X=x)=0\\) para todo \\(x\\) real, es posible expresar las probabilidades para cualquier posible intervalo de valores de la variable. Por ejemplo: Intervalo \\(P(X \\leq a)=P(X<a)=F(a)=\\int_{-\\infty}^{a} f(x) d x\\) \\(P(X \\geq a)=P(X>a)=1-F(a)=\\int_{a}^{+\\infty} f(x) d x\\) \\(P(a<X \\leq b)=P(a<X<b)=P(a \\leq X \\leq b)=P(a \\leq X<b)\\) \\(=F(b)-F(a)=\\int^{b} f(x) d x\\) Fijémonos que la probabilidad de los intervalos se corresponde con el área bajo la función de densidad dentro del intervalo considerado. 2.8 Caracterización de una variable aleatoria a través de parámetros Hasta el momento hemos visto que toda variable aleatoria viene caracterizada a través de unas determinadas funciones matemáticas, las funciones de distribución y de densidad. Una vez caracterizada, y por tanto conocida, la distribución de una variable aleatoria, podemos obtener cualquier probabilidad asociada. En ocasiones podemos acotar más el problema y reducir el estudio de una variable aleatoria a determinar una serie de características numéricas asociadas con la distribución de la variable. Dichas características tienen como propiedad fundamental el hecho de resumir gran parte de las propiedades de la variable aleatoria y juegan un papel muy destacado en las técnicas estadísticas que desarrollaremos a lo largo del curso. Por ejemplo, supuesta la pertenencia de una variable aleatoria a una determinada familia de distribuciones de probabilidad, bien sea discreta o continua, los diferentes miembros de la familia diferirán en el valor de esas características numéricas. En este caso, denominaremos a tales características los parámetros de la distribución. Existe un buen número de tales características, pero nos centraremos en las dos más importantes: la esperanza y la varianza. La primera nos informa sobre la localización de los valores de la variable y la segunda, sobre el grado de dispersión de estos valores. 2.9 Esperanza de una variable aleatoria discreta La esperanza matemática de una variable aleatoria es una característica numérica que proporciona una idea de la localización de la variable aleatoria sobre la recta real. Decimos que es un parámetro de centralización o de localización. Su interpretación intuitiva o significado se corresponde con el valor medio teórico de los posibles valores que pueda tomar la variable aleatoria, o también con el centro de gravedad de los valores de la variable supuesto que cada valor tuviera una masa proporcional a la función de densidad en ellos. La definición matemática de la esperanza en el caso de las variables aleatorias discretas se corresponde directamente con las interpretaciones proporcionadas en el párrafo anterior. Efectivamente, supuesta una variable aleatoria discreta \\(X\\) con recorrido \\(\\left\\{x_{1}, x_{2}, \\ldots, x_{k}, \\ldots\\right\\}\\) y con función de densidad \\(f(x)\\), se define la esperanza matemática de \\(X\\) como el valor \\[ E(X)=\\sum_{x_{i} \\in X(\\Omega)} x_{i} f\\left(x_{i}\\right) \\] donde el sumatorio se efectúa para todo valor que pertenece al recorrido de \\(X\\). En caso de que el recorrido sea infinito la esperanza existe si la serie resultante es absolutamente convergente, condición que no siempre se cumple. La definición se corresponde con un promedio ponderado según su probabilidad de los valores del recorrido y, por tanto, se corresponde con la idea de un valor medio teórico. 2.10 Esperanza de una variable aleatoria continua La idea intuitiva que más nos puede ayudar en la definición de la esperanza matemática de una variable aleatoria continua es la idea del centro de gravedad de los valores de la variable, donde cada valor tiene una masa proporcional a la función de densidad en ellos. Dada una variable aleatoria absolutamente continua \\(X\\) con función de densidad \\(f(x)\\), se define la esperanza matemática de \\(X\\) como el valor \\[ E(X)=\\int_{-\\infty}^{+\\infty} x f(x) d x \\] suponiendo que la integral exista. 2.11 Propiedades de la esperanza matemática Esperanza de una función de una variable aleatoria Variable discreta \\[ E(h(X))=\\sum_{x_{i} \\in X(\\Omega)} h\\left(x_{i}\\right) f\\left(x_{i}\\right) \\] Variable continua \\[ E(h(X))=\\int_{-\\infty}^{+\\infty} h(x) f(x) d x \\] 2.11.1 Linealidad de la esperanza matemática \\(E(X+Y)=E(X)+E(Y)\\) \\(E(k \\cdot X)=k \\cdot E(X)\\) para todo número real \\(k\\). \\(E(k)=k\\) para todo número real \\(k\\). \\(E(a \\cdot X+b)=a \\cdot E(X)+b\\) para todo par de números reales \\(a\\) y \\(b\\). 2.11.2 Esperanza del producto \\(E(X \\cdot Y)=E(X) \\cdot E(Y)\\) únicamente en el caso de que \\(X\\) e \\(Y\\) sean variables aleatorias independientes. 2.12 Varianza de una variable aleatoria La varianza de una variable aleatoria es una característica numérica que proporciona una idea de la dispersión de la variable aleatoria respecto de su esperanza. Decimos que es un parámetro de dispersión. La definición es la siguiente: \\[ \\operatorname{Var}(X)=E\\left((X-E(X))^{2}\\right) \\] Es, por tanto, el promedio teórico de las desviaciones cuadráticas de los diferentes valores que puede tomar la variable respecto de su valor medio teórico o esperanza. En el caso de las variables discretas, la expresión se convierte en: \\[ \\operatorname{Var}(X)=\\sum_{x_{i} \\in X(\\Omega)}\\left(x_{i}-E(X)\\right)^{2} f\\left(x_{i}\\right) \\] mientras que para las variables continuas tenemos: \\[ \\operatorname{Var}(X)=\\int_{-\\infty}^{+\\infty}(x-E(X))^{2} f(x) d x \\] En ambos casos existe una expresión equivalente alternativa y generalmente de cálculo más fácil: \\[ \\operatorname{Var}(X)=E\\left(X^{2}\\right)-(E(X))^{2} \\] Una de las características de la varianza es que viene expresada en unidades cuadráticas respecto de las unidades originales de la variable. Un parámetro de dispersión derivado de la varianza y que tiene las mismas unidades de la variable aleatoria es la desviación típica, que se define como la raíz cuadrada de la varianza. \\[ \\sigma_{X}=\\sqrt{\\operatorname{Var}(X)}=\\sqrt{E\\left((X-E(X))^{2}\\right)} \\] 2.12.1 Propiedades de la varianza \\(\\operatorname{Var}(X) \\geq 0\\) \\(\\operatorname{Var}(k \\cdot X)=k^{2} \\cdot \\operatorname{Var}(X)\\) para todo numero real \\(k\\). \\(\\operatorname{Var}(k)=0\\) para todo numero real \\(k\\). \\(\\operatorname{Var}(a \\cdot X+b)=a^{2} \\cdot \\operatorname{Var}(X)\\) para todo par de números reales \\(a\\) i \\(b\\). \\(\\operatorname{Var}(X+Y)=\\operatorname{Var}(X)+\\operatorname{Var}(Y)\\) únicamente en el caso que \\(X\\) y \\(Y\\) sean independientes. 2.13 Momentos (de orden \\(k\\)) de una variable aleatoria Dada una variable aleatoria \\(X\\), definimos el momento de orden \\(k\\) como: \\[ m_{k}=E\\left(X^{k}\\right) \\] suponiendo que tal esperanza exista. Podemos ver que la esperanza es el momento de orden \\(1, E(X)=m_{1}\\). Definimos el momento central de orden \\(k\\) como: \\[ \\mu_{k}=E\\left((X-E(X))^{k}\\right) \\] Con la denominación anterior, la varianza es el momento central de orden \\(2, \\operatorname{Var}(X)=\\mu_{2}\\). Es posible también definir momentos mixtos de dos variables aleatorias. Dadas dos variables aleatorias \\(X\\) e \\(Y\\) definimos el momento mixto de orden \\((r, k)\\) como \\[ m_{r k}=E\\left(X^{r} \\cdot Y^{k}\\right) \\] y el momento mixto central de orden \\((r, k)\\) como \\[ \\left.\\mu_{r k}=E(X-E(X))^{r} \\cdot(Y-E(Y))^{k}\\right) \\] El momento mixto central más importante es el \\(\\mu_{11}\\), denominado la covarianza de \\(X\\) e \\(Y\\), y con una interpretación en el sentido de cuantificar el grado de dependencia entre dos variables aleatorias, puesto que si \\(X\\) e \\(Y\\) son independientes se verifica que \\(\\mu_{11}=0\\), mientras que si \\(\\mu_{11} \\neq 0\\) entonces las variables son dependientes. 2.14 Definición formal de variable aleatoria Tal como hemos comentado, la definición formal de variable aleatoria impone una restricción matemática en la formulación vista hasta el momento. Definiremos una variable aleatoria como una aplicación de \\(\\Omega\\) en el conjunto de números reales \\[ \\begin{aligned} X: \\Omega & \\rightarrow \\mathbb{R} \\\\ \\omega & \\rightarrow X(\\omega) \\end{aligned} \\] que verifique la propiedad siguiente \\[ \\forall x \\in \\mathbb{R} \\quad \\text { el conjunto } \\mathrm{A}=\\{a \\mid \\mathrm{X}(a) \\leq \\mathrm{x}\\} \\text { es un suceso observable } \\] es decir, para todo número real \\(x\\), el conjunto de resultados elementales tales que la variable aleatoria toma sobre ellos valores inferiores o iguales a \\(x\\) ha de ser un suceso sobre el cual podamos definir una probabilidad. Dicha propiedad recibe el nombre de medibilidad y por tanto podríamos decir que una variable aleatoria es una función medible de \\(\\Omega\\) en los reales. Esta condición nos asegura que podremos calcular sin problemas, probabilidades sobre intervalos de la recta real a partir de las probabilidades de los sucesos correspondientes. \\[ P(X \\leq x)=P\\{\\omega \\mid X(\\omega) \\leq x\\} \\] La expresión anterior se leería de la manera siguiente: La probabilidad de que la variable aleatoria tome valores inferiores o iguales a \\(x\\) es igual a la probabilidad del suceso formado por el conjunto de resultados elementales sobre los que el valor de la variable es menor o igual que \\(x\\). La probabilidad obtenida de esta manera se denomina probabilidad inducida. Se puede comprobar que, a partir de la condición requerida, se pueden obtener probabilidades sobre cualquier tipo de intervalo de la recta real. Por ejemplo: \\[ P(a<X \\leq b)=P(X \\leq b)-P(X \\leq a) \\] La condición exigida para ser variable aleatoria discreta ahora puede ser expresada como: \\[ \\forall k=1,2, \\ldots \\text { el conjunto } \\mathrm{A}=\\left\\{\\omega \\mid \\mathrm{X}(\\omega)=\\mathrm{x}_{\\mathrm{k}}\\right\\}=\\mathrm{X}^{-1}\\left(\\left\\{\\mathrm{x}_{\\mathrm{k}}\\right\\}\\right) \\text { es un suceso observable } \\] Toda variable aleatoria definida sobre un espacio de probabilidad finito es necesariamente discreta. La suma y el producto de variables aleatorias discretas, definido por: \\[ (X+Y)(w)=X(w)+Y(w) \\text { y }(X \\cdot Y)(w)=X(w) \\cdot Y(w) \\] es también una variable aleatoria discreta. 2.15 Caso práctico: Lanzamiento de dos dados 2.15.1 Espacio muestral Supongamos que estamos realizando un experimento consistente en el lanzamiento simultáneo de dos dados y en la observación del resultado obtenido. El conjunto de resultados posibles forma el espacio muestral \\(\\Omega\\) asociado a dicho experimento. Sus elementos serán como los que se muestran a continuación: En total, el espacio muestral estaría formado por 36 resultados posibles que, en principio y suponiendo los dados regulares, son todos ellos equiprobables con probabilidad \\(1 / 36\\). Nótese que consideramos diferentes resultados del tipo: un uno en el primer dado y un dos en el segundo o un dos en el primer dado y un uno en el segundo. Una vez fijados los enunciados anteriores, es fácil asignar probabilidades a diferentes sucesos observables, por ejemplo: Suceso Probabilidad Que aparezcan dos cifras iguales \\(6 \\cdot 1 / 36=1 / 6\\) Que la suma sea 10 \\(3 \\cdot 1 / 36=1 / 12\\) No entramos en detalles de la obtención de las probabilidades dado que se ha estudiado suficientemente en el tema anterior. 2.15.2 Representación numérica Continuando con el experimento anterior, podemos representar los resultados obtenidos al lanzar dos dados por valores numéricos. ¿Cómo hacerlo? Definiendo una regla de asignación numérica para cada resultado. Una posible regla sería, por ejemplo, asignar a cada resultado la suma de puntos de las caras. Este enunciado nos define una variable que representa cada suceso elemental por un valor numérico. Los 36 posibles resultados del experimento se transforman en 11 posibles valores numéricos para la variable: \\(2,3,4,5,6,7,8,9,10,11\\) y 12 . Este conjunto de valores forman el recorrido de la variable suma de puntos de las caras. A partir de las probabilidades definidas sobre los sucesos observables es fácil extender las probabilidades a los diferentes resultados de la variable. Por ejemplo, la probabilidad de que la variable tome el valor 10 es equivalente a la probabilidad del suceso observable que la suma sea 10 , calculada anteriormente e igual a \\(1 / 12\\). La variable considerada hasta el momento es sólo una de las múltiples variables que podríamos definir sobre el mismo experimento. Por ejemplo, podemos estar interesados no en la suma de puntos sino en el punto más bajo de cada tirada, de forma que podríamos construir una nueva variable a partir del enunciado o regla de asignación asignar a cada resultado el menor de los puntos de las dos caras. Tenemos una nueva variable sobre el mismo espacio anterior. El recorrido, en este caso, está formado por los valores: \\(1,2,3,4,5\\) y 6 . Las dos variables estudiadas y otras muchas que se podrían definir sobre este experimento son ejemplos absolutamente equivalentes desde el punto de vista formal. 2.15.3 Algunas probabilidades En el ejemplo de los dados vamos a centrarnos en la variable aleatoria \\[ X=\\text { Suma de puntos de las caras } \\] El recorrido de la variable está formado por los números \\(\\{2,3,4,5,6,7,8,9,10,11\\) i 12\\(\\}\\). Vamos a calcular algunas probabilidades: \\(P(X \\leq 1)=P\\{\\varnothing\\}=0\\) (Ningún resultado tiene asignado un valor menor o igual a 1) \\(P(X \\leq 2)=P\\{(1,1)\\}=1/36\\) (Sólo hay un caso al que se le asigne un valor inferior o igual a 2). \\(P(X \\leq 3.5)=P\\{(1,1), (1,2), (2,1)\\}=3/36\\) (Tres resultados elementales tienen asignado un valor menor o igual a 3.5) Ahora podéis intentar calcular por vosotros mismos algunas probabilidades: (a) \\(P(X \\leq 6)\\) (b) \\(P(X \\leq 8,2)\\); (c) \\(P(X \\leq 12)\\); (d) \\(P(X \\leq 20)\\) i (e) \\(P(2,2<X \\leq 7)\\) 2.15.4 Función de distribución Para calcular la función de distribución de la variable X \\(=\\) Suma de puntos de las caras : necesitamos conocer el recorrido de la variable, que es: \\(\\{2,3,4,5,6,7,8,9,10,11, 12\\}\\) y, utilizando este recorrido como pauta, determinar para todo punto \\(x\\) de la recta real la probabilidad \\(P(X \\leq x)\\). En nuestro ejemplo: \\[ F(x)=P(X \\leq x)= \\begin{cases}0 & x<2 \\\\ 1 / 36 & 2 \\leq x<3 \\\\ 3 / 36 & 3 \\leq x<4 \\\\ 6 / 36 & 4 \\leq x<5 \\\\ 10 / 36 & 5 \\leq x<6 \\\\ 15 / 36 & 6 \\leq x<7 \\\\ 21 / 36 & 7 \\leq x<8 \\\\ 26 / 36 & 8 \\leq x<9 \\\\ 30 / 36 & 9 \\leq x<10 \\\\ 33 / 36 & 10 \\leq x<11 \\\\ 35 / 36 & 11 \\leq x<12 \\\\ 36 / 36=1 & x \\geq 12\\end{cases} \\] Acabamos de construir la función de distribución de la variable suma de la puntuación al lanzar dos dados. Vamos a ver su representación gráfica: Ejercicio : Haced lo mismo para la variable aleatoria el menor de los puntos de las dos caras al lanzar dos dados. 2.15.5 Clasificación de las variables En el experimento que estamos considerando, lanzar simultáneamente dos dados, cualquiera de las dos variables aleatorias que hemos considerado hasta el momento: \\[ X=\\text {Suma los puntos de las dos caras } \\] \\[ Y=\\text { El menor de los puntos de las dos caras } \\] se clasifican dentro del tipo de variables aleatorias discretas, puesto que en ambos casos el recorrido es finito: \\(\\{2,3,4,5,6,7,8,9,10,11, 12\\}\\) para la variable \\(X\\) y \\(\\{1,2,3,4,5, 6\\}\\) para la variable \\(Y\\). También son discretas aquellas variables aleatorias con recorrido infinito numerable. Ejercicio: ¿Sabríais construir una variable aleatoria discreta con recorrido infinito numerable basada en el experimento que consiste en el lanzamiento de dos dados? 2.15.6 Función de densidad discreta Para calcular la función de densidad de la variable \\[ X=\\text { suma de puntos de las caras } \\] necesitamos conocer el recorrido de la variable, es decir: \\(\\{2,3,4,5,6,7,8,9,10,11, 12\\}\\) y, a partir del recorrido, determinar para todo punto del recorrido la probabilidad \\(P(X=x)\\). En nuestro ejemplo \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] Acabamos de construir la función de densidad de la variable suma de la puntuación al lanzar dos dados. Vamos a ver su representación gráfica: Hemos optado por la representación con barras en lugar de puntos para permitir una visualización de la función óptima. Ejercicio: Haced lo mismo para la variable aleatoria el menor de los puntos de las dos caras al lanzar dos dados. 2.15.7 Probabilidad de intervalos Vamos a centrarnos en la variable \\[ X=\\text { Suma de puntos de las caras } \\] Las funciones de distribución y de densidad son, respectivamente, \\[ F(x)=P(X \\leq x)=\\left\\{\\begin{array}{ll} 0 & x<2 \\\\ 1 / 36 & 2 \\leq x<3 \\\\ 3 / 36 & 3 \\leq x<4 \\\\ 6 / 36 & 4 \\leq x<5 \\\\ 10 / 36 & 5 \\leq x<6 \\\\ 15 / 36 & 6 \\leq x<7 \\\\ 21 / 36 & 7 \\leq x<8 \\\\ 26 / 36 & 8 \\leq x<9 \\\\ 30 / 36 & 9 \\leq x<10 \\\\ 33 / 36 & 10 \\leq x<11 \\\\ 35 / 36 & 11 \\leq x<12 \\\\ 36 / 36=1 & x \\geq 12 \\end{array} \\quad f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases}\\right. \\] Puede observarse cómo los valores de la función de distribución se obtienen acumulando los valores de la función de densidad correspondientes. Vamos a calcular algunas probabilidades utilizando las funciones anteriores. Compárese con los resultados obtenidos con anterioridad basados directamente en los resultados elementales. \\(P(X \\leq 1)=F(1)=0\\) \\(P(X \\leq 3,5)=F(3,5)=3 / 36=f(2)+f(3)\\) \\(P(X<6)=F(6)-f(6)=15 / 36-5 / 36=10 / 36=f(2)+f(3)+f(4)+f(5)\\) \\(P(2,2<X \\leq 7)=F(7)-F(2,2)=21 / 36-1 / 36=20 / 36=f(3)+f(4)+f(5)+f(6)+f(7)\\) \\(P(2<X<7)=F(7)-f(7)-F(2)=21 / 36-6 / 36-1 / 36=14 / 36=f(3)+f(4)+f(5)+f(6)\\) 2.15.8 Esperanza Supongamos que estamos interesados en determinar cual sería el valor medio teórico de la variable \\[ X=\\text { Suma de puntos de las caras } \\] La función de densidad es: \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] La misma función de densidad nos da información sobre el recorrido de la variable. Calcular el valor medio teórico de la variable quiere decir calcular la esperanza. A partir de la fórmula de la esperanza para variables discretas, tenemos \\[ \\begin{aligned} E(X) &=2 \\cdot 1 / 36+3 \\cdot 2 / 36+4 \\cdot 3 / 36+5 \\cdot 4 / 36+6 \\cdot 5 / 36+\\\\ & + 7 \\cdot 6 / 36+8 \\cdot 5 / 36+9 \\cdot 4 / 36+\\\\ &+ 10 \\cdot 3 / 36+ 11 \\cdot 2 / 36+12 \\cdot 1 / 36=\\\\ & =7 \\end{aligned} \\] Por tanto, 7 es la esperanza de la variable \\(X=\\) Suma de puntos de las caras. Fijaos que la esperanza para la variable Puntuación de un dado sería \\[ 1 \\cdot 1 / 6+2 \\cdot 1 / 6+3 \\cdot 1 / 6+4 \\cdot 1 / 6+5 \\cdot 1 / 6+6 \\cdot 1 / 6=3,5 \\] y que se puede considerar la variable Suma de puntos de las dos caras como la suma de dos variables que representen la puntuación de cada dado. La esperanza de la suma es, efectivamente, la suma de las esperanzas de cada variable sumada. En la aplicación siguiente, podéis calcular la esperanza de la variable Puntuación de un dado y modificar las probabilidades de las diferentes caras, de este modo se modifica la esperanza. Ejercicio: ¿Podríais hacer lo mismo para la variable \\(X=\\) El menor de los puntos de las dos caras al lanzar dos dados? 2.15.9 Esperanza de un juego Imaginemos que alguien os propone el juego siguiente: lanzad dos dados, si la suma obtenida es menor o igual a 6 ganáis 100 euros, sin embargo, si la suma obtenida es mayor que 6 tenéis que pagar 100 euros. ¿Nos conviene jugar a este juego? Veamos, podemos considerar el resultado del juego como una variable aleatoria discreta que toma dos valores: +100 si ganamos y -100 si perdemos. Nos interesa conocer las probabilidades de los diferentes resultados. Consideremos la variable \\(X=\\) Suma de puntos de las caras, cuya función de densidad conocemos: \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] A partir de aquí es fácil ver que la función de densidad de la variable \\(Y=\\) Resultado del juego será la siguiente: \\[ f(100)=15 / 36 ; f(-100)=21 / 36 \\] Por tanto, la esperanza del juego, que puede ser interpretada como la ganancia media por jugada, será \\[ E(Y)=100 \\cdot 15 / 36-100 \\cdot 21 / 36=-100 / 6 \\approx-16,667 \\] Es decir, la ganancia media por jugada es negativa, por tanto no es favorable dicho juego para el jugador, es un juego no equitativo. 2.15.10 Esperanza con recorrido infinito Vamos a tratar de calcular la esperanza de la siguiente variable aleatoria: \\(X=\\) Número de lanzamientos que hemos de hacer para conseguir que aparezca un doble seis La variable que acabamos de definir es una variable discreta con recorrido infinito numerable. El recorrido sería el siguiente: \\[ \\{1,2,3,4, \\ldots\\} \\] Vamos a ver como calculamos la función de densidad: \\(P(X=1)=\\) Probabilidad de que aparezca un doble seis en el primer lanzamiento \\(=1 / 36\\) \\(P(X=2)=\\) Probabilidad de que el doble seis no aparezca en el primer lanzamiento y sí en el segundo = \\(35 / 36 \\cdot 1 / 36=35 / 36^{2}\\) \\(P(X=3)=\\) Probabilidad de que el doble seis no aparezca ni en el primer ni en el segundo lanzamientos y sí en el tercero \\(=35 / 36 \\cdot 35 / 361 / 36=35^{2} / 36^{3}\\) En general, \\(P(X=k)=35^{k-1} / 36^{k}\\) Para simplificar, vamos a llamar \\(p=1 / 36\\) y \\(q=1-p=35 / 36\\), con esta nomenclatura \\(P(X=\\mathrm{k})=q^{k-1} p\\). Por tanto, la esperanza será: \\[ \\begin{aligned} E(X)& =\\sum_{i=1}^{\\infty} i q^{i-1} p=p \\sum_{i=1}^{\\infty} i q^{i-1}=p \\frac{d}{d q} \\sum_{i=1}^{\\infty} q^{i}= \\\\ &= p \\frac{d}{d q}\\left(\\frac{q}{1-q}\\right)=p \\frac{1}{(1-q)^{2}}=\\\\ & = \\frac{1}{p} \\end{aligned} \\] En nuestro ejemplo el número medio de tiradas antes de salir un doble seis será 36 . 2.15.11 Esperanza infinita Ahora calcularemos la esperanza del juego siguiente: lanzamos un dado hasta que aparece un número par, el jugador gana \\(2^{n}\\) unidades monetarias si aparece un número par por primera vez en la tirada nésima. El recorrido de la variable aleatoria \\(X=\\) Ganancia del juego, está formado por todos los números de la forma \\(2^{n}\\) con \\(n=1,2,3, \\ldots\\) La probabilidad de cada valor del recorrido es la probabilidad de que aparezca un número par por primera vez en la tirada nésima, es decir \\((1 / 2)^{n-1} \\cdot(1 / 2)=(1 / 2)^{n}\\). Por tanto, la esperanza del juego es la siguiente: \\[ E(X)=\\sum_{n=1}^{\\infty} 2^{n}(1 / 2)^{n}=\\sum_{n=1}^{\\infty} 1=\\infty \\] Como vemos, la variable aleatoria \\(X\\) no tiene esperanza finita. El enunciado presentado es una versión del problema presentado alrededor de 1730 por el matemático Daniel Bernouilli a la Academia de San Petersburgo y conocido como la paradoja de San Petersburgo, dado que la esperanza del juego es aparentemente infinita. 2.15.12 Varianza Si ahora queremos calcular la varianza de la variable \\[ X=\\text { Suma de puntos de las caras } \\] con función de densidad: \\[ f(x)=P(X=x)= \\begin{cases}1 / 36 & x=2 \\\\ 2 / 36 & x=3 \\\\ 3 / 36 & x=4 \\\\ 4 / 36 & x=5 \\\\ 5 / 36 & x=6 \\\\ 6 / 36 & x=7 \\\\ 5 / 36 & x=8 \\\\ 4 / 36 & x=9 \\\\ 3 / 36 & x=10 \\\\ 2 / 36 & x=11 \\\\ 1 / 36 & x=12\\end{cases} \\] Podemos aplicar la fórmula \\[ \\operatorname{Var}(X)=E\\left(X^{2}\\right)-(E(X))^{2} \\] La esperanza ya la tenemos calculada con anterioridad \\[ \\begin{aligned} E(X) & =2 \\cdot 1 / 36+3 \\cdot 2 / 36+4 \\cdot 3 / 36+5 \\cdot 4 / 36+\\\\ & +6 \\cdot 5 / 36+7 \\cdot 6 / 36+8 \\cdot 5 / 36+9 \\cdot 4 / 36+\\\\ & +10 \\cdot 3 / 36+ 11 \\cdot 2 / 36+12 \\cdot 1 / 36=\\\\ & =7 \\end{aligned} \\] Necesitamos calcular la esperanza de la variable al cuadrado, que en este caso resulta: \\[ \\begin{aligned} E\\left(X^{2}\\right)& =2^{2} \\cdot 1 / 36+3^{2} \\cdot 2 / 36+4^{2} \\cdot 3 / 36+5^{2} \\cdot 4 / 36+6^{2} \\cdot 5 / 36+\\\\ & + 7^{2} \\cdot 6 / 36+8^{2} \\cdot 5 / 36+9^{2} \\cdot 4 / 36+ 10^{2} \\cdot 3 / 36+\\\\ & + 11^{2} \\cdot 2 / 36+12^{2} \\cdot 1 / 36=329 / 6 \\\\ &\\approx 54,833 \\end{aligned} \\] Con lo que la varianza resulta ser \\[ \\operatorname{Var}(X)=329 / 6-7^{2}=35 / 6 \\approx 5,833 \\] Nuevamente, para la variable Puntuación de un dado, la varianza se obtendría de la manera siguiente: \\[ \\begin{aligned} E(X)& =1 \\cdot 1 / 6+2 \\cdot 1 / 6+3 \\cdot 1 / 6+4 \\cdot 1 / 6+5 \\cdot 1 / 6+6 \\cdot 1 / 6= \\\\& =3,5\\\\ E \\left(X^{2}\\right)&=1^{2} \\cdot 1 / 6+2^{2} \\cdot 1 / 6+3^{2} \\cdot 1 / 6+4^{2} \\cdot 1 / 6+\\\\ & + 5^{2} \\cdot 1 / 6+6^{2} \\cdot 1 / 6=91 / 6\\\\ & \\approx 15,167 \\\\ \\operatorname{Var}(X)&=91 / 6-3,5^{2}=35 / 12 \\approx 2,9167 \\end{aligned} \\] y se cumple que la varianza de la variable Suma de puntos de las dos caras es la suma de las varianzas de las puntuaciones de cada dado por separado. Recordemos que esto sólo sucede si las variables sumadas son independientes, como así ocurre con las puntuaciones de cada dado por separado. "],["distribuciones-notables.html", "Capítulo 3 Distribuciones Notables 3.1 Distribuciones discretas 3.2 Distribuciones Continuas 3.3 Distribuciones con R (y Python) 3.4 La familia exponencial de distribuciones", " Capítulo 3 Distribuciones Notables 3.1 Distribuciones discretas 3.1.1 La distribución de Bernouilli Es el modelo discreto más sencillo en que podamos pensar. Hace referencia a situaciones en las que el resultado de un experimento sólo puede ser: se ha dado el suceso \\(A\\) ó no se ha dado el suceso \\(A\\). Por ejemplo, en el lanzamiento de una moneda sólo puede darse el suceso sale cara o su complementario no sale cara (sale cruz). Por lo tanto, definimos la variable aleatoria \\(X\\) de la siguiente manera: \\(X=1\\) si se ha dado \\(A\\). \\(X=0\\) si no se ha dado \\(A\\), es decir, se ha dado el complementario \\(A^{c}\\). Si además, conocemos la probabilidad de que suceda \\(A\\) : \\[ P[A]=p \\] y, por tanto, \\[ P\\left[A^{c}\\right]=1-p \\] ya podemos definir la distribución de la variable aleatoria \\(X\\). En estas condiciones diremos que \\(X\\) sigue una distribución de Bernouilli de parámetro \\(p\\), que abreviaremos así \\(X \\sim \\operatorname{Bernouilli}(p)\\), y su función de densidad se define así: \\[ f(k)=P[X=k]=\\left\\{\\begin{array}{cc} p & \\text { si } k=1(\\text { se ha dado } A) \\\\ 1-p & \\text { si } k=0\\left(\\text { se ha dado } A^{c}\\right) \\end{array}\\right\\} \\] Gráficamente: Mientras que la función de distribución será: \\[ F(k)=P[X \\leq k]=\\left\\{\\begin{array}{lc} 0 & \\text { si } \\mathbf{k}<0 \\\\ \\mathbf{p} & \\text { si } 0 \\leq \\mathbf{k}<1 \\\\ 1 & \\text { si } \\mathbf{p} \\geq 1 \\end{array}\\right\\} \\] Gráficamente: 3.1.1.1 Propiedades del modelo de Bernouilli La esperanza vale \\(E(X)=p\\). La varianza vale \\(V(X)=p(1-p)\\). 3.1.2 La distribución Binomial Al igual que el modelo de Bernouilli, hace referencia a experiencias con resultados dicotómicos (el resultado sólo puede ser \\(A\\) o \\(A^{\\mathcal{C}}\\) ). Sin embargo en este modelo estamos interesados en la repetición de \\(n\\) veces una experiencia de este tipo en condiciones independientes. Tomemos el ejemplo del contaje del número de caras en el lanzamiento \\(n\\) veces de una moneda regular. Para concretar, vamos a suponer que disponemos de una moneda regular \\((P[\\) cara \\(]=P[c r u z]=1 / 2)\\) que lanzamos cuatro veces. Es evidente que, en estas condiciones, la variable X: número de caras en cuatro lanzamientos independientes de una moneda regular es una variable aleatoria discreta que sólo puede tomar cinco posibles valores: \\[ x=0,1,2,3,4 \\] Pasemos ahora a calcular la probabilidad de cada valor (en terminología estadística, vamos a calcular la función de densidad de la variable \\(X\\) ). Es evidente que la \\(P[X=0]\\) es igual a la probabilidad de salgan cuatro cruces seguidas: \\[ P[X=0]=P[c r u z, c r u z, c r u z, c r u z]=\\mathrm{P}[c r u z]^{4}=(1 / 2)^{4}=0,0625 \\] ya que la moneda es regular y, por tanto, \\(P[\\) cara \\(]=P[\\) cruz \\(]=1 / 2\\). La \\(P[X=3]\\) corresponde al suceso de que salgan tres caras ( \\(c\\) en adelante) y una cruz ( + en adelante). Sin embargo, en este caso tenemos hasta cuatro posibles maneras de obtener dicho resultado, según el orden en que aparezcan las tres caras y la cruz: +ccc \\(\\mathrm{c}+\\mathrm{cc}\\) \\(\\mathrm{cc}+\\mathrm{c}\\) \\(\\mathrm{ccc}+\\) También debería resultar evidente que la probabilidad de cada uno de estos sucesos es la misma: \\[ P[+\\mathrm{ccc}]=P[\\mathrm{c}+\\mathrm{cc}]=P[\\mathrm{cc}+\\mathrm{c}]=P[\\mathrm{ccc}+]=(1 / 2)^{4}=(1 / 2)^{4}=0,0625 \\] de manera que, finalmente, la probabilidad de que salgan tres caras y una cruz es la suma de las probabilidades de los 4 casos anteriores: \\[ P[X=3]=4(1 / 2)^{4}=0,25 \\] Y así podríamos ir calculando el resto de casos. Podemos ver que, en este ejemplo, todos los casos tienen la misma probabilidad \\((0,0625)\\) y que el número total de casos posibles es 16 . En términos de combinatoria dicho número se obtendría como variaciones con repetición de dos valores (cara o cruz) tomados de cuatro en cuatro (el número de lanzamientos de la moneda): \\[ V R_{2}{ }^{4}=2^{4}=16 \\] En la siguiente tabla se muestran los dieciséis posibles resultados: \\(k=\\) número de caras Casos 0 +++++ 1 +++c \\(++\\mathrm{c}+\\) \\(+\\mathrm{c}++\\) \\(\\mathrm{c}+++\\) ++cc \\(+\\mathrm{c}+\\mathrm{c}\\) \\(\\mathrm{c}++\\mathrm{c}+\\) \\(\\mathrm{c}+\\mathrm{c}+\\) cc++ \\(\\mathrm{ccc}+\\) \\(\\mathrm{c}+\\mathrm{cc}\\) Si hacemos uso de nuestros conocimientos de combinatoria, comprobamos que el número de casos para cada posible valor \\(k(k=0,1,2,3,4)\\) puede calcularse como permutaciones con repetición de cuatro elementos tomado de \\(k\\) y \\(4-k\\) : \\[ R P_{4}^{k, 4-k}=\\frac{4!}{k!(4-k)!}=\\binom{4}{k} \\] y obtenemos finalmente el número combinatorio 4 sobre \\(k\\). En efecto, para el caso \\(k=3\\), tendríamos: \\[ \\binom{4}{3}=\\frac{4!}{3!1!}=4 \\] que son los cuatro posibles casos que nos dan tres caras y una cruz. Finalmente, recordando que todos los casos tienen la misma probabilidad, se construye la siguiente tabla: \\(k=\\) número de caras Número de casos \\(P[X=k]\\) 0 1 0,0625 1 4 0,2500 2 6 0,3750 3 4 0,2500 4 1 0,0625 Total 16 1 3.1.2.1 Los parámetros de la distribución Binomial La última tabla de la página anterior es, justamente, la función de densidad de nuestra variable \\(X\\). Función de densidad de \\(X\\) \\(k\\) \\(P[X=k]\\) 0 0,0625 1 0,2500 2 0,3750 3 0,2500 4 0,0625 En otro caso 0 Como hemos visto, para obtener los resultados anteriores, hemos tenido que definir dos valores: \\(n\\) : el número de lanzamientos (repeticiones de la experiencia aleatoria en condiciones independientes), en nuestro caso \\(n=4\\). \\(p\\) : la probabilidad de que salga cara \\((P[c])\\), en nuestro caso \\(p=1 / 2\\). Se dice, por tanto, que la distribución Binomial depende de dos parámetros: \\(n\\) y \\(p\\). En nuestro ejemplo, diremos que \\(X\\) sigue una distribución Binomial de parámetros \\(n=4\\) i \\(p=1 / 2\\). De forma abreviada: \\[ X \\sim B(n=4 ; p=1 / 2) \\] En el ejemplo que hemos visto, suponíamos que la moneda era regular y, por tanto, \\[ P[c]=P[+]=1 / 2 \\] Si tenemos una moneda trucada con las siguientes probabilidades: \\[ P[c]=2 / 3 \\quad \\text { i } \\quad P[+]=1 / 3 \\] diremos que en este caso la variable \\(X\\) : número de caras en cuatro lanzamientos independientes de nuestra moneda trucada sigue una distribución Binomial de parámetros: \\[ X \\sim B(n=4 ; p=2 / 3) \\] El problema se nos complica levemente ya que ahora no todos los posibles resultados tienen la misma probabilidad. Veamos dos ejemplos: La probabilidad de obtener cuatro caras es: \\[ P[c c c c]=(2 / 3)^{4}=0,1975 \\] La probabilidad de que el primer lanzamiento sea cara y el resto sean cruces valdrá: \\[ P\\left[c^{+++}\\right]=(2 / 3)^{\\prime}(1 / 3)^{3}=0,0247 \\] Sin embargo sí se cumplirá que la probabilidad de que todos los caso que resulten en el mismo número de caras y cruces tendrán la misma probabilidad. Por ejemplo, para los cuatro casos en los que el número total de caras es 1 y el de cruces 3 : \\[ P[c+++]=P[+c++]=P[++c+]=P[+++c]=(2 / 3)^{\\prime}(1 / 3)^{3}=0,0247 \\] Y, por tanto, la probabilidad de obtener una sola cara en el lanzamiento de nuestra moneda trucada será: \\[ P[X=1]=4^{\\prime} 0,0247=0,0988 \\] O, generalizando, si \\(P[A]=p\\) y \\(P\\left[A^{c}\\right]=1-p\\) tenemos que \\[ P[X=k]=c(n, k) p^{k}(1-\\mathrm{p})^{n-k} \\quad \\text { si } k=0,1, \\ldots, n \\] donde \\(c(n, k)\\) representa el número de posibles resultados en los que obtenemos \\(k\\) caras y \\(n-k\\) cruces en \\(n\\) lanzamientos. Tal como hemos visto, dicho número se puede calcular como permutaciones con repetición de \\(n\\) unidades tomadas de \\(k\\) y \\(n-k\\). Todo lo anterior nos lleva a formular el model binoial a traves de la siguiente función de densidad: \\[ f(k)=P[X=k]=\\left\\{\\begin{array}{ll} \\binom{\\mathbf{n}}{\\mathbf{k}} p^{k}(1-p)^{n-k} & \\text { si } \\quad k=0, \\ldots, n \\\\ 0 & \\text { en caso contrario } \\end{array}\\right\\} \\] con lo que la función de distribución se calcularía: \\[ F(k)=P[X \\leq k]=\\left\\{\\begin{array}{cc} 0 & \\text { si } k<0 \\\\ \\sum_{i=0}^{k}\\binom{\\mathbf{i}}{\\mathbf{n}} p^{i}(\\mathbf{1}-p)^{n-i} \\\\ \\mathbf{1} & \\text { si } k \\geq n \\end{array}\\right\\} \\] 3.1.2.2 Propiedades del modelo Binomial La esperanza vale \\(E(X)=n p\\). La varianza es \\(V(X)=n p(1-p)\\). Es una generalización del modelo de Bernouilli. En efecto, la Binomial con \\(n=1\\) (una sola realización) coincide con la distribución de Bernouilli. La suma de dos variables aleatorias binomiales independientes con igual parámetro \\(p\\) también sigue una distribución Binomial: \\[ X_{1} \\sim B\\left(n=n_{1} ; p=p_{0}\\right) \\quad \\text { i } \\quad X_{2} \\sim B\\left(n=n_{2} ; p=p_{0}\\right) \\] Si definimos \\(Z=X_{1}+X_{2}\\) entonces, \\[ Z \\sim B\\left(n=n_{1}+n_{2} ; p=p_{0}\\right) \\] 3.1.3 La distribución de Poisson Se trata de un modelo discreto, pero en el que el conjunto de valores con probabilidad no nula no es finito, sino numerable. Se dice que una variable aleatoria \\(X\\) sigue la distribución de Poisson si su función de densidad viene dada por: \\[ f(k)=P[X=k]=\\left\\{\\begin{array}{ll} e^{-\\lambda \\frac{\\lambda^{k}}{k!}} & \\text { si } k=0,12, \\ldots \\\\ 0 & \\text { en caso contrario } \\end{array}\\right\\} \\] Como vemos, este modelo se caracteriza por un sólo parámetro \\(\\lambda\\), que debe ser positivo. Esta distribución suele utilizarse para contajes del tipo número de individuos por unidad de tiempo, de espacio, etc. 3.1.3.1 Propiedades del modelo de Poisson Esperanza: \\(E(X)=\\lambda\\). Varianza: \\(V(X)=\\lambda\\). En esta distribución la esperanza y la varianza coinciden. La suma de dos variables aleatorias independientes con distribución de Poisson resulta en una nueva variable aleatoria, también con distribución de Poisson, de parámetro igual a la suma de parámetros: \\[ X_{1} \\sim P\\left(\\lambda=\\lambda_{1}\\right) \\quad \\text { y } \\quad X_{2} \\sim P\\left(\\lambda=\\lambda_{2}\\right) \\] y definimos \\(Z=X_{1}+X_{2}\\), entonces, \\[ Z \\sim P\\left(\\lambda=\\lambda_{1}+\\lambda_{2}\\right) \\] Este resultado se extiende inmediatamente al caso de \\(n\\) variables aleatorias independientes con distribución de Poisson. En este caso, la variable suma de todas ellas sigue una distribución de Poisson de parámetro igual a la suma de los parámetros. 3.1.4 La distribución Uniforme discreta Tenemos esta distribución cuando el resultado de una experiencia aleatoria puede ser un conjunto finito de \\(n\\) posibles resultados, todos ellos igualmente probables. Un ejemplo puede ser la variable \\(X\\), puntuación en el lanzamiento de un dado regular. Esta variable toma seis valores posibles, todos con la misma probabilidad \\(p=1 / 6\\). La función de densidad de esta variable será: \\[ f(k)=P[X=k]=1 / 6 \\quad k=1,2,3,4,5,6 \\] En general, si la variable \\(X\\) puede tomar \\(n(k=1,2, \\ldots, n)\\) valores, todos con igual probabilidad, su función de densidad será: \\[ f(k)=P[X=k]=1 / n \\quad k=1,2, \\ldots, n \\] 3.1.4.1 Propiedades del modelo Uniforme discreto Sea \\(n\\) el número de valores equiprobables posibles: 3.1.4.2 Esperanza: \\[ E(X)=\\frac{n+1}{2} \\] 3.1.4.3 Varianza: \\[ V(X)=\\frac{(n+1)[2(2 n+1)-3(n+1)]}{12} \\] 3.1.5 La distribución Hipergeométrica Este modelo presenta similitudes con el Binomial, pero sin la suposición de independencia de éste último. Veámoslo: Partimos de un conjunto formado por \\(N\\) individuos divididos en dos categorías mutuamente excluyentes: \\(A\\) y \\(A^{c}\\); de manera que \\(N_{1}\\) individuos pertenecen a la categoría \\(A\\) y \\(N_{2}\\) individuos, a la categoría \\(A^{c}\\). Por tanto, se cumple que \\[ N=N_{1}+N_{2} \\] Si del conjunto anterior extraemos \\(n\\) individuos sin reemplazamiento \\((n \\leq N)\\), la variable \\(X\\) que representa el número k de individuos que pertenecen a la categoría A (de los n extraídos) tiene por función de densidad: \\[ f(k)=P[X=k]=\\frac{\\binom{\\mathbf{N}_{1}}{\\mathbf{k}}\\binom{\\mathrm{N}_{2}}{\\mathbf{n}-\\mathbf{k}}}{\\binom{\\mathbf{N}}{\\mathbf{n}}} \\] si \\(\\operatorname{max}\\left\\{0, \\mathrm{n}-N_{2}\\right\\} \\leq \\mathrm{k} \\leq \\min \\left\\{N_{1}, n\\right\\}\\) La dependencia se debe al hecho de que \\(N\\) es finito y las extracciones se efectúan sin reemplazamiento. El caso de extracciones con reemplazamiento sería equivalente al de \\(N\\) infinito y se resolvería mediante el modelo Binomial. 3.1.5.1 Propiedades del modelo hipergeométrico Esperanza: \\(\\mathrm{E}(\\mathrm{X})=\\mathrm{n} \\mathrm{N}_{1} / \\mathrm{N}_{2}\\). Varianza: \\(V(X)=\\left(n N_{1} N_{2}(N-n)\\right) /\\left(N_{2}(N-1)\\right)\\) 3.1.6 La distribución Geométrica o de Pascal Definamos una experiencia aleatoria cuyo resultado sólo puede ser el suceso \\(A\\) o su complementario \\(A^{c}\\), y que se repite secuencialmente hasta que aparece el suceso \\(A\\) por primera vez. Definamos la variable aleatoria \\(X\\) como el número de veces que repetimos la experiencia en condiciones independientes hasta que se dé A por primera vez. Bajo estas condiciones, decimos que la variable \\(X\\) sigue una distribución geométrica o de Pascal de parámetro \\(p=P(A)\\). La función de densidad puede deducirse fácilmente de la definición: \\[ f(k)=P[X=k]=(1-p)^{k} p \\quad k=0,1,2, \\ldots \\] En el programa siguiente podéis ver su forma y obtener los valores de la función de densidad y de la de distribución: Algunas puntualizaciones de la definición de \\(X\\) : Notése que, en esta definición, condiciones independientes significa que \\(p\\), la probabilidad de \\(A\\), y \\(1-p\\), la de su complementario \\(A^{c}\\), no varían a lo largo de las sucesivas repeticiones de la experiencia. Tal y como la hemos definido, \\(X\\) se refiere al número de lanzamientos hasta que se produce \\(A\\), pero sin contabilizar el último caso en que se da \\(A\\). Por dicha razón \\(X\\) puede tomar los valores \\(k=\\) \\(0,1,2, \\ldots\\) con probabilidad no nula. Un ejemplo de este modelo podría ser la experiencia consistente en lanzar sucesivamente un dado regular hasta que aparezca el número 6 . Si definimos la variable aleatoria \\(X\\) como el número de lanzamientos de un dado regular hasta que aparezca un 6 , queda claro que \\(X\\) sigue una distribución geométrica de parámetro \\(p=1 / 6\\). 3.1.6.1 Propiedades del modelo Geométrico o de Pascal Esperanza: \\(E(X)=(1-p) / p\\) Varianza: \\(V(X)=(1-p) / p^{2}\\) 3.1.6.2 Preguntas: ¿A que suceso nos referimos cuando decimos \\(X=0\\) ? Respuesta. Cuando decimos que \\(X=0\\) nos referimos al caso en que el 6 aparece en el primer lanzamiento. La probabilidad de que esto suceda, suponiendo un dado regular, es de \\(1 / 6\\) : \\[ P[X=0]=1 / 6 \\] ¿Cuál es la probabilidad de que el primer 6 aparezca en el cuarto lanzamiento? Respuesta. La probabilidad de que el primer 6 aparezca en el cuarto lanzamiento corresponde a: \\[ P[X=3]=(5 / 6)^{3 \\cdot} 1 / 6=0,0965 \\] Fijémonos en que, si definimos \\(A\\) como el suceso sale un 6, la probabilidad anterior corresponde a la del suceso: \\(\\left\\{A^{c} A^{c} A^{c} A\\right\\}\\) (en este orden). 3.1.7 La distribución Binomial negativa Puede definirse como una generalización del modelo Geométrico o de Pascal. Así, dado un suceso \\(A\\) y su complementario \\(A^{c}\\), cuando \\(X\\) representa el número de veces que se da \\(\\mathrm{A}^{\\mathrm{c}}\\) (ausencias, fallos, etc.) hasta que se produce r veces el suceso A , en una serie de repeticiones de la experiencia aleatoria en condiciones independientes, decimos que \\(X\\) sigue la distribución Binomial negativa. Nótese que, cuando \\(r=1\\), tenemos exactamente el modelo geométrico. Este modelo queda definido por dos parámetros \\(p\\) (la probabilidad de \\(A: p=P(A)\\) ) y \\(r\\) (el número de veces que debe producirse \\(A\\) para que detengamos la experiencia). La función de densidad viene dada por: \\[ f(k)=P[X=k]=\\binom{\\mathbf{k}+\\mathbf{r}-\\mathbf{1}}{\\mathbf{r}-\\mathbf{1}} \\mathbf{p}^{\\mathbf{r}} \\mathbf{q}^{\\mathbf{k}} \\quad \\mathbf{k}=\\mathbf{0}, \\mathbf{1}, \\mathbf{2}, \\ldots \\] donde \\(q\\) representa el complementario de \\(p: q=1-p\\). 3.1.7.1 Propiedades del modelo Binomial negativo Esperanza: \\(E(X)=r^{\\prime} q / p\\) Varianza: \\(V(X)=r^{\\prime} q / p^{2}\\) Se cumplen las siguientes propiedades respecto la función de densidad: \\[ f(0)=p^{r} \\quad \\text { y } \\quad f(k+1)=\\frac{(1-p)(k+r)}{k+1} f(k) \\] Este modelo se ajusta bien a contajes (números de individuos por unidad de superficie) cuando se produce una distribución contagiosa (los individuos tienden a agruparse). La distribución Binomial negativa puede definirse con mayor generalidad si tomamos \\(r\\) como un número real positivo cualquiera (no necesariamente entero). Pero, en dicho caso, se pierde el carácter intuitivo del modelo y se complican ligeramente los cálculos. Por dichas razones, se ha excluido dicha posibilidad en esta presentación. 3.1.8 Tabla resumen de las distribuciones discretas principales Distribución Parámetros Función de densidad Esperanza Varianza Bernouilli \\(0 \\leq p \\leq 1\\) \\(p^{k}(1-p)^{1-k}\\) \\(k=0,1\\) \\(p\\) \\(p(1-p)\\) Binomial \\(0 \\leq p \\leq 1\\) \\(n=1,2, \\ldots\\) \\(\\binom{\\mathbf{n}}{\\mathbf{k}} p^{k}(1-p)^{n-k}\\) \\(k=0,1, \\ldots, n\\) \\(n p\\) \\(n p(1-p)\\) Poisson \\(\\lambda>0\\) \\(e^{-\\lambda} \\frac{\\lambda^{k}}{k!}\\) \\(k=012, \\ldots\\) \\(\\lambda\\) \\(\\lambda\\) Multinomial \\(0 \\leq p_{1}, \\ldots\\) \\(p_{r} \\leq 1\\) \\(\\left(p_{1}+\\ldots+\\right.\\) \\(\\left.p_{\\mathrm{r}}=1\\right)\\) \\(n=1,2\\) \\(\\frac{n!}{k_{1}!k_{2}!\\cdots k_{r}!} p_{1}^{k_{1}} p_{2}^{k_{2}} \\cdots p_{r}^{k_{r}}\\) \\(\\sum_{i=1}^{r} k_{i}=n\\) \\(\\left(\\begin{array}{c}n p_{1} \\\\ n p_{2} \\\\ \\vdots \\\\ n p_{r}\\end{array}\\right)\\) \\(\\boldsymbol{\\sigma}_{i i}=n p_{i}\\left(1-p_{i}\\right)\\) \\(\\boldsymbol{\\sigma}_{i j}=n p_{i} p_{j} \\quad i \\neq j\\) Uniforme discreta \\(n=1,2, \\ldots\\) \\(\\frac{1}{n}\\) \\(k=1,2, \\ldots . n\\) \\(\\frac{n+1}{2}\\) \\(\\frac{(n+1)[2(2 n+1)-3(n+1)}{12}\\) Hipergeométrica \\(\\left\\{\\begin{array}{c}N=N_{1}+ \\\\ N_{2} \\\\ p=N_{1} / N\\end{array}\\right.\\) \\(\\frac{\\binom{\\mathrm{N}_{1}}{\\mathrm{k}}\\binom{\\mathrm{N}_{2}}{\\mathrm{n}-\\mathrm{k}}}{\\binom{\\mathrm{N}}{\\mathrm{n}}}\\) \\(\\operatorname{max}\\left\\{0, \\mathrm{n}-N_{2}\\right\\} \\leq \\mathrm{k} \\leq \\min \\left\\{N_{1}, n\\right\\}\\) \\(n p\\) \\(n p(1-p) \\frac{N-n}{N-1}\\) Pascal \\(0 \\leq p \\leq 1\\) \\(p(1-p)^{k}\\) \\(k=0,1,2, \\ldots\\) \\(\\frac{1-p}{p}\\) \\(\\frac{1-p}{p^{2}}\\) Binomial negativa \\(0 \\leq p \\leq 1\\) \\(r>0\\) \\(\\frac{r(1-p)}{p}\\) \\(\\frac{r(1-p)}{p^{2}}\\) 3.2 Distribuciones Continuas 3.2.1 La distribución Uniforme La distribución Uniforme es el modelo (absolutamente) continuo más simple. Corresponde al caso de una variable aleatoria que sólo puede tomar valores comprendidos entre dos extremos \\(a\\) y \\(b\\), de manera que todos los intervalos de una misma longitud (dentro de \\((a, b)\\) ) tienen la misma probabilidad. También puede expresarse como el modelo probabilístico correspondiente a tomar un número al azar dentro de un intervalo \\((a, b)\\). De la anterior definición se desprende que la función de densidad debe tomar el mismo valor para todos los puntos dentro del intervalo \\((a, b)\\) (y cero fuera del intervalo). Es decir, \\[ f_{X}(x)=\\left\\{\\begin{array}{ll} \\frac{1}{b-a} & \\text { si } x \\in(a, b) \\\\ 0 & \\text { si } x \\notin(a, b) \\end{array}\\right\\} \\] Gráficamente: La función de distribución se obtiene integrando la función de densidad y viene dada por: \\[ F_{X}(x)=P(X \\leq x)=\\left\\{\\begin{array}{ll} 0 & \\text { si } x \\leq a \\\\ \\frac{x-a}{b-a} & \\text { si } x \\in(a, b) \\\\ 1 & \\text { si } x \\geq b \\end{array}\\right\\} \\] Gráficamente: Función de distribución del modelo uniforme 3.2.1.1 Propiedades del modelo Uniforme Su esperanza vale \\((b+a) / 2\\) Su varianza es \\((b-a)^{2} / 12\\) 3.2.1.2 Una aplicación del modelo Uniforme: el muestreo de Montecarlo En ciertos casos es útil simular el muestreo de una variable aleatoria con una distribución dada. El muestreo de Montecarlo es un procedimiento general para obtener muestras aleatorias de cualquier tipo de variable (discreta o continua) si su función de distribución es conocida o se puede calcular. Supongamos que queremos generar una muestra procedente de una variable aleatoria \\(X\\) con función de distribución \\(F(x)\\). El proceso comprende los siguientes pasos: Obtener un valor aleatorio \\(y\\) entre cero y uno. Es decir, obtener una muestra de una distribución Uniforme entre cero y uno. La mayoría de lenguajes de programación incorporan un generador de este tipo. Considerar el valor obtenido como el valor de la función de distribución a generar: \\(y=F(x)\\). El valor \\(x=F^{-1}(y)\\) (la inversa de la función de distribución en el punto \\(y\\) ) es un valor procedente de la distribución de la que deseábamos generar la muestra. Si queremos obtener una muestra con \\(n\\) individuos debemos repetir los pasos anteriores \\(n\\) veces. 3.2.1.3 Generación de una muestra procedente de una distribución Binomial Supongamos que queremos simular el experimento de contar el número de caras obtenidas en 5 lanzamientos de una moneda trucada con probabilidad de cara igual a 0,75 . Es decir, queremos obtener una muestra de una distribución Binomial con \\(n=5\\) y \\(p=0,75\\). Siguiendo los pasos anteriores deberemos obtener un número al azar entre 0 y 1 (un valor procedente de una distribución Uniforme entre 0 y 1) y si este valor es menor o igual a 0,75 diremos que ha salido cara y, si es superior a 0,75 , cruz. Utiliza el siguiente programa para simular cinco lanzamientos con nuestra moneda trucada: 3.2.2 La distribución Exponencial Este modelo suele utilizarse para variables que describen el tiempo hasta que se produce un determinado suceso. Su función de densidad es de la forma: \\[ f(x)=\\left\\{\\begin{array}{lll} \\frac{1}{\\alpha} \\exp \\left(-\\frac{x}{\\alpha}\\right) & \\text { si } & x>0 \\\\ 0 & \\text { si } & x \\leq 0 \\end{array}\\right\\} \\] Como vemos este modelo depende de un único parámetro \\(\\alpha\\) que debe ser positivo: \\(\\alpha>0\\). A continuación se muestra un programa que nos permite ver cómo cambia la forma de la función de densidad según el parámetro \\(\\alpha\\). La función de distribución se obtiene integrando la de densidad y es de la forma: \\[ F(x)=\\left\\{\\begin{array}{lll} 1-\\exp \\left(-\\frac{x}{\\alpha}\\right) & \\text { si } & x>0 \\\\ 0 & \\text { si } & x \\leq 0 \\end{array}\\right\\} \\] Podemos utilizar el programa siguiente para calcular dicha función de distribución: 3.2.2.1 Propiedades del modelo Exponencial Su esperanza es \\(\\alpha\\). Su varianza es \\(\\alpha^{2}\\). Una propiedad importante es la denominada carencia de memoria, que podemos definir así: si la variable \\(X\\) mide el tiempo de vida y sigue una distribución Exponencial, significará que la probabilidad de que siga con vida dentro de 20 años es la misma para un individuo que a fecha de hoy tiene 25 años que para otro que tenga 60 años. Cuando el número de sucesos por unidad de tiempo sigue una distribución de Poisson de parámetro \\(\\lambda\\) (proceso de Poisson), el tiempo entre dos sucesos consecutivos sigue una distribución Exponencial de parámetro \\(\\alpha=1 / \\lambda\\). 3.2.3 La distribución Normal Se trata, sin duda, del modelo continuo más importante en estadística, tanto por su aplicación directa, veremos que muchas variables de interés general pueden describirse por dicho modelo, como por sus propiedades, que han permitido el desarrollo de numerosas técnicas de inferencia estadística. En realidad, el nombre de Normal proviene del hecho de que durante un tiempo se creyó, por parte de médicos y biólogos, que todas las variables naturales de interés seguían este modelo. Su función de densidad viene dada por la fórmula: \\[ f(x)=\\frac{1}{\\sqrt{2 \\pi} \\sigma} \\exp \\left\\{-\\frac{(x-\\mu)^{2}}{2 \\sigma^{2}}\\right\\} \\quad \\text { donde }-\\infty<x<+\\infty \\] que, como vemos, depende de dos parámetros \\(\\mu\\) (que puede ser cualquier valor real) y \\(\\sigma\\) (que ha de ser positiva). Por esta razón, a partir de ahora indicaremos de forma abreviada que una variable \\(X\\) sigue el modelo Normal así: \\(X \\sim N(\\mu, \\sigma)\\). Por ejemplo, si nos referimos a una distribución Normal con \\(\\mu=0\\) y \\(\\sigma\\) \\(=1\\) lo abreviaremos \\(N(0,1)\\). A continuación vemos gráfica de esta función de densidad (podeis probar a cambiar los parámetros): Como puedes ver, la función de densidad del modelo Normal tiene forma de campana, la que habitualmente se denomina campana de Gauss. De hecho, a este modelo, también se le conoce con el nombre de distribución gaussiana. 3.2.3.1 Propiedades del modelo Normal Su esperanza es \\(\\mu\\). Su varianza es \\(\\sigma^{2} \\mathrm{y}\\), por tanto, su desviación típica es \\(\\sigma\\). Es simétrica respecto a su media \\(\\mu\\), como puede apreciarse en la representación anterior. Media, moda y mediana coinciden \\((\\mu)\\). Cualquier transformación lineal de una variable con distribución Normal seguirá también el modelo Normal. Si \\(X \\sim N(\\mu, \\sigma)\\) y definimos \\(Y=a X+b(\\operatorname{con} a \\neq 0)\\), entonces \\(Y \\sim N(a \\mu+b,|a| \\sigma)\\). Es decir, la esperanza de \\(Y\\) será \\(a \\mu+b\\) y su desviación típica, \\(|a| \\sigma\\). Cualquier combinación lineal de variables normales independientes sigue también una distribución Normal. Es decir, dadas \\(n\\) variables aleatorias independientes con distribución \\(X_{i} \\sim\\) \\(N\\left(\\mu_{i}, \\sigma_{i}\\right)\\) para \\(i=1,2, \\ldots, n\\) la combinación lineal: \\(Y=a_{n} X_{n}+a_{n-1} X_{n-1}+\\ldots+a_{1} X_{1}+\\mathrm{a}_{0}\\) sigue también el modelo Normal: \\[ Y \\approx N\\left(a_{0}+\\sum_{i=1}^{n} a_{i} \\boldsymbol{\\mu}_{i}, \\sqrt{\\sum_{i=1}^{n} a_{i}^{2} \\boldsymbol{\\sigma}^{2}}\\right) \\] ###La función de distribución del modelo Normal La función de distribución del modelo Normal se debería calcular, como en el resto de distribuciones continuas, integrando la función de densidad: \\[ F(x)=P[X \\leq x]=\\int_{-\\infty}^{x} \\frac{1}{\\sqrt{2 \\pi} \\sigma} \\exp \\left\\{-\\frac{(t-\\mu)^{2}}{2 \\sigma^{2}}\\right\\} \\mathrm{dt} \\] Pero nos encontramos con el problema de que no existe ninguna primitiva conocida para esta función, es decir, no sabemos resolver la anterior integral. Sin embargo, si somos incapaces de calcular la función distribución no podremos efectuar ningún cálculo con este modelo. ¿Cómo solucionamos el problema? Una primera solución podría consistir en aproximar la integral a través de técnicas de cálculo numérico. Sin embargo, dado que el conjunto de valores que pueden tomar los parámetros \\(\\mu\\) y \\(\\sigma\\) son infinitos, deberíamos repetir el proceso para cada valor diferente de algún parámetro. Afortunadamente, podemos ahorrarnos el esfuerzo aprovechando la propiedad de que cualquier transformación lineal de una variable Normal sigue también el modelo Normal. Por tanto, replantearemos cualquier problema en términos de una Normal concreta, que suele ser la \\(\\mathrm{N}(0,1)\\), de la siguiente manera: Si \\(X \\sim N(\\mu, \\sigma)\\) y entonces definimos \\(Z=(\\mathrm{X}-\\mu) / \\sigma\\) se cumplirá que \\(Z \\sim N(0,1)\\) \\[ \\begin{gathered} \\text { y, por tanto: } \\\\ F_{X}(x)=P[X \\leq x]=P\\left[\\frac{X-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}} \\leq \\frac{x-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}}\\right]=P\\left[Z \\leq \\frac{x-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}}\\right]=F_{Z}\\left(\\frac{x-\\boldsymbol{\\mu}}{\\boldsymbol{\\sigma}}\\right) \\end{gathered} \\] A la distribución \\(N(0,1)\\), es decir, la que tiene por media cero y por desviación típica uno, se le denomina Normal reducida o tipificada. En cambio, al proceso de transformación del cálculo de la función de distribución de una Normal cualquiera a través de la Normal tipificada, se le denomina tipificación. Debemos remarcar que el proceso de tipificación no resuelve el problema de la inexistencia de la función primitiva correspondiente. Sin embargo, sí es posible, mediante técnicas de cálculo numérico, obtener la integral numérica correspondiente y elaborar unas tablas que podemos consultar. Naturalmente, la tipificación permite que con una sola tabla, la de la \\(N(0,1)\\), tengamos suficiente. Hoy en día, cada vez se utilizan menos tablas como la mencionada anteriormente, ya que los ordenadores, junto con los abundantes programas estadísticos existentes nos resuelven este problema. Sin embargo, la imposibilidad de integrar analíticamente la función de densidad persiste y, aunque nosotros no seamos conscientes, los programas informáticos realizan el proceso de tipificación para simplificar el problema. 3.2.4 La distribución Gamma Este modelo es una generalización del modelo Exponencial ya que, en ocasiones, se utiliza para modelar variables que describen el tiempo hasta que se produce p veces un determinado suceso. Su función de densidad es de la forma: \\[ f(x)=\\left\\{\\begin{array}{lll} \\frac{1}{\\alpha^{p} \\Gamma(p)} e^{-\\frac{x}{\\alpha}} x^{p-1} & \\text { si } & x>0 \\\\ 0 & \\text { si } & x \\leq 0 \\end{array}\\right\\} \\] Como vemos, este modelo depende de dos parámetros positivos: \\(\\alpha\\) y p. La función \\(\\Gamma(p)\\) es la denominada función Gamma de Euler que representa la siguiente integral: \\[ \\Gamma(p)=\\int_{0}^{\\infty} x^{p-1} e^{-x} d x \\] que verifica \\(\\Gamma(p+1)=p \\Gamma(p)\\), con lo que, si \\(p\\) es un número entero positivo, \\(\\Gamma(p+1)=p\\). 3.2.4.1 Propiedades de la distribución Gamma Su esperanza es \\(p \\alpha\\). Su varianza es \\(p \\alpha^{2}\\) La distribución Gamma \\((\\alpha, p=1)\\) es una distribución Exponencial de parámetro \\(\\alpha\\). Es decir, el modelo Exponencial es un caso particular de la Gamma \\(\\operatorname{con} p=1\\). Dadas dos variables aleatorias con distribución Gamma y parámetro \\(\\alpha\\) común \\[ X \\sim G\\left(\\alpha, p_{1}\\right) \\text { y } Y \\sim G\\left(\\alpha, p_{2}\\right) \\] se cumplirá que la suma también sigue una distribución Gamma \\[ X+Y \\sim G\\left(\\alpha, p_{1}+p_{2}\\right) \\] Una consecuencia inmediata de esta propiedad es que, si tenemos \\(k\\) variables aleatorias con distribución Exponencial de parámetro \\(\\alpha\\) (común) e independientes, la suma de todas ellas seguirá una distribución \\(G(\\alpha, k)\\). 3.2.5 La distribución de Cauchy Se trata de un modelo continuo cuya función de densidad es: \\[ f(x)=\\frac{1}{\\pi\\left(1+x^{2}\\right)} \\quad \\text { para } \\quad-\\infty<x<\\infty \\] Cuya integral nos proporciona la función de distribución: \\[ F(x)=\\int_{-\\infty}^{x} \\frac{1}{\\pi\\left(1+t^{2}\\right)} d t=\\frac{1}{\\pi}[\\arctan (t)]_{t=-\\infty}^{t=x}=\\frac{1}{2}+\\frac{\\arctan (x)}{\\pi} \\] El siguiente programa permite visualizar la forma de la función de densidad de este modelo y el valor de la función de distribución: 3.2.5.1 Propiedades de la distribución de Cauchy Se trata de un ejemplo de variable aleatoria que carece de esperanza (y, por tanto, también de varianza o cualquier otro momento), ya que la integral impropia correspondiente no es convergente: \\[ E(X)=\\int_{-\\infty}^{\\infty} \\frac{x}{\\pi\\left(1+x^{2}\\right)} d x=\\frac{1}{2 \\pi} \\int_{-\\infty}^{\\infty} \\frac{2 x}{1+x^{2}} d x=\\frac{1}{2 \\pi}\\left[\\lim _{x \\rightarrow \\infty} \\ln \\left(x^{2}\\right)-\\lim _{x \\rightarrow-\\infty} \\ln \\left(x^{2}\\right)\\right]=\\frac{1}{2 \\pi}[\\infty-\\infty] \\] y nos queda una indeterminación. Por tanto, la esperanza de una distribución de Cauchy no existe. Cabe señalar que la función de densidad es simétrica respecto al valor cero (que sería la mediana y la moda), pero al no existir la integral anterior, la esperanza no existe. 3.2.6 La distribución de Weibull Se trata de un modelo continuo asociado a variables del tipo tiempo de vida, tiempo hasta que un mecanismo falla, etc. La función de densidad de este modelo viene dada por: \\[ f(x)=\\left\\{\\begin{array}{ll} \\frac{\\beta}{\\alpha}\\left(\\frac{x}{\\alpha}\\right)^{\\beta-1} e^{-\\left(\\frac{x}{\\alpha}\\right)^{\\beta}} & \\text { si } x \\geq 0 \\\\ 0 & \\text { si } x<0 \\end{array}\\right\\} \\] que, como vemos, depende de dos parámetros: \\(\\alpha>0\\) y \\(\\beta>0\\), donde \\(\\alpha\\) es un parámetro de escala y \\(\\beta\\) es un parámetro de forma (lo que proporciona una gran flexibilidad a este modelo). La función de distribución se obtiene por la integración de la función de densidad y vale: \\[ F(x)=1-e^{-\\left(\\frac{x}{\\alpha}\\right)^{\\beta}} \\] El siguiente programa permite visualizar la forma de la función de densidad de este modelo y el valor de la función de distribución: 3.2.6.1 Propiedades de la distribución Weibull Si tomamos \\(\\beta=1\\) tenemos una distribución Exponencial. Su esperanza vale: \\[ E(X)=\\alpha \\Gamma\\left(\\frac{1}{\\boldsymbol{\\beta}}+\\mathbf{1}\\right) \\] Su varianza vale: \\[ V(X)=\\alpha^{2}\\left\\{\\Gamma\\left(\\frac{2}{\\beta}+1\\right)-\\left[\\Gamma\\left(\\frac{1}{\\beta}+1\\right)\\right]^{2}\\right\\} \\] donde \\(\\Gamma(x)\\) representa la función Gamma de Euler definida anteriormente. 3.2.7 Tabla resumen de las principales distribuciones continuas Distribución Parámetros Función de densidad Esperanza Varianza Uniforme \\(a, b\\) \\(\\frac{1}{b-a}\\) \\(a<x<b\\) \\(\\frac{a+b}{2}\\) \\(\\frac{(b-a)^{2}}{12}\\) Exponencial \\(\\alpha>0\\) \\(\\frac{1}{\\alpha} \\exp \\left(-\\frac{x}{\\alpha}\\right)\\) \\(x>0\\) \\(\\alpha\\) \\(\\alpha^{2}\\) Normal \\(-\\infty<\\mu<\\infty\\) \\(\\sigma>0\\) \\(\\frac{1}{\\sqrt{2 \\pi} \\sigma} \\exp \\left\\{-\\frac{(x-\\mu)^{2}}{2 \\sigma^{2}}\\right\\}\\) \\(-\\infty<x<+\\infty\\) \\(\\mu\\) \\(\\sigma^{2}\\) Cauchy | - | \\(\\frac{1}{\\pi\\left(1+x^{2}\\right)}\\) \\(-\\infty<\\mathbf{x}<\\infty\\) | – | – | Weibull | \\(\\alpha>0\\) \\(\\beta>0\\) | \\(\\frac{\\boldsymbol{\\beta}}{\\boldsymbol{\\alpha}}\\left(\\frac{x}{\\boldsymbol{\\alpha}}\\right)^{\\beta-1} e^{-\\left(\\frac{x}{\\alpha}\\right)^{\\beta}}\\) \\(x \\geq 0\\) | \\(\\alpha \\Gamma\\left(\\frac{1}{\\beta}+1\\right)\\) | \\(\\alpha^{2}\\left\\{\\Gamma\\left(\\frac{2}{\\beta}+1\\right)-\\left[\\Gamma\\left(\\frac{1}{\\beta}+1\\right)\\right]^{2}\\right\\}\\) | 3.3 Distribuciones con R (y Python) El lenguaje estadístico R es muy potente en cuanto al cálculo con distribuciones de probabilidad. Dado que el trabajo con distribucines de probabilidad usando R está muy estandarizado y explicado en múltiples fuentes no repetiremos aquí estas explicaciones. Tan solo os referimos a dos buenas fuentes de información que podéis utilizar para aprender como hacer los cálculos con R y también una aplicación que os permite visualizar casi cualquier distribución conocida. R Tutorials Explicación detallada y de nivel básico del manejo de las principales distribuciones con R https://www.r-tutor.com/elementary-statistics/probability-distributions The distribution Zoo Permite visualizar de forma interactiva distintas distribuciones y proporciona información diversa sobre sus propiedades e incluso su aplicación. https://ben18785.shinyapps.io/distribution-zoo/ Distribution explorer Más completo que los anteriores. No se basa en R sino en python. https://distribution-explorer.github.io/index.html 3.4 La familia exponencial de distribuciones En el estudio de las propiedades de los estimadores, vemos que algunas distribuciones se comportan mejor que otras. Muchas veces, este buen comportamiento refleja una estructura común que proviene de pertenecer a una misma familia de distribuciones llamada familia exponencial. Definición: Sea \\(f_{\\theta}\\) una familia de probabilidades que depende de un parámetro unidimensional \\(\\left\\{f_{\\theta}(x), \\theta \\in \\Theta \\subseteq \\mathbb{R}\\right\\}\\) tal que el soporte \\(S(\\theta)=\\left\\{x \\mid f_{\\theta}(x)>0\\right\\}\\) no depende de \\(\\theta\\). Si existen funciones de los parámetros \\(Q(\\theta)\\) y \\(C(\\theta)\\) y funciones de las muestras, \\(T(x)\\) y \\(h(x)\\), tales que la función de densidad puede escribirse como: \\[f_{\\theta}(x)=C(\\theta) h(x) \\exp\\{Q(\\theta) \\cdot T(x)\\}\\] diremos que \\(f_{\\theta}(x)\\) pertenece a la familia exponencial de distribuciones. La familia exponencial no representa un nuevo tipo de distribuciones, sino la constatación de que muchas distribuciones comunes, que pueden reformularse para ajustarse a la expresión anterior, pertenecen a esta familia. Veamos algunos ejemplos de que esto es efectivamente así. 3.4.1 Ejemplos de distribuciones de esta familia 3.4.1.1 Distribución de Poisson La ley de Poisson pertenece a la familia exponencial uniparamétrica. Efectivamente, \\[f_{\\lambda}(x)=e^{-\\lambda} \\frac{\\lambda^{x}}{x!}=\\exp\\{-\\lambda+x \\log \\lambda-\\log(x!)\\}\\] y si hacemos \\[Q(\\lambda)=\\log(\\lambda) \\quad T(x)=x \\quad D(\\lambda)=-\\lambda \\quad S(x)=-\\log(x!)\\] se hace evidente que \\(f_{\\lambda}\\) pertenece a la familia exponencial. 3.4.1.2 Distribución normal uniparamétrica La ley normal depende de dos parámetros \\(\\mu\\) y \\(\\sigma\\). Fijado uno de ellos, nos queda una distribución que depende de un solo parámetro, y de aquí la denominación “normal uniparamétrica”. Si, con el subíndice “0”, indicamos el parámetro fijado, tenemos: \\[ \\begin{aligned} &f_{\\sigma}=\\left\\{N\\left(\\mu_0, \\sigma\\right), \\sigma>0\\right\\} \\text{ Normal uniparamétrica, de parámetro } \\sigma^2, \\\\ &f_{\\mu}=\\left\\{N\\left(\\mu, \\sigma_0\\right), \\mu \\in \\mathbb{R}\\right\\} \\text{ normal uniparamétrica, de parámetro } \\mu. \\end{aligned} \\] Si queremos considerar ambos parámetros a la vez, debemos extender la definición al caso de parámetros \\(k\\)-dimensionales. En estos materiales no trataremos esta extensión. 3.4.1.2.1 Caso 1: Fijando la media \\(\\mu_0\\) Consideramos la distribución normal \\(N(\\mu_0, \\sigma^2)\\), donde fijamos \\(\\mu = \\mu_0\\) y \\(\\sigma^2\\) es el parámetro libre. La función de densidad de probabilidad es \\[f_{\\sigma}(x) = \\frac{1}{\\sqrt{2\\pi\\sigma^2}} \\exp\\left\\{-\\frac{(x - \\mu_0)^2}{2\\sigma^2}\\right\\}\\] Vamos a reescribir esta función en forma de la familia exponencial. Primero, reorganizamos los términos de la densidad: \\[f_{\\sigma}(x) = \\frac{1}{\\sqrt{2\\pi}} \\cdot \\sigma^{-1} \\exp\\left\\{-\\frac{1}{2\\sigma^2}(x - \\mu_0)^2\\right\\}\\] Ahora identificamos las funciones que se corresponden con la forma de la familia exponencial \\(f_{\\theta}(x) = C(\\theta) h(x) \\exp\\{Q(\\theta) T(x)\\}\\): \\(Q(\\sigma) = -\\frac{1}{2\\sigma^2}\\) \\(T(x) = (x - \\mu_0)^2\\) \\(C(\\sigma) = \\frac{1}{\\sqrt{2\\pi}\\sigma}\\) \\(h(x) = 1\\) Esto confirma que la distribución normal, con \\(\\mu_0\\) fijo, pertenece a la familia exponencial. 3.4.1.2.2 Caso 2: Fijando la varianza \\(\\sigma_0^2\\) Ahora consideramos la distribución \\(N(\\mu, \\sigma_0^2)\\), donde la varianza está fijada y el parámetro libre es \\(\\mu\\). La función de densidad es \\[f_{\\mu}(x) = \\frac{1}{\\sqrt{2\\pi\\sigma_0^2}} \\exp\\left\\{-\\frac{(x - \\mu)^2}{2\\sigma_0^2}\\right\\}\\] Vamos a reescribir esta función de la misma manera: \\[f_{\\mu}(x) = \\frac{1}{\\sqrt{2\\pi\\sigma_0^2}} \\exp\\left\\{-\\frac{1}{2\\sigma_0^2}(x^2 - 2\\mu x + \\mu^2)\\right\\}\\] Identificamos las funciones correspondientes: \\(Q(\\mu) = \\frac{\\mu}{\\sigma_0^2}\\) \\(T(x) = x\\) \\(D(\\mu) = -\\frac{\\mu^2}{2\\sigma_0^2}\\) \\(S(x) = -\\frac{x^2}{2\\sigma_0^2}\\) Esto prueba que la distribución normal con \\(\\sigma_0\\) fijo pertenece a la familia exponencial. 3.4.2 Distribución Binomial La distribución binomial es un ejemplo interesante, puesto que, a priori, no parece tener la estructura propia de la distribución exponencial, cosa que si pasa con la distribución de Poisson o con la Normales uniparamétricas que acabamos de ver. Sin embargo, tras aplicar algunas transformaciones se puede ver como, también esta distribución pertenece a la familia exponencial La función de masa de probabilidad para la distribución binomial es \\[f(x; n, p) = \\binom{n}{x} p^x (1 - p)^{n - x}, \\quad x = 0, 1, \\dots, n\\] Reescribimos esta función en términos exponenciales: \\[f(x; n, p) = \\binom{n}{x} \\exp\\{x \\log(p) + (n - x) \\log(1 - p)\\}\\] Agrupamos los términos dependientes de \\(x\\): \\[f(x; n, p) = \\binom{n}{x} \\exp\\left\\{x \\log\\left(\\frac{p}{1 - p}\\right) + n \\log(1 - p)\\right\\}\\] Identificamos las funciones correspondientes a la familia exponencial: \\(Q(p) = \\log\\left(\\frac{p}{1 - p}\\right)\\) \\(T(x) = x\\) \\(D(p) = n \\log(1 - p)\\) \\(S(x) = \\log \\binom{n}{x}\\) Por lo tanto, la distribución binomial pertenece a la familia exponencial. 3.4.3 Importancia y utilidad de la familia exponencial Muchas de las distribuciones usadas para modelar gran cantidad de situaciones prácticas pertenecen a esta familia. Esto significa que es posible estudiar sus propiedades en conjunto. Es decir, si establecemos que una propiedad se verifica en una distribución que pertenece a la familia exponencial, automáticamente sabemos que todos los miembros de la familia verifican esa propiedad. A continuación, se describen tres ventajas importantes de trabajar con esta familia: 3.4.4 Los modelos lineales generalizados (GLMs) Una de las aplicaciones más importantes de la familia exponencial es su uso en los Modelos Lineales Generalizados (GLMs). Estos modelos nos permiten extender la regresión lineal clásica a diferentes tipos de datos, como los resultados binarios (por ejemplo, éxito o fracaso), mediante la regresión logística, recuentos de eventos (como el número de llamadas recibidas en una hora) mediante la regresión de Poisson, y muchos otros. Gracias a la estructura de la familia exponencial, podemos conectar la media de la variable que estamos modelando con las variables explicativas de forma flexible, lo que hace posible aplicar GLMs en una amplia variedad de situaciones. 3.4.5 Estimación en la familia exponencial Otra ventaja importante es que, al trabajar con distribuciones de la familia exponencial, los métodos que usamos para hacer inferencias estadísticas suelen tener buenas propiedades. Esto, que se explicará con más detalle en capítulos siguientes, implica que los estimadores que obtenemos con estos modelos suelen ser precisos y reflejar correctamente la información que contienen los datos. Naturalmente esto se puede ver al revés: Si podemos trabajar con distribuciones de la familia exponencial, solemos tener, de entrada, una serie de ventajas, como el buen comportamiento de los etimadores, por lo que siempre es una buena opción intentar utilizarlas en nuestros modelos. "],["distribuciones-de-probabilidad-multidimensionales.html", "Capítulo 4 Distribuciones de probabilidad multidimensionales 4.1 Distribuciones conjuntas de probabilidades 4.2 Variable aleatorias bivariantes discretas 4.3 La distribución multinomial 4.4 Distribuciones marginales 4.5 Distribuciones condicionales 4.6 Vectores aleatorios absolutamente continuos 4.7 Independencia de variables aleatorias 4.8 Momentos de vectores aleatorios", " Capítulo 4 Distribuciones de probabilidad multidimensionales En este capítulo se extiende el concepto de variable aleatoria a un conjunto de variables que pueden interpretarse asociadas a un conjunto de medidas distintas y que pueden estar, o no relacionadas. Tras introducir los conceptos de distribuciones multidimensionales, condicionales y marginales, se pasa a considerar el caso más habitual en inferencia estadística en el que las componentes de los vectrores son independientes entre ellas. Este es, de hecho, el punto de partida de muchos modelos y métodos en estadística. 4.1 Distribuciones conjuntas de probabilidades A menudo nos interesa estudiar múltiples características de un fenómeno aleatorio: La altura, el peso y el sexo de un individuo. La expresión coordinada de los genes que participan en una determinada via metabólica. El número de nucleótidos A, C, G, T en una región del genoma de tamaño \\(n\\). Estas características numéricas que, de forma análoga al caso univariante, podemos suponer asociadas a los resultados de experimentos aleatorios se denominan variables aleatorias multidimensionales o, atendiendo a sus componentes, vectores aleatorios. Las distribuciones de probabilidad que, siguiendo con la analogía, asociaremos a los vectores aleatorios se denominan distribuciones de probabilidades conjuntas o multivariantes. Antes de desarrollar el tema es importante remarcar que consideraremos dos escenarios: El primero, el “natural” es considerar que si trabajamos con distintas variables asociadas a un mismo fenómeno, es razonable suponer que varien de alguna forma coordinada. De ahí la expresión distribución conjnta. En ocasiones, sin embargo, dispondremos de vectores aleatorios que varian independientemente los unos de los otros. En este caso su distribución conjunta será de un tipo especial que se conoce independencia. 4.1.1 Variable aleatoria bivariante Empezaremos por el caso más sencillo que, sin embargo permite estudiar la mayoría de los conceptos quenos interesas: Las distribuciones conjuntas de dos variables aleatorias. Una variable aleatoria bivariante es una aplicación que, a cada resultado de un experimento, le asocia dos números: \\[ (X, Y): \\Omega \\to \\mathbb{R}^2 \\] \\[ w \\mapsto (X(w), Y(w)) \\] De modo que, para todo par de valores numéricos, \\((x, y) \\in \\mathbb{R}^2\\), se tiene \\[ \\{w \\in \\Omega \\mid X(w) \\leq x,\\quad Y(w) \\leq y\\} \\in \\mathcal{A} \\] donde \\(\\mathcal{A}\\) representa el conjunto de sucesos observables definido en el capítulo 1. Lo que viene a significar esta definición es que una variable aleatoria bidimensional es un conjunto de medidas (números reales) a los que, por el ehecho de poderse asociar con sucesos observables a traves de los intérvalos \\(X(w) \\leq x,\\quad Y(w) \\leq y\\) se les puede asociar (calcular) una probabilidad. Fijémonos también que, como en el caso univariante, la función que transporta la probabilidad, del espació de probabilidad al conjunto de los reales, será la función de distribución, que se define a continuación. 4.1.2 Función de distribución bivariante La función de distribución conjunta de \\(X\\) y \\(Y\\), \\(F\\), es una generalización inmediata del caso univariado y se define como: \\[ F(x, y) = P\\{w \\in \\Omega \\mid X(w) \\leq x, Y(w) \\leq y\\} = P[X \\leq x, Y \\leq y] \\] Como en el caso univariante, esta es la función que define la forma en que podemos calcular probabilidades sobre los valores de las variables, en este caso de dimensión 2. 4.1.3 Ejemplo: Distribución conjunta del estado de infección y activación de células Supongamos que estamos observando dos características de células en un experimento de inmunología. Las variables que describen las células son: \\(X\\): La célula está infectada (\\(X = 1\\)) o no infectada (\\(X = 0\\)). \\(Y\\): La célula está activada (\\(Y = 1\\)) o no activada (\\(Y = 0\\)). La siguiente tabla muestra la probabilidad conjunta de observar cada combinación de infección y activación en una célula: \\(X \\backslash Y\\) \\(Y = 0\\) (No activada) \\(Y = 1\\) (Activada) \\(X = 0\\) (No infectada) 0.4 0.2 \\(X = 1\\) (Infectada) 0.1 0.3 4.1.3.1 1. Función de distribución conjunta La función de distribución conjunta \\(F(x, y)\\) para esta situación se calcula como: \\[ F(x, y) = P(X \\leq x, Y \\leq y) \\] Los valores para los pares posibles de \\(x\\) y \\(y\\) son: \\(F(0, 0) = P(X = 0, Y = 0) = 0.4\\) \\(F(0, 1) = P(X = 0, Y \\leq 1) = P(X = 0, Y = 0) + P(X = 0, Y = 1) = 0.4 + 0.2 = 0.6\\) \\(F(1, 0) = P(X \\leq 1, Y = 0) = P(X = 0, Y = 0) + P(X = 1, Y = 0) = 0.4 + 0.1 = 0.5\\) \\(F(1, 1) = P(X \\leq 1, Y \\leq 1) = 1\\) 4.1.3.2 2. Cálculo de la probabilidad de eventos específicos Por ejemplo, la probabilidad de que una célula esté infectada pero no activada es: \\[ P(X = 1, Y = 0) = 0.1 \\] 4.1.4 Implementación en R Podemos visualizar esta distribución conjunta con un gráfico en R. library(ggplot2) # Crear los datos de la distribución conjunta data <- expand.grid(X = c(0, 1), Y = c(0, 1)) data$Prob <- c(0.4, 0.2, 0.1, 0.3) # Crear el gráfico p <- ggplot(data, aes(x = factor(X, labels = c("No infectada", "Infectada")), y = factor(Y, labels = c("No activada", "Activada")))) + geom_tile(aes(fill = Prob), color = "white") + scale_fill_gradient(low = "white", high = "blue") + geom_text(aes(label = round(Prob, 2)), size = 5) + labs(x = "Estado de infección (X)", y = "Estado de activación (Y)", title = "Distribución Conjunta de Infección y Activación Celular") + theme_minimal() # Guardar el gráfico en el subdirectorio imagenes ggsave("images/distribucion_conjunta.png", plot = p, width = 6, height = 4, dpi = 300) knitr::include_graphics("images/distribucion_conjunta.png") 4.2 Variable aleatorias bivariantes discretas Una vez introducidos los conceptos de forma general pasamos a estudiar el problema en el caso discreto, que es muy intuitivo y, a la vez permite introducir todos los conceptos relevantes. Un vector aleatorio discreto, \\((X, Y)\\) es aquel cuyo recorrido o conjunto de valores posibles es finito o numerable. En este caso, toda probabilidad \\[ P\\{(X, Y) \\in B\\}, \\quad \\text{donde } B \\text{ es un conjunto de posibles valores de } X, Y, \\] se puede calcular a partir de la función de masa de probabilidad discreta bivariante. 4.2.1 Función de masa de probabilidad discreta (fmp) La funcion de masa de probabilidad de los vectores aleatorios generaliza la función del mismo nombre en el caso univariante, es decir, es una función: \\[ f: \\mathbb{R}^2 \\to [0, 1] \\] Que asigna la probabilidad a cada punto del plano: para todo \\((x, y) \\in \\mathbb{R}^{2}\\): \\[ f(x, y) = P\\{w \\in \\Omega \\mid X(w) = x, Y(w) = y\\} = P[X = x, Y = y] \\] 4.2.2 Propiedades de la fmp bivariante La masa total de probabilidad sobre el plano es 1: \\[ \\sum_{(x_i, y_j) \\in \\mathbb{R}^{2}} f(x_i, y_j) = 1 \\] Para todo subconjunto \\(B \\subseteq \\mathbb{R}^2\\), se verifica: \\[ F(x, y) = P[X \\leq x, Y \\leq y] = \\sum_{x_i \\leq x, y_j \\leq y} f(x_i, y_j) \\] Es decir, como en el caso univariante la función de distribución se puede calcular a partir de la función de masa de probabilidad. 4.2.2.1 Intuición frente a construcción La presentación de los conceptos anteriores suele generar cierto desasosiego entre los estudiantes que afrontan estos conceptos por primera (o siguientes) vez. El motivo de este desasosiego es que el papel de la función de distribución no suele ser tan intuitivo como el de la función de masa de probabilidad. Es decir, es más intuitivo pensar en como calcular lña probabilidad que la variable tome un valor concreto (\\(P[X=x]\\)) , que la probabilidad de que no alcance cierto valor (\\(P[X\\leq x]\\)). Sin embargo, la función que realmente permite transportar la probabilidad no es la función de masa de probabilidad (fmp) sino la función de distribución (fdd). De ahí el contraste entre intuición (fmp) y construcción (fdd) 4.2.3 Ejemplo de distribución bivariante discreta Supongamos que un estudio mide el número de células infectadas y el número de linfocitos activados en un campo microscópico. Dado el tamaño del campo y el grado de infección los valores observados de cada variables son: \\(X\\): Número de células infectadas (\\(X \\in \\{0, 1, 2, 3, 4, 5\\}\\))). \\(Y\\): Número de linfocitos activados (\\(Y \\in \\{0, 1, 2, 3\\}\\))). La distribución conjunta se refleja en la siguiente tabla de probabilidades conjuntas: \\(P[X=x]\\) \\(P[Y = 0]\\) \\(P[Y = 1]\\) \\(P[Y = 2]\\) \\(P[Y = 3]\\) 0 0.12 0.06 0.02 0.00 1 0.10 0.10 0.04 0.01 2 0.06 0.12 0.08 0.02 3 0.03 0.12 0.10 0.05 4 0.01 0.08 0.12 0.06 5 0.00 0.03 0.10 0.07 Puede comprobarse como la suma de todos los valores de la tabla es 1, y calcular probabilidades de sucesos como Probabilidad de que hayan dos células infectadas y un linfocito: Para calcular la probabilidad de que haya exactamente 2 células infectadas y 1 linfocito activado, se puede usar el valor directamente de la tabla. \\[ P(X = 2, Y = 1) = 0.12 \\] Probabilidad de que hayan menos de tres celulas infectadas y menos de dos linfocitos: Esta probabilidad es la suma de todas las combinaciones de \\(X\\) y \\(Y\\)) que cumplen con la condición de \\(X < 3\\)) y \\(Y < 2\\)). Es decir, sumamos las probabilidades de los casos \\((X = 0, Y = 0)\\)), \\((X = 0, Y = 1)\\)), \\((X = 1, Y = 0)\\)), \\((X = 1, Y = 1)\\)), \\((X = 2, Y = 0)\\)), y \\((X = 2, Y = 1)\\)). \\[ P(X < 3, Y < 2) = P(X = 0, Y = 0) + P(X = 0, Y = 1) + P(X = 1, Y = 0) + P(X = 1, Y = 1) + P(X = 2, Y = 0) + P(X = 2, Y = 1) \\] \\[ P(X < 3, Y < 2) = 0.12 + 0.06 + 0.10 + 0.10 + 0.06 + 0.12 = 0.56 \\] Recordemos que, al tratarse de variables discretas, no es lo mismo \\(P[X < x]\\) que \\(P[X \\leq x]\\), por lo que si la pregunta fuera “Probabilidad de que hayan al menos tres celulas infectadas y al menos dos linfocitos” deberíamos calcular: \\[ P(X \\leq 3, Y \\leq 2) \\] Esta última expresión se corresponde con la función de distribución evaluada en \\((3,2)\\). 4.2.3.1 Código R para el cálculo de la pmf Podemos hacer los cálculos usando R: prob_table <- matrix(c(0.12, 0.06, 0.02, 0.00, 0.10, 0.10, 0.04, 0.01, 0.06, 0.12, 0.08, 0.02, 0.03, 0.12, 0.10, 0.05, 0.01, 0.08, 0.12, 0.06, 0.00, 0.03, 0.10, 0.07), nrow = 6, byrow = TRUE) # Asignar nombres a las filas y columnas rownames(prob_table) <- 0:5 colnames(prob_table) <- 0:3 # Mostrar la tabla prob_table ## 0 1 2 3 ## 0 0.12 0.06 0.02 0.00 ## 1 0.10 0.10 0.04 0.01 ## 2 0.06 0.12 0.08 0.02 ## 3 0.03 0.12 0.10 0.05 ## 4 0.01 0.08 0.12 0.06 ## 5 0.00 0.03 0.10 0.07 # Calcular la probabilidad de (X = 2, Y = 1) prob_X2_Y1 <- prob_table["2", "1"] cat("P(X = 2, Y = 1) =", prob_X2_Y1, "\\n") ## P(X = 2, Y = 1) = 0.12 # Calcular la probabilidad de (X < 3, Y < 2) prob_X_lt_3_Y_lt_2 <- sum(prob_table[1:3, 1:2]) cat("P(X < 3, Y < 2) =", prob_X_lt_3_Y_lt_2, "\\n") ## P(X < 3, Y < 2) = 0.56 4.2.3.2 Código R para visualizar la distribución conjunta Para visualizar la distribución conjunta, podemos usar el código siguiente; # Es preciso instalar y cargar el paquete scatterplot3d si no lo tienes instalado # install.packages("scatterplot3d") library(scatterplot3d) # Crear una matriz con los datos de la tabla de probabilidades X_vals <- as.numeric(rownames(prob_table)) Y_vals <- as.numeric(colnames(prob_table)) # Crear un grid de valores X e Y X_grid <- rep(X_vals, each = length(Y_vals)) Y_grid <- rep(Y_vals, times = length(X_vals)) # Extraer las probabilidades como un vector Z_vals <- as.vector(prob_table) # Enviar el gráfico 3D de barras simuladas a pdf png("images/pmfTrinomial.png") scatterplot3d(X_grid, Y_grid, Z_vals, type = "h", color = "lightblue", pch = 16, lwd = 5, cex.symbols = 1, angle=60, xlab = "Celulas Infectadas (X)", ylab = "Linfocitos Activados (Y)", zlab = "Probabilidad", main = "Distribución Conjunta de \\n Celulas Infectadas y Linfocitos Activados") dev.off() ## png ## 2 # Añadir texto con los valores de las probabilidades en la parte superior de las barras # s3d$text(X_grid, Y_grid, Z_vals, labels = round(Z_vals, 2), pos = 3, col = "black") knitr::include_graphics("images/pmfTrinomial.png", rel_path = TRUE ) 4.3 La distribución multinomial Antes de seguir con el estudio de las distribuciones discretas presentamos un caso importante de distribucion multivariante discreta, la distribución multinomial. 4.3.1 Generación de las observaciones Supongamos un experimentoaleatorio que puede producir \\(k\\) resultados posibles \\(A_1, A_2, \\dots, A_k\\) con probabilidades \\(p_1, p_2, \\dots, p_k\\), tales que \\(p_1 + p_2 + \\dots + p_k = 1\\). Repetimos el experimento \\(n\\) veces y llamamos \\(X_1, X_2, \\dots, X_k\\) al número de veces que se presenta \\(A_1, A_2, \\dots, A_k\\). La distribución conjunta de \\(X_1, X_2, \\dots, X_k\\) recibe el nombre de multinomial. 4.3.2 Funcion de masa de probabilidad de la distribución multinomial El vector \\(\\mathbf{X} = (X_1, \\dots, X_k)\\) tiene distribución multinomial de parámetros \\(n\\) y \\(\\mathbf{p} = (p_1, \\dots, p_k),\\) denotado por \\(\\mathbf{X} \\sim \\mathrm{M}(n, \\mathbf{p})\\), con \\(n\\) entero positivo, \\(p_i \\geq 0\\) y \\(\\sum_{i=1}^{k} p_i = 1\\). Su función de densidad conjunta es: \\[ f(\\mathbf{x}) = P[\\mathbf{X} = \\mathbf{x}] = \\frac{n!}{x_1!x_2!\\cdots x_k!} p_1^{x_1} p_2^{x_2} \\dots p_k^{x_k} \\] donde \\(x_i\\) son enteros no negativos tales que \\(\\sum_{i=1}^{k} x_i = n\\). 4.3.3 Relación con la distribución binomial Esta distribución puede verse como una generalización de la distribución binomial en el que, en lugar de tener dos posibles resultados, tenemos \\(r\\) resultados posibles. 4.3.4 Un caso particular: La distribución trinomial Veamos un ejemplo propio del análisis de secuencias en el que se aplica esta distribución: Si consideramos el alineamiento de dos secuencias \\(x, y\\) de tamaño \\(n\\), podemos observar: $A_1 $: \\(x_i\\) alineado con $y_i $, con $P(A_1) = p_1 $ $A_2 $: \\(x_i\\) alineado con “-”, con $P(A_2) = p_2 $ $A_3 $: “-” alineado con $y_i $, con $P(A_3) = 1 - p_1 - p_2 $ La variable $(X_1, X_2) $, que cuenta el número de veces que se observa \\(A_1, A_2\\) (con $X_3 = n - X_1 - X_2 $), sigue una distribución trinomial de parámetros \\(n\\), $p_1 $, $p_2 $. Obsérvese que, dado que el total de observaciones \\(n\\) está prefijado, aunque haya tres categorías, \\(A_1\\), \\(A_2\\), \\(A_3\\) el número de observaciones de \\(A_3\\) es el total menos la suma de las observaciones de \\(A_1+A_2\\). O dicho de otra forma el número de probabilidades que són parámetros de la distribución es \\(n-1=2\\), lo que junto con \\(n\\) que es otyro parámetro determina que “trinomial” se refiera tanto al total de categorías como al número de parámetros, aunque, en realidad tan sólo hay dos componentes \\(X_1\\) y \\(X_2\\) independientes (concepto este que se definirá con precisión más adelante). Estudiamos los posibles alineamientos de dos secuencias de 5 nucleótidos, en un contexto en el que las probabilidades de \\(A_1\\) y \\(A_2\\) son, respectivamente 0.6 y 0.2, es decir una Trinomial M(5; 0.6, 0.2) que dan lugar a la tabla siguiente. \\(X_{1} \\backslash X_{2}\\) 0 1 2 3 4 5 0 (0,0,5) (0,1,4) (0,2,3) (0,3,2) (0,4,1) (0,5,0) 1 (1,0,4) (1,1,3) (1,2,2) (1,3,1) (1,4,0) 2 (2,0,3) (2,1,2) (2,2,1) (2,3,0) 3 (3,0,2) (3,1,1) (3,2,0) 4 (4,0,1) (4,1,0) 5 (5,0,0) A partir de la tabla anterior podemos determinar las probabilidades conjuntas: \\(X_{1} \\backslash X_{2}\\) 0 1 2 3 4 5 0 0.0003 0.0016 0.0032 0.0032 0.0016 0.0003 1 0.0048 0.0192 0.0288 0.0192 0.0048 2 0.0288 0.0864 0.0864 0.0288 3 0.0864 0.1728 0.0864 4 0.1296 0.1296 5 0.0778 4.4 Distribuciones marginales Dado un vector aleatorio, puede interesar el comportamiento individual de una o cada una de sus componentes \\(X_i\\). La distribución de la componente \\(i\\)-ésima se denomina distribución marginal de \\(X_i\\). Representa el comportamiento de \\(X_i\\) sin tener en cuenta las otras componentes, es decir, como si fuera una variable aleatoria unidimensional. 4.4.1 Las marginales están en los márgenes El nombre de distribución marginal proviene del hecho de que en una distribución bivariada discreta como la trinomial, los valores de una fila coinciden con los valores de \\(X_2\\), y todos los de una columna con los de \\(X_1\\). Los valores en la fila 0 o columna 0 (los márgenes) representan precisamente las distribuciones marginales. 4.4.2 Densidades marginales discretas La densidad marginal de \\(X\\) es: \\[ f_X(x) = f_1(x) = \\sum_j f(x, y_j) \\] y la de \\(Y\\) es: \\[ f_Y(y) = f_2(y) = \\sum_i f(x_i, y) \\] 4.4.3 Trinomial M(5; 0.6, 0.2): Distribuciones marginales \\(X_1 \\backslash X_2\\) 0 1 2 3 4 5 \\(X_2\\) \\(P[X_2 = x]\\) 0 (0,0,5) (0,1,4) (0,2,3) (0,3,2) (0,4,1) (0,5,0) 0 0.0102 1 (1,0,4) (1,1,3) (1,2,2) (1,3,1) (1,4,0) 1 0.0768 2 (2,0,3) (2,1,2) (2,2,1) (2,3,0) 2 0.2304 3 (3,0,2) (3,1,1) (3,2,0) 3 0.3456 4 (4,0,1) (4,1,0) 4 0.2592 5 (5,0,0) 5 0.0778 X_2 0 1 2 3 4 5 1.0000 \\(P[X_2 = x]\\) 0.3277 0.4096 0.2048 0.0512 0.0064 0.0003 1.0000 4.5 Distribuciones condicionales A veces nos interesa la distribución de una componente si conocemos que la otra ha tomado un valor determinado. En el ejemplo de los alineamientos, podríamos querer conocer los posibles valores y probabilidades de un alineamiento, si sabemos que hay exactamente un “gap” en la secuencia de prueba. 4.5.1 Densidad condicional ¿Qué podemos decir de la distribución de \\(Y\\) si conocemos el valor de \\(X\\)? \\[ f(y \\mid X = x) = P[Y = y \\mid X = x] = \\frac{P[X = x, Y = y]}{P[X = x]} = \\frac{f(x, y)}{f_X(x)} \\] siempre que \\(f_X(x) > 0\\). 4.5.2 Trinomial M(5; 0.6, 0.2): Distribución condicional Distribución de \\(X_1\\) condicionada a que \\(X_2 = 1\\). \\((X_1, 1)\\) \\(P(X_1, 1)\\) \\(P_{X_2}(1)\\) \\(P(X_1 \\mid X_2 = 1)\\) (0,1,4) 0.002 0.41 0.004 (1,1,3) 0.019 0.41 0.047 (2,1,2) 0.086 0.41 0.211 (3,1,1) 0.173 0.41 0.422 (4,1,0) 0.13 0.41 0.316 Total 1 4.6 Vectores aleatorios absolutamente continuos Diremos que \\((X, Y)\\) es absolutamente continua si existe una función \\(f(x, y)\\), llamada función de densidad conjunta absolutamente continua o bivariada, tal que, para todo \\((x, y) \\in \\mathbb{R}^2\\), \\[ F(x, y) = \\int_{-\\infty}^{x} \\int_{-\\infty}^{y} f(u, v)\\, du \\, dv \\] Si existe, la función de densidad absolutamente continua es única. 4.6.1 Propiedades de la función de densidad conjunta \\(f(x, y) \\geq 0\\) La masa total de probabilidad es 1: \\[ \\int_{-\\infty}^{\\infty} \\int_{-\\infty}^{\\infty} f(x, y)\\, dx\\,dy = 1 \\] Para cualquier conjunto \\(S\\): \\[ P\\{(X, Y) \\in S\\} = \\int_S f(x, y) \\, dx \\, dy \\] En particular, la probabilidad de que \\((X, Y)\\) esté en un rectángulo: \\[ P(a_1 < X \\leq a_2, b_1 < Y \\leq b_2) = \\int_{a_1}^{a_2} \\int_{b_1}^{b_2} f(x, y) \\, dx \\, dy \\] 4.6.2 Densidades marginales en el caso continuo Las densidades marginales son: \\[ f_X(x) = \\int_{-\\infty}^{\\infty} f(x, y) \\, dy \\] \\[ f_Y(y) = \\int_{-\\infty}^{\\infty} f(x, y) \\, dx \\] 4.6.3 Densidad condicional en el caso continuo La densidad de \\(Y\\) condicionada a un valor de \\(X\\) es: \\[ f(y \\mid X = x) = \\frac{f(x, y)}{f_X(x)} \\] siempre que \\(f_X(x) > 0\\). 4.6.4 La Distribución Normal Bivariante El ejemplo más importante de una distribución de probabilidad absolutamente continua para vectores aleatorios es la distribución normal bivariante. Esta distribución describe dos variables aleatorias continuas, \\(X\\) y \\(Y\\), cuya relación está modelada por una correlación lineal y tiene forma de campana (gaussiana) en dos dimensiones. 4.6.4.1 Función de Densidad Conjunta La función de densidad conjunta de la distribución normal bivariante con medias \\(\\mu_X\\), \\(\\mu_Y\\), desviaciones estándar \\(\\sigma_X\\), \\(\\sigma_Y\\) y coeficiente de correlación \\(\\rho\\) es: \\[ f(x, y) = \\frac{1}{2 \\pi \\sigma_X \\sigma_Y \\sqrt{1 - \\rho^2}} \\exp \\left( -\\frac{1}{2(1 - \\rho^2)} \\left[ \\frac{(x - \\mu_X)^2}{\\sigma_X^2} + \\frac{(y - \\mu_Y)^2}{\\sigma_Y^2} - \\frac{2\\rho(x - \\mu_X)(y - \\mu_Y)}{\\sigma_X \\sigma_Y} \\right] \\right) \\] Esta expresión se generaliza fácilmente de la distribución normal univariante, pero en este caso incluye términos adicionales que representan la interacción entre \\(X\\) y \\(Y\\). 4.6.4.2 Ejemplo En vez de proporcionar un código para visualizar la distribución normal bivariante podéis seguir este enlace: https://datasciencegenie.com/3d-contour-plots-of-bivariate-normal-distribution/ en donde se extiende lo que acabamos de discutir y se proporciona algunos ejemplos con R. 4.6.4.3 Distribuciones Marginales Para obtener las distribuciones marginales a partir de una normal bivariante, debemos integrar la densidad conjunta sobre una de las variables. Dado que estamos trabajando con una distribución normal bivariante, su densidad conjunta está dada por: \\[ f_{X,Y}(x, y) = \\frac{1}{2 \\pi \\sigma_X \\sigma_Y \\sqrt{1 - \\rho^2}} \\exp\\left( -\\frac{1}{2(1 - \\rho^2)} \\left[ \\frac{(x - \\mu_X)^2}{\\sigma_X^2} + \\frac{(y - \\mu_Y)^2}{\\sigma_Y^2} - \\frac{2\\rho(x - \\mu_X)(y - \\mu_Y)}{\\sigma_X \\sigma_Y} \\right] \\right) \\] Para obtener la marginal de \\(X\\), debemos integrar sobre \\(Y\\): \\[ f_X(x) = \\int_{-\\infty}^{\\infty} f_{X,Y}(x, y) \\, dy \\] Al realizar esta integral, se obtiene que la distribución marginal de \\(X\\) es: \\[ f_X(x) = \\frac{1}{\\sqrt{2 \\pi \\sigma_X^2}} \\exp\\left( -\\frac{(x - \\mu_X)^2}{2 \\sigma_X^2} \\right) \\] Esto muestra que \\(X\\) sigue una distribución normal con media \\(\\mu_X\\) y varianza \\(\\sigma_X^2\\), es decir, \\(X \\sim N(\\mu_X, \\sigma_X^2)\\). Del mismo modo, para la marginal de \\(Y\\), integramos sobre \\(X\\): \\[ f_Y(y) = \\int_{-\\infty}^{\\infty} f_{X,Y}(x, y) \\, dx \\] La solución de esta integral da: \\[ f_Y(y) = \\frac{1}{\\sqrt{2 \\pi \\sigma_Y^2}} \\exp\\left( -\\frac{(y - \\mu_Y)^2}{2 \\sigma_Y^2} \\right) \\] Lo que significa que \\(Y\\) sigue una distribución normal con media \\(\\mu_Y\\) y varianza \\(\\sigma_Y^2\\), es decir, \\(Y \\sim N(\\mu_Y, \\sigma_Y^2)\\). 4.6.4.4 Ejemplo Supongamos que tenemos una distribución normal bivariante con los siguientes parámetros: \\(\\mu_X = 100\\), \\(\\sigma_X = 15\\) \\(\\mu_Y = 50\\), \\(\\sigma_Y = 10\\) \\(\\rho = 0.5\\) La densidad conjunta es: \\[ f_{X,Y}(x, y) = \\frac{1}{2 \\pi (15)(10) \\sqrt{1 - 0.5^2}} \\exp\\left( -\\frac{1}{2(1 - 0.5^2)} \\left[ \\frac{(x - 100)^2}{15^2} + \\frac{(y - 50)^2}{10^2} - \\frac{2(0.5)(x - 100)(y - 50)}{(15)(10)} \\right] \\right) \\] Integrando sobre \\(Y\\), obtenemos la distribución marginal de \\(X\\): \\[ f_X(x) = \\frac{1}{\\sqrt{2 \\pi (15^2)}} \\exp\\left( -\\frac{(x - 100)^2}{2 \\cdot 15^2} \\right) \\] De manera análoga, la marginal de \\(Y\\) es: \\[ f_Y(y) = \\frac{1}{\\sqrt{2 \\pi (10^2)}} \\exp\\left( -\\frac{(y - 50)^2}{2 \\cdot 10^2} \\right) \\] 4.6.5 Distribuciones Condicionales La distribución condicional de una variable dado un valor específico de la otra también es normal univariante. Por ejemplo, la distribución condicional de \\(X\\) dado \\(Y = y\\) es: \\[ X \\mid Y = y \\sim N \\left( \\mu_X + \\rho \\frac{\\sigma_X}{\\sigma_Y} (y - \\mu_Y), (1 - \\rho^2)\\sigma_X^2 \\right) \\] De forma análoga, la distribución condicional de \\(Y\\) dado \\(X = x\\) es: \\[ Y \\mid X = x \\sim N \\left( \\mu_Y + \\rho \\frac{\\sigma_Y}{\\sigma_X} (x - \\mu_X), (1 - \\rho^2)\\sigma_Y^2 \\right) \\] 4.6.5.1 Ejemplo Podemos calcular la distribución condicional de \\(X\\) dado que \\(Y = 180\\) cm, y mostrar cómo cambia la distribución de \\(X\\) bajo esta condición: # Valores originales mu <- c(100, 50) sigma <- c(15, 10) rho <- 0.5 # Condicionar X dado Y = 180 y_cond <- 180 mu_cond <- mu[1] + 0.6 * (10/7) * (y_cond - mu[2]) sigma_cond <- sqrt(1 - 0.6^2) * 10 # Mostrar la media y desviación estándar condicionales mu_cond ## [1] 211.4286 sigma_cond ## [1] 8 Esto nos dice que el peso medio de una persona con altura de 180 cm es mayor que el peso medio de la población total, y su desviación estándar es menor debido a la correlación positiva entre peso y altura. 4.7 Independencia de variables aleatorias Una vez introducido el concepto de distribución conjunta pasamos a estudiar un caso particularmente importante de distribución conjunta, la independencia. De forma aparentemente contradictoria, en este caso, las variables se caracterizan por el hecho de que no varían conjuntamente sino que lo hacen independientemente las unas de las otras. De manera intuitiva podemos decir que dos variables aleatorias son independientes si los valores que toma una de ellas no afectan a los de la otra ni a sus probabilidades. En muchas ocasiones la independencia será evidente a partir del experimento, por ejemplo, es independiente el resultado del lanzamiento de un dado y el de una moneda tres veces. Por tanto las variables: \\(X_1\\): “Puntuación obtenida con el dado” y \\(X_2\\): “Número de caras obtenidas al lanzar tres veces una moneda” serán variables independientes. En otras ocasiones tenemos una dependencia clara, por ejemplo, al lanzar un dado consideremos las variables \\(Y_1=\\): puntuación del dado, \\(Y_2=\\): variable indicadora de puntuación par. Es evidente que existe una clara dependencia, si sabemos que \\(Y=1\\), la variable \\(X\\) sólo puede tomar los valores 2 , 4 o 6 ; si sabemos que \\(X=3\\), entonces, \\(Y=0\\) forzosamente. Algunas veces podemos suponer la existencia de una cierta relación entre variables, aunque sea en forma algo abstracta y sin concretar. Por ejemplo si realizamos unas mediciones sobre unos individuos, las variables altura en cm y peso en Kg probablemente estarán relacionadas, los valores de una influirán en los valores de la otra. Intentar determinar la naturaleza exacta de la relación entre ambas es lo que en estadística conocemos como un problema de correlación (si nos interesa unicamente la asociación) o de regresión (si uqeremos modelizar una variable en función d ela otra). Si queremos una definición algo más formal, basta con que recordemos que dos sucesos son independientes si la probabilidad de la intersección es igual al producto de probabilidades, aplicando esta definición a sucesos del tipo \\(X \\leq a\\) tenemos la definición siguiente: 4.7.1 Primera caracterización de la independencia Diremos que dos variables aleatorias \\(X\\) e \\(Y\\) son independientes si y sólo si su función de distribución conjunta puede expresarse como el producto de las funciones de distribución marginales, es decir si \\[ F_{X,Y}(x,y)= P\\left( (X \\leq x) \\cap (Y \\leq b)\\right)=P(X \\leq x) \\times P(Y \\leq y)=F_{X}(x) \\times F_{Y}(y) \\] Fijémonos que, como en otros casos, la función que nos permite caracterizar una condición de forma general es la función de distribución. 4.7.1.1 Variables discretas independientes En el caso de las variables discretas la caracterización de la independencia puede hacerse, además, por las funciones de masa de probabilidad: Diremos que dos variables aleatorias discretas \\(X\\) e \\(Y\\) son independientes si y sólo si su función de masa de probabilidad conjunta puede expresarse como el producto de las funciones de masa de probabilidad marginales, es decir si \\[ f_{X,Y}(x,y)= P\\left( (X = x) \\cap (Y = y)\\right)=P(X = x) \\times P(Y = y)=f_{X}(x) \\times f_{Y}(y) \\] 4.7.2 Propiedades de las variables independientes Como consecuencia inmediata de la independencia de \\(X\\) e \\(Y\\), se cumple lo siguiente: \\[ P(a<X \\leq c \\cap b<Y \\leq d)=P(a<X \\leq c) \\cdot P(b<Y \\leq d) \\] Que podría re-enunciarse diciendo que la probabilidad conjunta en un rectangulo definido por los valores “a, c, b, d” es el producto de las probabilidades marginales en los segmentos “ac”, para \\(X\\) y “bd” para \\(Y\\). 4.8 Momentos de vectores aleatorios Una vez hemos introducido los vectores aleatorios, que como hemos señalado, son variables aleatorias bi, tri o \\(n\\)-dimensionales tiene sentido preguntarse como se extienden a dichos vectores los conceptos y propiedades que introdujimos para variables aleatorias unidimensionales. Ya hemos visto como, para las funciones de probabilidad, la función de densidad o la función de distribución, existen extensiones imediatas, la función de densidad conjunta o la función de distribución conjunmta. Hemos visto también que, además de dichas extensiones, aparecen nuevos conceptos, que sólo tienen sentido en dos o más dimensiones, como las funciones de densidad condicionales o funciones de densidad marginales. Al considerar conceptos como la media o la varianza veremos que sucede algo similar: Por un lado conceptos como el de esperanza se extiende imediatamente al vector de medias. Por otro, conceptos como la varianza, han de tener en cuenta ahora, la posibilidad de variación conjunta entre dos o más variables lo que lleva a introducir magnitudes como la covarianza y la correlación. La extensión del concepto de varianza pasa ahora a combinar extensiones y conceptos nuevos en lo que se conoce como matriz de varianzas-covarianzas. 4.8.1 Esperanza de un vector aleatorio o vector de medias La esperanza matemática de un vector aleatorio es un vector que contiene las esperanzas matemáticas de cada una de las componentes de dicho vector. Si tenemos un vector aleatorio bivariante \\(\\mathbf{X}=(X_1,X_2)\\), su esperanza \\(\\mathbb{E}(\\mathbf{X})\\) está dada por: \\[ \\mathbb{E}(\\mathbf{X})= \\begin{pmatrix} \\mathbb{E}(X_1)\\\\ \\mathbb{E}(X_2) \\end{pmatrix} \\] Consideremos un experimento en el que estamos midiendo el nivel de expresión génica de dos genes \\(X_1\\) y \\(X_2\\) en una muestra de células. Si los niveles promedio de expresión son \\(\\mu_1=5\\) y \\(\\mu_2=8\\), entonces la esperanza del vector aleatorio sería: \\[ \\mathbb{E}(\\mathbf{X})= \\begin{pmatrix} 5\\\\ 8 \\end{pmatrix} \\] 4.8.2 Covarianza entre dos variables aleatorias La covarianza entre dos variables aleatorias \\(X_1\\) y \\(X_2\\) es una medida del grado de dependencia lineal entre ellas. La covarianza se define como \\[ \\text{Cov}(X_1,X_2)=\\mathbb{E}[(X_1-\\mathbb{E}(X_1))(X_2-\\mathbb{E}(X_2))] \\] Supongamos que estamos midiendo la cantidad de dos metabolitos \\(X_1\\) y \\(X_2\\) en una muestra, y queremos saber si sus concentraciones tienden a aumentar o disminuir juntas. Si obtenemos una covarianza de 0.5, y conocemos la escala en que varían los datos, podemos concluir que existe ligera tendencia a que los aumentos en \\(X_1\\) estén asociados con aumentos en \\(X_2\\). 4.8.3 Covarianza y correlación El ejemplo anterior es claramente insatisfactorio, puesto que valores de 0.5 pueden sugerir una gran dependencia o cas ninguna, segun cual sea la escala o el rango de variación de los valores que se consideran. Para evitar esta arbitrariedad se introduce la correlación lineal. La correlación entre dos variables aleatorias es una medida estandarizada del grado de dependencia lineal entre dos variables (es decir de lacovarianza), que toma valores entre -1 y 1 y que se define como: \\[ \\text{Corr}(X_1,X_2)=\\frac{\\text{Cov}(X_1,X_2)}{\\sqrt{\\text{Var}(X_1)\\text{Var}(X_2)}} \\] En el caso de los metabolitos mencionados anteriormente, si \\(\\text{Cov}(X_1,X_2)=0.5\\), \\(\\text{Var}(X_1)=2\\) y \\(\\text{Var}(X_2)=3\\), podemos calcular la correlación, que valdría: \\[ \\text{Corr}(X_1,X_2)=\\frac{0.5}{\\sqrt{2\\times 3}}=\\frac{0.5}{\\sqrt{6}}\\approx 0.204 \\] Esto indica una correlación positiva débil entre las concentraciones de los dos metabolitos. Obsérvese, sin embargo que si en vez de los valores anteriores para las varianzas de \\(X\\) e \\(Y\\) hubiéramos tenido \\(\\text{Var}(X_1)=1\\) y \\(\\text{Var}(X_2)=.5\\) el valor de la correlación habría sido: \\[ \\text{Corr}(X_1,X_2)=\\frac{0.5}{\\sqrt{1\\times 0.5}}=\\frac{0.5}{\\sqrt{0.5}}\\approx 0.7071 \\] Este ejemplo muestra como la correlación aporta más información sobre la dependencia lineal, puesto que, además de tener en cuenta la variación conjunta, tiene en cuenta la variabilidad individual de cada componente. 4.8.4 Matriz de varianzas-covarianzas La matriz de varianzas-covarianzas de un vector aleatorio \\(\\mathbf{X}=(X_1,X_2)\\) es una matriz que contiene las varianzas de las componentes en la diagonal y las covarianzas fuera de la diagonal. Está definida como: \\[ \\text{Cov}(\\mathbf{X})= \\begin{pmatrix} \\text{Var}(X_1)&\\text{Cov}(X_1,X_2)\\\\ \\text{Cov}(X_2,X_1)&\\text{Var}(X_2) \\end{pmatrix} \\] Siguiendo con el ejemplo de los metabolitos, si \\(\\text{Var}(X_1)=2\\), \\(\\text{Var}(X_2)=3\\), y la covarianza es \\(0.5\\), la matriz de covarianzas sería: \\[ \\text{Cov}(\\mathbf{X})= \\begin{pmatrix} 2&0.5\\\\ 0.5&3 \\end{pmatrix} \\] Esto nos indica la dispersión de cada variable y la relación entre ambas. La distribución normal bivariante Una de las distribuciones más importantes que describe el comportamiento conjunto de dos variables aleatorias es la distribución normal bivariante. Un vector aleatorio \\(\\mathbf{X}=(X_1,X_2)\\) tiene una distribución normal bivariante si su función de densidad conjunta está dada por: \\[ f(x_1,x_2)=\\frac{1}{2\\pi\\sigma_1\\sigma_2\\sqrt{1-\\rho^2}}\\exp\\left(-\\frac{1}{2(1-\\rho^2)}\\left[\\frac{(x_1-\\mu_1)^2}{\\sigma_1^2}-2\\rho\\frac{(x_1-\\mu_1)(x_2-\\mu_2)}{\\sigma_1\\sigma_2}+\\frac{(x_2-\\mu_2)^2}{\\sigma_2^2}\\right]\\right) \\] Aquí, \\(\\mu_1\\) y \\(\\mu_2\\) son las medias de \\(X_1\\) y \\(X_2\\), \\(\\sigma_1^2\\) y \\(\\sigma_2^2\\) son las varianzas, y \\(\\rho\\) es el coeficiente de correlación. 4.8.5 Matriz de correlaciones La matriz de correlaciones de un vector aleatorio bivariante \\(\\mathbf{X}=(X_1,X_2)\\) es una matriz simétrica \\(2\\times 2\\) que contiene los coeficientes de correlación entre las componentes \\(X_1\\) y \\(X_2\\). La correlación mide la relación lineal entre las variables y se define como: \\[ \\text{Corr}(X_1,X_2)=\\frac{\\text{Cov}(X_1,X_2)}{\\sqrt{\\text{Var}(X_1)\\text{Var}(X_2)}} \\] La matriz de correlaciones \\(\\text{Corr}(\\mathbf{X})\\) está dada por: \\[ \\text{Corr}(\\mathbf{X})= \\begin{pmatrix} 1 & \\text{Corr}(X_1,X_2)\\\\ \\text{Corr}(X_2,X_1) & 1 \\end{pmatrix} \\] Dado que \\(\\text{Corr}(X_1,X_2)=\\text{Corr}(X_2,X_1)\\), la matriz es simétrica, y los elementos diagonales son siempre \\(1\\) porque la correlación de una variable consigo misma es \\(1\\). 4.8.5.1 Relación con la matriz de covarianzas La matriz de correlaciones está relacionada con la matriz de covarianzas de la forma siguiente: Si \\(\\Sigma\\) es la matriz de covarianzas de \\(\\mathbf{X}=(X_1,X_2)\\), con \\(\\Sigma=\\begin{pmatrix} \\text{Var}(X_1) & \\text{Cov}(X_1,X_2)\\\\ \\text{Cov}(X_2,X_1) & \\text{Var}(X_2) \\end{pmatrix}\\), la matriz de correlaciones se obtiene “normalizando” cada covarianza dividiendo por el producto de las desviaciones estándar de las respectivas variables: \\[ \\text{Corr}(\\mathbf{X})= \\begin{pmatrix} 1 & \\frac{\\text{Cov}(X_1,X_2)}{\\sigma_1\\sigma_2}\\\\ \\frac{\\text{Cov}(X_2,X_1)}{\\sigma_1\\sigma_2} & 1 \\end{pmatrix} \\] donde \\(\\sigma_1=\\sqrt{\\text{Var}(X_1)}\\) y \\(\\sigma_2=\\sqrt{\\text{Var}(X_2)}\\). Supongamos que medimos dos variables, como la altura \\(X_1\\) y el peso \\(X_2\\) de un grupo de personas. Sabemos que: \\(\\text{Var}(X_1)=25\\) (varianza de la altura), \\(\\text{Var}(X_2)=100\\) (varianza del peso), \\(\\text{Cov}(X_1,X_2)=40\\) (covarianza entre altura y peso). La matriz de covarianzas sería: \\[ \\Sigma= \\begin{pmatrix} 25 & 40\\\\ 40 & 100 \\end{pmatrix} \\] La correlación entre \\(X_1\\) y \\(X_2\\) se calcula como: \\[ \\text{Corr}(X_1,X_2)=\\frac{40}{\\sqrt{25 \\times 100}}=\\frac{40}{50}=0.8 \\] Por lo tanto, la matriz de correlaciones será: \\[ \\text{Corr}(\\mathbf{X})= \\begin{pmatrix} 1 & 0.8\\\\ 0.8 & 1 \\end{pmatrix} \\] Esto indica una fuerte correlación positiva entre la altura y el peso de las personas en este grupo. La matriz de correlaciones nos proporciona una forma normalizada de comparar la dependencia entre las variables, sin depender de las unidades de medida. 4.8.6 Segunda caracterización de la independencia La independencia entre dos variables aleatorias \\(X_1\\) y \\(X_2\\) puede caracterizarse también a través de sus esperanzas de la siguiente manera: Dos variables son independientes si la esperanza del producto de ambas es igual al producto de las esperanzas de cada una por separado. Es decir si se verifica que: \\[ \\mathbb{E}[X_1 X_2] = \\mathbb{E}[X_1] \\mathbb{E}[X_2] \\] Esta propiedad refleja que, cuando las variables son independientes, el valor esperado del producto no se ve afectado por la interacción entre ellas, lo que implica que no hay dependencia entre las dos. Una consecuencia importante de esta propiedad es cómo afecta a la covarianza entre \\(X_1\\) y \\(X_2\\). Si \\(X_1\\) y \\(X_2\\) son independientes, entonces, por la propiedad anterior, \\(\\mathbb{E}[X_1 X_2] = \\mathbb{E}[X_1] \\mathbb{E}[X_2]\\) lo que, a su vez, significa que la covarianza es cero: \\[ \\text{Cov}(X_1, X_2) = \\mathbb{E}[X_1]\\mathbb{E}[X_2] - \\mathbb{E}[X_1]\\mathbb{E}[X_2] = 0 \\] Por lo tanto, si dos variables son independientes, necesariamente su covarianza es cero. Sin embargo, la inversa no es cierta: el hecho de que la covarianza sea cero no implica que las variables sean independientes. 4.8.7 Relación entre incorrelación e independencia Cuando la covarianza entre dos variables es cero, se dice que las variables son incorreladas. Aunque la independencia implica que las variables son incorreladas, lo contrario no siempre es verdad: dos variables pueden ser incorreladas (tener covarianza cero) pero no independientes. Un ejemplo clásico es el siguiente: si consideramos una variable aleatoria \\(X\\) y definimos \\(Y = X^2\\), entonces, aunque la covarianza entre \\(X\\) y \\(Y\\) puede ser cero (especialmente si \\(X\\) tiene una distribución simétrica alrededor de 0, como la normal estándar), \\(X\\) y \\(Y\\) no son independientes, porque el valor de \\(Y\\) está completamente determinado por \\(X\\). Consideremos dos variables aleatorias \\(X_1\\) y \\(X_2\\) que siguen una distribución normal conjunta bivariante con media cero: \\[ (X_1, X_2) \\sim \\mathcal{N}\\left(\\mathbf{0}, \\Sigma \\right) \\] Si la matriz de covarianzas \\(\\Sigma\\) es diagonal, es decir, \\(\\text{Cov}(X_1, X_2) = 0\\), entonces \\(X_1\\) y \\(X_2\\) son incorreladas. En este caso particular, cuando las variables son normales, la incorrelación sí implica independencia, porque en distribuciones normales la ausencia de correlación (covarianza cero) también implica que no hay ninguna dependencia entre las variables. Sin embargo, en otras distribuciones que no son normales, la incorrelación no garantiza la independencia, lo que subraya la importancia de distinguir entre los dos conceptos. "],["grandes-muestras.html", "Capítulo 5 Grandes muestras 5.1 Introducción: Aproximaciones asintóticas 5.2 Leyes de los grandes números 5.3 El teorema central del límite", " Capítulo 5 Grandes muestras Este capítulo está pendiente de revisión, para corregir posibles problemas derivados de la importación, desde la antigua version en HTML, a la versión actual. Estos problemas siempre serán estéticos y no conceptuales, por lo que la lectura del texto en su estado actual no inducirá a errores conceptuales en ningún caso. La primera sección, además, está pendiente de ser introducida en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). 5.1 Introducción: Aproximaciones asintóticas 5.1.1 Convergencia de variables aleatorias 5.2 Leyes de los grandes números 5.3 El teorema central del límite El teorema central del límite (a partir de ahora, TCL) presenta un doble interés. Por un lado, proporciona a la estadística un resultado crucial para abordar el estudio de la distribución asintótica de muchos tipos de variables aleatorias. Como se verá en próximos capítulos, va a resultar básico en la construcción de contrastes de hipótesis y de intervalos de confianza, dos herramientas esenciales en estadística aplicada. Además, el TCL proporciona una explicación teórica fundamentada a un fenómeno habitual en experimentos reales: las variables estudiadas presentan muchas veces una distribución empírica aproximadamente normal. El TCL forma parte de un conjunto de propiedades relativas a las convergencias de variables aleatorias. En este tema se estudia sólo un tipo de convergencia, la convergencia en ley, ya que es necesaria para entender el enunciado del TCL. Se descarta, pues, en este documento el estudio de los otros tipos de convergencias (en probabilidad, casi segura, etc.) y el estudio de las leyes de los grandes números. Posiblemente el lector con poca formación en análisis matemático hallará alguna dificultad en la primera lectura de la definición de convergencia en ley y en el enunciado del TCL. Si es este el caso, los ejemplos incluidos han de ayudar en su comprensión. Consideramos al TCL un resultado básico con el que hay que familiarizarse, ya que se aplicará repetidamente en los próximos temas. 5.3.1 Sumas de variables aleatorias El TCL estudia el comportamiento de las sumas de variables aleatorias. En temas anteriores se han visto ya ejemplos de sumas de variables aleatorias. Formalmente, la suma de dos variables aleatorias corresponde a la siguiente aplicación: si \\(X_{1}\\) y \\(X_{2}\\) son dos variables aleatorias definidas sobre \\(\\Omega\\), la suma es: \\[ \\begin{aligned} X_{1}+X_{2}: & \\Omega \\rightarrow \\mathbb{R} \\\\ & \\omega \\mapsto X_{1}(\\omega)+X_{2}(\\omega) \\end{aligned} \\] La suma de dos variables puede extenderse sin dificultad a sumas de tres, cuatro,… y, en general, \\(n\\) variables aleatorias. El TCL se ocupa de las sucesiones de variables aleatorias. En el contexto del TCL una sucesión corresponde a un conjunto donde el primer elemento es una variable aleatoria, el segundo elemento es la suma de dos variables aleatorias, el tercero es la suma de tres variables aleatorias, y así sucesivamente. Una sucesión es un conjunto de elementos infinitos, que se designan simbólicamente mediante \\(\\left\\{X_{n}\\right\\}\\). Cada uno de los elementos de la sucesión (que es una variable aleatoria) lleva asociada una determinada función de distribución: \\[ X_{n} \\rightarrow F_{n} \\] Así pues, la sucesión de variables aleatorias lleva asociada una secuencia paralela de funciones de distribución. En los ejemplos se presentan sumas de variables aleatorias de diferentes tipos. 5.3.1.1 Presentación de los ejemplos Ejemplo 1: sumas de variables binomiales. Ejemplo 2: sumas de variables Poisson. Ejemplo 3: sumas de \\(n\\) puntuaciones de dados. Ejemplo 4: sumas de variables uniformes. Ejemplo 5: sumas de variables exponenciales. 5.3.2 Definición de convergencia en ley La siguiente definición se ocupa del comportamiento de las sucesiones. Sea \\(\\left\\{X_{n}\\right\\}\\) una sucesión de variables aleatorias, y sea \\(\\left\\{F_{n}\\right\\}\\) la correspondiente sucesión de funciones de distribución. Se dice que \\(\\left\\{X_{n}\\right\\}\\) converge en ley a una variable aleatoria \\(X\\) de función de distribución \\(F\\) si: \\[ \\lim _{n \\rightarrow \\infty} F_{n}(x)=F(x) \\quad \\text { para todo } \\mathrm{x} \\text { donde } F \\text { es contínua. } \\] Se indica que la sucesión converge en ley mediante el símbolo: \\[ X_{n} \\stackrel{\\mathrm{L}}{\\rightarrow} X \\] El significado de la definición es que, al aumentar arbitrariamente \\(n\\), las sucesivas funciones de distribución de la secuencia se aproximan a la distribución \\(F\\) de la variable \\(X\\). En los ejemplos se presentan gráficamente algunas situaciones donde diferentes sucesiones de variables aleatorias convergen en ley a una variable aleatoria normal. 5.3.2.1 Representación gráfica de la convergencia Ejemplo 1: primeros elementos de una sucesión de sumas de variables binomiales. Ejemplo 2: primeros elementos de una sucesión de sumas de variables Poisson. Ejemplo 3: primeros elementos de una sucesión de sumas de variables discretas. Ejemplo 4: primeros elementos de una sucesión de sumas de variables uniformes. Ejemplo 5: primeros elementos de una sucesión de sumas de variables exponenciales. 5.3.3 Enunciado del teorema central del límite A continuación se presenta el enunciado del TCL en la versión de Lindeberg y Lévy. Teorema: Sea \\(X_{1}, X_{2}, \\ldots, X_{n}\\), un conjunto de variables aleatorias independientes idénticamente distribuidas, cada una de ellas con función de distribución \\(F\\), y supongamos que \\(E\\left(X_{k}\\right)\\) \\(=\\mu \\mathrm{y} \\operatorname{var}\\left(X_{k}\\right)=\\sigma^{2}\\) para cualquier elemento del conjunto. Si designamos a la suma normalizada de \\(n\\) términos con el símbolo: \\[ S_{n}^{*}=\\frac{X_{1}+X_{2}+\\cdots+X_{n}-n \\mu}{\\sigma \\sqrt{n}} \\] entonces la sucesión de sumas normalizadas converge en ley a la variable aleatoria normal tipificada \\(\\mathrm{Z} \\sim N(0,1)\\), es decir: \\[ S_{n}^{*} \\xrightarrow{\\mathrm{L}} \\] El teorema anterior tiene dos importantes corolarios: Si consideramos la suma ordinaria de las \\(n\\) variables aleatorias, es decir, \\(S_{n}=X_{1}+X_{2}+\\ldots+X_{n}\\), entonces la sucesión de sumas ordinarias converge en ley a una normal de media \\(n \\mu\\) y varianza \\(n \\sigma^{2}\\). Si consideramos el promedio de las \\(n\\) variables aleatorias, es decir, \\(n^{-1} S_{n}\\), entonces la sucesión de promedios converge en ley a una normal de media \\(\\mu\\) y varianza \\(n^{-1} \\sigma^{2}\\). 5.3.3.1 Comentarios al teorema: La convergencia a la normal tipificada se produce con cualquier tipo de variable que cumpla las condiciones del teorema, sea discreta o absolutamente continua. Un sinónimo para indicar que una sucesión converge en ley a una normal es señalar que es asintóticamente normal. El TCL presenta el comportamiento de sumas infinitas de variables aleatorias. Veremos posteriormente como interpretar el resultado para valores finitos. Existen otras versiones del TCL dónde se relajan las condiciones de la versión de Lindeberg y Lévy, que, como se ha visto, obliga a las variables aleatorias a tener idénticas medias y varianzas. Dichas versiones del TCL necesitan el conocimiento de conceptos matemáticos que exceden el nivel al que se orienta Statmedia, y por esta razón se omite su enunciado. 5.3.4 Aplicación del TCL a los ejemplos Ejemplo 1: normalidad asintótica de la Binomial. Ejemplo 2: normalidad asintótica de la Poisson. Ejemplo 3: normalidad asintótica de la suma de puntuaciones de un dado. Ejemplo 4: normalidad asintótica de la suma de uniformes. Ejemplo 5: normalidad asintótica de la suma de exponenciales. 5.3.5 Casos particulares más notables Aunque el TCL tiene multitud de casos particulares interesantes, son especialmente relevantes para el desarrollo de los próximos temas los siguientes casos: 5.3.5.1 Promedio de \\(\\boldsymbol{n}\\) variables aleatorias Al considerar \\(n\\) variables independientes, todas con la misma distribución, cada una de ellas con esperanza igual a \\(\\mu\\) y varianza igual a \\(\\sigma^{2}\\), el promedio es asintóticamente normal con media \\(\\mu\\) y varianza \\(n^{-1} \\sigma^{2}\\). Este resultado proporciona una distribución asintótica a la media de \\(n\\) observaciones en el muestreo aleatorio simple que se estudiará en el próximo tema. 5.3.5.2 Binomial de parámetros \\(n\\) y \\(p\\) Es asintóticamente normal con media \\(n p\\) y varianza \\(n p\\) (1-p). Históricamente (de Moivre, 1733), es el primer resultado demostrado de convergencia a una normal. 5.3.5.3 Poisson de parámetro \\(n \\lambda\\) Es asintóticamente normal con media \\(n \\lambda\\) y varianza \\(n \\lambda\\). 5.3.6 Interpretación del teorema central del límite El TCL hace referencia a sucesiones infinitas, por tanto, la igualdad de las distribuciones se alcanza sólo en el límite, y hace mención a una distribución final teórica o de referencia. Sin embargo, puede utilizarse esta distribución final de referencia para aproximar distribuciones correspondientes a sumas finitas. Algunos casos particulares importantes (binomial, Poisson, etc.) alcanzan grados de aproximación suficientes para sumas con no demasiados términos. Los resultados que se indican a continuación son, por tanto, aproximaciones que se consideran usualmente suficientes, pero conllevan errores numéricos de aproximación. Binomial: aproximar si \\(n \\geq 30\\) y \\(0.1 \\leq p \\leq 0.9\\) a una normal de media \\(n p\\), varianza \\(n p(1-p)\\). Ver aquí más detalles. Poisson: aproximar si \\(\\lambda \\geq 10\\) a una normal de media \\(\\lambda\\) y varianza \\(\\lambda\\). Ver aquí más detalles. Para evaluar aproximadamente el error cometido en las aproximaciones, puede consultarse los cuadros gráficos de los ejemplos de este tema. El TCL permite aproximar funciones de distribución, independientemente del carácter (continuo o discreto) de las variables sumadas. No sirve, por tanto, para aproximar la funciones de densidad discretas por una normal. En el caso continuo sí puede establecerse también una convergencia de las densidades asociadas. Finalmente, es conveniente mencionar que existen resultados teóricos que permiten estudiar la velocidad de convergencia de una suma de variables aleatorias a la normal, sin embargo la dificultad técnica que conllevan trasciende el nivel marcado para el conjunto de documentos marcado para Statmedia. 5.3.7 Aproximaciones y errores numéricos Ejemplo 1: error en la aproximación de la binomial. Ejemplo 2: error en la aproximación de la Poisson. Ejemplo 3: error en la aproximación de la suma de puntuaciones de un dado. Ejemplo 4: error en la aproximación de la suma de uniformes. Ejemplo 5: error en la aproximación de la suma de exponenciales. 5.3.8 Acerca de las variables aproximadamente normales En general, cuando se estudia en experimentos reales una determinada variable no se conoce su distribución teórica. Sin embargo, puede establecerse su distribución empirica a partir de una muestra más o menos amplia. Una forma habitual de presentar la distribución empírica es construir el histograma de clases de dicha variable. Es un hecho conocido desde el siglo XIX que esta distribución empírica presenta muchas veces una forma que es aproximadamente normal. Por ejemplo, al realizar un estudio sobre el peso de adultos varones de dieciocho años en Catalunya, se observó la distribución siguiente en la muestra: El TCL permite dar una explicación a este fenómeno. La variable peso de un adulto viene determinada en cada individuo por la conjunción de multitud de diferentes factores. Algunos de estos factores son ambientales (dietas, ejercicio, enfermedades, etc.) y otros son congénitos. Con el nivel actual de conocimiento no se pueden desglosar completamente todos los factores que intervienen, pero puede aceptarse en cambio que la variable peso es el resultante de la suma de diferentes variables primarias, congénitas o ambientales, y que posiblemente no todas tienen el mismo grado de influencia. Seguramente, estas variables primarias tampoco tienen la misma media, varianza o, incluso, la misma distribución. La versión del TCL que se ha presentado aquí exige estas condiciones para la convergencia a la normal, pero, como ya se ha comentado antes otras versiones más elaboradas del TCL permiten modelar la suma de variables de forma menos restringida. En este contexto, al considerar la variable peso como una suma más o menos extensa (pero finita) de diferentes variables primarias, es esperable que ocurra que la variable resultante, el peso, siga una distribución aproximadamente normal. De forma similar es explicable la normalidad aproximada que se observa en muchas variables biométricas (pesos, alturas, longitudes, concentraciones de metabolitos, distribuciones de edad, etc.) así cómo en muchos otros contextos (distribución de rentas, errores de medición, etc.). A pesar de esta ubicuidad de la distribución normal, el lector no debe inferir que es forzosamente, ni mucho menos, la distribución de referencia en todo estudio aplicado. "],["introducción-a-la-inferencia-estadística.html", "Capítulo 6 Introducción a la inferencia estadística 6.1 Los problemas de la inferencia estadística. 6.2 Muestreo y distribuciones en el muestreo. 6.3 La verosimilitud y su papel en la inferencia estadística 6.4 El problema de la estimación. Tipos de estimadores. 6.5 Métodos de obtención de estimadores. Estimadores máximo verosímiles y estimadores bayesianos. 6.6 Propiedades de los estimadores.", " Capítulo 6 Introducción a la inferencia estadística Este capítulo está pendiente de ser introducido en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se plantean los problemas que trata la inferencia. Se relaciona con el capítulo anterior a través de la idea del muestreo aleatorio simple y las distribuciones en el muestreo. Se plantea el problema de la estimación como una forma de aproximación a las características de las distribucionesa partir de muestras aleatorias simples. Se abordan las distintas formas de construcción de estimadores. 6.1 Los problemas de la inferencia estadística. 6.2 Muestreo y distribuciones en el muestreo. 6.3 La verosimilitud y su papel en la inferencia estadística 6.4 El problema de la estimación. Tipos de estimadores. 6.5 Métodos de obtención de estimadores. Estimadores máximo verosímiles y estimadores bayesianos. 6.6 Propiedades de los estimadores. "],["estimación-por-intérvalos.html", "Capítulo 7 Estimación por intérvalos 7.1 Preliminares: estimación del error estándar e Introducción al bootstrap 7.2 Estimadores por intervalo: intervalos de confianza 7.3 Intervalos de confianza para características de una población normal (media, varianza), 7.4 Intervalos de confianza bootstrap. 7.5 Intervalos de confianza para proporciones binomiales 7.6 Intervalos de confianza para parámetros en muestra grandes y para casos generales (tasas, OR, …) 7.7 Aplicaciones: cálculo del tamaño muestral", " Capítulo 7 Estimación por intérvalos Este capítulo está pendiente de ser introducido en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se plantea el problema de la estimación como una forma de aproximación a las características de las distribucionesa partir de muestras aleatorias simples. Se abordan las distintas filosofías para la construcción de estimadores. 7.1 Preliminares: estimación del error estándar e Introducción al bootstrap 7.2 Estimadores por intervalo: intervalos de confianza 7.3 Intervalos de confianza para características de una población normal (media, varianza), 7.4 Intervalos de confianza bootstrap. 7.5 Intervalos de confianza para proporciones binomiales 7.6 Intervalos de confianza para parámetros en muestra grandes y para casos generales (tasas, OR, …) 7.7 Aplicaciones: cálculo del tamaño muestral "],["pruebas-de-hipótesis.html", "Capítulo 8 Pruebas de hipótesis 8.1 Conceptos básicos: pruebas de hipótesis y de significación, pruebas unilaterales y bilaterales, tipos de error, valores críticos de test y p-valores 8.2 Potencia de un test. Cálculos de potencia y de tamaño de la muestra. Tamaño del efecto. 8.3 Métodos de construcción de tests. 8.4 Problemas asociados al uso de tests estadísticos. La crisis de la significación", " Capítulo 8 Pruebas de hipótesis Este capítulo está pendiente de ser introducida en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se plantea el problema de las pruebas de hipótesis. Se discuten las aproximaciones y los conceptos asociados. Se trata el problema de la crisis de la significación. 8.1 Conceptos básicos: pruebas de hipótesis y de significación, pruebas unilaterales y bilaterales, tipos de error, valores críticos de test y p-valores 8.2 Potencia de un test. Cálculos de potencia y de tamaño de la muestra. Tamaño del efecto. 8.3 Métodos de construcción de tests. 8.4 Problemas asociados al uso de tests estadísticos. La crisis de la significación "],["inferencia-aplicada.html", "Capítulo 9 Inferencia Aplicada 9.1 Pruebas de normalidad.Pruebas gráficas. El test de Shapiro-Wilks 9.2 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas paramètricas t-test y Anova 9.3 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas de hipótesis no paramétricas de Wilcoxon y Kruskal-Wallis 9.4 Contrastes para datos categóricos. Pruebas binomiales, ji cuadrado y test de Fisher. 9.5 Riesgo relativo y razón de «odds»", " Capítulo 9 Inferencia Aplicada Este capítulo está pendiente de ser introducida en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se muestra como deducir y aplicar algunos de los tests mas populares. 9.1 Pruebas de normalidad.Pruebas gráficas. El test de Shapiro-Wilks 9.2 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas paramètricas t-test y Anova 9.3 Pruebas de hipótesis para constrastar variables cuantitativas: pruebas de hipótesis no paramétricas de Wilcoxon y Kruskal-Wallis 9.4 Contrastes para datos categóricos. Pruebas binomiales, ji cuadrado y test de Fisher. 9.5 Riesgo relativo y razón de «odds» "],["computación-intensiva-y-multiple-testing.html", "Capítulo 10 Computación Intensiva y Multiple Testing 10.1 Tests de permutaciones; ¿Qué?, ¿Cuándo?, ¿Cómo? 10.2 El bootstrap en contraste de hipótesis 10.3 El problema de las comparaciones múltiples 10.4 Métodos de control de error: FWER y FDR", " Capítulo 10 Computación Intensiva y Multiple Testing Este capítulo está pendiente de ser introducida en los apuntes. La versión actualizada estará disponible en el momento de inicio de la actividad, durante el semestre actual (2024-25-S1). Se introducen distintos métodos cuyo nexo común es la computación intensiva. 10.1 Tests de permutaciones; ¿Qué?, ¿Cuándo?, ¿Cómo? 10.2 El bootstrap en contraste de hipótesis 10.3 El problema de las comparaciones múltiples 10.4 Métodos de control de error: FWER y FDR "],["404.html", "Page not found", " Page not found The page you requested cannot be found (perhaps it was moved or renamed). You may want to try searching to find the page's new location, or use the table of contents to find the page you are looking for. "]]