Source: http://www.stat.yale.edu/Courses/1997-98/101/binom.htm
U mnogim slučajevima, to je prikladno da rezimiramo grupa nezavisnih zapažanja po broju opservacija u grupi koja predstavlja jedan od dva ishoda. Na primjer, udio pojedinaca u slučajnom uzorku koji podržavaju jedan od dva kandidata političkih odgovara ovom opisu. U ovom slučaju, statistika je broj X birača koji podržavaju kandidata podijeljen sa ukupnim brojem pojedinaca u grupi n. Ovo daje procjena parametra p, udio pojedinaca koji podržavaju kandidata u ukupnoj populaciji.
Binomni distribucija opisuje ponašanje posjeta varijablu X, ukoliko se ispune sledeći uslovi:
1: Broj opservacija n je fiksna.
2: Svaka zapažanje je nezavisna.
3: Svaki posmatranje predstavlja jedan od dva ishoda (“uspjeh” ili “neuspjeh”).
4: Vjerojatnost “uspjeha”, str je isti za svaki ishod.
Ako su ispunjeni ovi uslovi, onda X ima binomnu distribuciju s parametrima n i p, skraćeno B (n, p).
Primjer
Pretpostavimo da pojedinci s određenim genom imaju 0,70 vjerojatnost eventualno ugovaranje određenih bolesti. Ako 100 osoba sa gen sudjelovati u studiji životni vijek, a zatim distribuciju slučajne varijable koja opisuje broj pojedinaca koji će ugovoriti bolest se distribuira B (100, 0.7).
Napomena: distribucija uzorkovanja varijable count je samo dobro opisao binomni distribucije je slučajeva u kojima je znatno veća od veličine uzorka veličine populacije. Kao opće pravilo, binomni distribucija ne treba primijeniti na zapažanja iz jednostavnog slučajnog uzorka (JSU), osim ako je veličina populacije je najmanje 10 puta veća od veličine uzorka.
Da biste pronašli vjerovatnoće iz binomna distribucija, može ih ili direktno izračunati, koristite binomni stol, ili koristite računalo. Broj šestice valjanih po jednom čipu u 20 rolni ima B (20, 1/6) distribucije. Verovatnoća kotrljanja više od 2 šestice u 20 peciva, P (X> 2), iznosi 1 – P (X <2) = 1 – (P (X = 0) + P (X = 1) + P ( X = 2)). Koristeći MINITAB naredbu “cdf” sa pomoćni “binomni n = 20 p = 0.166667” daje kumulativni funkcija distribucije kako slijedi:
Dvočlan sa n = 20 i p = 0.166667 x P( X <= x) 0 0.0261 1 0.1304 2 0.3287 3 0.5665 4 0.7687 5 0.8982 6 0.9629 7 0.9887 8 0.9972 9 0.9994
Odgovarajući grafikona za funkciju gustoće vjerojatnosti i kumulativna funkcija distribucije B(20,1/6) prikazane su u nastavku:
S obzirom da je vjerojatnost 2 ili manje šestice jednaka 0,3287, verovatnoća kotrljanja više od 2 šestice = 1-,3287 = 0,6713.
Verovatnoća da slučajna varijabla X s binomna distribucija B (n, p) je jednaka vrijednosti k, gdje je k = 0, 1, …., n, daje , gdje
Potonji izraz je poznat kao binomni koeficijent, izjavio je “n odabrati k” ili broj mogućih načina da se izabere k “uspjeh” iz n zapažanja. Na primjer, broj načina da se postigne 2 glave u setu od četiri bacanja je “4 odabrati 2”, ili 4!/2! 2! = (4 * 3)/(2 * 1) = 6. Mogućnosti su {HHTT, HTHT, HTTH, TTHH, THHT, THTH}, gdje je “H” predstavlja glavu i “T” predstavlja rep. Binomni koeficijent uvećava vjerojatnost jedan od tih mogućnosti (što je (1/2) ² (1/2) ² = 1/16 za fer novčića) po broju načine može postići ishod, za ukupno vjerojatnost od 6/16.
Znači i varijance dvojno distribucije
Binomni distribucija slučajne varijable X s parametrima n i p predstavlja zbroj n nezavisnih varijabli Z koja može pretpostaviti vrijednosti 0 ili 1. Ako je vjerojatnost da svaki Z varijabla pretpostavlja vrijednost 1 jednaka p, onda je sredstvo svaku varijablu iznosi 1 * p + 0 * (1-p) = p, a varijanca jednaka je p (1-p). Dodavanjem svojstva za nezavisne slučajne varijable, srednja i varijance binomni distribucija jednak zbiru sredstava i odstupanja od n nezavisnih Z varijabli, tako da
Ove definicije su intuitivno logično. Zamislite, na primjer, 8 flips novčića. Ako je novčić je fer, a zatim p = 0,5. Očekivalo bi se srednji broj grla da bi pola flips, ili np = 8 * 0,5 = 4. varijanca jednaka np (1-p) = 8 * 0,5 * 0,5 = 2.
Uzorak proporcije
Ako znamo da je broj X “uspjeha” u grupi n zapažanja sa uspjeh vjerojatnost p ima binomna distribucija sa srednjom np i varijance np (1-p), onda smo u stanju da izvedemo informacije o distribuciji uzorka proporcija , brojim do uspjeha X podijeljena brojem opservacija n. Do multiplikativni svojstva srednje, srednje distribucije X/n jednak je sredstvo X podijeljena n, ili np/n = p. Ovo dokazuje da je proporcija uzorka je nepristran procjenitelj stanovništva udio p. Odstupanje od X/n je jednak varijance X podijeljena N², ili (np (1-p))/N² = (p (1-p))/n. Ova formula pokazuje da kao veličina povećava uzorka, varijance smanjuje.
U primjeru kotrljanja šest-sided umrijeti 20 puta, verovatnoća p kotrljamo šest na bilo roll je 1/6, a broj X šestica ima (20, 1/6) distribucija B. Srednja ove distribucije je 20/6 = 3.33, a varijanca je 20 *: 1/6 * 5/6 = 100/36 = 2.78. Srednje proporcije šestice u 20 rolni, X/20, je jednaka p = 1/6 = 0.167, a varijanca proporcije je jednaka (1/6 * 5/6)/20 = 0,007.
Normalno aproksimacije za tačkama i proporcije
Za velike vrijednosti n, distribucija prebrojavanja X i proporcija uzorka približno normalno. Ovaj rezultat proizlazi iz Centralne granični teorem. Srednje i varijance za približno normalnu distribuciju X su np i np (1-p), identična je srednja i varijance binomni (n, p) distribucije. Isto tako, srednja i varijance za otprilike normalne distribucije uzorka proporcije su p i (p (1-p)/n).
Napomena: Budući da normalno aproksimacija nije precizan za male vrijednosti n, dobro pravilo je da se koriste normalne aproksimacije samo ako np> 10 i np (1-p)> 10.
Na primjer, razmislite o populaciji birača u datoj državi. Pravi udio birača koji preferiraju kandidat A je jednak 0,40. S obzirom na uzorku od 200 birača, što je vjerojatnost da je više od polovine birača podržava kandidata A?
Grof X birača na uzorku od 200 koji podržavaju kandidata A se distribuira B (200,0.4). Srednja distribucije iznosi 200*0,4 = 80, a varijanca jednaka je 200*0,4*0,6 = 48. Standardna devijacija je kvadratni korijen varijance, 6.93. Vjerovatnoća da više od polovine birača u uzorku podrške kandidat A jednaka je vjerojatnost da je X veći od 100, što je jednako 1- P (X <100).
Da biste koristili normalne aproksimacije izračunati ova vjerovatnoća, prvo treba priznati da je normalna distribucija je neprekidna i primijeniti korekciju kontinuitet. To znači da je verovatnoća za jednu diskretne vrijednosti, kao što su 100, proširena je na verovatnoća intervala (99.5,100.5). Jer nas zanima u vjerojatnost da X je manji od ili jednak 100, normalna aproksimacija se odnosi na gornju granicu intervala, 100.5. Ako smo bili zainteresirani za vjerojatnost da X je strogo manje od 100, onda bi primijeniti normalne aproksimacije na donjem kraju intervala, 99.5.
Dakle, primjenom korekcija kontinuitet i standardizaciju varijable X daje sljedeće:
1 – P(X< 100)
= 1 – P(X< 100.5)
= 1 – P(Z< (100.5 – 80)/6.93)
= 1 – P(Z< 20.5/6.93)
= 1 – P(Z< 2.96) = 1 – (0.9985) = 0.0015. S obzirom da je vrijednost 100 je skoro tri standardne devijacije od srednje 80, verovatnoća posmatranjem posjeta ovako visok je izuzetno mali.