Script: http://www-math.bgsu.edu/~albert/papers/saber.html
po Jim Albert
Što je Sabermetrics?
Sabermetrics je matematičke i statističke analize bejzbol zapisa. Da bismo razumjeli polje sabermetrics, jedan prvi bi trebao biti upoznat sa igra bejzbol. Ovaj sport je jedan od najpopularnijih igara u SAD-u; to se često naziva {\to nacionalna razonoda}. Bejzbol je počela u istočnim Sjedinjenim Državama sredinom 1800-tih. Profesionalni bejzbol počeo pred kraj 18. stoljeća; National League je osnovan 1876. i američke lige u 1900. Trenutno u SAD-u, ima 28 stručnih timova u američkom i nacionalnih liga i milioni ljudi gledati utakmice u ballparks i na televiziji.
Igra Bejzbol
Igra bejzbol se igra između dva tima, svaki se sastoji od devet igrača. Devet igrača su bacač, hvatač, prvoj bazi, na drugoj bazi, shortstop, treći bazu, lijevo filder, centar fielder i desno fielder. A igra bejzbol sastoji se od devet inninga. Jedan inning je podijeljena na dva dijela; u gornjoj polovini ininga, jedan tim igra na terenu, a drugi tim dolazi do šišmiša, au donjoj polovini, timovi preokrenuti uloge. Tim koji se udara u toku određenog pola izmjeni pokušava postići trčanja. Tim sa većim brojem radi na kraju devet ininga je pobjednik igre.
Tokom inning, igrač u timu na terenu, koja se zove bacač, baca bejzbol ka igrač tima na-šišmiš, koji se zove tijesto. Testo će pokušati pogoditi loptu koristeći drveni štap (koji se naziva BAT) na lokaciji van domašaja igrača na terenu. Udaranjem lopte, testo ima priliku da radi oko četiri baze koje leže na terenu. Ako igrač napreduje oko svih baza, on je zabio trčanje. Ako je udarač udari lopta koja može biti uhvaćen, ili koji mogu biti izbačeni na prvu bazu prije nego što on vodi na tu bazu, onda se kaže da se i ne može postići staze. A tijesto je i da li je on ne pogoditi bejzbol tri puta ili ako su bacili tri dobro bacanje (tzv štrajkovi). Cilj za udaranje tim tokom izmjeni je osvojiti što više radi moguće prije dobivanja tri auta.
Osnovni Statistički Udaranje
Jedan značajan aspekt igre bejzbol je bogatstvo numeričkih informacija koja je snimljena o igri. Efikasnost udarači i bacača obično ocjenjuje posebno numeričke mjera. Uobičajene mjere pogoditi efikasnosti za igrača je prosječna udaranje koja se izračunava tako što se broj pogodaka po broju na-šišmiša. Ova statistika daje udio mogućnosti (at-šišmiša) u kojima je tijesto uspije (dobija hit). Testo sa najvećom prosječnom udaranje tokom bejzbol sezone se zove najbolji udarač te godine. Batters se također ocjenjuju njihove sposobnosti do jedan, dva, tri, ili četiri baze na jednom hit; ovih hitova se nazivaju odnosno singlova, dubl, utrostručuje, i home runs. Prosječna slugging se izračunava tako što se ukupan broj baza (ukratko, ukupno baze) po broju mogućnosti. S obzirom na to težine udari po broju baza postignut, ova mjera odražava sposobnost udarač pogoditi dugu loptu na daljinu. Najvrednijih hit u bejzbol je home run u kojoj igrač napreduje četiri baze na jedan pogodak. Broj home runs je snimljena za sve igrače i tijesto sa najvećim brojem doma radi na kraju sezone se daje posebno priznanje.
Osnovni Statistički Bacanje
Brojne statistike se koriste u procjeni bacači. Za određenu bacač, jedan broji broj utakmica u kojoj je bio proglašen za pobjednika ili gubitnika i broj runs dozvoljeno. Pitchers se obično ocijenjen u smislu prosječnog broja “zaradio” radi dozvoljen za devet izmjeni igra. Druge statistike su korisni u razumijevanju baca sposobnosti. A krčag snima strikeout kada tijesto ne udariti loptu na terenu i snima u šetnju kad je baca četiri netačne parcela (kugle) u tijesto. A pitcher koji može baciti loptu vrlo brzo može snimiti veliki broj strikeouta. A bacač koji je “divlji” ili relativno neprecizno će snimiti veliki broj šetnje.
Bolja Mjera Pogađa Sposobnost – Staze Stvoren
Jedan od ciljeva sabermetrics je pronaći dobre mjere udara i baca performanse. Bill James (1982) uspoređuje udaranje evidenciju dva igrača, Johnny Pesky i Dick Stuart, koji je igrao u 1960. Nesnosan je bio udarač koji je pogodio za visoku udaranje prosjeka, ali je pogodio nekoliko home runs. Stuart, nasuprot tome, imao je skroman udaranje prosjeka, ali je pogodio veliki broj home runs. Ko je bio vredniji udarač? James tvrdi da udarač treba vrednovati po njegovu sposobnost da stvori u utrci za njegov tim. Od empirijskog proučavanja veliku kolekciju tim udaranje podataka, on je utvrdilo sljedeće formule za predviđanje broj staza je postigao u sezoni na osnovu broja pogodaka, šetnje, na-palicama, a ukupna baze snimljen u sezoni.
(HITS + HODA) (ukupno OSNOVE) STAZA = ---------------------------- AT-BATS + HODA
Ova formula odražava dva važna aspekta u bodovanja radi u bejzbolu. Broj pogodaka i šetnje tima odražava sposobnost tima da se trke na bazi. Ukupan broj baza tima odražava sposobnost tim da krene trke koji su već na bazi. Ovo radi stvorena formula može se koristiti na individualnoj razini za izračunavanje broja staza da je igrač stvara za svoj tim. 1942. godine, Johnny Pesky imao 620 at-šišmiša, 205 pogodaka, 42 šetnje, a 258 ukupno baze; koristeći formulu, on je stvorio 96 staza za svoj tim. Dick Stuart 1960. imao 532 at-šišmiša sa 160 na-palicama, 34 šetnje, a 309 ukupno osnove za 106 radi stvorio. Zaključak je da Stuart 1960. godine bio je nešto bolji udarač od Pesky 1942. godine, jer je stvorio još nekoliko staza za svoj tim.
Linear Težine
Alternativni pristup vrednovanja udaranje Predstava je bazirana na linearnom težine formule. George Lindsey (1963) je bio prva osoba koja je dodijeliti rok vrijednosti svaki događaj koji bi mogao doći, dok je tim udara. Upotrebom snimljenih podataka iz bejzbol utakmice i teorije vjerojatnosti, razvio je formulu
STAZA = (0,41) 1B + (0,82) 2B + (1.06) 3B + (1.42) HR
gdje 1B, 2B, 3B i HR su odnosno broj singlova, u parovima, utrostručuje, a home runs udario u igri. Jedna od poznatih aspekt ove formule je u tome što priznaje da je udarač stvara trčanje tri načina. Postoji direktna run potencijal kada udarač postaje hit i ide na bazu. Osim toga, tijesto može napredovati trke koje su već na bazi. Takođe, ne dobijam saznajemo, udarač omogućava novi udarač šanse da hit, i to stvara indirektnu potencijal staze. Trn i Palmer (1993) predstaviti sofisticiranija verzija linearne težine formula koja predviđa broj staza proizvedenih u prosjeku bejzbol tim na osnovu svih ofanzive događaja snimljene tijekom igre. Kao i James ‘staza stvorio formulu, pravilo linearne težine može se koristiti za procjenu učinka udaranja igrača.
Staze do Pobjede
Iako je važno u bejzbolu postigao staze, osnovni cilj je za tim da postigne više radi od svog protivnika. Da biste saznali o odnosu između staza je osvojio i broj pobjeda, James (1982) pogledao na broj staza proizvedenih, broj staza dozvoljeno, broj pobjeda i broj gubitaka u toku sezone za veliki broj nedavnih prvoligašku ekipu. James napomenuti da je omjer pobjeda tima na gubitke bio je približno jednak kvadratu odnosa staza postigao do trčanja dozvoljeno. ekvivalentno,
WINS RUNS ^ 2 STAZA = -------------- = ---------------------------. WINS + GUBICI STAZA ^ 2 + OPOZICIJA RUNS ^ 2
Ovaj odnos se može koristiti za mjerenje performanse tijesto u smislu broja pobjeda da on stvara za svoj tim.
Bolja Mjera Bacanje Sposobnosti
Sabermetrics je razvio bolje načine vrednovanja bacanje sposobnosti. Standard statistika pitching, broj pobjeda i runa po utakmici (ERA) su manjkavi. Broj pobjeda u vrč mogu samo da odražavaju činjenicu da je on baca za tim dobru ofanzivu (run bodovanja). ERA ne mjeriti stopu efikasnosti bacač, ali to ne govori o stvarnim prednost ovog pitcher tokom čitave sezone. Trn i Palmer (1993) razvili su bacanje radi formulu
Liga ERA BACANJE STAZA = Innings Kosi x ----------- - ER. 9
Faktor (Liga ERA / 9) mjeri u prosjeku traje dozvoljeno po izmjeni za sve ekipe u ligi. Ova vrijednost se množi brojem iningsa kosih tim bacač – ovaj proizvod predstavlja broj staza koje pitcher bi omogućio preko sezone ako je bio prosjek. Na kraju, jedan oduzima stvarni runa (ER) bacač dozvoljeno za tu sezonu. Ako je bacanje staza je veći od 0, onda je ovaj bokal je bolje od prosjeka. Pojavljuje se ova nova mjera da bi bio koristan u mjerenje efikasnosti i trajnost vrč.
Igrač Igra Postotak
Razvijeni su dobre mjere udaranje, bacanje, i fielding performanse bejzbol igrača. Međutim, ove statistike ne direktno mjeriti doprinos igrača na pobjedu za svoj tim. Bennett i Flueck (1984) su koristili podatke iz dva bejzbol sezone procijeniti vjerojatnost domaća ekipa osvaja igra s obzirom na diferencijal staze (domaća ekipa ide minus gostujuće vodi), pola izmjeni (gornje ili donje strane ininga), u broj izlaza, a situacija na bazi. Koristeći ove procijenjena vjerojatnosti, može se vidjeti kako je vjerojatnost za pobjedu promjene za svaku igru događaj. Može se mjeriti doprinos igrača da osvoji igra zbrajanjem promjene u pobjedu vjerojatnosti za svaku igru u kojoj je učestvovao igrača. Ova statistika, koji se zove igrača igra Procenat, koristio je Bennett (1993) za procjenu udaranje performanse Joe Jackson. Ovaj igrač je prognan iz bejzbol za navodno bacanje World Series 1919. A statistička analiza korištenjem igrača igra Procenat pokazala da Jackson odigrao na svojim punim potencijalom tokom ove serije.
Izrada Prilagodbe
Ljudi su često zainteresovani u odnosu Batters ili bacači iz različitih epoha. U izradu ovih poređenja, važno je da biste vidjeli udaranje ili pitching statistike u kontekstu u kojem su ostvareni. Na primjer, Bill Terry vodio National League 1930. sa udaranje prosjeku. 401, znak koji je nadmašio od samo jedan ubica. Godine 1968. Carl Yastrzemski vodio američki lige u udaranje sa prosjekom od 0,301. Ona se pojavljuje na površini da Terry je jasno superioran udarač. Međutim, kada se gleda u odnosu na udarača koji je igrao u isto vrijeme, kako udarači su oko 27 posto bolje od prosjeka udarač (Thorn i Palmer, 1993). Na udaranje dostignuća Terry 1930. i Yastrzemski 1968. godine bili su zapravo vrlo slični. Isto tako, postoje značajne razlike u udaranje u različitim loptu parkovima, i udaranje statistike treba prilagoditi za loptu parku igrali kako bi precizno poređenja između igrača.
Učenje iz Odabranih Podataka
Gledanje bejzbol igra postavlja pitanja koja motiviraju zanimljivo statističke analize. Tokom emitovanja igre, bejzbol spiker će obično prijavljuju izabrane udara podatke za igrača. Na primjer, može se prijavio da Barry Bonds ima 10 pogodaka u svom nedavnom 20 na-palicama. Šta ste naučili o obveznicama udaranje prosjeka na temelju tih informacija? Jasno, udaranje prosjeku obveznica ne može biti tako velika kao 10/20 = .500, jer ove podatke je odabran kako bi se povećala prijavljenih postotak. Casella i Berger (1994) izgraditi funkciju šanse za pravi udaranje prosjeku igrača na osnovu ovog odabrane informacije i saznajte maksimalni procjenu vjerojatnosti. Oni zaključuju da je ovaj odabrane podatke daje samo malo uvid u “potpune podatke” udaranje prosjeku smatraju se dobiva od udaranja evidencije preko cijele sezone.
Serija?
Još jedno zanimljivo pitanje je o postojanju streakiness u udaranje podataka. Tokom sezone primećeno je da će neki ballplayers doživjeti razdoblja “vruće” udaraju gdje će dobiti visok procenat pogodaka. Drugi udarači će proći kroz opada ili periodima od udaranja sa vrlo malo pogodaka. Ali ovi periodi toplih i hladnih udaranja može biti samo odraz prirodne varijabilnosti posmatrati u novčić bacanje. Da li postoji statistički dokazi za “vruće ruke” među bejzbol udarača u kojoj ovisi verovatnoća dobije hit na nedavnom at-šišmiša? Albright (1993) gledao veliku kolekciju bejzbol udaranja podataka i koriste brojne statistike kao što je broj staza za otkrivanje streakiness u udaranje podataka. Njegov glavni zaključak je da postoji malo statističkih dokaza uglavnom za toplu ruku u bejzbolu udarati.
Situaciono Podataka
Trenutno postoji veliki interes među fanovima i medijima u situacijske podataka bejzbol. Na udaranje performanse Batters se snima niz različitih situacija, kao što je dan u odnosu na noćne utakmice, na travi polja i umjetnom travom polja, protiv bacača koji bacaju desnom rukom i lijevom rukom, i kod kuće i na gostovanja. Postoje dva osnovna pitanja u statističku analizu ove vrste podataka. Prvo, postoje određene situacije koje mogu objasniti značajnu količinu varijacije u podacima udaraca? Drugo, da li postoje ballplayers koje obavljaju posebno dobro ili loše u datoj situaciji? Albert (1994) analizirao veliki tijelo objavljenih situacijske podataka i koristi Bayesian hijerarhijske modele kombiniranje podataka iz velike grupe igrača. Njegova osnovna zaključak je da postoje postoje neke važne situacije. Na primjer, Batters udario u prosjeku 20 poena veći kada se suočava sa bacač suprotnog ruku i pogodio 8 bodova veći kada igraju u svom domu približan. Međutim, tu je obično malo statističkim podacima za individualne razlike u ovim situaciono efekte.
Predskazanje
Major League Baseball je trenutno podijeljena u šest divizija i jedan cilj svake tim koji će završiti u svojoj diviziji. Pretpostavimo da je završen dio sezone. Koristeći evidencije timova iz ove parcijalne sezone, da li je moguće predvidjeti precizno pobjednike podjele? Barry i Hartigan (1993) koriste model izbor za verovatnoća da momčad pobjeđuje pojedinac utakmice. Ovaj model omogućava različite prednosti za obje ekipe, različite kuće prednosti, a tim prednosti koje se nasumično promijeniti s vremenom. Autori koriste ovaj model za simulaciju rezultate budućih bejzbol igre i procjenu vjerojatnosti da će svaka momčad pobijediti svoje odgovarajuće podjele.
Trenutno, Major League Baseball igre su snimljeni u vrlo fine detalje. Informacije o svakom loptu kosim, Startna i udario tokom utakmice ističu, stvarajući veliku bazu podataka statistike bejzbol. Ova baza podataka se koristi u brojne načine. Javno odjela odnosa timovi koriste podatke za objavljivanje posebnih statistike o svojim igračima. Statistika se koriste kao pomoć u određivanju plata prvoligaško ballplayers. Naime, statistički podaci se koristiti kao dokaz u arbitražnom plata, pravni postupak kojim se utvrđuju plaće. A broj timova su zaposleni na puno radno vrijeme profesionalnih statistički analitičari i neki menadžeri koriste statističke podatke u odlučivanju o strategiji tokom utakmice. Bill James i drugi bejzbol statističari su pokazale da je moguće da odgovori na različite pitanja o igri bejzbol putem statističkih analiza.
Reference:
- Albert, J. (1994), “`Exploring baseball hitting data: what about those breakdown statistics?”, Journal of the American Statistical Association , 89, 1066-1074.
- Albright, S. C. (1993), “A statistical analysis of hitting streaks in baseball,” Journal of the American Statistical Association , 88, 1175-1183.
- Barry, D., and Hartigan, J. A. (1993), “Choice Models for Predicting Divisional Winners in Major League Baseball,” Journal of the American Statistical Association , 88, 766-774.
- Bennett, J. M. (1993), “Did Shoeless Joe Jackson Throw the 1919 World Series?”, The American Statistician, 47, 241-250.
- Bennett, J. M. and Flueck, J. A. (1984), “Player Game Percentage”, in Proceedings of the Social Statistics Section, American Statistical Association, 378-380.
- Casella, G. and Berger, R. (1993), “Estimation With Selected Binomial Information or Do You Really believe that Dave Winfield is Batting .471?”, Journal of the American Statistical Association , 89, 1080-1090.
- James, B. (1982), The Bill James Baseball Abstract, New York: Ballantine Books.
- Lindsey, G. (1963) “An Investigation of Strategies in Baseball,” Operations Research, 11, 447-501.
- Thorn, J. and Palmer, P. (1993), Total Baseball, New York: Harper Collins.