Ievads Sabermetrics

link: http://www-math.bgsu.edu/~albert/papers/saber.html

Jim Albert

Kas ir Sabermetrics?

Sabermetrics ir matemātiskās un statistiskās analīzes beisbola ierakstus. Lai saprastu jomā sabermetrics, viens vispirms vajadzētu iepazīties ar spēle baseball. Šis sporta veids ir viens no populārākajiem spēles Amerikas savienotās Valstis; to bieži sauc par {\nacionālās spēle}. Beisbola sāka austrumu Amerikas savienotās Valstis vidū-1800. Profesionālā beisbola sākās netālu no 18. gadsimta beigām; Valsts Līga ir dibināta 1876 un Amerikas Līgas 1900. gadā. Šobrīd Amerikas savienotajās Valstīs, ir 28 profesionālām komandām Amerikas un Nacionālās Līgas un miljoniem cilvēku skatīties spēles ballparks un televīzijā.

Spēle baseball

Spēle baseball spēlē starp divām komandām, kur katrā, kas sastāv no deviņiem spēlētājiem. Ar deviņiem spēlētājiem, ir krūka, ķērējs, pirmo baseman, otro baseman, shortstop, trešo baseman, pa kreisi fielder, centrs fielder un tiesības fielder. Spēle baseball sastāv no deviņiem izspēle. Viens inning ir sadalīts divās daļās; augšējā pusē inning, viena komanda spēlē šajā jomā, un otrā komanda nāk ar bat, un apakšējā pusē, komandas apgrieztās lomās. Komanda, kas ir vatelīns laikā īpaši pusi-inning ir mēģināt score iet. Komanda ar lielāko skaitu darbojas beigās deviņas izspēle ir no spēles uzvarētājs.

Laikā inning, spēlētājs, par komandu, kas šajā jomā, ko sauc par krūzi, throws ar beisbola pret spēlētāju komandas-nūja, ko sauc mīklā. Mīklu mēģinās hit bumbu, izmantojot koka nūja (sauc bat) vietā nepieejamā spēlētāji šajā jomā. Hitting bumbu, jo mīklā ir iespēja palaist ap četriem bāzes, kas atrodas uz lauka. Ja spēlētājs avansa ap visu no pamatiem, viņš ir guvis vārtus palaist. Ja mīkla hits bumbu, kas var tikt nozvejotas, vai kas var tikt izmesti uz pirmo bāzi, pirms viņš iet, ka bāzes, tad viņš teica, lai tiktu ārā, un nevar iesist palaist. Mīkla ir arī ārā, ja viņš nespēj hit beisbola trīs reizes, vai ja trīs labu piķi (sauc streiki) ir izmet. Mērķis, vatelīns komanda laikā inning ir, lai score tik daudz aplokiem, kā iespējams, pirms saņemt trīs atvilktnes.

Pamata vatelīns statistika

Viens būtisks aspekts spēle baseball ir bagātība skaitlisko informāciju, kas ir ierakstīts par spēli. Efektivitāti mīklu un kannas parasti vērtē ar īpaši skaitliskā pasākumus. Parastā pasākums hitting efektivitāti spēlētājs ir vatelīns vidējā, un kurām ir aprēķināta, dalot skaits, apmeklētāju skaits-sikspārņiem. Šī statistika dod īpatsvars iespējām (at-bat), kurā mīklā izdodas (izpaužas hit). Mīklu ar augstāko vatelīns vidēji laikā beisbola sezona sauc par labāko hitter, ka gadu. Mīklu tiek novērtēta arī uz to spēju sasniegt viens, divi, trīs, četri vai balsta uz vienu hit; šīm hits sauc par, attiecīgi vienspēlēs, dubultspēlēs, trīskāršojas, un mājās iet. Ar cīnoties vidējais tiek aprēķināts, dalot kopējo skaitu bāzes (īsumā, kopējais bāzes) ar numuru iespējas. Kopš tā svaru hits skaits bāzes panākta, šis pasākums atspoguļo spēju mīklas, lai sasniegtu ilgi bumbu distances. Visvairāk novērtē hit beisbola ir mājas palaist, ja spēlētājs avansa četras bāzes par vienu hit. Skaits mājas aplokiem, ir ierakstīti visu spēlētāju un mīklas ar lielāko skaitu mājās iet pie sezonas beigām ir devis īpašu atzinību.

Pamata pitching statistika

Vairāki statistika ir arī izmanto, novērtējot kannas. Par īpaši krūzi, viens skaita skaitu spēles, kurā viņš tika atzīts uzvarētājs, vai zaudētājs, un skaits, kas darbojas atļauts. Kannas parasti nominālā izteiksmē vidējais skaits `nopelnījis” iet ļāva deviņi inning spēle. Citi statistikas dati ir noderīgi, lai izprastu pitching spēju. Krūzi ieraksti strikeout kad mīkla neizdodas, lai hit bumbu jomā un ierakstu staigāt, kad viņš met četri neprecīzi piķi (bumbiņas), lai plakanot. Krūzi, kurš var mest bumbu, kas ļoti ātri var ierakstīt augstas skaits strikeouts. Krūzi, kas ir `savvaļas” vai salīdzinoši neprecīzi tiks reģistrēts liels skaits pastaigas.

Labāk izvērtēt hitting spēju — iet izveidota

Viens mērķis sabermetrics ir atrast labus pasākumus hitting un pitching sniegumu. Likumprojekts Džeimss (1982) salīdzina vatelīns ieraksti no diviem spēlētājiem, Džonijs Nepatīkams un Dick Stuart, kas spēlēja 1960. Nepatīkams bija mīkla, kas hit augstu, vatelīns vidēji, bet hit dažas mājas iet. Stuart, savukārt, bija neliels, vatelīns vidēji, bet hit liels skaits no mājas iet. Kas bija vērtīgāks hitter? Džeimss apgalvo, ka hitter ir jāizvērtē viņa spēja radīt iet viņa komanda. No empīrisko pētījumu par lielu vākšanu komanda hitting datus, viņš izveidoja šādu formulu, kas prognozē, ka skaits iet vārti sezonā, pamatojoties uz skaitu hits, pastaigas, pie-sikspārņiem, un kopā bāzēm ierakstīta sezonā.

       (HITS + WALKS) (KOPĀ BASES)
RUNS = ----------------------------
             AT-BATS + WALKS

Šī formula, kas atspoguļo divus svarīgus aspektus vērtēšanas darbojas beisbols. Trāpījumu skaitu un pastaigas komanda, kas atspoguļo komandas spēja iegūt skrējēju uz bāzes. Skaits kopējais bāzes komanda, kas atspoguļo komanda spēja pārvietoties stīgas, ka ir jau par bāzi. Tas ir izveidojis formulu var izmantot, individuālā līmenī, lai aprēķinātu skaitu, kas darbojas, ka spēlētājs izveido savu komandu. 1942. gadā, Džonijs Nepatīkams bija 620 pie-sikspārņiem, 205 apskatīts, 42 pastaigas, un 258 kopā bāzes, izmantojot formulu, viņš radīja 96 iet viņa komanda. Dick Stuart 1960. gadā bija 532-sikspārņiem ar 160-sikspārņiem, 34 pastaigas, un 309 kopā pamatiem, 106 darbojas izveidots. Secinājums ir, ka Stuart 1960. gadā bija nedaudz labāk hitter nekā Nepatīkams 1942. gadā, kopš viņš radīja vēl pāris reizes viņa komanda.

Lineāro svaru

Alternatīva pieeja, lai novērtētu vatelīns darbības pamatā ir lineārs svaru formulu. Džordžs Lindsey (1963) bija pirmā persona, lai piešķirtu palaist vērtības uz katru notikumu, kas varētu rasties, kamēr komanda bija vatelīns. Izmantojot ierakstītos datus no beisbola spēles un varbūtības teorija, viņš izstrādājis formulu

RUNS = (.41) 1B + (.82) 2B + (1.06) 3B + (1.42) HR

ja 1.B, 2.B, 3.B, un HR attiecīgi skaits vienspēlēs, dubultspēlēs, trīskāršojas, un mājās iet hit spēle. Viens būtisks aspekts no šī formula ir, ka tā atzīst, ka mīklas izveido izpildīt trijos veidos. Pastāv tieša palaist potenciālu, kad mīkla kļūst hit, un kļūst par bāzi. Turklāt, mīklu var iepriekš stīgas, ka ir jau par bāzi. Arī, ne iegūt, hitter ļauj jaunu mīklu izredzes iegūt hit, un tas rada netiešu palaist potenciālu. Ērkšķis un Palmers (1993) radīt sarežģītākas versijas, lineārā svaru formula, kas prognozē, ka skaits iet, ko ražo vidēji beisbola komandu, pamatojoties uz visiem aizskarošu notikumi, ko reģistrē spēles laikā. Piemēram, James’ iet izveidota formula, lineārā svaru noteikums var izmantot, lai novērtētu spēlētāja vatelīns sniegumu.

Palaiž, lai uzvar

Lai gan vērtēšanas sākas, ir svarīgi, beisbols, galvenais mērķis ir, lai komanda score, kas vairāk darbojas nekā pretinieks. Lai uzzinātu par attiecībām starp vada guva un uzvaru skaits, Džeimss (1982) skatījāmies, cik iet ražoti skaits, kas darbojas atļauts skaits uzvar un numuru zaudējumu sezonas laikā, lai lielu skaitu nesen lielu līgas komandām. Džeimss atzīmēja, ka attiecību komanda uzvaras zaudējumi bija aptuveni vienāds ar kvadrāta attiecība darbojas guva lai iet atļauta. Vienlīdzīgi,

          WINS RUNS                   RUNS^2
RUNS = -------------- = ---------------------------.
      WINS + LOSSES     RUNS^2 + OPPOSITION RUNS^2

Šīs attiecības var izmantot, lai novērtētu apjomu darbību skaita ziņā uzvar, ka viņš rada ar savu komandu.

Labāk izvērtēt pitching spēju

Sabermetrics ir izstrādājusi arī labāki veidi, kā novērtēt pitching spēju. Standarta pitching, statistikas, skaits, uzvar un nopelnījis iet uz vienu spēli (ERA), ir kļūdaini. Skaits uzvar krūzi var tikai atspoguļo to, ka viņš piķi par labu ofensīvu (palaist realizācija) komanda. ERA tas pasākums likme krūzi efektivitāti, bet tas nav pateikt jums par reālo ieguvumu šā krūzi pa visu sezonu. Ērkšķis un Palmers (1993) izstrādājusi pitching darbojas formula

                                   Līgas ERA
PITCHING RUNS = Innings Pitched x ----------- - ER.
                                      9

Faktors (Līgas ERA/9) pasākumiem, kas vidēji darbojas atļauts vienam inning visām komandām līgā. Šis lielums tiek reizināts ar skaitu, kas izspēle noteikt, ka krūka — šis produkts ir skaits, kas darbojas, ka krūka ļautu pār sezonu, ja viņš bija vidējais. Pēdējā, viens atņem faktisko nopelnījis iet (ER) krūka atļauta sezonā. Ja pitching sākas, ir lielāks par 0, tad šī krūka ir labāk nekā vidējais. Šis jaunais pasākums, šķiet, ir noderīga, novērtējot tās efektivitāti un ilgtspējību krūzi.

Spēlētāju spēle procentos

Labu pasākumu par sišanu, pitching, un fielding darbības beisbola spēlētāji, ir izstrādāti. Tomēr šie dati nav tieši pasākuma spēlētāja ieguldījums, lai uzvarētu, lai viņa komanda. Bennett un Flueck (1984), ko izmanto datus no divām beisbola sezonu, lai novērtētu varbūtību, ka mājās komanda uzvar spēli, ņemot vērā palaist diferenciālis (mājas komanda darbojas mīnus apmeklējot komanda darbojas), pusi inning (augšā vai apakšā inning), skaits outs, un par bāzes situāciju. Izmantojot šo paredzamo varbūtību, var redzēt, kā varbūtību uzvarēt izmaiņas, par katru spēli notikumu. Viens var izmērīt spēlētāja ieguldījums, lai uzvarētu spēli, summējot izmaiņas varbūtība uzvarēt katrā spēlē, kurā spēlētājs nav piedalījies. Šī statistika, ko sauc par Spēlētāju Spēle Procentuālā daļa, ko izmantoja Bennett (1993), lai novērtētu, vatelīns darbības Joe Jackson. Šis spēlētājs tika padzīti no beisbola, lai, iespējams, throwing 1919. gada Pasaules čempionātam. Statistisko analīzi, izmantojot Spēlētāju Spēle Procentu liecināja, ka Džeksons spēlēja savu pilnu potenciālu šajā sērijā.

Veicot korekcijas,

Cilvēki bieži vien ir ieinteresēti salīdzinot mīklu vai kannas, no dažādiem laikmetiem. Veicot šos salīdzinājumus, ir svarīgi, lai apskatītu vatelīns vai pitching statistikas kontekstā, kādā tie sasniegti. Piemēram, Bils Frotē vadīja Nacionālā Līga 1930. gadā ar vatelīns vidēji .401, zīme, ka ir pārsniegts, jo tikai viens hitter. 1968. gadā Karls Yastrzemski led Amerikas Līga, hitting ar vidēji .301. Tā parādās uz virsmas, ka Terijs bija viennozīmīgi hitter. Tomēr, skatoties attiecībā pret hitters, kas spēlēja šajā pašā laikā, gan hitters bija apmēram 27 procentiem labāk nekā vidēji hitter (Ērkšķis un Palmers, 1993). Hitting sasniegumiem Frotē 1930, un Yastrzemski 1968. gadā, bija ļoti līdzīgs. Tāpat, pastāv būtiskas atšķirības, trāpot dažādās bumbu parkiem, un hitting statistika ir jāpielāgo, lai bumbu park spēlēja veikt precīzus salīdzinājumus starp spēlētājiem.

Mācīties no izvēlētā datu

Skatīties beisbola spēli, rodas jautājumi, kas motivētu interesanti statistikas analīzi. Laikā raidījums spēle, beisbola diktors parasti ziņojuma izvēlēto hitting datu spēlētājs. Piemēram, tas var būt ziņoja, ka Barry Bonds ir 10 hits viņa pēdējā 20-sikspārņiem. Ko jūs esat iemācījušies par Obligāciju vatelīns vidēji pamatojoties uz šo informāciju? Skaidri, Obligācijas ” vatelīns vidēji nevar būt tikpat lieli kā 10/20 = .500, jo šie dati tika izvēlēta, lai palielinātu ziņots procentu. Casella un Bergers (1994) būvēt iespējamību funkciju spēlētājs ir taisnība, vatelīns vidēji pamatojoties uz šo izvēlēto informāciju un atrast maksimālo varbūtību aprēķinu. Viņi secina, ka šī izvēlētos datus sniedz tikai nelielu ieskatu `pilnīgi dati” vatelīns vidējais, kas tiek iegūta no vatelīns ieraksti visā sezonā.

Streakiness?

Vēl viens interesants jautājums ir par to, ka pastāv streakiness hitting datus. Sezonas laikā ir novērots, ka daži ballplayers būs pieredze periodiem, `hot”, trāpot, kur viņi saņems lielu daļu apmeklētāju. Citi hitters iet caur slumps vai laika posmos, hitting ar ļoti maz hits. Taču šie periodi, karstā un aukstā hitting var tikai pārdomas par dabisko mainīgumu, novērota tossing monētu. Vai ir statistikas dati par `karstās rokas” starp beisbola hitters, kur varbūtība iegūt hit ir atkarīga no nesen pie-sikspārņiem? Olbraita (1993) izskatījās pēc liela kolekcija beisbola hitting datus un izmantot vairākas statistiku, piemēram, skaits, kas darbojas, lai atklātu streakiness hitting datus. Viņa galvenais secinājums bija, ka ir maz, statistikas dati kopumā par karstu roku beisbola hitting.

Situācijas dati

Šobrīd ar lielu interesi starp faniem un medijiem, situācijas beisbola datus. Hitting darbības mīklu ir ierakstīta vairākās dažādās situācijās, piemēram, kā diena pret nakti spēles, zāles lauki un mākslīgā kūdra lauki, pret kannas, kuri mest ar labo roku un ar kreiso roku, un tā laikā mājās un izbraukumā. Ir divi pamata jautājumi, statistikas analīzi par šo datu veidu. Pirmkārt, ir īpašas situācijas, kas var izskaidrot ievērojamu daudzumu izmaiņas hitting datus? Otrkārt, ir ballplayers, kas veic īpaši labi vai slikti šajā situācijā? Alberts (1994), analizējot plašu publicēts situācijas datus un izmantota Bayesian hierarhijas modeļi apvienot datus no lielās grupas dalībniekiem. Viņa pamata secinājums ir tāds, ka pastāv daži svarīgi situācijās. Piemēram, mīklu hit vidēji 20 punktiem vairāk, kad saskaras ar krūzi pretī roku, un hit 8 punktiem vairāk, kad viņi spēlē savās mājās ballpark. Tomēr, tur parasti maz statistikas dati par individuālām atšķirībām, šīs situācijas sekas.

Prognozes

Major league baseball pašlaik ir sadalīta sešās nodaļās, un viens mērķis, jebkura komanda ir, lai pabeigtu pirmo tās rajons. Pieņemsim, ka sezonas daļu ir pabeigta. Izmantojot komandu ieraksti no šīs daļēju sezonā, ir iespējams precīzi prognozēt uzvarētāju nodaļu? Barry un Hartigan (1993) izmantot izvēles modelis, kas ir varbūtība, ka komanda uzvar, individuālu spēli. Šis modelis ļauj dažādas stiprās starp komandām, dažādām mājas priekšrocības un komanda stiprās puses, ko var nejauši mainās ar laiku. Autori izmantot šo modeli, lai simulētu rezultātus nākotnē, beisbola spēles un aprēķināt varbūtības, ka katra komanda uzvarēs tā attiecīgo nodaļu.

Pašlaik galvenās beisbola līgas spēles tiek reģistrēti ļoti sīkas detaļas. Informāciju par katru bumbu uzcēla, fielded un hit spēles laikā, tiek atzīmēts, radot lielu datubāzi beisbola statistika. Šī datu bāze tiek izmantota vairākos veidos. Sabiedrisko attiecību struktūrvienības komandas izmanto datu publicēt īpašām statistikas par saviem spēlētājiem. Statistika ir izmantoti, lai palīdzētu noteikt algas major league ballplayers. Īpaši, statistikas informāciju izmanto kā pierādījumus algu, šķīrējtiesas, tiesvedība, kas nosaka algas. Vairākas komandas ir nodarbināti uz pilnu slodzi profesionālo statistikas analītiķi un daži vadītāji izmantot statistikas informāciju, kas lemj par stratēģiju spēles laikā. Likumprojekts Džeimss un citām beisbola statistiķi ir pierādījuši, ka tas ir iespējams, atbildēt uz dažādiem jautājumiem par spēli beisbols, izmantojot statistikas analīzi.

 Atsauces

  1. Albert, J. (1994), “`Pētot beisbola hitting dati: ko par tiem sadalījums statistiku?”, Vēstnesis Amerikāņu Statistikas Asociācijas , 89, 1066-1074.
  2. Albright, S. C. (1993), “statistikas analīzi par hitting svītras beisbols,” Vēstnesis Amerikāņu Statistikas Asociācijas , 88, 1175-1183.
  3. Barry, D., un Hartigan, J. A. (1993), “Izvēles Modeļus, lai Prognozētu Divīziju Uzvarētāji Major League Beisbols,” Vēstnesis Amerikāņu Statistikas Asociācijas , 88, 766-774.
  4. Bennett, J. M. (1993), “Vai bez apaviem Joe Jackson Mest 1919. gada World Series?”, Amerikāņu Statistician, 47, 241-250.
  5. Bennett, J. M. un Flueck, J. A. (1984), “Spēlētājs Spēlē Procentu”, ” Tiesvedība Sociālās Statistikas Sadaļā, Amerikāņu Statistikas Asociācijas, 378-380.
  6. Casella, G. un Bergers, R. (1993), “Aplēses Ar Izvēlēto Binominālā Informācijas, vai Jūs Tiešām ticat, ka Deivs Winfield ir Vatelīns .471?”, Vēstnesis Amerikāņu Statistikas Asociācijas , 89, 1080-1090.
  7. James, B. (1982), Likumprojektu James Beisbola Anotācija, New York: Ballantine Books.
  8. Lindsey, G. (1963) “Izmeklēšanas Stratēģiju, Beisbols,” Darbībām Pētniecības, 11, 447-501.
  9. Thorn, J. un Palmer, P. (1993), Kopā Beisbola, New York: Harper Collins.