Ciekawostki Statystyczne – Real Plus-Minus ze specjalnym udziałem Zazy Pachiuli

Witam, dzisiaj w Ciekawostkach chce przybliżyć Wam jedną z powszechnie używanych zaawansowanych statystyk, ESPN – Real Plus-Minus w skrócie RPM. Jest ona często nadużywana do porównania między sobą graczy, a tak naprawdę przybliża ona wpływ gracza na wyniki drużyny i jak każda pojedyncza statystyka nie uwzględnia wszystkich aspektów i posiada pewien margines błędu.
Wyjdźmy od definicji za ESPN:

Player’s estimated on-court impact on team performance, measured in net point differential per 100 offensive and defensive possessions. RPM takes into account teammates, opponents and additional factors

Czyli próbuje ona oszacować wpływ gracza na wyniki drużyny, mierzony w formie różnicy punktowej (+/-) w przeliczeniu na 100 ofensywnych i defensywnych posiadań. RPM bierze pod uwagę zawodników drużyny gracza jak i zawodników przeciwnika oraz inne dodatkowe czynniki.

Wyjdźmy od najprostszego plus-minus które oblicza się w ten sposób, że oblicza się o ile lepszy lub gorszy był wynik drużyny kiedy dany gracz przebywał na boisku. W tym przypadku wynik każdego gracza jest silnie uzależniona od jakości jego kolegów z którymi przebywa razem na boisku. Popatrzmy na pierwszą dziesiątkę w tym sezonie w prostym plus-minus:

Player Team +\-
Stephen Curry GS 13.2
Kevin Durant GS 11.9
Klay Thompson GS 11.8
Draymond Green GS 11.5
Chris Paul LAC 10.1
Kevin Love CLE 7.7
Blake Griffin LAC 7.6
Patrick Patterson TOR 7.4
Andre Iguodala GS 7.1
Zaza Pachulia GS 7.1

Jest w niej m.in. na dziesiątym miejscu Zaza Pachulia, który na pewno nie jest w top 10 graczy, a tak wysoką pozycję zawdzięcza temu, że gra u boku głownie Curry’ego, Duranta, Thomsona i Greena. Jest tu też Patrick Patterson, który w tym sezonie gra głównie jako rezerwowy przez co gra często przeciwko słabszym zawodnikom przeciwnika. Zatem popatrzmy z czego wynikają, aż tak wysokie pozycje Zazy czy Pattersona.

Załóżmy, że gramy 3 graczy na 3 i plus minus dla 3 graczy przy średnio 10 minutach razem:

  • X + Y na boisku: +10 punktów
  • X + Z na boisku: +8 punktów
  • Y + Z na boisku: +4 punkty

Na oko widać, że najlepszym graczem jest gracz X, a najsłabszy gracz nr Z. Jeśli weźmiemy te stwierdzenia jako 3 równania z 3 niewiadomymi i rozwiążemy to wyjdzie nam, że:(link do obliczeń)

  • Gracz X ma +7,
  • Gracz Y ma + 4,
  • Gracz Z ma +1.

Czyli najlepszy jest gracz X, potem i Y a najsłabszy gracz Z.
Jednak gdyby najsłabszy zawodnik Z grał po 30 minut z najlepszym graczem X, a dwie pozostałe pary grały by po 10 minut: (link do obliczeń)

  • Gracz X ma +17,
  • Gracz Y ma – 5,
  • Gracz Z ma +9.

To wyjdzie nam, że zawodnik X jest dalej najlepszy, ale najsłabszy gracz Z dzięki wpływowi X ma +9, a gracz Y ma – 5 pomimo tego, że jest znacznie lepszy od Z.

Po to aby wyeliminować wpływ pozostałych zawodników na boisku opracowano Adjusted Plus-Minus (dopasowany plus minus), oblicza się go to w ten sposób, że dzieli się każde spotkanie na odcinki czasu, w których przebywają dani zawodnicy na boisku (tzn odcinki czasu bez żadnej zmiany) i tworzy z tego listę równań:

  • x1 * gracz1 + x2 *gracz2 + … + x10*gracz10 = plus/minus
  • (zmiana powiedzmy za gracza1 wszedł gracz 11)
  • x11 *gracz11 + x2*gracz2 + … + gracz10 = plus/minus
  • itd

Współczynniki przy zawodnikach mają wartość +1 dla jednej drużyny i – 1 dla drugiej  i te setki, tysiące czy nawet miliony równań rozwiązują już komputery za pomocą regresji liniowej. Takie rozwiązanie eliminuje wpływ pozostałych zawodników, ale pozostają jeszcze następujące problemy:

  • nie do końca uda się wyeliminować wpływ innych graczy, np. jeśli gracz A gra dużo z B, a prawie wcale z C i D, która to para też gra przeważnie razem na  boisku, to wyniki w parach dalej dążą do wyrównania i promują słabszgo gracza kosztem lepszego
  • problem nadmiernego dopasowywania(overfitting) – jeśli np. gracz zagra 10 spotkań ze skutecznością 70%, chociaż w karierze rzuca 40, to korzystając z tego modelu zakłada się, że zawsze będzie rzucać 70%, co przy ocenianiu zawodnika pod kątem jego dalszej kariery jest dużym błędem
  • za duże różnice między sezonami dla tych samych zawodników
  • margines błędu maleje dopiero przy uwzględnieniu danych z paru sezonów, stosowania limitów minutowych itp.
  • więcej o APM można znaleźć tu: linklink, link

By zminimalizować te błędy i problemy wprowadza się dodatkowe regulacje, za pomocą różnych metod statystycznych i numerycznych jak z grupy regularyzacji Tichonowa, a konkretniej metody Regresja grzbietowa, (ang. Ridge Regression). A metrykę uzyskaną z ich pomocą nazywamy „Regularized Adjusted Plus-Minus” (RAPM), czyli regulowany dopasowany plus-minus:). RAPM jest ma około 2 razy mniejszy błąd niż APM dla danych na przestrzeni 3 lat.

Nasz bohater Real-Plus-Minus jest opracowany przez byłych konsultantów Phoenix Suns Steve’a Ilardiego i Jeremiasa Engelmanna, która wywodzi się znów od xRAPM (opracowanego przez Engelmanna, w przybliżeniu jest to plus/minus tylko obliczany osobno dla ofensywy i defensywy jako:

  • Offensive Real Plus Minus: (ORPM) – obliczany na podstawie różnicy między średnią zdobywanych punktów na 100 posiadań gdy gracz jest na boisku w stosunku do średniej dla całej drużyny
  • Defensive Real Plus Minus: (DRPM) – obliczany na podstawie różnicy między średnią traconych punktów na 100 posiadań gdy gracz jest na boisku w stosunku do średniej dla całej drużyny
  • do regulacji tych danych stosowane są metody
    • Sieci bayesowskiej
    • stosowane są krzywe wieku (Aging Curve), uwzględniony jest uśredniony wpływ wieku na osiągnięcia
    • wyniki spotkań
    • out-of-sample testing
    • inne nieujawnione czynniki bo dokładna formuła obliczania jest utajniona

Popatrzmy na najlepszych zawodników w tym sezonie w RPM:

RK NAME TEAM GP MPG ORPM DRPM RPM
1 Chris Paul, PG LAC 36 30.9 5.60 3.69 9.29
2 Kyle Lowry, PG TOR 46 37.4 5.93 1.04 6.97
3 Jimmy Butler, SF CHI 46 36.7 5.60 1.16 6.76
4 Kevin Durant, SF GS 47 34.2 4.22 2.25 6.47
5 LeBron James, SF CLE 42 37.6 5.44 0.83 6.27
6 Russell Westbrook, PG OKC 47 34.7 6.38 -0.12 6.26
7 Kawhi Leonard, SF SA 42 33.5 5.52 0.66 6.18
8 Draymond Green, PF GS 45 33.2 1.86 4.30 6.16
9 Paul Millsap, PF ATL 44 33.8 1.69 4.24 5.93
10 Stephen Curry, PG GS 47 33.5 5.68 0.12 5.80

Dalej mamy 3 zawodników z GS w pierwszej 10 (Durant, Green i Curry), co nie dziwi biorąc pod uwagę jak dobrze grają w tym sezonie, ale nie ma już Thomsona(68) i Zazy(23). Pierwszy jest Chris Paul, który jest niedoceniany ostatnio, a bez niego widać jak grają Clippers. Przypomnę co oznacza, że ma on RPM na poziomie 9.29 (5.6 ORPM + 3.69 DRPM), oznacza to że jeśli zamienić by przeciętnego gracza w drużynie na Chrisa Paula to drużyna zdobywałaby średnio o 9.29 punktu na sto posiadań, a 5.6 ORPM i 3.69 DRPM znaczy, że zdobywała by średnio więcej o 5.6 pkt i traciła średnio mniej o 3.69 pkt na 100 posiadań.

Wróćmy do Zazy Pachulii w porównaniu do czystego +/- spadł on z 10 miejsca na 23, czyli nadal jest wysoko, a jego RPM wynosi 0.16 ORPM + 3.2 DRPM czyli 3.36 RPM, czyli też bardzo wysoki wynik, ale grał on tylko po około 18.8 minut czyli dużo mniej niż reszta czołówki i taka niewielka próbka danych może generować większy błąd, a może też Zaza idealnie uzupełnia 4 gwiazdy GSW i w te 18.8 minut sam wypracowuje te dodatkowe +3.36/100 posiadań.

Na koniec pokażę jeszcze tabelę RPM – WINS, czyli RPM który uwzględnia sumę minut jakie gracz spędził na boisku (dokładniej ilość posiadań), im więcej tym oczywiście dany zawodnik miał większy wpływ:

RK NAME TEAM GP MPG RPM WINS
1 Kyle Lowry, PG TOR 47 37.4 6.97 10.13
2 James Harden, SG HOU 51 36.5 5.68 9.93
3 Jimmy Butler, SF CHI 47 36.8 6.76 9.86
4 Kevin Durant, SF GS 48 34.3 6.47 9.65
5 Russell Westbrook, PG OKC 48 34.7 6.26 9.39
6 Stephen Curry, PG GS 47 33.5 5.80 8.92
7 Chris Paul, PG LAC 36 30.9 9.29 8.91
8 LeBron James, SF CLE 43 37.5 6.27 8.69
9 Draymond Green, PF GS 46 33.2 6.16 8.67
10 Giannis Antetokounmpo, SF MIL 46 35.2 5.64 8.07

Ta ostatnia tabelka przypomina trochę listę kandydatów na MVP, a na pewno są w niej zawodnicy z top 20 ligi w tym sezonie pod względem wpływu na wyniki drużyn, na pewno brakuje Kawhi’ego Leonarda, ale to dlatego, że nie gra on znów dużo minut.

Ja bym nazwał RPM i RPM-WINS odpowiednim współczynnikiem do oceniania wartości gracza dla drużyny (takim statystycznym MVP) – oczywiście nie możemy zapomnieć, że jest obarczony błędem statystycznym i nie możemy go używać jako jedynego słusznego argumentu, że gracz A jest lepszy od B.

Pozdrawiam,

jeśli czekacie na typowe Ciekawostki to się nie martwcie zbieram co najciekawsze i jak znajdę czas to się nimi podzielę z Wami.

 

Michał Wróblewski

Fan Nba od czasów Bulls z Jordanem. Obecnie nie kibicuje szczególnie żadnej drużynie. Stara się oglądać przynajmniej jeden mecz dziennie. Fanatyk statystyk i zaawansowanych analiz. Prywatnie programista Android.

6 komentarzy

  1. Marek napisał(a):

    Świetny pomysł na wpis. Przyda mi się. Dzięki

  2. cynik napisał(a):

    Poczułem się jak na wykładzie matematyki. Brrr…Mam wrażenie, że NBA tworzy niektóre statystyki na siłę. Wpis b. dobry.

  3. thegodnr12 napisał(a):

    Więcej. Czy przy boxscorach jest RPM czy PM?

  4. gold jak złoto napisał(a):

    Świetny artykuł! Dzięki Michale :)
    Jeśli tylko masz czas to czy mógłbyś sprawdzić czy Carmelo Anthony według statystyk „poprawi” grę Clippers? Z góry dzięki!

    • Michał Wróblewski napisał(a):

      Jakby wymienili go za Pierce’a i Crowforda to na pewno. A jakbym miał konkretny trade to można analizować

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *