Dodany: 22.12.2010 00:07|Autor: rafalko

BiblioNETka> O BiblioNETce

4 osoby polecają ten tekst.

Inna metodologia wyliczania rankingów książek


Cześć Biblionetkowicze,

Przeglądałem ostatnio rankingi najwyżej ocenionych książek i zastanawiałem się, w jaki sposób wyznaczone są limity minimalnej ilości ocen w poszczególnych rankingach. Zrobiłem małą analizę i wyszło mi, że w niektórych kategoriach limity są wyraźnie za niskie, a w innych za wysokie.

Jeżeli np. w fantasy, kiedy posortuję po ilości głosów, to na 100. miejscu książka ma 757 głosów. To pokazuje, jak popularna jest ta kategoria. Limit 100 głosów jest tu zdecydowanie za niski. Książka za 100 głosami i średnią 5,01 jest wyżej w rankingu niż inna z 8.000 głosów i średnią 5,00. W tej ze 100 głosami średnia zmieni się na drugim miejscu po przecinku z każdym nowym oddanym głosem -- w górę lub w dół.

Tak w ogóle to temat jest trochę szerszy. Uważam że powyższy przykład uzasadniałby wprowadzenie rankingu na podstawie nie prostej średniej arytmetycznej, bo ta jest nieporównywalna dla różnych ilości oddanych głosów. Pozostając w kategorii „Fantasy” mamy np. na miejscu 100 „Harry Potter i Książę Półkrwi”, ze średnią 4,92 (z 7.259 głosów), a na miejscu 98 „Sieć Niebios”, również ze średnią 4,92 (ale już tylko ze 112 głosów). Nie trzeba być biegłym statystykiem, aby zdroworozsądkowo czuć, że taka sama średnia ze 112 głosów jest mniej „wiarygodna”, niż z 7.259 głosów. Wystarczy że kolejna osoba oceni „Sieć Niebios” na czwórkę i już średnia spada do 4,91, a książka wypada z Top100.

Jeżeli w ogóle używamy miernika takiego jak średnia, to znaczy że przyjmujemy, iż jest ona jakąś reprezentacją (w statystyce zwie się to estymatorem) jakiejś ogólnej „opinii społecznej”. Dlatego średnią z konkretnej próbki można uznać za reprezentację „prawdziwej” średniej tym bardziej, z im liczniejszej próbki jest liczona. Wszyscy pewnie widzieli, że wiele książek na początku ma średnią wysoką, a z czasem, w miarę zwiększania ilości głosów, następuje „stabilizacja” średniej na niższym (bardziej „prawdziwym”) poziomie.

Jest jednak metoda oszacowania tej „prawdziwej” średniej dla konkretnej średniej liczonej dla danej ilości głosujących. Jest to średnia ważona ilością głosów, zwana „prawdziwym estymatorem bayerowskim”. Ta metoda jest używana na wielu stronach prezentujących rankingi na podstawie głosowania użytkowników (np. IMDB, Filmweb). Pokusiłem się o zrobienie rankingu dla kategorii „Fantasy”, bo w niej uważam że limit głosów jest za niski i wyniki obecnie są szczególnie zniekształcone na korzyść książek z mniejszą ilością głosów. Przyjąłem za limit 200 głosów, a za „prawdziwą” średnią wszystkich ocen przyjąłem „4”, bo to z definicji oznacza w BN książkę przeciętną. To znaczy, że im mniej ocen ma książka, tym bardziej korygujemy ocenę w kierunku tej średniej.

Lista wygląda może mało czytelnie, ale nie da się łatwo przedstawić tabeli w tekście. Jeżeli ktoś sobie życzy, to mogę posłać plik Excela z wyliczeniami.

- Pierwsza liczba oznacza miejsce w rankingu liczonym po nowemu,
- w nawiasie miejsce w aktualnym rankingu,
- tytuł i autor
- średnia ważona (obliczona przeze mnie), poprzedzona literką "w"
- średnia arytmetyczna (aktualna z Biblionetki), poprzedzona literką "a"
- ilość oddanych głosów

Jeżeli porównacie średnie ważone z arytmetycznymi, to zobaczycie, że im więcej głosów, tym różnica między nimi jest mniejsza. Natomiast jeżeli głosów jest mało, to średnia ważona "ciągnie" średnią arytmetyczną w kierunku "prawdziwej" średniej (czyli 4) i różnica jest większa. Im więcej ocen, tym różnica maleje. Więc książka z mniejszą ilością głosów musi mieć naprawdę wysoką średnią, aby wybić się w rankingu.

Jestem ciekaw, co sądzicie o zmodyfikowanym rankingu. Nie oceniajcie go pod kątem "co powinno być wyżej, a co niżej", ale ciekaw jestem, czy nie sądzicie, że ta metoda daje po prostu bardziej reprezentatywne wyniki, a o to przecież powinno chodzić w "ogólnym" rankingu. Rankingiem indywidualnym są polecanki, dostosowane do konkretnych gustów użytkownika.

Pozdrawiam,
Rafał


1 (10) Powrót króla (Tolkien J. R. R. (Tolkien John Ronald Reuel)) w5,23 a5,26 z 8463 gł.
2 (2) Starcie królów (Martin George R. R.) w5,2 a5,38 z 1293 gł.
3 (5) Gra o tron (Martin George R. R.) w5,18 a5,33 z 1631 gł.
4 (14) Miecz przeznaczenia (Sapkowski Andrzej) w5,18 a5,22 z 5374 gł.
5 (15) Ostatnie życzenie (Sapkowski Andrzej) w5,17 a5,21 z 5306 gł.
6 (20) Dwie wieże (Tolkien J. R. R. (Tolkien John Ronald Reuel)) w5,16 a5,19 z 8645 gł.
7 (3) Nawałnica mieczy: Stal i śnieg (Martin George R. R.) w5,16 a5,37 z 1109 gł.
8 (1) Nawałnica mieczy: Krew i złoto (Martin George R. R.) w5,16 a5,39 z 999 gł.
9 (24) Drużyna Pierścienia (Tolkien J. R. R. (Tolkien John Ronald Reuel)) w5,15 a5,17 z 9322 gł.
10 (22) Chrzest ognia (Sapkowski Andrzej) w5,13 a5,17 z 5212 gł.
11 (26) Wiedźmin (Sapkowski Andrzej) w5,1 a5,16 z 3423 gł.
12 (23) Opowieści o wiedźminie: 2 (Sapkowski Andrzej) w5,09 a5,17 z 2807 gł.
13 (31) Krew elfów (Sapkowski Andrzej) w5,09 a5,13 z 5742 gł.
14 (29) Czas pogardy (Sapkowski Andrzej) w5,09 a5,13 z 5337 gł.
15 (59) Wieża Jaskółki (Sapkowski Andrzej) w5 a5,04 z 4980 gł.
16 (41) Kosiarz (Pratchett Terry) w5 a5,09 z 2197 gł.
17 (7) Opowieści o wiedźminie: 1 (Sapkowski Andrzej) w4,99 a5,28 z 694 gł.
18 (55) Straż! Straż! (Pratchett Terry) w4,95 a5,04 z 2154 gł.
19 (69) Mort (Pratchett Terry) w4,93 a5 z 2671 gł.
20 (58) Zbrojni (Pratchett Terry) w4,93 a5,04 z 1682 gł.
21 (78) Harry Potter i Insygnia Śmierci (Murray Joanne (pseud. Rowling J. K. lub Skamander Newt lub Whisp Kennilworthy)) w4,93 a4,96 z 5583 gł.
22 (43) Straż nocna (Pratchett Terry) w4,92 a5,09 z 1093 gł.
23 (32) Wielki Mistrz (Canavan Trudi) w4,92 a5,13 z 861 gł.
24 (65) Pomniejsze bóstwa (Pratchett Terry) w4,91 a5,02 z 1621 gł.
25 (100) Harry Potter i Książę Półkrwi (Murray Joanne (pseud. Rowling J. K. lub Skamander Newt lub Whisp Kennilworthy)) w4,9 a4,92 z 7256 gł.
26 (39) Piekło pocztowe (Pratchett Terry) w4,9 a5,09 z 918 gł.
27 (96) Pani Jeziora (Sapkowski Andrzej) w4,89 a4,93 z 4735 gł.
28 (71) Wyprawa czarownic (Pratchett Terry) w4,88 a4,99 z 1615 gł.
29 (0) Harry Potter i Czara Ognia (Murray Joanne (pseud. Rowling J. K. lub Skamander Newt lub Whisp Kennilworthy)) w4,86 a4,88 z 8096 gł.
30 (0) Harry Potter i Zakon Feniksa (Murray Joanne (pseud. Rowling J. K. lub Skamander Newt lub Whisp Kennilworthy)) w4,86 a4,88 z 7599 gł.
31 (0) Trzy wiedźmy (Pratchett Terry) w4,84 a4,92 z 2121 gł.
32 (56) Uczta dla wron: Sieć spisków (Martin George R. R.) w4,83 a5,04 z 771 gł.
33 (88) Bogowie, honor, Ankh-Morpork (Pratchett Terry) w4,82 a4,94 z 1390 gł.
34 (99) Na glinianych nogach (Pratchett Terry) w4,81 a4,92 z 1522 gł.
35 (91) Piąty elefant (Pratchett Terry) w4,81 a4,94 z 1221 gł.
36 (85) Prawda (Pratchett Terry) w4,8 a4,95 z 1107 gł.
37 (30) Kłamstwa Locke'a Lamory (Lynch Scott) w4,8 a5,13 z 487 gł.
38 (0) Hobbit czyli Tam i z powrotem (Tolkien J. R. R. (Tolkien John Ronald Reuel)) w4,8 a4,82 z 7983 gł.
39 (0) Blask fantastyczny (Pratchett Terry) w4,8 a4,86 z 2657 gł.
40 (0) Nigdziebądź (Gaiman Neil) w4,8 a4,9 z 1572 gł.
41 (0) Siewca Wiatru (Kossakowska Maja Lidia) w4,79 a4,91 z 1273 gł.
42 (0) Ciekawe czasy (Pratchett Terry) w4,78 a4,89 z 1424 gł.
43 (64) Łups! (Pratchett Terry) w4,77 a5,02 z 623 gł.
44 (0) Czarnoksiężnik z Archipelagu (Le Guin Ursula K. (Le Guin Ursula Kroeber)) w4,76 a4,85 z 1784 gł.
45 (0) Wiedźmikołaj (Pratchett Terry) w4,76 a4,86 z 1574 gł.
46 (76) Czarnoksiężnik i kryształ (King Stephen (pseud. Bachman Richard)) w4,76 a4,97 z 727 gł.
47 (61) Mgły Avalonu (Zimmer Bradley Marion Eleanor) w4,75 a5,03 z 548 gł.
48 (53) Obrońcy Królestwa (Kossakowska Maja Lidia) w4,75 a5,06 z 487 gł.
49 (13) Bramy Domu Umarłych (Erikson Steven) w4,73 a5,22 z 301 gł.
50 (0) Achaja 1 (Ziemiański Andrzej (pseud. Shoughnessy Patrick)) w4,73 a4,81 z 1865 gł.
51 (37) Wodnikowe Wzgórze (Adams Richard) w4,73 a5,1 z 397 gł.
52 (0) Narrenturm (Sapkowski Andrzej) w4,73 a4,77 z 3369 gł.
53 (92) Nocny patrol (Łukianienko Siergiej (Łukjanienko Siergiej)) w4,73 a4,94 z 679 gł.
54 (90) Ostatni bohater (Pratchett Terry) w4,72 a4,94 z 660 gł.
55 (0) Panowie i damy (Pratchett Terry) w4,72 a4,83 z 1310 gł.
56 (89) Wilki z Calla (King Stephen (pseud. Bachman Richard)) w4,72 a4,94 z 648 gł.
57 (27) Na szkarłatnych morzach (Lynch Scott) w4,71 a5,16 z 319 gł.
58 (0) Weźmisz czarno kure... (Pilipiuk Andrzej (pseud. Olszakowski Tomasz)) w4,71 a4,81 z 1466 gł.
59 (95) Uczeń skrytobójcy (Hobb Robin (właśc. Ogden Margaret Astrid Lindholm)) w4,71 a4,93 z 637 gł.
60 (8) Wspomnienie lodu (Erikson Steven) w4,7 a5,26 z 253 gł.
61 (74) Królewski skrytobójca (Hobb Robin (właśc. Ogden Margaret Astrid Lindholm)) w4,7 a4,97 z 528 gł.
62 (0) Silmarillion (Tolkien J. R. R. (Tolkien John Ronald Reuel)) w4,7 a4,75 z 2835 gł.
63 (0) Amerykańscy bogowie (Gaiman Neil) w4,7 a4,8 z 1399 gł.
64 (0) Muzyka duszy (Pratchett Terry) w4,7 a4,79 z 1499 gł.
65 (0) Najstarszy (Paolini Christopher) w4,69 a4,78 z 1594 gł.
66 (6) Władca cesarzy (Kay Guy Gavriel) w4,69 a5,28 z 236 gł.
67 (19) Miasto popiołów (Clare Cassandra (pseud.)) w4,69 a5,2 z 272 gł.
68 (12) Imię wiatru (Rothfuss Patrick) w4,69 a5,24 z 251 gł.
69 (42) Zawód: Wiedźma: Tom 2 (Gromyko Olga) w4,69 a5,09 z 344 gł.
70 (57) Malowany człowiek: Księga I (Brett Peter V.) w4,69 a5,04 z 390 gł.
71 (0) Maskarada (Pratchett Terry) w4,68 a4,79 z 1301 gł.
72 (38) Malowany człowiek: Księga II (Brett Peter V.) w4,68 a5,09 z 331 gł.
73 (0) Boży bojownicy (Sapkowski Andrzej) w4,68 a4,73 z 2619 gł.
74 (0) Zaćmienie (Meyer Stephenie) w4,68 a4,72 z 3201 gł.
75 (66) Patrol Zmroku (Łukianienko Siergiej (Łukjanienko Siergiej)) w4,67 a5,02 z 387 gł.
76 (81) Świat finansjery (Pratchett Terry) w4,67 a4,95 z 484 gł.
77 (0) Kolor magii (Pratchett Terry) w4,67 a4,71 z 3085 gł.
78 (0) Kroniki Jakuba Wędrowycza (Pilipiuk Andrzej (pseud. Olszakowski Tomasz)) w4,66 a4,73 z 1919 gł.
79 (11) Miasto szkła (Clare Cassandra (pseud.)) w4,64 a5,25 z 213 gł.
80 (82) Zawód: Wiedźma: Tom 1 (Gromyko Olga) w4,64 a4,95 z 418 gł.
81 (0) Przed świtem (Meyer Stephenie) w4,64 a4,69 z 2704 gł.
82 (0) Sługa Boży (Piekara Jacek (pseud. Craft Jack de)) w4,64 a4,74 z 1278 gł.
83 (0) Coś się kończy, coś się zaczyna (Sapkowski Andrzej) w4,64 a4,69 z 2401 gł.
84 (18) Dom Łańcuchów (Erikson Steven) w4,64 a5,2 z 226 gł.
85 (79) Miasto kości (Clare Cassandra (pseud.)) w4,63 a4,96 z 379 gł.
86 (0) Piramidy (Pratchett Terry) w4,63 a4,71 z 1527 gł.
87 (0) Pachnidło (Süskind Patrick) w4,63 a4,65 z 5276 gł.
88 (49) Złocisty Błazen (Hobb Robin (właśc. Ogden Margaret Astrid Lindholm)) w4,61 a5,06 z 270 gł.
89 (0) Czarodzicielstwo (Pratchett Terry) w4,61 a4,67 z 1934 gł.
90 (63) Pożeglować do Sarancjum (Kay Guy Gavriel) w4,6 a5,03 z 279 gł.
91 (0) Ruchome obrazki (Pratchett Terry) w4,59 a4,68 z 1393 gł.
92 (46) Przeznaczenie Błazna (Hobb Robin (właśc. Ogden Margaret Astrid Lindholm)) w4,59 a5,08 z 245 gł.
93 (87) Sztuka Świata Dysku (Pratchett Terry, Kidby Paul) w4,59 a4,95 z 321 gł.
94 (0) Lux perpetua (Sapkowski Andrzej) w4,58 a4,65 z 1774 gł.
95 (75) Nadzieja pokonanych (Goodkind Terry) w4,58 a4,97 z 298 gł.
96 (0) Zmierzch (Meyer Stephenie) w4,57 a4,6 z 4367 gł.
97 (97) Naznaczeni błękitem: Część 2 (Białołęcka Ewa) w4,57 a4,93 z 320 gł.
98 (0) Czarownik Iwanow (Pilipiuk Andrzej (pseud. Olszakowski Tomasz)) w4,57 a4,65 z 1370 gł.
99 (0) Równoumagicznienie (Pratchett Terry) w4,57 a4,62 z 2072 gł.
100 (0) Księżyc w nowiu (Meyer Stephenie) w4,56 a4,59 z 3444 gł.
Wyświetleń: 9337
Dodaj komentarz
Przeczytaj komentarze
ilość komentarzy: 14
Użytkownik: moriakaice 24.12.2010 12:34 napisał(a):
Odpowiedź na: Cześć Biblionetkowicze, ... | rafalko
Wydaje mi się, że każda metodologia, która uwzględnia ilość głosów, będzie lepsza od takiej, która tego nie uwzględnia. Pytanie tylko, czy zmiana metody nie wymagałaby zbyt wielu przeliczeń? B-NETka i bez tego ma czasami problemy...

A, i taka uwaga, bo w tekście literówka Ci się wkradła - estymator bayesowski, nie bayerowski (jestem przekonany, że Ty o tym wiesz, ale to tak dla innych, gdyby szukali więcej informacji).
Użytkownik: rafalko 24.12.2010 13:26 napisał(a):
Odpowiedź na: Wydaje mi się, że każda m... | moriakaice
Dzięki za wsparcie. Tę literówkę zauważyłem od razu, napisałem nawet komentarz w odpowiedzi na własny post, ale chyba za słabo znam działanie forum, bo nie widzę nigdzie tego komentarza.

A z tymi ocenami -- po prostu obok średniej arytmetycznej dla każdej książki byłaby wyliczona średnia ważona (jako osobna zmienna) i ona byłaby używana w rankingach. Taka średnia byłaby też bardzo dobra w sortowaniu wg średniej książek pojedynczego autora. Obecnie najczęściej na pierwszych miejscach są pozycje z jednym głosem i średnią 6,0, lub z maksymalnie kilkoma głosami. To też jest istotne zaburzanie rankingów.

Czy ktoś z "administracji" BN mógłby ocenić czy w ogóle byłoby możliwe rozważenie zmiany w zasadach rankingów? Może głosowanie? Nie wiem, kto miałby o tym decydować.

Pozdrawiam serdecznie i życzę wszystkim Wesołych Świąt i pięknej wigilii Bożego Narodzenia.

Rafał
Użytkownik: sowa 24.12.2010 13:39 napisał(a):
Odpowiedź na: Dzięki za wsparcie. Tę l... | rafalko
"Czy ktoś z "administracji" BN mógłby ocenić czy w ogóle byłoby możliwe rozważenie zmiany w zasadach rankingów?": najlepiej napisz o tej propozycji zmian na adres: pomoc@biblionetka.pl, redakcja Biblionetki nie jest w stanie śledzić na bieżąco tego, co się dzieje na Forum :-).
Użytkownik: janmamut 24.12.2010 14:00 napisał(a):
Odpowiedź na: Cześć Biblionetkowicze, ... | rafalko
No, jeśli dzięki takiemu cudowaniu Meyer trafia na listę, to MUSI być to zła metoda. Jestem przeciw!


Użytkownik: moriakaice 24.12.2010 19:15 napisał(a):
Odpowiedź na: No, jeśli dzięki takiemu ... | janmamut
Ej, dzięki tej metodzie do topki trafia "Czarnoksiężnik z Archipelagu"! Zdecydowanie dobra metoda!
Użytkownik: rafalko 25.12.2010 21:46 napisał(a):
Odpowiedź na: Ej, dzięki tej metodzie d... | moriakaice
"Nie ma śniegu bez ognia..." pisze, że jeżeli przy innej metodzie wyliczania rankingów na Top100 trafia Meyer (cykl "Zmierzch") to metoda jest kiepska. Natomiast Mori pisze, że metoda jest dobra, bo dzięki niej do Top100 trafia "Czarnoksiężnik z archipelagu".

Ja myślę, że to nie o to chodzi. Jakikolwiek ranking oparty na agregacji lub uśrednieniu głosów nie może się pokrywać z gustami wszystkich. Z własnym gustem pokrywa się w 100% lista ocen każdego z nas. Ale chyba nikt nie sugeruje, żeby to tylko jego listę wziąć za podstawę do Top100.

Jeżeli w ogóle robimy ranking i nazywamy go "najlepiej ocenione książki", to musimy pogodzić się z tym, że wśród "ogółu Biblionetkowiczów" będą osoby, mające inny gust niż my sami. Jeżeli "Zmierzch" ma ponad 4 tys. głosów i średnią arytmetyczną 4,68, to z cała pewnością znaczy to, że dla znacznej części (prawie 5% wszystkich Biblionetkowiczów) jest to dobra książka i jest pewne, że bardzo dużej części przyszłych czytelników będzie się ta książka również bardzo podobała.

A celem rankingu jest zwiększenie prawdopodobieństwa, że pomoże on nam znaleźć pozycje dobre, lub po prostu "ważne". Nikt chyba nie powie że nie jest pozycją "ważną" książka która ma średnią 4,68 przy pond 4 tys. głosów. Oczywiście gdyby inaczej dobrać parametry (założoną "prawdziwą średnią" i limit głosów), to wynik byłby nieco inny. Ale każdy wynik miałby w sobie książki, z których pozycji ktoś byłby niezadowolony.

Równie dobrze ktoś mógłby mówić, że to nie w porządku że pierwsze 10 pozycji okupuje aktualnie fantasy.

Chodzi o to, czy chcemy się zgodzić, żeby ilość głosów miała znaczenie w ocenie "wartości" średniej oceny, czy nie. Ja uważam że tak i że wynika to z samej definicji tego, czym jest "średnia ocena".

Pozdrawiam,
Rafał
Użytkownik: moriakaice 26.12.2010 10:38 napisał(a):
Odpowiedź na: "Nie ma śniegu bez ognia.... | rafalko
Ja myślę, że należało mamuta oraz moją wypowiedź potraktować w charakterze żartu. Napisałeś już w swoim poście, Rafale, że przecież nie chodzi o ocenianie danego sposobu wyliczania średniej oceny na podstawie osobistych sympatii i antypatii, a my to chyba zrozumieliśmy ;-)
Użytkownik: rafalko 27.12.2010 00:43 napisał(a):
Odpowiedź na: Ja myślę, że należało mam... | moriakaice
OK, w takim razie zrozumiałem żart ;-) A z pytaniem o możliwość zastosowania takiej metody pewnie muszę zwrócić się do "administracji".
Użytkownik: janmamut 27.12.2010 00:59 napisał(a):
Odpowiedź na: OK, w takim razie zrozumi... | rafalko
Rzeczywiście argument z Meyer był żartobliwy. Zarzuty do proponowanej metody są jednak poważne.

Centralne twierdzenie graniczne daje nam asymptotyczną zbieżność do rozkładu normalnego o średniej, która ma nieść informację, i pewnej wariancji. Szybkość zbieżności nie jest porywająca, ale możemy ją oszacować choćby z twierdzenia Beryy'ego-Essena. Proponowana metoda OBNIŻA szybkość zbieżności do właściwego rozkładu, więc dłużej daje wyniki niewiarygodne. Chyba nie o to nam chodzi?

Użytkownik: janmamut 27.12.2010 01:02 napisał(a):
Odpowiedź na: Rzeczywiście argument z M... | janmamut
BeRRY'ego.
Użytkownik: rafalko 27.12.2010 11:27 napisał(a):
Odpowiedź na: BeRRY'ego. | janmamut
Nie mówię, że ktoś ma mi wierzyć na słowo, ale też chyba na forum Biblionetki nie damy rady przeprowadzić formalnej akademickiej dyskusji na ten temat. Chyba zresztą mało by ona interesowała większość osób, dla których z kolei ma znaczenie jak są sporządzane rankingi.

Nie żądam formalnego dowodu, ale na jakiej podstawie twierdzisz, że zastosowanie estymatora Bayesowskiego obniża szybkość zbieżności do właściwego rozkładu? Przecież sama istota tego estymatora polega na ZWIĘKSZENIU zbieżności do właściwego rozkładu. Po to przecież stosuje się estymatory. Dlatego we wzorze występuje średnia z ogółu ocen, żeby dla książek z małą ilością ocen nie brać aktualnej średniej, ale liczbę mocno zbliżoną do średniej ogólnej z danej grupy.

Na Filmwebie wzór używany do wyliczenia średniej, która jest podstawą rankingów wygląda następująco:

średnia ważona = (g / (g+m)) *s + (m / (g+m)) * S
gdzie:
s - średnia ocena dla danego filmu
g - liczba oddanych głosów na film
m - minimalna liczba głosów wymagana do uwzględnienia w TOP (min. 1 000)
S - średnia ocen dla wszystkich filmów

Jak widać, jeżeli film miałby np. 1 głos (pomijając to, że wtedy miałby za mało głosów, żeby w ogóle być w rankingu), to jego ważona średnia byłaby praktycznie równa średniej ogólnej. I właśnie na tym polega filozofia estymatora bayesowskiego: dla małej ilości głosów średnia jest "ściągana" w kierunku średniej ogólnej, bo jest duże prawdopodobieństwo, że właśnie w takim kierunku będzie zmierzała ocena kiedy głosów będzie przybywało.

Zastosowanie estymatora w rankingu sprawia, że ranking jest dużo bardziej "stabilny". Używanie zwykłej średniej sprawia (szczególnie przy niskich limitach głosów), że do rankingu ciągle wchodzą nowe pozycje (które akurat osiągnęły wymagane minimum, często ze średnią złożoną z ocen najbardziej zagorzałych fanów, a więc zawyżoną). Te same pozycje szybko schodzą w dół rankingu, bo kolejne głosy obniżają średnią, zbliżając ją do normalnego rozkładu wszystkich pozostałych ocen. Jeżeli natomiast zastosujemy estymator, to nie ma szans żeby nawet książki z najwyższymi średnimi wpadały od razu na górę listy, tylko po to, żeby potem obsuwać się w dół.

Mówiąc więc "naukowo" nie widzę żadnego dowodu na to, że średnia ważona wolniej zmierza w kierunku rozkładu normalnego. Sam wzór na średnią ważoną od razu przesuwa wynik w kierunku ogólnej średniej wszystkich książek, a więc w kierunku rozkładu normalnego. Inna sprawa, że na wszelkich serwisach z ocenami, rozkład ocen jest zazwyczaj daleki od normalnego. Większość osób stawia tylko wyższe oceny, albo najniższe. Rozkład często przypomina binominalny (z maksimami w okolicach najniższej i najwyższej oceny), a jeśli nawet jest jedno maksimum, to rozkład jest mocno skrzywiony w kierunku najwyższych ocen. Np. na IMDB przy skali ocen 1-10, średnia ocena dla wszystkich filmów wynosi aż 6,9. Gdyby rozkład był normalny, to średnia wynosiłaby 5,0.

Ale i mając to na uwadze, średnia ważona przynajmniej przesuwa oceny w kierunku bardziej umiarkowanych (tym bardziej, im mniej ocen ma dana pozycja), więc podtrzymuję moją opinię, że więcej informacji dla użytkowników niesie ranking oparty na średniej ważonej. A już na pewno taki ranking powinien być stosowany kiedy sortujemy książki danego autora wg średniej. Obecnie najczęściej pierwszych kilka miejsc zajmują pozycje z nie więcej niż 5 ocenami (i zupełnie nierealistyczną średnią typu 5,67).

Pozostaję więc przy swojej opinii, szanując oczywiście kulturę i profesjonalizm argumentacji Mamuta. Widzę że z matematyki na pewno jestem słabszy i nie wygram w typowo akademickiej dyskusji. Ale porównanie przykładowego rankingu na podstawie średniej ważonej z bieżącym rankingiem BN chyba intuicyjnie powinno być przekonujące.

Pozdrawiam,
Rafał
Użytkownik: Falcon64 09.09.2011 13:41 napisał(a):
Odpowiedź na: Nie mówię, że ktoś ma mi ... | rafalko
Sama idea jest, moim zdaniem, jak najbardziej słuszna. Mam jednak pewne wątpliwości co do zastosowanego algorytmu. Zakłada on (parametr "S") zbyt wielki stopień "uprzeciętnienia" wszystkich książek. Przejawia się to w ten sposób, że książka wybitna, przy niewielkiej liczbie oddanych głosów, uzyskuje ocenę (średnia ważona) znacznie niższą, w porównaniu do średniej arytmetycznej, natomiast książka kiepska zostaje odpowiednio "dowartościowana".
Zakładając zaproponowane wyżej parametry (m=200, S=4), na książkę, która uzyskała średnią arytmetyczną 5,00 należałoby oddać co najmniej 40000 głosów, by jej średnia ważona była identyczna (zaokrąglając do dwóch cyfr po przecinku). Przy 1000 oddanych głosów średnia ważona wynosi 4,83, a przy 100 głosach - zaledwie 4,33. Jeszcze bardziej ściągana do średniej dla ogółu książek (czyli 4,00) jest książka mająca średnią arytmetyczną np. 5,50: ta, przy 1000 oddanych na nią głosów, uzyskuje po przeliczeniu 5,25, a przy 100 głosach - 4,50. W przypadku książek słabych wyniki są oczywiście zawyżane, np. przy średniej arytmetycznej 2,00 i 100 oddanych głosach, średnia ważona wynosi 3,33.
Wniosek: algorytm obliczania średniej ważonej należałoby przekształcić w taki sposób, by uzyskać zróżnicowanie wyników w zależności od liczby oddanych głosów, ale charakterystyka rozkładu tych średnich powinna być znacznie bardziej płaska. Powinniśmy uzyskać raczej pewną korektę, niż diametralne przewartościowanie wyniku z powodu niewielkiej liczby oddanych głosów.
A propos portali typu filmweb, imdb i in., gdzie zastosowany algorytm się jako tako sprawdza: tam filmy uzyskują głosy liczone w tysiącach, często nawet w dziesiątkach lub setkach tysięcy (imdb). Różnice między średnią arytmetyczną i średnią ważoną są zatem niewielkie, często praktycznie niezauważalne.
Użytkownik: Falcon64 09.09.2011 14:14 napisał(a):
Odpowiedź na: Sama idea jest, moim zdan... | Falcon64
Post scriptum.
Jeszcze jedna uwaga praktyczna: pozostając przy liczbie oddanych głosów na poziomie 100 ("g") i zwiększając minimalną liczbę głosów... ("m") do postulowanej wielkości 1000, przy średnich arytmetycznych wynoszących 5,00 i 2,00 uzyskujemy średnie ważone odpowiednio 4,09 i 3,82. Są to, IMHO, wielkości absurdalnie zbliżające się do siebie (dokładniej: do wartości 4, czyli parametru "S"). Pewnym wyjściem byłoby zaniżenie wielkości "m", np. do 10. Wówczas pary - średnia arytmetyczna-średnia ważona byłyby następujące: 5,00 - 4,91 i 2,00 - 2,18. IMHO - akceptowalne. Problem w tym, że takie obniżenie wartości "m" może być zakwestionowane jako merytorycznie niepoprawne (wartość dobrana subiektywnie).
Może zatem warto się pokusić o opracowanie nowego algorytmu?
Użytkownik: mchpro 09.09.2011 15:15 napisał(a):
Odpowiedź na: Nie mówię, że ktoś ma mi ... | rafalko
rafalko napisał: "Używanie zwykłej średniej sprawia (szczególnie przy niskich limitach głosów), że do rankingu ciągle wchodzą nowe pozycje (które akurat osiągnęły wymagane minimum, często ze średnią złożoną z ocen najbardziej zagorzałych fanów, a więc zawyżoną)."

Zjawisko o którym piszesz, nie zawsze jest niepożądane. Dzięki niemu rośnie szansa, że szybciej zwrócimy uwagę na pojawienie się książki wybitnej.
Patronaty Biblionetki
Biblionetka potrzebuje opiekunów
Recenzje

Użytkownicy polecają:

Redakcja poleca: