Jeg tenkte faktisk på det samme som hstad her om dagen. Men til forskjell fra han har jeg et forslag til løsning. Etter mitt syn bør en rangere cachene etter sannsynlighet for at neste besøkende vil gi cachen et favorittpoeng. La oss kalle denne sannsynligheten p. Matematisk sett blir da problemet å estimere p gitt de dataene vi har - nemlig antall funn og antall favorittpoeng. Det er forsåvidt det som er gjort i dag, nemlig ved at en bruker estimatoren:
p = #favorittpoeng / #funn
Dette er standard estimator for en binomialfordeling, men problemet er at den ikke fungerer så bra når det er få observasjoner/funn eller når p er veldig nært 0 eller 1. I toppen av lista er begge deler tilfellet. Løsningen er å heller bruke en bayesiansk estimator. Jeg vil foreslå:
p = (#favorittpoeng + 2) / (#antall funn + 4)
Dette gir f.eks:
FavP Funn Bayesiansk Nåværende
40 44 0,88 0,91
11 11 0,87 1,00
19 21 0,84 0,90
43 51 0,82 0,84
7 7 0,82 1,00
9 10 0,79 0,90
5 5 0,78 1,00
7 8 0,75 0,88
3 3 0,71 1,00
144 225 0,64 0,64
13 20 0,63 0,65
Jeg synes dette virker intuitivt riktig. Formelen gjenspeiler det at estimatet blir statistisk sikrere dess flere funn cachen har. En cache uten funn vil ha p=1/2. Formelen er ikke tatt ut av lufta, se
http://en.wikipedia.org/wiki/Binomial_c ... e_interval. En Bayesiansk metode brukes f.eks. av IMDB for å rangere filmer.
Forøvrig så har jeg lagt merke til at også logger av cachere som ikke er Premium Members teller med på #funn i statistikken. Disse kan jo ikke gi favorittpoeng, og dette gir jo en fordel til cacher som er kun for medlemmer. Men dette er det kanskje ikke noe å gjøre med.