Ciao a tutti!
Prendendo spunto da un lavoro americano sto cercando di fare una classifica tra un tot di cantanti per vedere chi ha il vocabolario migliore, chi conosce più parole.
Io ho fatto 3 prove
1) prendo tutte le parole delle carriera di un artista e conto quelle univoche
2) facendo: parole univoce diviso parole totali
3) contando le parole univoche di 35000 parole prese a random (come il sito americano)
* Ho notato che le classifiche fatte con il punto 2 e il punto 3 si assomigliavano molto e ho quindi eliminato il punto 3.
* Ho notato però che artisti che ci sono da più di 20 anni sono in fondo alla classifica 2 e in testa alla 1 e viceversa per gli emergenti, ma non sempre, alcuni son messi bene in entrambe.
Domande:
1) è giusto nella classifica 2 fare parole univoche diviso totali o è il contrario?
2) come faccio matematicamente ad unire le due classifiche in modo da averne una sola? fare una sorta di media ma con valori diversissimi? (es: per un artista la classifica 1 da come risultato: 13994 e la due 0.1197 - nella prima classifica è primo e nella seconda è tra gli ultimi, dovrebbe apparire quasi a metà quindi.)