Lotto: ambo che non esce

da **Faussone** » 28/08/2015, 21:31

Grazie markowitz.

Sono perfettamente d'accordo con quanto dici, in particolare faccio mio quello che dici qui.

markowitz ha scritto:Ma la domanda che veramente ti interessa alla fine qual'è? E' prima di tutto questa la domanda a cui rispondere in modo non equivoco.
Diciamo che la la domanda/obbiettivo è capire se l'estrazione del Lotto è "regolare" oppure no. Quindi è domanda molto generale/ambiziosa.
Lo si può valutare partendo dai dati sull'ambo $ 17,56 $ ? Sicuramente è un punto di partenza valido, e la risposta sarebbe:

- se avevamo osservato che l'ambo $ 17,56 $ è stato assente per 6000 estrazioni sulla ruota di Bari senza sapere nient'altro potevamo concludere che come si suol dire, oltre ogni ragionevole dubbio, l'estrazione non è regolare.
Ma è vero che non sapevamo nient'altro ?

- se avevamo osservato che l'ambo $ 17,56 $ è stato assente per 6000 estrazioni sulla ruota di Bari ed è anche quello più ritardatario su detta ruota senza sapere nient'altro potevamo concludere, con qualche dubbio in più ma comunque quasi con sicurezza, che l'estrazione non è regolare.
Ma è vero che non sapevamo nient'altro ?

- se avevamo osservato che l'ambo $ 17,56 $ è stato assente per 6000 estrazioni sulla ruota di Bari ed è anche quello più ritardatario su ogni ruota senza sapere nient'altro potevamo concludere, con non troppa sicurezza, che l'estrazione non è regolare.
Ma è vero che non sapevamo nient'altro ?

Però quando scrivi questo:

markowitz ha scritto:Focalizzarsi sull'ambo è un'ottica coerente ma troppo miope, si deve trattare in qualche modo di tutta la distribuzione è in effetti è questa la base informativa più ampia che abbiamo, e se conosciamo le estrazioni l'abbiamo, a cui possiamo e dovremmo fare in qualche modo riferimento ... ed appunto qualche perchè il modo non è uno solo ... anche se forse uno migliore esiste. In passato avevo fatto qualche prova in questo senso ed il risultato era che le estrazioni erano verosimili.

non capisco in pratica come si potrebbe procedere.
Anzi forse qualcosa intuisco, ma mi sorgono molte domande....

Se per un attimo ci spostiamo dal lotto al lancio di una moneta (che è un ambito un po' più ristretto) per verificare analogamente se, data una sequenza di N lanci, la moneta sia truccata o no, mi vengono per ora in mente due strade.

La prima è simile a quella che stavo seguendo per i lotto: conto il numero di T e C della sequenza e vedo che probabilità avrei in una sequenza di N lanci di ottenere un numero di T (appurato per esempio che nella sequenza abbia T > C) maggiori o uguali di quelle ottenute nella sequenza in oggetto, se ottengo una probabilità molto bassa dico che l'evento è sospetto.

Un secondo diverso modo di procedere potrebbe essere dividere la sequenza in tante sotto-sequenze di stessa lunghezza, ora data la lunghezza della sotto-sequenza so come è fatta la distribuzione discreta teorica della frequenza di teste e di croci, a questo punto la mia ipotesi nulla è che le diverse frequenze misurate nelle sotto-sequenze possano appartenere alla distribuzione discreta di T e C di lunghezza pari a quella delle sotto-sequenze, faccio un test (non so quale ma sicuramente ce ne è uno adatto per questo) e vedo la significatività per decidere se rigettare o no l'ipotesi nulla e dire quindi se la sequenza è sospetta o meno.

Non mi viene in mente niente altro infatti per fare un confronto con una distribuzione discreta nota.

Cosa altro potrei fare in questo caso? Ha senso il modo di procedere che ho scelto? Se sì, in base a cosa scelgo la lunghezza delle sotto-sequenze?

Come estendo poi questo all'esempio del lotto? Controllo usando le ultime 6000 estrazioni solo le frequenze di tutti i 90 numeri?
In qualche modo non dovrei controllare le frequenze di uscita di tutti i vari ambi e confrontare pure quelli con la relativa distribuzione teorica nota. Come?

Spero di esser riuscito a chiarire cosa intendo e di non aver usato un linguaggio improprio (ho detto tante volte che sono un dilettante riguardo a questi argomenti).

da **nino_** » 29/08/2015, 09:28

Com'è però evidente, il ritardo, ossia l'assenza o mancata comparsa per un certo numero di estrazioni dell'ultimo, più ritardato elemento di una determinata formazione (estratto semplice, ambo, terno, ecc...) dipende dalla massa estrazionale.

Infatti, non ha nessun significato ad es. chiedersi se la roulette è taroccata o meno perché si è osservata una serie di 15 uscite consecutive di numeri pari.
Occorre esaminare dopo quanti lanci questo evento si verifica mediamente: se il numero di lanci è 200, la cosa è fortemente sospetta e sicuramente quella roulette non è regolare (il massimo ritardo medio dei dispari + lo zero dovrebbe essere 8); se invece il numero dei lanci è 20.000, la cosa non è assolutamente sorprendente, anzi rientra nella perfetta previsione.

Analogamente è per l'ambo più ritardatario su ogni ruota: come avevo scritto nel mio primo messaggio di questa discussione, dalla storia del lotto italiano (oltre 9.000 estrazioni) sono stati estratti quasi un milione di ambi.
Ognuno dei 4005 ambi che si possono formare con 90 numeri dovrebbe quindi essersi presentato 250 volte (+- 50 volte circa, 3 sigma).
Con questa massa, ci si aspetta ed è perfettamente normale avere un ambo che abbia (avuto) un ritardo di circa 5.500 estrazioni.
Le 6.200 estrazioni di ritardo del 17 - 56 su Bari sono in effetti un po' anomale; ma secondo me l'evento rientra tra le fluttuazioni con cui possono presentarsi gli eventi rari e sono convinto che non si tratti di nessuna irregolarità messa in atto dall'ente organizzatore del gioco del lotto.

da **Faussone** » 29/08/2015, 14:23

Ciao nino_.

Ho capito quello che dici, tuttavia ciò non risponde (secondo me) del tutto al dubbio che ho espresso in questa discussione.
Tu stimi il ritardo medio massimo per un ambo che si ha dato un certo numero di estrazioni (ignoro come si faccia, non ho capito, per miei limiti teorici, la spiegazione che hai dato nella tua prima risposta qui, ma non importa) e dici che un ritardo di 5500 estrazioni è abbastanza normale.
Però poi non dai una stima quantitativa di quale possa essere la probabilità di avere un ritardo superiore alla media di una data quantità (le 6000 e oltre estrazioni).
Io cerco una stima quantitativa che possa darmi la probabilità che quel ritardo sia anomalo.
Hai parlato di 3 sigma, forse si può da quello arrivare a definire una stima quantitativa?

Per il resto devo dire che più penso a questo problema più non arrivo a nulla, all'inizio confesso che ero quasi convinto che l'idea di stimare la probabilità di avere almeno un ambo, tra i 4005 ambi possibili, con un ritardo superiore alle 6000 (per esempio) estrazioni su almeno una delle ruote, fosse buona.
Ma i dubbi sui vari punti di vista e le osservazioni di markowitz, che riprendono alcuni dei dubbi che in sostanza avevo anch'io, mi hanno fatto capire che anche tale metodo può essere fallace.

da **nino_** » 29/08/2015, 19:00

Faussone ha scritto:
Tu stimi il ritardo medio massimo per un ambo che si ha dato un certo numero di estrazioni (ignoro come si faccia, non ho capito, per miei limiti teorici, la spiegazione che hai dato nella tua prima risposta qui, ma non importa) e dici che un ritardo di 5500 estrazioni è abbastanza normale.

Non "abbastanza normale", ma è il ritardo più probabile che si osserva per l'ambo più ritardato dopo una serie di 9000 estrazioni di 5 numeri su 11 ruote.

Il calcolo del massimo ritardo medio è simile a quello verificato dal prof. Fabri e altri per quanto riguarda l'estratto, vedi qui:
http://www.digitanto.it/mc-online/PDF/A ... _169_0.pdf

da **Faussone** » 29/08/2015, 22:58

nino_ ha scritto:
Faussone ha scritto:Tu stimi il ritardo medio massimo per un ambo che si ha dato un certo numero di estrazioni (ignoro come si faccia, non ho capito, per miei limiti teorici, la spiegazione che hai dato nella tua prima risposta qui, ma non importa) e dici che un ritardo di 5500 estrazioni è abbastanza normale.

Non "abbastanza normale", ma è il ritardo più probabile che si osserva per l'ambo più ritardato dopo una serie di 9000 estrazioni di 5 numeri su 11 ruote.

Veramente ho riportato quello che hai scritto tu (ho solo scritto "abbastanza" invece di "perfettamente").... :-D

nino_ ha scritto:Con questa massa, ci si aspetta ed è perfettamente normale avere un ambo che abbia (avuto) un ritardo di circa 5.500 estrazioni.

nino_ ha scritto:Il calcolo del massimo ritardo medio è simile a quello verificato dal prof. Fabri e altri per quanto riguarda l'estratto, vedi qui:
http://www.digitanto.it/mc-online/PDF/A ... _169_0.pdf

Grazie per questo link! Lo leggerò con attenzione (anche se lì ad una veloce occhiata mi pare si parli di ambata e non di ambo).

Tra l'altro, ripensandoci, calcolare il ritardo medio massimo degli ambi credo sia in qualche modo equivalente a stimare la probabilità che almeno un ambo non esca su alcuna ruota al variare del numero delle estrazioni, che tra le varie opzioni che avevo pensato era, a dire il vero, quella che mi sembra(va) più convincente.

da **nino_** » 30/08/2015, 17:53

Faussone ha scritto:Veramente ho riportato quello che hai scritto tu (ho solo scritto "abbastanza" invece di "perfettamente")....

Significati:
-abbastanza: piuttosto, alquanto, sufficiente
-perfettamente: completamente, del tutto

(solo perché sei "un difensore della nostra povera lingua italiana"

)

da **markowitz** » 30/08/2015, 23:55

Faussone ha scritto:Grazie markowitz.
... ma mi sorgono molte domande....

Se per un attimo ci spostiamo dal lotto al lancio di una moneta (che è un ambito un po' più ristretto) per verificare analogamente se, data una sequenza di N lanci, la moneta sia truccata o no, mi vengono per ora in mente due strade.

La prima è simile a quella che stavo seguendo per i lotto: conto il numero di T e C della sequenza e vedo che probabilità avrei in una sequenza di N lanci di ottenere un numero di T (appurato per esempio che nella sequenza abbia T > C) maggiori o uguali di quelle ottenute nella sequenza in oggetto, se ottengo una probabilità molto bassa dico che l'evento è sospetto.

Un secondo diverso modo di procedere potrebbe essere dividere la sequenza in tante sotto-sequenze di stessa lunghezza, ora data la lunghezza della sotto-sequenza so come è fatta la distribuzione discreta teorica della frequenza di teste e di croci, a questo punto la mia ipotesi nulla è che le diverse frequenze misurate nelle sotto-sequenze possano appartenere alla distribuzione discreta di T e C di lunghezza pari a quella delle sotto-sequenze, faccio un test (non so quale ma sicuramente ce ne è uno adatto per questo) e vedo la significatività per decidere se rigettare o no l'ipotesi nulla e dire quindi se la sequenza è sospetta o meno.

Non mi viene in mente niente altro infatti per fare un confronto con una distribuzione discreta nota.

Cosa altro potrei fare in questo caso? Ha senso il modo di procedere che ho scelto? Se sì, in base a cosa scelgo la lunghezza delle sotto-sequenze?

Prego

Provo a rispondere
(N.B: quello che dirò, ed almeno in parte che ho già detto, penso sia corretto ma non prenderlo come oro colato perchè è fondamentalmente farina del mio sacco ed anche se penso di poter dimostrare ciò che dico ... non faccio riferimento a nessuna letteratura specifica)

Il primo metodo che proponi è sicuramente parte della strada giusta. In sostanza vai a rispondere alla domanda / testare l'ipotesi $H_0: P(T)=P(C)$ ... tanto per cominciare questa NON deve essere rifiutata altrimenti ... la moneta non è equilibrata.
Un accenno di teoria ... forse non troppo consapevolmente hai già proposto di sottoporre a test l'ipotesi che il fenomeno aleatorio "lancio della moneta" segua una distribuzione benurliana $B(p)$ di parametro $p=0,5$ ... conviene tenerlo a mente.

Dopodichè, la seconda procedura che proponi, se capisco bene cosa intendi, è concettualmente interessante ... ma si può fare di meglio. Una volta accettato il modello di riferimento $B(0,5)$ ci resta "solo" da studiare la struttura di dipendenza di quello che, almeno adesso, conviene vedere come processo stocastico. Chiamando $S(T,C)$ una qualunque serie ben determinata di teste e croci dovremmo idealmente verificare che $P(T|S(T,C))=P(T)$ cosi come $P(C|S(T,C))=P(C)$ per qualunque possibile $S(T,C)$ ... come fare in pratica ?
Io consiglio di prendere a riferimento/osservare una serie di lunghezza $N$ con N il più possibile grande. Allora dovrebbe valere che chiamando $T_k$ le formazioni di lunghezza $k$ con ininterrottamente testa (ricordare siamo già confidenti che $p=0,5$, ... si procederebbe analogamente per le croci), le seguenti sono le aspettative sulla numerosità di dette formazioni:
$T_k = N*1/2^(k+2)$
ovvero ad esempio se $N=1000$ mi aspetto:
$T_1 = 125$ del tipo ...CTC...
$T_2 = 62,5$
$T_3 = 31,25$
$T_4 = 15,625$

$T_8 = 0,97...$

formazioni più lunghe dovrebbero essere improbabili ma comunque si deve catalogare fino alla più lunga osservata.
A questo punto si devono confrontare le frequenze teoriche/attese con quelle osservate e questo lo si può fare in qualche modo col test chi-quadro
https://it.wikipedia.org/wiki/Test_chi_quadrato
che se interessano problemi di questo tipo si incontra spesso. Questo test permette di confrontare una distribuzione teorica con una osservata in condizioni molto generali ed anche di sottoporre a test le impotesi di indipendenza stocastica come qui si vorrebbe fare.
Infatti dovrei riuscire a dimostrarvi che le frequenza osservate si discostano significativamente da quelle attese solo se l'indipendenza stocastica non è verificata. In particolare se vi è una qualche persistenza del segno ovvero $P(T|T)>P(T)$ vi è una spoporzione di serie lunghe se imvece vi è antipersistenza ovvero $P(T|T)<P(T)$ dovrebbe allora esserci una sproporzione di serie corte (è questo anche se globalmente p=0,5 è verificata ... le verifiche parziali di cui parlavi tu qui tornano in qualche modo in gioco). Le strutture di peristenza/antipersistenza possono essere le più semplici come quelle che ho scritto o più complicate ma il risultato dovrebbe essere generale:
Se le frequenze osservate sulle varie $T_k$ sono coerenti con quelle teoriche, allora non vi è evidenza di nessuna struttura di dipendenza.
In definitiva, la serie è "buona". Allora con nessuna strategia potro mai prevedere il prossimo colpo con più del 50'% di prob ... ovvero in ogni gioco riconducibile a questo schema non otterrò mai $P(T|S(T,C))!=0,5$ ... con buona pace di tutti i giocatori.

Faussone ha scritto:Come estendo poi questo all'esempio del lotto? Controllo usando le ultime 6000 estrazioni solo le frequenze di tutti i 90 numeri?
In qualche modo non dovrei controllare le frequenze di uscita di tutti i vari ambi e confrontare pure quelli con la relativa distribuzione teorica nota. Come?

Per il Lotto le cose si complicano di molto, comunque si ... verificare che $P(1)=P(2)=...=P(89)=P(90)=5/90$ è un passo che direi inprescindibile in tal modo si ha contezza del fatto che un modello di uniforme discrteta $U(90)$ è adatto.
Per gli ambi e le altre combinazioni teoricamente si può fare lo stesso. Quello che diceva nino_ sulle 250 osservazioni attese su ogni ambo e le possibili distanze da tale aspettativa sono infatti in qualche modo un test su $U(4005)$

Ragionando sulle strutture di dipendenza qui ci si può sbizzarrire.

Per tornare all'ambo $17,56$ di Bari, se si verificasse che almeno uno dei due numeri è "raro" allora la rarità dell'ambo ne sarebbe, sotto indipendenza, una conseguenza ma se così non fosse si potrebbe congetturare che $P(17|56)<P(17)$ ovvero $P(56|17)<P(56)$ ... per un qualche motivo tenderebbero a non uscire assieme.

Inoltre se proprio vi interessano le posizioni degli ambi, svincolandosi dall'ultimo ritardatario e ragionando di distribuzione si può pensare alle statistiche d'ordine e vedere qual'è la posizione (numero di ritardi) attesa per l'ambo maggiormente ritardatario in N lanci quale quella del secondo più ritardatario, del terzo e così via ... per poi vedere la concordanza tra dato osservato e valore teorico. E' una strada che mi pare però dura.

In ogni caso ribadisco che se si vuole generalità si deve ragionare in qualche modo su tutta la distribuzione di tutti i dati a disposizione. Ragionare su qualsiasi altro insieme/risultato più particolare, l'ultimo caso di cui parlava nino_ dell'ambo più ritardatario nelle totali 9000 estrazioni è un'altra alternativa a quelle già viste, è possibile farlo ed in modo anche coerente ... ma i risultati sono troppo condizionati dal punto di vista e allora ... secondo me assolutamente SI non capirci nulla diventa la regola

da **Faussone** » 31/08/2015, 15:02

nino_ ha scritto:Significati:
-abbastanza: piuttosto, alquanto, sufficiente
-perfettamente: completamente, del tutto

(solo perché sei "un difensore della nostra povera lingua italiana" )

Lo sono, lo sono (anche se questo non significa non commettere mai errori).

Quindi sono stato più prudente io usando l'abbastanza invece del perfettamente!

@markowitz
Grazie ancora per questa tua ennesima paziente risposta! Perdonami per le imprecisioni, non sono molto attento alla forma matematica, e tendo a dare per scontato le assunzioni che faccio senza sottolinearle (sono un praticone, non essendo un matematico, ma un ingegnere).

Per ora ho letto quello che hai scritto abbastanza velocemente (mi propongo di approfondire). Molto interessante il test che proponi per la moneta! Illuminante per me il punto di vista di dire infine di voler dimostrare che $P(C|S(T,C))=P(C)$ §(e analogamente per le T).
Non capisco, forse mi sfugge qualcosa, non possiamo pensare di estendere questo metodo anche al problema del lotto?

markowitz ha scritto: Ragionare su qualsiasi altro insieme/risultato più particolare, l'ultimo caso di cui parlava nino_ dell'ambo più ritardatario nelle totali 9000 estrazioni è un'altra alternativa a quelle già viste, è possibile farlo ed in modo anche coerente ...

In effetti quando avevo proposto le mie varie opzioni, avevo anche scritto un'opzione (la numero 4) che è , credo, "perfettamente" equivalente a quella di nino_, cioè calcolare la probabilità che almeno un ambo su almeno uno ruota in 9000 estrazioni totali abbia un ritardo massimo di 6000 (per esempio) estrazioni. Il calcolo esatto di questa probabilità credo sia fattibile anche in maniera esatta, anche se ci vuole un po' di attenzione... ieri ci ho provato ma ho perso un sacco di tempo, senza riuscirci infatti :-(

markowitz ha scritto: ...ma i risultati sono troppo condizionati dal punto di vista e allora ... secondo me assolutamente SI non capirci nulla diventa la regola

Questo l'ho capito bene :-)

da **Faussone** » 06/09/2015, 12:07

Alla fine, da quanto ho potuto apprendere in questa discussione, un'ottica possibile e ragionevole per valutare quanto il ritardo di un ambo sia strano, può essere quella di calcolare quale sia la probabilità che almeno un ambo, su una qualunque delle ruote, non esca, o non sia uscito, almeno un certo numero di volte in tutte le estrazioni del lotto fatte (da quando esiste un archivio delle estrazioni).
Rimangono comunque i dubbi e le cautele di cui si è discusso quando si esamina una serie storica, ma questo per ora mi appare il modo più praticabile e, se non migliore, direi sensato, di procedere.

Si può prendere come riferimento un ritardo pari a 6000 e un numero di estrazioni pari a 9000 e 11 ruote, tanto per farsi un'idea del famoso ritardo dell'ambo su Bari.

Facendo il conto si trova che questa probabilità è pari circa all'11%, quindi non è tutto sommato un evento così remoto.

Riassumo qui passaggi per arrivare al calcolo di quella probabilità, visto che non è proprio immediato trovarla.

E' stato utilissimo il link al pdf che ha messo nino_ più sopra a questa discussione (grazie ancora), riassumo brevemente qui il concetto che ho utilizzato.

Detta $g(N,r,p)$ la probabilità che un evento (un ambo nel nostro caso) avente probabilità $p$ ritardi almeno $r$ volte in $N$ estrazioni totali, si ha che:

$g(N,r,p)=0$ per $N<r$
visto che in questo caso il ritardo non può verificarsi;

$g(N,r,p)=(1-p)^r$ per $N=r$
visto che in tal caso la probabilità è quella che l'evento non si verifichi per $r$ volte;

$g(N,r,p)=g(N-1,r,p)+(1-g(N-r-1,r,p))*(1-p)^r*p$ per $N>r$
visto che in tal caso la probabilità è pari alla probabilità che il ritardo si sia già verificato nelle $N-1$ estrazioni precedenti più la probabilità che il ritardo di $r$ si verifichi proprio alla $N$esima estrazione.

Questa ultima probabilità è pari alla probabilità che l'evento contemporaneamente:

si sia verificato alla estrazione $N-r-1$ (probabilità $p$);

che l'evento non si sia verificato per $r$ volte dalla $N-r$esima estrazione alla $N$esima (probabilità $(1-p)^r$);

nelle $N-r-1$ estrazioni precedenti non si sia mai verificato il ritardo di $r$ (probabilità $1-g(N-r-1,r,p)$.

Per cui la probabilità che il ritardo si verifichi proprio alla $N$esima estrazione è appunto $(1-g(N-r-1,r,p)*(1-p)^r*p$ vista l'indipendenza delle 3 probabilità descritte prima.

Il calcolo di $g$ è abbastanza semplice scrivendo un programmino (la formula si può scrivere elegantemente con una funzione ricorsiva, ma non è opportuno visto che per numeri di interesse il livello di ricorsione sarebbe troppo profondo, meglio usare pertanto una tecnica non ricorsiva, se a qualcuno interessa posso metter qui le poche righe che ho scritto per calcolare la $g$).

Noto $g$ è semplice poi calcolare la probabilità di cui sopra.

Metto in allegato il grafico che dà per $N=9000$ come varia tale probabilità al variare di $r$.
Immagine

E' anche possibile calcolare a questo punto la probabilità che un certo ritardo massimo $r$ si verifichi in $N$ estrazioni totali (da cui il famoso ritardo medio massimo di cui ha parlato nino_).
Tale ritardo infatti, chiamiamolo $h$, è pari semplicemente a $h(N,r,p)=g(N,r,p)-g(N,r+1,p)$.
Riporto qui l'andamento.
Immagine

Si ha un massimo attorno alle 5200 estrazioni ed una media di circa 5400 (il ritardo più probabile e quello medio non coincidono data la non simmetricità della distribuzione), nino_ aveva stimato un ritardo medio massimo attorno alle 5500 con un metodo approssimato, risultato perfettamente compatibile.

Mi rimane ancora da riflettere sul metodo proposto da markowitz sul prendere tutto lo storico e verificare se le varie frequenze siano congruenti con quelle attese, ma quello temo sia più complicato e non so se avrò tempo e voglia di dedicarmici. Sono già contento di questo :-)

Lotto: ambo che non esce

Re: Lotto: ambo che non esce

Re: Lotto: ambo che non esce

Re: Lotto: ambo che non esce

Re: Lotto: ambo che non esce

Re: Lotto: ambo che non esce

Re: Lotto: ambo che non esce

Re: Lotto: ambo che non esce

Re: Lotto: ambo che non esce

Re: Lotto: ambo che non esce

Chi c’è in linea