Analisi grande mole di dati economici x trovare correlazioni

da **nas22** » 15/04/2023, 16:02

Salve,
mi trovo di fronte ad un problema reale di natura economica.
Ho un DB con un grande numero di prodotti in vendita (centinaia di migliaia), da migliaia di venditori. Ogni prodotto ha varie caratteristiche: per esempio prezzo, marca, colore, peso... Anche ogni vendita (prettamente online) ha le sue caratteristiche: il venditore, il prezzo, la data, l'ora, il device, la zona geografica, ecc...

Vorrei analizzare i dati di vendita per capire se ci sono dei sottoinsiemi di caratteristiche che vendono meglio di altre (per esempio: i prodotti di un certo brand e di un certo colore potrebbero portare ad un successo di vendita migliore in Lomardia, ecc...). Non è detto che tutte le grandezze risultino significative (per es, potrebbe essere che il colore non abbia particolare peso nel determinare successo).

Volevo chiedere se esiste un algoritmo/metodo che faccia al caso mio o qualche software pensato per questi problemi.
Grazie a chi vorrà rispondere

da **ingres** » 15/04/2023, 17:42

Quello descritto è un tipico problema di Analisi dei Big Data https://it.wikipedia.org/wiki/Scienza_dei_dati, per il quale ci sono algoritmi e SW che trovano correlazioni (es. dalle regressioni alle Reti Neurali al Data Clustering ecc.) e/o che mettono in evidenza le variabili più importanti (es. la PCA Principal Component Analysis è uno di questi) che influenzano un certo andamento.

In generale si trova il metodo di rendere numerici i dati (es. il dato marca viene trasformato dando un codice a ciascuna azienda) e poi in base al problema, alla quantità e alla accuratezza dei dati si sceglie l'algoritmo più indicato.

Ci sono molte società che fanno proprio questo mestiere a livello professionale e molti prodotti e SW disponibili (ad es. su cloud Azure o AWS).

Quindi la risposta alla tua domanda è "certamente, anzi ce ne sono parecchi"

da **axpgn** » 15/04/2023, 19:04

@ingres
Dovresti essere più specifico perché quello glielo avevo già detto io :-D

Ovviamente in modo mooolto più approssimativo :lol:

Battute a parte, riesci a dare a @nas22 qualche nominativo in merito?

Cordialmente, Alex

da **ingres** » 15/04/2023, 21:09

Ciao Alex
Sono in grado di dare qualche dettaglio in più, ma parlerò (in modo molto semplificato) soprattutto degli algoritmi perchè è un tema neutro e che può essere di utilità generale. Se @nas22 vuol sapere il nome di qualche società o prodotto specifico conviene che mi mandi un messaggio privato.

Intanto do per scontato che nel caso in questione si tratti di dati strutturati come avviene tipicamente per i problemi di Market Basket Analysis (il caso di dati non strutturati riguarda problemi di applicazioni su voce/suono, testo o immagini).
Quindi bisogna distinguere se il problema di business ha un target noto e quindi quello che si vuole determinare è una relazione supervisionata con specifici ingressi e uscite (classificazione supervisionata, regressione supervisionata) oppure il target è ignoto (relazione non supervisionata) ovvero non si sa bene come raggruppare le variabili (come avviene spesso nei problemi di raggruppamento oppure di ricerca dei parametri influenti).
Avere ben chiaro quale è il target è la prima operazione da fare. Tipici algoritmi utilizzati sono:

Classificazione Supervisionata
- K Nearest Neighbours (KNN) utilizzati per esempio per capire se una persona è a rischio malattia, se è un potenziale cliente, ecc.
- Linear Support Vector Machines (LVSM) simile al precedente
- Decision Tree classificazione in diverse tipologie
- Random Forest simile al precedente (centinaia di decision trees) adatto a grandi moli di dati
- Extreme Gradient Boosting (XGBOOST): simile al Random Forest
- Reti Neurali per classificazione

Regressione Supervisionata
- Minimi Quadrati
- Auto Regressive Integrated Moving Average model (ARIMA)
- Reti Neurali & Deep Learning (reti neurali complesse con molti layer)

Raggruppamento
- K-Means
- Clustering

Riduzione Dati/Coefficienti di Influenza
- Principal Component Analysis

Per quello che posso capire sulla richiesta in questione di primo acchito penserei ai seguenti step:
- Data Preparation (trasformazione in dati numerici, pulizia dei dati, normalizzazione)
- PCA per riduzione dei dati e comprensione di cosa è realmente influente
- Uno o più algoritmi, ad es. basati su rete neurale oppure di Decision tree (Random Forest) autocostruito, per rispondere al problema di business (di solito si provano più algoritmi e dopo si valutano le performance per decidere il migliore o magari i migliori da incrociare).

da **axpgn** » 15/04/2023, 21:19

Thanks

Analisi grande mole di dati economici x trovare correlazioni

Analisi grande mole di dati economici x trovare correlazioni

Re: Analisi grande mole di dati economici x trovare correlazioni

Re: Analisi grande mole di dati economici x trovare correlazioni

Re: Analisi grande mole di dati economici x trovare correlazioni

Re: Analisi grande mole di dati economici x trovare correlazioni

Chi c’è in linea