5 Conclusioni
Lo studio ha portato a interessanti risultati e al contempo a evidenziato diverse lacune e difficoltà. Riassumeremo di seguito questi punti aggiungendo anche spunti per poter continuare gli studi futuri.
5.1 Punti di forza
L’analisi ha giovato di un dataset pulito. Un altro studente dell’università di Trieste si era occupato in precedenza di elaborare i dati e svolgere delle analisi preliminari. Ciò ha permesso di partire direttamente da un insieme di dati coerente e il processo di pulizia è stato minimo.
Un’altra caratteristica positiva è stata il grande numero di osservazioni in proporzione al numero di covariate disponibili. Questo ha aiutato l’elaborazione del modello HMM-GLM, permettendo quindi di raggruppare (clusterizzare) per ogni anno i donatori ed usare un modello differente per ciascun gruppo, o il modello mistura di tutti quanti. Si evidenzia, inoltre, come questa clusterizzazione è dinamica e in continuo movimento, questo raggruppamento è capace di adattarsi al complesso e mutabile comportamento umano.
La tesi è riuscita a far “parlare” le variabili, i modelli hanno svelato pattern nascosti, più complessi e difficilmente ottenibile dall’inserimento delle semplici covariate date. A dimostrazione che una profonda analisi e conoscenza del problema e di statistica è a dir poco necessaria per la definizione di un modello capace di modellare la realtà. Si ricorda infatti che non esiste il modello adatto al fenomeno oggetto di studio. Piuttosto, esiste un modello che interseca al meglio la natura dei dati e l’interesse di studio della statistica. Come disse Box:
“All models are wrong, but some are useful.”
— George E. P. Box (1976)
5.2 Criticità riscontrate
Questo percorso non è stato sempre roseo e rettilineo. Sono state riscontrate diverse criticità nello sviluppo dell’analisi. Il principale problema è stata la mancanza di informazioni socio-demografiche sui donatori, che ha limitato decisamente l’analisi. Se da un lato quest’assenza d’informazione ha penalizzato lo sviluppo di modelli potenti con decine o centinaia di predittori, che andavano alla ricerca puramente della miglior metrica; in questo caso l’analisi si è concentrata nel modellare il modello, piuttosto che modellare i dati, conducendo un lavoro di limazione. In principio si è provato ad aggiungere dati esterni come il numero di residenti nel capoluogo, per stimare la popolazione non donante. Tuttavia, l’analisi era condotta sui singoli individui e ciò non avrebbe giovato granché. L’integrazione di questi dati sarebbe stata utili in un modello basato sulla serie storica aggregata.
Il problema, inoltre, è stato limitato unicamente alle donazioni di sangue, scartando in prinicipio gli altri tipi di donazione, come il plasma. La decisione è stata presa in modo da semplificare il modello ed avere un numero di donazioni annue compreso nell’intervallo \([0,4]\). Anche i donatori sono stati filtrati, prendendo solo donatori compresi tra i 18 e i 70 anni d’età, ovvero in età donativa. Erano presenti poche unità fuori da questo intervallo ma sono state scartate, sempre in ottica di semplificazione del modello.
5.3 Idee per il Futuro
Nel futuro si potrebbero estendere e ricavere altre informazioni da covariate presenti nel dataset e non utilizzate. Tra queste si evidenzia principalmente l’informazione che il donatore abbia effettuato anche altri tipi di donazione oltre al sangue. Questo arricchirebbe sostanzialmente e potrebbe probabilmente portare a un quarto stato latente nel modello: i super-donatori. Un’altra variabile da considerare meglio è certamente l’anno di prima donazione che con un’adeguata segmentazione potrebbe portare a risultati interessanti sulle probabilità inziali.
Avendo a disposizione i dati di diversi centri trasfusionali, si potrebbe condurre un’analisi su dati panel, prendendo diverse informazioni sulla popolazione residente, come la densità popolativa, la percentuale di studenti, lavoratori, pensionati, … Queste informazioni aggregate permetterebbero anche di inferenziare e classificare i donatori partendo dai dati anonimi.
Nel modello HMM-GLM è stato utilizzato un approccio misto tra il frequentista e il bayesiano. Infatti le prior sono state inserite unicamente nella matrice di transizione e nelle probabilità iniziali. Utilizzando una distribuzione che, seppur poco informativa (la Dirchilet), comunque portava informazione in quanto erano asimmetriche (Sezione 3.2.3.1) e parzialmente limitate durante l’ottimizzazione del modello (Sezione 3.2.3.3). Nelle successive estensioni si potrebbe implementare l’utilizzo di hyper-prior sui parametri delle prior e l’introduzione di prior anche sulle altre componenti del modello, come i coefficienti delle emissioni. Questa parte, però, richiederebbe anche una revisione dei successivi algoritimi implementati e usati per le diagnostiche del modello (Sezione 3.4.2).