Statistica e Scienza dell’Informazione
Il presente ed il futuro della comunità degli Statistici sono un tema impellente, soprattutto ora che ci troviamo di fronte alla concorrenza degli Informatici o, per dirla all’americana, della comunità dei Machine Learners e dei Computer Scientists: questa sfida ci deve incoraggiare ad ampliare i nostri orizzonti sia nella teoria che nella pratica della Statistica. Molte delle considerazioni raccolte qui sono dovute a noti statistici e sono state pubblicate in varie sedi, alcune sono mie personali.
Non c’è dubbio che Statistica e Scienza dell’Informazione siano due campi molto simili. Ma ci sono anche molte differenze. Ecco una tavola, proposta originariamente da Rob Tibshiriani, che le illustra ironicamente. In particolare l’ultima voce è squisitamente americana, perché in Italia i fondi non ci sono per nessuno.
| SCIENZA DELL’INFORMAZIONE | STATISTICA |
|---|---|
| Network | Grafi |
| Weights | Parametri |
| Learning | Stimare |
| Supervised Learning | Regressione/Classificazione |
| Unsupervised Learning | Cluster Analisi/Stime di densità |
| Finanziamento rilevante: $ 1.000.000 | Finanziamento rilevante: $ 50.000 |
Gli Statistici sono infastiditi per almeno questi tre motivi:
- La comunità di Scienza dell’Informazione inventa tutti questi nuovi termini, anche un po’ fastidiosi, a dire il vero, che però suonano bene, sono proprio azzeccati. E noi Statistici? Noi facciamo queste stesse cose da decenni, e siamo anche più bravi in matematica (non in programmazione, però … )
- Ma da dove escono questi personaggi? E come si permettono di inventare nomi inappropriati per i nostri metodi? E perché sembra che tutti gli studenti bravi siano reclutati nei Dipartimenti di Informatica?
- I fondi? Quali fondi? . . . Inutile parlarne!
I termini nella tavola potrebbero anche non avere molta importanza, ma, diciamocelo, sono proprio irritanti! Questa fissazione, da parte degli Informatici, di reinventare espressioni nuove per cose stranote sembra proprio eccessiva. Anche se alcune reinvenzioni possono tornare utili: per esempio Weights, Pesi può essere un termine intuitivo ed efficace per indicare i parametri di un modello lineare, quando si illustrano concetti come regressione o classificazione a non esperti.
L’approccio algoritmico utilizza tecniche come il bootstrap [1], il boosting [2], la cross validation [3], che sono procedure generali, suonano bene, sono basate su idee semplici ed intuitive. Queste tecniche appaiono più immediate da comprendere di alcuni concetti tipici dell’inferenza parametrica, come distribuzione campionaria, non distorsione o test d’ipotesi. Insegniamo da sempre queste nozioni, ma sappiamo anche che hanno creato generazioni di studenti confusi, uscite dai nostri corsi introduttivi di statistica. Tanto per dirne una, quante volte bisogna spiegare che il valore-p non è la probabilità che il modello sia sbagliato, quando sono molti gli articoli scientifici che utilizzano il livello di significatività proprio in questo modo. Machine Learning, Informatica, Computer Science suonano come discipline nuove, esuberanti, piene di vita, mentre Statistica? Uufff, ancora con la storia di Trilussa e il pollo!
Si potrebbe pensare che si tratti solo di un problema di marketing o di pubbliche relazioni, perché la terminologia degli Informatici è proprio invitante! Ma il vero peccato originale della nomenclatura informatica è quello di aver introdotto termini nuovi ed affascinanti per concetti noti da decenni. Con il termine Neural Networks, in sostanza, si indica un insieme di regressioni non lineari, spesso accompagnate da complicati “Algoritmi di inizializzazione” (o Training Algoritms) che sono impossibili da controllare, e che hanno creato, e creano tutt’ora, molta confusione. A sua volta il termine complicato “One-Layer Neural Network con Attivazione Sigmoiodale” (o SoftMax) ripropone nient’altro che il buon vecchio modello di regressione logistica. Per non parlare dei numerosi articoli riguardanti gli “Algoritmi Genetici” che alla fine si risolvono con metodi statistici e di ottimizzazione.
Ma perchè scomodare i Neural Networks, senza aver prima provato un modello lineare generalizzato? Lo stesso vale per i Support Vector Machine o per i “Classificatori Lineari Generalizzati” e per tutti i metodi di Supervised Learning al posto di regressione o clusterizzazione. È vero che l’uso di nuovi termini non è da attribuire solamente all’Informatica, però … sembra davvero un po’ troppo!
In conclusione, da una parte gli Statistici dovrebbero fare qualche sforzo in più per divulgare la disciplina, ma gli Informatici dovrebbero smettere di ignorare la Statistica. E comunque ricordiamo che, tanto tempo fa, Richard Feynman in persona aveva fatto notare che una cosa non è nuova solo perché qualcuno ha pensato a un nome nuovo.
Lasciando da parte le polemiche, includo qui una citazione da un articolo di Leo Breiman (2001, Statist. Sci. 16, 3., 199-231):
Ci sono due impostazioni culturali diverse nell’impiego di modelli per trarre conclusioni a partire dai dati. Una assume che i dati siano generati da un modello stocastico. L’altra usa algoritmi e considera i dati come provenienti da un meccanismo sconosciuto e non particolarmente rilevante. Storicamente, la comunità statistica si è basata quasi esclusivamente sulla costruzione di modelli per spiegare il meccanismo che ha generato i dati osservati. Ma, nel frattempo, le tecniche algoritmiche si sono sviluppate con estrema rapidità ed in campi esterni alla Statistica. L’approccio algoritmico è promettente, si usa per lo più con dati complessi, ma funziona bene anche con insiemi di dati di dimensione moderata, ed è un’alternativa utile all’uso di modelli costruiti su piccoli insiemi di dati. …
Uno degli scopi della Statistica è quello di utilizzare i dati per fare predizioni sul meccanismo che li ha generati. Ma è ovvio che non esiste un unico metodo da usare per analizzare dati. In molti casi un modello pensato con cura è la strada più appropriata. Ma non si può criticare l’idea di tenere in primo piano il problema, invece del modello. La professione Statistica ha investito moltissimo nella costruzione di modelli che si adattano ai dati e che li spiegano, ma potrebbe essere stato un investimento eccessivo.
Oramai telescopi e radiotelescopi raccolgono dati a velocità inverosimile. Ci sono dischi pieni di immagini di milioni di oggetti celesti. Gli Astronomi sono interessati a metodi automatici per scannerizzare i dati ed identificare formazioni astrali note o ancora sconosciute. Questi problemi sono importanti e complicati, e sono chiaramente problemi statistici, che probabilmente non si possono affrontare solo costruendo modelli appropriati con cura ed attenzione. Lo stesso vale per i dati genetici ed i dati da microarray, che promettono di identificare aspetti fondamentali ed ancora oscuri nella ricerca genetica. Queste, ed altre, sono le sfide da affrontare, impegnandosi nei problemi specifici, piuttosto che nella costruzione di modelli per spiegare il meccanismo che ha generato i dati.
Le basi della Statistica, come quelle del pensiero scientifico, risiedono nell’utilizzare i dati per controllare ipotesi scientifiche. Dobbiamo augurarci che la Statistica, nel prossimo futuro, ritorni a queste basi. In effetti, negli ultimi dieci anni, è aumentato l’interesse verso collaborazioni interdisciplinari. Questa tendenza deve continuare, se vogliamo che la Statistica sopravviva come il campo creativo ed energico che è sempre stato.
Nell’approccio statistico i coefficienti (o pesi, o parametri …) hanno sempre avuto una notevole importanza mentre nell’approccio informatico si butta tutto nel mucchio e spesso “i pesi” sono identificati da metodi automatici.
L’analisi statistica dà molto rilievo alla spiegazione, per esempio, di quale sia l’effetto del peso di una persona sulla sua possibilità di contrarre il diabete. E non sembra troppo ragionevole presentare ad un medico il risultato di una procedura di support vector machine, rassicurando che il metodo: “… funziona! Non c’è dubbio, lo conferma la cross validation!”. Lo scopo della Statistica non è solo quello di fare previsioni, ma anche di tener conto dei valori delle stime dei parametri per poter valutare gli effetti delle variabili indipendenti sulle osservazioni.
Il successo delle procedure algoritmiche va visto come uno sviluppo positivo sia per la pratica statistica che per l’innovazione teorica. E, soprattutto, questo successo non deve essere considerato come un rifiuto alle procedure tradizionali della Statistica. Includo un’altra citazione presa dal commento di Brad Efron all’articolo di Breiman menzionato prima:
La storia della Statistica del ventesimo secolo potrebbe essere intitolata: “Cent’anni di non distorsione”. Seguendo Fisher, sia la teoria che la pratica statistica corrente si basano sul concetto di stimatore non distorto, o quasi non distorto (in particolare stimatori di Massima Verosimiglianza) e di test costruiti su questi stimatori. L’importanza di questa teoria ha permesso alla Statistica di porsi come l’interpretazione metodologica dominante in molti campi. La richiesta di non distorsione, però, si basa sull’assunzione che il rapporto segnale/rumore sia abbastanza elevato. A questo proposito, la teoria del disegno degli esperimenti si è sviluppata, in parte, per assicurare condizioni favorevoli ad ottenere stimatori (e test) non distorti.
Ma i dati che si raccolgono oggi non hanno sentito neanche nominare un disegno sperimentale. La numerosità campionaria è cresciuta al di là del pensabile, e le domande che ci si pone di fronte ad un insieme di dati sono sempre più vaghe, come: “ … cerchiamo una struttura interessante nei dati …” . Si sono escogitati nuovi metodi per risolvere problemi nuovi e questo è un segnale salutare, anche se le innovazioni non provengono dagli statistici.
Più di dieci anni fa, nel 1997, Jerome Friedman, in un articolo intitolato Data Mining and Statistics: What’s the Connection?, presentò un’analisi interessante della situazione dell’epoca. Una cosa che Friedman fece notare è quanto sia stato dannoso per la Statistica aver ignorato metodi utili per l’analisi dei dati, ma sviluppati in altri campi, pur se inizialmente proposti in Statistica. Un altro fatto cui Friedman diede molto rilievo è che, all’epoca, la scienza dell’Informazione stava diventando sempre più rilevante, grazie alle capacità computazionali in espansione. Una domanda ricorrente, anche allora, riguardava il ruolo della Statistica in un periodo di forte concorrenza da parte di altre discipline.
I punti di vista allora erano due. Da una parte quello di concentrare gli sforzi in ciò che gli statistici sapevano (e sanno) fare meglio, e cioè costruire metodi inferenziali basati sulla teoria delle Probabilità, sostenuti da ottime conoscenze matematiche. Questa politica avrebbe però implicato che l’importanza della Statistica nella “Rivoluzione Informatica” (come si diceva all’epoca) sarebbe costantemente diminuita nel tempo.
L’altro punto di vista proponeva che la Statistica dovesse occuparsi non solo di teoria, ma anche, e maggiormente, di analisi dei dati. Questo punto di vista avrebbe dovuto essere sostenuto da un cambiamento radicale sia nella pratica statistica che nei programmi accademici. Prima di tutto c’era (e c’é) la necessità di fare pace con le tecniche computazionali, che sono qui per restare, e per migliorare la raccolta dei dati, e non solo. Questa sembra una delle omissioni più macroscopiche fatte al momento in cui sono stati definiti gli strumenti propri della Statistica. Se i metodi computazionali fossero stati inclusi da sempre tra gli strumenti essenziali all’analisi statistica (invece di essere visti come metodi utili per applicare gli strumenti esistenti) molti dei campi di studio autonomi legati ai dati non avrebbero ragione di esistere, perché sarebbero stati incorporati automaticamente nel nostro campo.
L’articolo ha più di dieci anni. Tutte le osservazioni riguardo l’importanza e la prevalenzaprevalenzala proporzione di individui di una popolazione che, in un dato momento o in un periodo di tempo, presentano la malattia sempre crescente della potenza computazionale sono ancora più vere oggi di quanto lo fossero allora. Ma non è chiaro se e quanto la Statistica sia cambiata, probabilmente non abbastanza. Dato che un mondo di dati deve essere statistico, direi che è giunto per gli Statistici il momento di ampliare gli orizzonti e di rimboccarsi le maniche.
Per saperne di più
Leo Breiman Statistical Modeling: The Two Cultures, Statist. Science, Volume 16, Issue 3 (2001), 199-231.
Jerome Friedman Statistics and Data Mining: What’s the Connection?, 1997.
L’autore
Isabella Verdinelli (isabella.verdinelli ---at--- uniroma1.it)
Isabella Verdinelli è professore ordinario presso la Facoltà di Scienze Statistiche dell’Univesrità di Roma "La Sapienza".
[1] Con il bootstrap si stimano le proprietà di uno stimatore (come la sua varianza), valutando tali proprietà attraverso campioni casuali estratti dalla distribuzione empirica delle osservazioni. Se le osservazioni sono indipendenti ed identicamente distribuite, da un numero elevato di campioni estratti dalla distribuzione empirica si costruisce la distribuzione campionaria dello stimatore e da questa si ottiene una stima della proprietà in questione.
[2] Il boosting è un metodo generale per migliorare la qualità di un algoritmo. Si basa sull’osservazione che, per fare predizioni, è più facile iniziare con un algoritmo poco preciso, piuttosto che uno accurato. Il boosting parte da un algoritmo qualsiasi, che genera una stima o una previsione (algoritmo debole). L’algoritmo viene applicato a diversi sottoinsiemi delle osservazioni. Ogni volta che l’algoritmo debole è richiamato, genera una nuova predizione debole. La combinazione di un numero elevato di predizioni deboli conduce (al limite) ad una regola di predizione più accurata.
[3] La cross-validation estende il risultato di un algoritmo (o di un’analisi statistica) ad un campione indipendente da quello a disposizione. Ogni ciclo di cross-validation è ripetuto su una partizione del campione disponibile: una parte del campione si usa per ottenere la stima (o previsione), l’altra parte si utilizza per confermare la bontà del metodo (validazione). Si conducono numerosi cicli di cross-validation su un numero elevato di partizioni e un’appropriata media dei risultati delle validazioni diventa la stima (o previsione) di cross-validation.



Stampa la Pagina
Invia per Email