Insegnare alle macchine ad apprendere non è più fantascienza da quando il machine learning (o apprendimento automatico in italiano) l’ha reso possibile permettendo di automatizzare alcune operazioni finora compiute dall’uomo.
Grazie ai suoi ampi e diversificati ambiti di applicazione, il machine learning rientra sicuramente tra le innovazioni che influenzeranno in maniera significativa il nostro futuro.
Per meglio comprendere che cos’è, quindi, è importante approfondire in quali attività, in generale, può essere di supporto all’intelligenza umana e, nello specifico, al nostro lavoro.
Per definire che cos’è il machine learning, partiamo dall’espressione coniata nel 1959 da Arthur Samuel: “The field of study that gives computers the ability to learn without being explicity programmed” e da quella più recente di Tom Mitchell, datata 1995, che recita: “A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at task in T, as measured by P improves with experience E”.
Supponendo di voler istruire un computer a classificare le email ricevute in “spam” e “no spam”, tale classificazione rappresenta la task T della definizione mentre l’experience E è espressa dai dati forniti al computer per comprendere quali sono le caratteristiche che distinguono le email indesiderate da quelle rilevanti (in questo caso, un set di email ricevute in passato e che manualmente sono state definite spam o mantenute nella posta in arrivo).
La performance P è, invece, un indicatore relativo alla capacità del computer di eseguire correttamente il compito: nel nostro caso, la percentuale di email correttamente classificate.
L’apprendimento automatico è, quindi, l’abilità di un computer di migliorare nell’esecuzione di un compito attraverso l’analisi di dati, senza che sia esplicitamente programmato per eseguirlo.
Le sottocategorie di Machine Learning: apprendimento supervisionato e non supervisionato
Una classica distinzione in sottocategorie che viene fatta all’interno del machine learning è tra apprendimento supervisionato (supervised learning) e apprendimento non supervisionato (unsupervised learning).
Nel supervised learning, l’analista conosce già la struttura dell’output desiderato e fornisce al computer dei dati che ritiene siano in relazione con l’output. In particolare, l’analista passa all’algoritmo una serie di “esempi”, attraverso i quali questo possa imparare a svolgere il compito assegnatogli.
All’interno del supervised learning ricadono algoritmi sviluppati per svolgere due tipi di compiti:
Nell’unsupervised learning, invece, l’analista non conosce la struttura dell’output desiderato, ma si rivolge al computer affinché questo riesca a trovare dei pattern all’interno dei dati.
All’interno dell’unsupervised learning ricadono algoritmi sviluppati per svolgere un’attività di Clusterizzazione, ovvero il raggruppamento dei dati, sulla base di simili caratteristiche.
Zillow.com (previsione) è un marketplace per immobili operante negli Stati Uniti, in cui, oltre ad inserire il prezzo di vendita dell’immobile proposto dal venditore, viene suggerita una “Zestimate”, ossia una stima del prezzo di vendita basata su una serie di caratteristiche oggettive. Il margine di errore mediano relativamente all’effettivo prezzo di vendita è di circa il 5%.
La piattaforma Kaggle.com (classificazione) ospita l’evento Data Science Bowl, durante il quale, esperti ed appassionati di data science possono lavorare a progetti socialmente utili.
Nel 2017, la competizione ha riguardato lo sviluppo di un algoritmo di classificazione per analizzare immagini di ecografie polmonari ed individuare quelle che mostravano la presenza di un tumore.
Nielsen (clusterizzazione) è una multinazionale che raccoglie dati relativi ai prodotti del largo consumo e collabora con panel di consumatori al fine di studiarne le abitudini di acquisto ed il consumo mediatico. In un’analisi svolta nel 2016 sulla propensione allo shopping online, ha applicato tecniche di clusterizzazione individuando quattro gruppi di e-shopper distinti per frequenza di acquisto online e condivisione di contenuti su internet.
In conclusione, un ultimo consiglio: visto che l’apprendimento automatico dipende dalla qualità dei dati, è, quindi, fondamentale investire in tecnologie che ne semplifichino la gestione.