Oracoli digitali: come funziona l’algoritmo che sa tutto di noi (futuro incluso)
Quando sentite dire che Amazon sta uccidendo i piccoli commercianti con la grande distribuzione state ascoltando un’analisi molto superficiale. Amazon sta sbaragliando tutti perché riesce a prevedere e farci scoprire cosa vogliamo prima di essere entrati in un negozio. Sono i modelli predittivi di Amazon che si stanno appropriando del mercato, perché conoscono i nostri gusti prima ancora che noi li immaginiamo.
Se vi fermate un secondo a pensare vi renderete conto che siamo costantemente accompagnati da un mondo di applicazioni che riescono a leggere nella nostra mente e a guidare quello che facciamo, sempre pronte un passo avanti a noi per raccomandarci di cosa abbiamo bisogno.
Per capire dove possiamo arrivare con le predizioni dobbiamo però fermarci per un istante e cercare di comprendere in quale modo gli algoritmi sono diventati così intelligenti da condurre un’azienda come Spotify, nata nel 2008, a una valutazione di mercato di oltre 24 miliardi di dollari. Qual è la ricetta del successo?
Alla base di questi sistemi di predizione c’è un algoritmo di apprendimento automatico chiamato “filtraggio collaborativo” (dall’inglese collaborative filtering), il cui ingrediente principale, si scopre, sono le altre persone. Spotify, ma lo stesso vale per Netflix, YouTube ecc., parte dallo studio di circa 2 miliardi di playlist create dai suoi utenti. Ognuna di queste playlist implicitamente rappresenta i gusti e il comportamento di ascolto di ciascun utente, e viene arricchita anche con il numero di streaming di ogni brano e dati aggiuntivi – come per esempio se un utente ha visitato la pagina dell’artista dopo aver ascoltato una canzone. A questo punto l’idea di base dell’algoritmo è la seguente: se due utenti hanno molti brani in comune nelle loro playlist è verosimile che abbiano gusti musicali affini. Ogni utente quindi con grande probabilità apprezzerà i brani che non sono di sua conoscenza ma che sono tra i preferiti del suo “simile”.
Questa idea viene tradotta in numeri dagli algoritmi, generando una gigantesca matrice dove ogni riga rappresenta uno dei 200 milioni di utenti di Spotify e ogni colonna uno dei 30 milioni di brani musicali che possono essere ascoltati. A questo punto entra in gioco una tecnica matematica, detta “fattorizzazione di matrice”, che alla fine produce due tipi di vettori, U e C. U è un vettore utente, che rappresenta il gusto di un singolo utente, e C è un vettore di canzone, che rappresenta il profilo di una singola canzone. Questi vettori sono solo una stringa di numeri di per sé essenzialmente privi di significato, ma il filtraggio collaborativo può confrontare il vettore di ogni utente con tutti i vettori degli altri utenti, trovando quali sono quelli più affini; e lo stesso vale per le canzoni, per definire quali brani musicali sono più simili tra di loro. A questo punto il gioco è fatto, dato che le misure di similarità sono associate a dei numeri che possono essere tradotti in predizioni quantitative.
Il grande vantaggio del filtraggio collaborativo è essere in grado di raccomandare accuratamente oggetti complicati come i brani musicali o i film senza richiedere all’intelligenza artificiale una “comprensione dell’oggetto stesso”. Servono però un grande numero di utenti e dati, motivo che spiega il perché molti di questi servizi si basano su modelli di business che permettono abbonamenti gratuiti. I dati degli utenti non paganti alimentano al meglio il sistema che riuscirà poi a offrire servizi più completi e accurati per gli utenti a pagamento, e a innescare una crescita continua, supportata anche dal miglioramento del filtraggio collaborativo da parte dell’azienda, con l’aggiunta di altri algoritmi e informazioni.
Nel caso di Spotify il processo utilizzato è il Natural Language Processing, che permette di ottenere ulteriori informazioni sui brani musicali analizzando articoli di notizie, blog e altri testi su Internet. In questo modo ogni artista e ogni canzone vengono caratterizzati da migliaia di termini che generano un altro vettore, utilizzato per determinare se due brani sono simili. Infine Spotify usa addirittura le reti neurali per analizzare le tracce audio delle canzoni. In questo modo riesce a definire una similarità e una classificazione per le nuove uscite musicali che non sarebbero facili da raccomandare per mancanza di informazione.
Come questi algoritmi vengano miscelati per ottenere i risultati migliori è il segreto di ogni azienda. Una specie di alchimia dell’intelligenza artificiale che trasforma dati e predizioni in miliardi di dollari, e ci offre una grande sfera di cristallo che contiene e abbraccia qualsiasi ambito della quotidianità.
Estratto da “L’algoritmo e l’oracolo” di Alessandro Vespignani. Per gentile concessione di © Il Saggiatore 2019