I guai del machine learning

Leggendo questo articolo di Riccardo Luna, a parte il titolo fuorviante (intelligenza artificiale e machine learning per me sono due cose diverse, e giustamente nel corpo dell’articolo si specifica che stiamo parlando della seconda) mi è venuto in mente che in effetti questo caso mostra assai bene quali sono i problemi con i famigerati “algoritmi”.

Il progetto di Daniel Voshart parte da un software che prende come partenza le statue o le immagini sulle monete raffiguranti gli imperatori e aggiunge man mano le loro descrizioni come riportate nelle varie fonti. Non sempre le fonti concordano; quindi il lavoro della rete generativa avversaria consiste nel trovare esempi fittizi che vengano scambiati per veri, costruendo man mano la struttura della testa. Solo che a quanto pare tra i dati usati c’era un testo quasi certamente spurio, che indicava molti imperatori come biondi. Qualcuno ce ne sarà sicuramente stato, soprattutto negli ultimi secoli; ma gli italici sicuramente non lo erano e nei primi secoli è più facile che gli imperatori non italici arrivassero dal Nordafrica e quindi fossero belli scuri. Si è così avuto il famigerato problema GIGO, “garbage in, garbage out”: se tu addestri qualcuno, uomo o macchina che sia, dicendogli che 2+2=5 non puoi pretendere che poi ti dica che 2+2=4.

Il punto è, come termina Luna, che l’algoritmo può incorporare i nostri bias; ma dobbiamo anche stare attenti ai dati che gli diamo, soprattutto se non ce ne sono molti a disposizione e quindi l’algoritmo dovrà basarsi molto di più sul poco che ha. Se ci fossero mille esempi di 2+2=4 e uno solo di 2+2=5, un algoritmo ben fatto probabilmente sarebbe abbastanza certo che due e due fa quattro; ma con un esempio contro uno può succedere di tutto. Ricordatevelo quando gridate contro l’algoritmo cattivo.

4 comments

  1. Farei leggere a Riccardo Luna quanto ha scritto Charles Babbage nel 1864, a riguardo di chi gli chiedeva se a fronte di dati errati la sua macchina avrebbe dato risposte giuste.

  2. S’, peccato il titolo demente.
    Perche’ nell’articolo dice che l’errore puo’ dipendere sia dall’algoritmo che dai dati. E spiega anche come l’errore sia poi stato corretto.
    Che senso ha scrivere un articolo tutto sommato informativo e nasconderlo sotto un titolo cretino ?

    • temo che il titolo sia stato scelto per essere “accattivante”.