CaptionBot

Ieri – quindi tranquilli, non è uno scherzo – Layos mi ha segnalato captionbot.ai, un progetto di Microsoft per riconoscere immagini postate dagli utenti.
Non che sia così bravo: con tre biglie mi ha detto che forse era una ciotola di vetro, mentre un brick di the alla pesca è stato preso per un libro visto da vicino. Quello che mi stupisce è che chieda solo un voto alla sua performance e non chieda di definire l’oggetto nel caso abbia sbagliato… evidentemente mi manca qualcosa.

8 comments

  1. Credevo fosse uno scherzo ma quando una immagine completamente ed esclusivamente nera è stata identificata come “I can’t really describe the picture but I do see drawing.” ho capito che si tratta di una intelligenza artificiale ma con uno spiccato senso artistico.

    • E questo senso artistico è così spiccato che quando gli si dà in pasto l’avatar di .mau. la risposta è un laconico: «I really can’t describe the picture »…

      .mau. cambia avatar! :D

      • Se si riempe di nero lo sfondo dell’avatar di .mau. la descrizione diventa: «I can’t really describe the picture but I do see sky.»

        Lisergico!

        • È già migliorato, adesso dice “man, holding, standing”, diciamo che ne prende due su tre

  2. Non ti chiede di definire l’oggetto per il semplice motivo che non comprederebbe la risposta (che va formulata come una grandissima matrice). Per non parlare poi delle definizioni fallaci in buona o malafade. Il voto serve a misurare il suvcesso del prodotto ed il suo futuro impiego a nostro danno…

  3. Assomiglia a Goggles, app prodotta da Google (che sta migliorando con il tempo, mi ha appena riconosciuto correttamente una bottiglia di Westmalle Triple).
    Dato che funziona con una o più tecniche di machine learning, anche solo dandogli un rating della sua prestazione gli stai già dando parecchio materiale su cui lavorare. Per esempio, se a un certo punto si rende conto che i cani riesce a riconoscerli bene, non includerà ulteriori cani nel suo training set e cercherà di espandere la sua conoscenza in altri ambiti. Anche se non credo che funzioni accumulando miliardi di fotografie preclassificate, ma che sia più ambizioso e cerchi di costruirsi modelli astratti meno dispendiosi da gestire. Di sicuro stanno cercando di riprodurre l’apprendimento di un’intelligenza umana, che abbia bisogno solo di carota e bastone per migliorarsi.