Un’italica base dati per i Grandi Modelli Linguistici?

LLM al lavoro Stavo leggendo questo articolo di Antonio Piemontese da Guerre di rete, e mi sono trovato questa frase:

“La risposta è che raccogliere questi dati, aggiungere tag e metadati è un’operazione lunga, complessa”, spiega a Guerre di Rete il CTO di un’importante società, che accetta di parlare a condizione dell’anonimato. “Questo lavoro di sistematizzazione non l’ha ancora fatto nessuno. E per venirne a capo serve l’intervento dello Stato, ma anche quello dei privati”.

Devo dire che non riesco a capire cosa c’entri l’intervento dello Stato, a parte il suo poter/dover fornire una versione di tutti i documenti ufficiali in formato scaricabile dai sistemi di crawling.
Non è compito dello Stato taggare e inserire metadati, e tra l’altro temerei un Modello a Pensiero Unico con un’interpretazione data una volta per tutte. (Non penserete mica che qualcuno aggiunga queste informazioni a manina, vero?)
Io non sono un grande fautore del privato a tutti i costi, ma in casi come questo continuo a pensare che nella piramide DIKW quello che dovrebbe essere disponibile a tutti allo stesso modo sono i dati. Già l’informazione dovrebbe essere personalizzata a seconda di come si maneggiano i dati, e non parliamo della conoscenza. (La saggezza e gli LLM viaggiano su strade non intersecantesi). Che ne pensate?

(immagine di DancingPhilosopher, da Wikimedia Commons)

4 pensieri su “Un’italica base dati per i Grandi Modelli Linguistici?

  1. mestessoit

    “Devo dire che non riesco a capire cosa c’entri l’intervento dello Stato…”

    Il primo capoverso del sito è chiarissimo a riguardo:

    “Realizzare modelli linguistici di grandi dimensioni in lingua italiana è, da qualche mese, l’obiettivo in cima alla lista delle priorità digitali nazionali.”

    Si può essere d’accordo o meno, come per tutte le decisioni politiche, ma non si può certo dire che nasconda il dito dietro alla mano.

    In sintesi, l’idea politica che sta dietro a tutto questo è il sovranismo digitale: dato che sappiamo tutti benissimo che Altman & Zuck saranno i padroni in tutto il mondo, per recuperare un poco di “potere” ci organizziamo a reperire una nostra base di dati. Dato che (nazione UE a piacere) siamo economicamente troppo deboli per mettere in piedi un concorrente, e vogliamo mantenere la nostra identità, facciamo da noi, e l’unico modo è il sussidio statale.

    1. .mau. Autore articolo

      E tu sei convinto che gli spiccioli che lo Stato potrebbe mettere ci permetterebbero di costruire una base dati italiana? (lasciando perdere tutti i problemi di copyright della base dati stessa)

      1. mestessoit

        Gli unici a mio parere che avranno chance di successo a riguardo sono i francesi: hanno una forte volontà politica ed una altrettanto forte identità culturale, il tutto con una gestione della cosa pubblica fortemente centralizzata e verticista. Tutti gli altri falliranno, più o meno male.

        Il punto non è tecnico, ma politico: se si vuole fare, si fa. I risultati, pochi o tanti, arrivano in base alla volontà politica che ci sta dietro. Qui non parliamo di successo o fallimento per attività del genere, ma di mettere una asticella ad una certa altezza e raggiungere un certo risultato. Se lo si vuol fare, per me bene, se non lo si vuol fare pure. Poi in Italia si vogliono proteggere gli amici degli amici, quindi dato che non credo ci siano amici realmente interessati, dico che non se ne farà nulla, ma io di base non ci vedo nulla di male nel metterci dentro soldi come stato.

  2. Bubbo Bubboni

    Mah, direi che c’è una buona opportunità di far lavorare un po’ di stagisti e di acchiappare una barca di soldi per attività inutili, facili, senza rischio e gradevoli politicamente.
    Non credo ci voglia l’AI per capire che è assolutamente indispensabile una base dati nazionale! (e magari ci scappa anche qualche account a pagamento verso le AI USA. Non sia mai che ci sia fare una demo!)

I commenti sono chiusi.