Come scrive Franz Russo, il fatto che ChatGPT non accetti più per il momento nuovi abbonamenti (e quindi perda soldi) ci dovrebbe far pensare ai costi nascosti di questi programmi di intelligenza artificiale. Il costo computazionale di chiedere una cosa a ChatGPT, o a un’altra AI, è molto alto; quidi per dare risposte ci vuole tanto spazio disco e tanta CPU (la banda in questo caso è meno importante). Eppure sono in pochi a pensare al costo energetico di tutto questo…
Ultimo aggiornamento: 2023-11-15 12:37
In realtà negli ultimi mesi ho letto vari articoli sul tema, finalmente. (Non così tanti però come una volta per i bitcoin).
Per quanto riguarda il costo di minare i bitcoin c’è da tenere conto un sentimento di poraccismo (“stiamo usando la potenza di calcolo e l’energia di una nazione media per far guadagnare soldi ai pochi soliti noti”, che poi noti non sono ma fa lo stesso) Con le AI che chattano per il momento siamo ancora al concetto di giocattolone, e quindi è più difficile pensare ai soldi. Tra l’altro, io non so nemmeno quale sia la differenza in ordini di grandezza tra addestrare l’AI generativa e farle appunto generare qualcosa.
“Tra l’altro, io non so nemmeno quale sia la differenza in ordini di grandezza tra addestrare l’AI generativa e farle appunto generare qualcosa”
Almeno un ordine di grandezza, ma di norma due.
avrei dett o quattro o cinque… in pratica se un centinaio di query pesano come un addestramento è una tragedia (o se preferite, si può riaddestrare molto spesso l’AI)
In realtà penso ci siano dietro diversi trucchi per risparmiare ulteriormente, e comunque dipende dalla dimensione della rete neurale: più grande è più si risparmia.
credo che la differenza sia molto superiore ai due ordini di grandezza indicati da mestessoit (cioè la valutazione del modello è molto molto molto meno costosa del suo allenamento, altrimenti non avrebbe senso). Non ho esperienza nel training di LLM, ma se si considera un modello base di machine learning (sia esso una rete neurale o un modello lineare concettualmente non farebbe molta differenza), il training non è altro che ottimizzare i parametri del modello, minimizzando una funzione di costo che di solito è una combinazione lineare di differenze quadratiche rispetto a un database di riferimento. L’ottimizzazione sarà più o meno costosa a seconda del numero dei parametri da ottimizzare e della dimensione del database e coinvolgerà la valutazione della funzione di costo e del suo gradiente. Anche tralasciando il costo computazionale del gradiente, ogni valutazione della funzione di costo comporta N valutazioni del modello, dove N è la dimensione del database. L’ottimizzazione ha quindi come limite inferiore per il numero di valutazioni del modello N*M, dove M è il numero di step dell’ottimizzazione. Il numero dei parametri di un modello può essere molto grande e per evitare problemi di overfitting si dovrà necessariamente impiegare un database di dimensioni adeguate, quindi sia N che M sono in genere numeri molto grandi e più il modello vuole essere generale più diventano grandi. Quando un modello diventa molto grande, nel caso si voglia aumentarne il database di training non è che si ricominci da capo, ma si aggiunge in modo cumulativo l’informazione aggiuntiva partendo dai parametri allenati precedentemente. Solo se si considera questo caso si può avere una differenza più modesta tra allenamento (ma qui si dovrebbe parlare di correzione adattativa al nuovo elemento) e valutazione/generazione. Quindi in definitiva dipende da quanto è grande l’informazione aggiuntiva e da quanto si vogliono rilassare i parametri precedentemente allenati.
Mah, dato che oggi anche il nucleare o la guerra (e le relative aziende) devono essere green, avere i protocolli, i documenti, i criteri e le certificazioni per facilitare gli investitori, non credo che esista una grossa società che non pensi all’impatto eco- della sua produzione. Semmai il punto è quali produzioni hanno effetti peggiorativi sull’ambiente (anche se accuratamente ESG-washed) e quali hanno effetti almeno neutri (anche se non certificate).
Es. produrre roba che dura poco, che non risolve problemi veri, che è destinata alla spazzatura è sempre negativo, anche se il tutto è imballato nel cartone riciclato. Ad esempio mi chiederei che impatto ambientale ha la cookie law, il GDPR, i manuali di istruzioni obbligatori e cartacei o l’estensione dell’autorizzazione per un tale diserbante non perché sono cose “cattive” ma perché sono cose inutili alla collettività.
E l’AI? A me sembra facile valutarla, ma credo che con la massa di inabili al lavoro attuale e prossima, non si pone neppure il problema di capire quanto è green. Questa volta hanno ragione i liberisti: non c’è (più) alternativa. E qualcuno (o qualcosa…) deve pure fare i calcoli per dimostrare che è tutto green!