Stamattina – ma non chiedetemi perché il link sembra essere di settembre – i miei amiconi di rep.it hanno raccontato di un’incredibile tecnologia per immagazzinare informazione musicale: per dare un’idea, un brano di clarinetto della durata di venti secondi sta tutto in un kilobyte, un centesimo dello spazio di un file MP3. Sarà falso? sarà vero?
In uno stranissimo sussulto di serietà, gli amici hanno intervistato nientemeno che Leonardo Chiariglione, che è uno che sicuramente di queste cose se ne intende, e soprattutto che le sa spiegare. È successo così che miracolosamente è diventato possibile capire almeno qualcosa in più: ad esempio che la tecnologia è sintetica (la “prestazione virtuale” secondo l’articolista), vale a dire che il suono viene generato a partire da una serie di informazioni. Chiariglione fa giustamente l’esempio del MIDI, che è un classico sistema sintetico: non so se ve ne siete mai accorti, ma un file MIDI è molto, molto, molto più piccolo di un MP3. Certo, ha anche un suono schifoso: ma questo è un particolare secondario, nel senso che di per sé il problema è che ti ci vuole molta informazione per creare un suono “bello”. Il clarinetto, tra l’altro, è uno strumento difficile da simulare, se non ricordo male, e quindi la performance degli scienziati di Rochester non è affatto da buttare.
Peccato che restino ancora un paio di punti che non sono affatto chiari. Il primo è banale: quanto è grande il “giradischi virtuale”? In parole povere, quanto spazio ci vuole per modellare uno strumento musicale? e quanto per modellare strumenti musicali simili ma non identici? Quando io sento parlare di questi sistemi di ultracompressione, mi viene sempre in mente la barzelletta dei matti che si spanciano dalle risate quando uno di essi dice un numero, perché sanno che corrisponde a una barzelletta ben specifica in un librone che si sono preparati a priori. Qua potrebbe tranquillamente essere la stessa cosa, soprattutto perché nell’articolo parlano anche di sintetizzazione di voce umana, che è ben più difficile da riprodurre… senza parlare dei vantaggi che potrebbero esserci nell’uso di questa tecnologia nelle conversazioni telefoniche. Il secondo punto è che mi chiedo se abbiano letto il comunicato ufficiale dell’Università di Rochester, e soprattutto la data di pubblicazione :-) Poi intendiamoci: in effetti a Las Vegas si sta tenendo ICASSP 2008 e martedì scorso Bocko e i suoi colleghi hanno effettivamente presentato l’articolo in una sessione poster… quindi magari sono io a pensare male. Ma mi sa che dovrò chiedere al mio amico Ugo di verificare sui proceedings dell’ICASSP :-)
Ultimo aggiornamento: 2008-04-04 22:33
Ma che mp3… Sono degli strumenti virtuali per la composizione della musica che quindi lavorano con il midi.
Da musicista posso dirti che strumenti virtuali del genere ce ne sono già a centinaia e sono quasi tutti mediocri, nei migliori casi sono decenti.
Uno di questi è saxlab http://www.linplug.com/Instruments/SaxLab_2/saxlab_2.htm
Trattasi della trita e ritrita tecnica di physical modeling, usata da 10 anni almeno per sviluppare strumenti che emulano quelli reali. Nessuno scoop, soprattutto non c’entra niente con l’mp3.
Come al solito rep.it non ha capito niente: il giornalista ignorante in materia non capisce niente e trae da solo delle conclusioni completamente strampalate. Mi domando se chi scrive tali cappellate venga pure pagato, brrr…..
Comunque, alla fine di tutto, basta ascoltare i files audio per accorgersi che la qualità del file emulato è pessima e sembra proprio di ascoltare un midi.
Tenendo conto che per poterlo riprodurre devi possedere programmi e plugins da diverse centinaia (anche migliaia) di euro oltre che svariati Gb su HD.
La questione e’ ripresa anche dalla newsletter del DDJ, ma a dispetto degli entusiasmi di Jonathan Erickson non mi convince affatto.
È comparso anche sulle news di Le Scienze:
http://lescienze.espresso.repubblica.it/articolo/articolo/1327126
È probabile che la cosa sia stata notata appunto perché presentata all’ICASSP.
Premesso che non sono propriamente un esperto di MIDI, penso abbia ragione Fabius. Se hai un sistema (hardware più software) che è in grado di emulare uno strumento musicale, il file in sé non deve poi contenere chissà quali informazioni… deve sostanzialmente consistere in una sorta di “spartito” che viene poi letto dal programma. Il file in sè è quindi molto piccolo… ma lo strumento per riprodurlo è tutta un’altra storia.
Certo se tutti potessimo permetterci un qualcosa di simile al sintetizzatore ANS… (sono sempre rimasto affascinato da quella macchina)
http://en.wikipedia.org/wiki/ANS_synthesizer
Ma francamente credo sia un po’ caro… forse non è un caso se ne esiste uno solo al mondo…
Addendum… ripensandoci, mi è tornato in mente anche il vecchio mellotron e i più moderni campionatori. Non mi sembra che l’idea di questi soggetti dell’università di Rochester sia poi molto diversa. In ogni caso, sia che si tratti di un assemblaggio di suoni campionati da uno strumento e ricomposti in base allo spartito contenuto nel file, sia che siano suoni direttamente generati in maniera elettronica… per ottenere risultati decenti ci vogliono apparecchiature sul costoso…
Io di queste cose non ci capisco niente, ma quella storia dei file wav (disponibili sul sito dell’università) non mi convince molto..
In ogni caso non sei l’unico a pensarla male .mau.! ;-)
La domanda fondamentale da porsi è proprio quella che hai sottinteso: cosa si deve dare in pasto a questo encoder? Se si tratta in tutto e per tutto di un sistema simil-MIDI (ovvero già alla fonte gli strumenti generano informazioni “compatibili” con il formato) allora niente di nuovo sotto il sole, salvo eventuali improvements rispetto agli attuali (pessimi) strumenti sintetizzati. Se invece l’encoder prende in ingresso un formato wave e poi pensa lui a tutto, riconoscendo autonomamente modelli predeterminati, allora sì che la cosa è notevolissima. Dal mio punto di vista (totalmente profano) avrebbe una certa affinità con la compressione frattale per le immagini: cioè si considera il problema più “ad alto livello” rispetto agli algoritmi tradizionali, che si limitano a processare blocchi elementari senza tener conto della “big picture”.
E’ questione di dove metti le informazioni sul timbro musicale: in un MP3 sono nel file dati, mentre in un sistema come quello descritto sono nel player; di conseguenza i file dati sono molto più piccoli, ma il player è grosso e complicato.
Essendo fervido appassionato di musica elettronica, sono ferrato nel campo.
Fabius ha ragione, si tratta di modelli fisici.
Funziona così: un qualsiasi strumento viene decomposto in unità, dette solitamente moduli, messi in serie od in parallelo.
Ciascun modulo ha un input ed un output, e simula (modella) una certa entità.
Esempio: nel sassofono un modulo è l’ancia (la parte appena dietro il bocchino), un altro è la canna centrale, poi altri sono i tubi di raccordo.
Ciascun modulo altro non è che un complesso sistema di equazioni differenziali, che modella nel tempo il segnale secondo certi parametri.
Componendo una biblioteca di moduli preconfezionati, è possibile simulare uno strumento target, che approssima in modo più o meno fedele lo strumento originale.
Un uono (o patch) altro non è che la definizione della successione di moduli e le loro interconnessioni. Ecco perché occupano poco spazio…
Il primo strumento commerciale a modelli fisici è stato lo Yamaha VL-1 (http://membres.lycos.fr/hhh/SYNTHES/ in francese), puoi ascoltare dei preset su http://www.kbspace.com/vl1m/audio/index.html per farti una idea della qualità.
Nota, siamo nel 1995 ;).