Come funziona EMO, l’IA di Alibaba che fa parlare e cantare qualsiasi foto

Un nuovo modello di intelligenza artificiale, chiamato EMO, consente di animare immagini statiche – come foto oppure le opere d’arte – in modo sorprendente.

Che sia una persona, un’illustrazione o un volto di un’opera d’arte, EMO è capace di generare espressioni facciali e movimenti naturali della testa in base all’audio – parlato o cantato – che viene fornito all’intelligenza artificiale.

Sui social gli utenti hanno condiviso i primi frutti di questa nuova IA generativa:

A sinistra, nella clip qui sopra, c’è *un singolo* frame di uno dei primi filmati generati da Sora, la nuova intelligenza artificiale text-to-video di OpenAI. Lo ricorderete è quello in cui una donna cammina su una strada di Tokyo, con la metropoli illuminata a giorno dalle insegne al neon.

A destra, quel frame è stato animato da un’altra IA generativa sviluppata dai ricercatori di Alibaba, il colosso cinese dell’e-commerce. Il modello si chiama EMO e produce

Continua la lettura su: https://www.repubblica.it/tecnologia/2024/03/01/news/emo_ai_alibaba-422234997/?rss Autore del post: La Repubblica Fonte: https://www.repubblica.it

Related Articles

Come funziona EMO, l’IA di Alibaba che fa parlare e cantare qualsiasi foto

Un nuovo modello di intelligenza artificiale, chiamato EMO, consente di animare immagini statiche – come foto oppure le opere d’arte – in modo sorprendente.

Che sia una persona, un’illustrazione o un volto di un’opera d’arte, EMO è capace di generare espressioni facciali e movimenti naturali della testa in base all’audio – parlato o cantato – che viene fornito all’intelligenza artificiale.

Sui social gli utenti hanno condiviso i primi frutti di questa nuova IA generativa:

A sinistra, nella clip qui sopra, c’è *un singolo* frame di uno dei primi filmati generati da Sora, la nuova intelligenza artificiale text-to-video di OpenAI. Lo ricorderete è quello in cui una donna cammina su una strada di Tokyo, con la metropoli illuminata a giorno dalle insegne al neon.

A destra, quel frame è stato animato da un’altra IA generativa sviluppata dai ricercatori di Alibaba, il colosso cinese dell’e-commerce. Il modello si chiama EMO e produce videoritratti espressivi a partire da un audio. Il limite (per ora) è che i volti e gli sguardi animati dall’IA conserveranno la posizione e l’orientamento che hanno nei frami di riferimento.

In pratica, dicono i ricercatori di Alibaba, “fornendo una singola immagine di riferimento e un audio – un contenuto parlato o cantato – il modello è in grado di animare le persone ritratte con tanto di espressioni facciali accurate e movimenti della testa”.

Il risultato è straordinario. La “donna in rosso” di Sora si “esibisce” con un labiale perfetto, muove le sopracciglia, la testa e più in generale adatta le sue espressioni facciali all’intonazione, alle pause e persino al respiro del brano che le è stato “assegnato”: Don’t Start Now di Dua Lipa.

Questo avviene perché EMO, in sintesi, riconosce l’onda sonora e genera singoli frame video che la rispecchiano. “Questo gli permette di catturare i movimenti sottili e le peculiarità individuali associate al parlato naturale”.

Vuoi rimanere aggiornato sulle nuove tecnologie per la Didattica e ricevere suggerimenti per attività da fare in classe?

Sei un docente?

soloscuola.it la prima piattaforma
No Profit gestita dai

Volontari Per la Didattica
per il mondo della Scuola. 

 

Tutti i servizi sono gratuiti. 

Associazione di Volontariato Koinokalo Aps

Ente del Terzo Settore iscritta dal 2014
Tutte le attività sono finanziate con il 5X1000