Il modello AI di riproduzione audio di OpenAI necessita solo di un campione di 15 secondi per funzionare

OpenAI offre un accesso limitato a una piattaforma di sintesi vocale sviluppata chiamata Voice Engine, che può creare una voce sintetica basata su una clip di 15 secondi della voce di qualcuno. La voce generata dall'intelligenza artificiale può leggere messaggi di testo su richiesta nella stessa lingua di chi parla o in diverse altre lingue. “Queste implementazioni su piccola scala aiutano a definire il nostro approccio, le nostre misure di salvaguardia e la nostra riflessione su come il Voice Engine possa essere utilizzato per un bene maggiore in tutti i settori”, OpenAI ha detto nel suo post sul blog.

Le aziende con accesso includono la società edtech Age of Learning, la piattaforma di narrazione visiva HeyGen, il produttore di software sanitario in prima linea Dimagi, il costruttore di app per comunicazioni AI Livox e il sistema sanitario Lifespan.

In questi esempi pubblicati da OpenAI, puoi sentire cosa… Era dell'apprendimento La tecnologia è stata manipolata per creare contenuti audio pre-scritti, nonché per leggere le “risposte personali in tempo reale” degli studenti scritte da GPT-4.

Primo: audio di riferimento in inglese:

Ecco tre clip audio generate dall'intelligenza artificiale basate su quel campione:

OpenAI ha affermato di aver iniziato a sviluppare il motore vocale alla fine del 2022 e che la tecnologia ha già alimentato voci predefinite per l'API di sintesi vocale e la funzionalità di lettura ad alta voce di ChatGPT. In un'intervista con TechCrunchIl modello è stato addestrato su “una combinazione di dati concessi in licenza e disponibili al pubblico”, ha affermato Jeff Harris, membro del team di prodotto OpenAI per Voice Engine. OpenAI ha dichiarato alla pubblicazione che il modello sarà disponibile solo per circa 10 sviluppatori.

READ  Le azioni Amazon saltano su una divisione di 20 a 1

La generazione di conversioni da testo a voce utilizzando l'intelligenza artificiale è un'area dell'intelligenza artificiale generativa che continua ad evolversi. Mentre la maggior parte si concentra sui suoni degli strumenti o sui suoni naturali, un numero minore si è concentrato sulla generazione del suono, in parte a causa delle domande citate da OpenAI. Alcuni nomi in questo spazio includono aziende come Podcastle ed ElevenLabs, che forniscono tecnologia e strumenti di clonazione audio AI vertcast Esplora l'anno scorso.

Secondo OpenAI, i suoi partner hanno accettato di aderire alle sue politiche di utilizzo in cui si afferma che non utilizzeranno Voice Generation per impersonare persone o organizzazioni senza il loro consenso. Richiede inoltre ai partner di ottenere un “consenso esplicito e informato” dal madrelingua, di non creare modalità affinché i singoli utenti possano creare la propria voce e di rivelare agli ascoltatori che le voci sono generate dall’intelligenza artificiale. OpenAI ha anche aggiunto una filigrana alle clip audio per tracciarne l'origine e monitorare l'effettivo utilizzo dell'audio.

OpenAI ha proposto diverse misure che, a suo avviso, potrebbero limitare i rischi legati a strumenti come questi, tra cui l'eliminazione graduale dell'autenticazione basata sulla voce per l'accesso ai conti bancari, politiche per proteggere l'uso delle voci delle persone nell'intelligenza artificiale e una maggiore istruzione sui deepfake dell'intelligenza artificiale e sullo sviluppo. dei sistemi di tracciamento. Per contenuti di intelligenza artificiale.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Torna in alto