Microsoft je pokazao svoje najnovije istraživanje u oblasti veštačke inteligencije za konverziju teksta u govor sa modelom koji se zove VALL-E.
Novi model može da simulira određeni glas iz samo tri sekunde audio uzorka. Govor može da odgovara ne samo boji glasa, već i emocionalnom tonu govornika, pa čak da bude usklađen i sa akustikom prostorije. U budućnosti novi alat mogao bi da se koristi za prilagođene ili vrhunske aplikacije za konverziju teksta u govor. Međutim, isto kao i deepfake, nosi rizik od zloupotrebe.
Stručnjaci pokazuju koliko dobro model funkcioniše na VALL-E Github stranici. Za svaku frazu koju žele da AI „izgovori“, oni postavljaju snimak od tri sekunde prema kojem AI pravi lažni snimak.
Rezultati su pomešani. Neki rezultati zvuče kao da ih izgovara mašina dok su drugi iznenađujuće realistični. Činjenica da zadržava emocionalni ton originalnih uzoraka je ono što ga razlikuje od drugih. Takođe, snimak verno odgovara akustičnom okruženju. To znači recimo da ako je govornik snimio svoj glas u sali, VALL-E generisani zvuk takođe će delovati kao da dolazi sa istog mesta.
Da bi poboljšao model, Microsoft planira da poveća svoje podatke koje će koristiti za obuku. Kompanije želi da „poboljša performanse modela kroz prozodiju, stil govora i perspektivu sličnosti govornika“. Takođe, Microsoft istražuje načine za smanjenje reči koje su nejasne ili propuštene.
Microsoft je odlučio da ne učini kod otvorenim, verovatno zbog rizika da bi veštačka inteligencija mogla da se zloupotrebi. Kompanija navodi da će slediti svoje principe kada je u pitanju dalji razvoj veštačke inteligenicje.
„Pošto VALL-E može da sintetiše govor koji održava identitet govornika, može da nosi potencijalne rizike u zloupotrebi modela, kao što je lažna identifikacija glasa ili lažno predstavljanje“, navodi je kompanija.
Komentari (0)
Trenutno nema komentara. Budite prvi i ostavite komentar.