A VALL-E nevű, neurális kódnyelvi modellnek mindössze három másodpercnyi hanganyagra van szüksége ahhoz, hogy reprodukálja a beszélő hangját – számolt be róla a Gizomodo tudományos hírportál. A mesterséges intelligencián alapuló eszköz nemcsak a hangszínt képes leutánozni, hanem a beszélő érzelmi hullámzását és akár a szoba akusztikáját is élethűen tudja visszaadni. Surprised there isn’t more chatter around VALL-E This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice
A cikk folytatódik: http://gamerguru.co.hu/ujdonsagok/2023/01/15/mostantol-barki-hangjat-leutanozhatjuk-csak-egy-dolog-kell-hozza.html
- Hirdetés -