Vedcom sa podarilo vyvinúť spoľahlivé slúchadlá s umelou inteligenciou: Umožňujú skupinové tlmočenie a klonovanie reči z priestoru VIDEO

Ilustračné foto (Zdroj: Getty Images / ismagilov)

SEATTLE – Tím amerických vedcov navrhol systém so slúchadlami schopný tlmočiť niekoľko rečníkov naraz a zachovať vlastnosti hlasov rečníkov spolu so smerom, z ktorého prichádzajú. TASR informuje na základe správ zborníka Konferencie o ľudských faktoroch vo výpočtových systémoch CHI 2025 a portálu Tech Xplore.

Počas uplynulých rokov sa objavilo niekoľko technológií, ktoré sľubovali plynulý preklad a tlmočenie v reálnom čase, všetky však boli sklamaním. Okuliare od spoločnosti Meta napríklad fungujú iba pri jednom rečníkovi, ktorý musí skončiť, aby robotický hlas okuliarov začal tlmočiť. Tlmočenie tak neprebieha simultánne, ale konzekutívne. Vedci z Washingtonskej univerzity, skrátene UW, však vyvinuli systém Tlmočenia priestorovej reči, anglicky Spatial Speech Translation, skrátene SST, ktorý využíva bežne dostupné slúchadlá s potlačením okolitého hluku, vybavené mikrofónmi a pokročilými algoritmami. Tie odlišujú jednotlivých rečníkov v priestore, sledujú ich počas pohybu, ich výpovede prekladajú a následne preklad prehrávajú s oneskorením dvoch až štyroch sekúnd.

Vedci čerpali inšpiráciu zo života. Tchuo-čchao Čchen, doktorand z UW, navštívil mexické múzeum, hoci španielčinu neovláda. V mobilnom telefóne si preto spustil aplikáciu, ktorá mu mala tlmočiť, a mikrofón namieril v smere výkladu. Výsledok však bol absolútne nepoužiteľný, hoci hladina hluku v múzeu bola relatívne nízka. „Ostatné tlmočnícke technológie vychádzajú z predpokladu, že hovorí iba jedna osoba. V skutočnosti však nemôžete mať iba jeden robotický hlas tlmočiaci viaceré osoby v miestnosti. Po prvý raz sa nám podarilo zachovať vlastnosti hlasu každej osoby v miestnosti a smer, z ktorého zaznieva,“ uviedol profesor Paul G. Allen z UW.

Spatial-Speech-Translation，使用双耳耳戴设备进行空间翻译，支持在多说话人和干扰条件下启用语音翻译，同声传译和富有表现力的语音翻译模型可以在 Apple 芯片上实时运行，语音翻译的双耳渲染可以保留从输入到翻译输出的空间提示。 pic.twitter.com/euuGVw89K9
— 沃图社 (@52wts_cn) May 3, 2025

Systém SST v súčasnosti prináša tri inovácie, bezprostredne po zapnutí určí počet rečníkov vnútri alebo vonku, zachováva vlastnosti a hlasitosť hlasov a generované hlasy rečníkov neustále upravuje podľa ich zmien pri pohybe. Prekladová aplikácia funguje na jednotlivých zariadeniach s čipom Apple M2, výskumníci sa chceli vyhnúť využitiu cloudu, teda online ukladacieho priestoru, pretože napodobňovanie, alebo klonovanie hlasov môže vyvolávať obavy zo zneužitia osobných údajov. Systém úspešne zvládol testy v desiatich interiérových a exteriérových prostrediach. Používatelia ho počas testu s 29 účastníkmi uprednostnili pred systémami, ktoré nesledovali rečníkov v pohybe.

Prečítajte si tiež

Čína predstavila prvú AI nemocnicu na svete: 42 virtuálnych lekárov zvládne roky práce za pár dní

Testeri počas inej skúšky uprednostňovali oneskorenie tri až štyri sekundy, pretože výstup obsahoval menej chýb ako pri jedno- až dvojsekundovom oneskorení. Systém bol na účely štúdie testovaný na preklade zo španielčiny, nemčiny a francúzštiny do angličtiny, hoci predchádzajúci výskum dokázal, že ho možno vytrénovať na preklad približne 100 jazykov. Zatiaľ zvláda bežný hovorový jazyk bez špecializovanej terminológie. Výskumníci svoj projekt nedávno prezentovali na Konferencii o ľudských faktoroch vo výpočtových systémoch CHI 2025 v japonskej Jokohame. Štúdiu s podrobnými informáciami zverejnil zborník konferencie.