Sobota6. december 2025, meniny má Mikuláš, Nikolas, zajtra Ambróz

Vedcom sa podarilo vyvinúť spoľahlivé slúchadlá s umelou inteligenciou: Umožňujú skupinové tlmočenie a klonovanie reči z priestoru VIDEO

Ilustračné foto
Ilustračné foto (Zdroj: Getty Images / ismagilov)

SEATTLE – Tím amerických vedcov navrhol systém so slúchadlami schopný tlmočiť niekoľko rečníkov naraz a zachovať vlastnosti hlasov rečníkov spolu so smerom, z ktorého prichádzajú. TASR informuje na základe správ zborníka Konferencie o ľudských faktoroch vo výpočtových systémoch CHI 2025 a portálu Tech Xplore.

Počas uplynulých rokov sa objavilo niekoľko technológií, ktoré sľubovali plynulý preklad a tlmočenie v reálnom čase, všetky však boli sklamaním. Okuliare od spoločnosti Meta napríklad fungujú iba pri jednom rečníkovi, ktorý musí skončiť, aby robotický hlas okuliarov začal tlmočiť. Tlmočenie tak neprebieha simultánne, ale konzekutívne. Vedci z Washingtonskej univerzity, skrátene UW, však vyvinuli systém Tlmočenia priestorovej reči, anglicky Spatial Speech Translation, skrátene SST, ktorý využíva bežne dostupné slúchadlá s potlačením okolitého hluku, vybavené mikrofónmi a pokročilými algoritmami. Tie odlišujú jednotlivých rečníkov v priestore, sledujú ich počas pohybu, ich výpovede prekladajú a následne preklad prehrávajú s oneskorením dvoch až štyroch sekúnd.

Vedci čerpali inšpiráciu zo života. Tchuo-čchao Čchen, doktorand z UW, navštívil mexické múzeum, hoci španielčinu neovláda. V mobilnom telefóne si preto spustil aplikáciu, ktorá mu mala tlmočiť, a mikrofón namieril v smere výkladu. Výsledok však bol absolútne nepoužiteľný, hoci hladina hluku v múzeu bola relatívne nízka. „Ostatné tlmočnícke technológie vychádzajú z predpokladu, že hovorí iba jedna osoba. V skutočnosti však nemôžete mať iba jeden robotický hlas tlmočiaci viaceré osoby v miestnosti. Po prvý raz sa nám podarilo zachovať vlastnosti hlasu každej osoby v miestnosti a smer, z ktorého zaznieva,“ uviedol profesor Paul G. Allen z UW.

Systém SST v súčasnosti prináša tri inovácie, bezprostredne po zapnutí určí počet rečníkov vnútri alebo vonku, zachováva vlastnosti a hlasitosť hlasov a generované hlasy rečníkov neustále upravuje podľa ich zmien pri pohybe. Prekladová aplikácia funguje na jednotlivých zariadeniach s čipom Apple M2, výskumníci sa chceli vyhnúť využitiu cloudu, teda online ukladacieho priestoru, pretože napodobňovanie, alebo klonovanie hlasov môže vyvolávať obavy zo zneužitia osobných údajov. Systém úspešne zvládol testy v desiatich interiérových a exteriérových prostrediach. Používatelia ho počas testu s 29 účastníkmi uprednostnili pred systémami, ktoré nesledovali rečníkov v pohybe.

Testeri počas inej skúšky uprednostňovali oneskorenie tri až štyri sekundy, pretože výstup obsahoval menej chýb ako pri jedno- až dvojsekundovom oneskorení. Systém bol na účely štúdie testovaný na preklade zo španielčiny, nemčiny a francúzštiny do angličtiny, hoci predchádzajúci výskum dokázal, že ho možno vytrénovať na preklad približne 100 jazykov. Zatiaľ zvláda bežný hovorový jazyk bez špecializovanej terminológie. Výskumníci svoj projekt nedávno prezentovali na Konferencii o ľudských faktoroch vo výpočtových systémoch CHI 2025 v japonskej Jokohame. Štúdiu s podrobnými informáciami zverejnil zborník konferencie.

Viac o téme: ZariadenieTechnológiaPrekladSlúchadláUmelá inteligenciaTlmočenieAIAmerikaAppleTechVedaSpatial Speech TranslationPaul G. AllenTchuo-čchao ČchenSSTTlmočenie priestorovej reči
Nahlásiť chybu

Odporúčame

Predpredaj.sk - Tu sa rodia zážitky

Predpredaj.sk - Tu sa rodia zážitky

Stream naživo

Predpredaj.sk - Tu sa rodia zážitky

Celý program

Ďalšie zo Zoznamu