Ľudia sa vedia prirodzene sústrediť na špecifické hlasy uprostred hluku – ide o fenomén známy ako efekt kokteilovej párty. No až doteraz mali programy vytvorené na počúvanie špecifického rečníka v hlučnej audio nahrávke problém s napodobnením ľudského selektívneho mentálneho tlmenia zvuku. Nová UI je skonštruovaná tak, aby použila audio aj vizuálne podnety, ako sú pohyby úst, na separovanie zvukov vytvorených rôznymi rečníkmi vo videách. Výskumníci v Google testovali svoju UI na kokteilovej párty. Púšťali video klipy, v ktorých sa dvaja či traja ľudia rozprávali jeden cez druhého s rôznymi úrovňami hluku v pozadí. Počúvaním a pozeraním videí dokázala nová UI presnejšie rozlíšiť, ktoré zvuky prichádzali od každého hovoriaceho, než podobný algoritmus, ktorý počúval iba audio. Táto UI by sa mohla použiť na presnejšie generovanie titulkov vo videách v porovnaní so súčasným transkripčným systémom. V budúcnosti by rýchlejšia verzia tohto programu, ktorý dokáže filtrovať hluk v pozadí zo živého videa, mohla pomôcť ľuďom jasnejšie počuť jeden druhého napríklad počas telekonferencií, hovorí Shmuel Peleg, počítačový vedec na jeruzalemskej Hebrejskej univerzite.
Ak chcete mať prístup aj k exkluzívnemu obsahu pre predplatiteľov alebo si objednať tlačenú verziu časopisu Quark, prihláste sa alebo zaregistrujte.