Jak działa tłumienie hałasu w połączeniach Microsoft Teams?

Jak działa tłumienie hałasu w połączeniach Microsoft Teams?

Autor: Krzysztof Sulikowski

Opublikowano: 4/10/2020, 6:16 PM

Liczba odsłon: 3631

Jedną z najbardziej wkurzających rzeczy podczas wideokonferencji jest hałas w tle. Może to być ktoś, kto głośno pisze notatki ze spotkania na klawiaturze, szeleści paczką czipsów, tłucze garnkami w kuchni itd. Generalnie wszystko, co nie jest głosem uczestnika lub ewentualnie dźwiękami prezentacji, wytrąca nas ze stanu skupienia i obniża jakość spotkania. Jak już wiadomo, Microsoft Teams w tym roku otrzyma funkcję tłumienia hałasu, która podobnie jak funkcje rozmycia tła i zastąpienia go własnym obrazem pozwoli usunąć zbędne elementy uchwycone przez kamerę i mikrofon. Tylko jak ona działa?

Tłumienie hałasu samo w sobie nie jest niczym nowym i działa już w Teams i Skype. Nowością jest jednak sposób, w jaki ten hałas jest rozpoznawany i usuwany przy jednoczesnym zachowaniu głosu. Odpowiada za to sztuczna inteligencja. Co więcej, będzie ona potrafiła odróżnić hałasy stacjonarne (np. wentylator) od niestacjonarnych (np. szczekanie psa). Aby to osiągnąć, Microsoft otworzył źródła treningu AI w zakresie tłumienia hałasu i udostępnił je w GitHub, aby rozszerzyć zestaw danych i nauczyć się lepiej szkolić AI. Jednocześnie niektóre rodzaje hałasu, takie jak śpiew lub śmiech, mogą nie zostać odfiltrowane z połączeń. Microsoft wyjaśnia, że nie może w prosty sposób izolować dźwięku ludzkich głosów, ponieważ występują one na podobnych częstotliwościach, co hałas. I tak jest w istocie. Gdy przejrzymy graficzny zapis spektrum nagrania z mową i statycznymi odgłosami, często bez problemu je odróżnimy już na oko, jednak gdy hałas ma szerszy lub zmieniający się w czasie zakres spektralny, może nakładać się na te same pasma, co mowa. Aby więc odizolować te źródła dźwięku, sztuczna inteligencja musi nauczyć się rozpoznawać, jak wygląda mowa.

Microsoft zestawił modele machine learningowe przeznaczone do tłumienia hałasu z modelami do rozpoznawania mowy, a następnie wytrenował model służący do trenowania AI, by ta rozumiała różnice. Proces ten obejmował wybranie reprezentatywnych zestawów danych, wykorzystanie machine learningu (maszynowego uczenia) i odpowiednie dostosowanie modeli. Jak w przypadku każdej metody przetwarzania danych — zwłaszcza tych z prywatnych rozmów — również tu mogą pojawić się obawy związane z prywatnością. Robert Aichner, Principal Progam Manager odpowiedzialny za Microsoft Teams, uspokaja jednak i przypomina, że Microsoft nie może przeglądać tych danych klientów ani sprawdzać połączeń Teams. Do wytrenowania AI firma użyła testowego zestawu nagrań, które jej zdaniem są bardziej reprezentatywne od prawdziwych spotkań.

Wytrenowaliśmy model, by rozumiał różnice między hałasem a mową i model ten próbuje zatrzymać tylko mowę. Wytrenowaliśmy zestawy danych. Wzięliśmy tysiące różnych mówców i ponad 100 rodzajów hałasu. Następnie zmiksowaliśmy czystą mowę bez hałasu z hałasem. Symulowaliśmy sygnał mikrofonu. Jest też model czystej mowy jako ground truth [sprawdzający, czy wyniki machine learningu są adekwatne wobec świata rzeczywistego]. Prosisz więc model: "Wydobądź czysty sygnał z tych zaszumionych danych i tak to powinno wyglądać". W ten sposób trenujesz sieci neuronowe w uczenia nadzorowanym [supervised learning], gdzie masz już pewne ground truth.
— Robert Aichner, Principal Progam Manager, Microsoft Teams

Reprezentatywne zestawy danych pochodziły z audiobooków czytanych zarówno przez męskie, jak i kobiece głosy. Microsoft sam też nagrał trochę własnych spotkań. Dźwięki hałasu, np. pisania albo muzyki, zebrano natomiast z YouTube'a. Pozostaje jeszcze pytanie o to, gdzie będzie działać AI tłumiąca hałas. Choć pierwszym, co przychodzi na myśl, byłaby chmura Azure, nie jest to konieczne. Przez ostatnie lata Microsoft dokładał starań, by umożliwić działanie AI na urządzeniach krańcowych ("edge" w odróżnieniu od "cloud"). Dlatego proces może być obliczany lokalnie. Masz już laptopa albo PC, albo swój telefon, więc zróbmy trochę dodatkowego przetwarzania. O ile nie przeciążasz CPU, to powinno wystarczyć — dodaje Aichner.

Jak przystało na technologię uczenia maszynowego, tłumienie hałasów w Teams będzie stawało się z czasem coraz lepsze. Według zapowiedzi Microsoftu funkcja zostanie oddana do użytku w tym roku, choć nie podano bardziej szczegółowych ram czasowych.

Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży
Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży

Wydarzenia