Oszustwa można zweryfikować. Technologia wciąż nie jest doskonała
Jak pisze NASK, mimo ciągłego rozwoju AI, generowane głosy wciąż wydają się sztuczne, syntetyczne i pozbawione emocji. Szczególnie przy intensywnych emocjach jak złość, radość, czy smutek, barwa głosu wygenerowanego przez sztuczną inteligencję może brzmieć sztucznie.
Joanna Gajewska z NASK, która na co dzień zajmuje się analizą i badaniem generowanych treści wskazuje, że modele generatywne wykorzystywane przez oszustów nie są doskonałe i uważny odbiorca może wychwycić typowe błędy, które mogą zdradzić oszustów.
Jak zweryfikować próbę oszustwa przez deepfake?
Gajewska wskazuje, że typowym błędem deepfake jest nietypowa intonacja. Generowane głosy nie interpretują znaków interpunkcyjnych, co sprawia, że rytm wypowiedzi wydaje się nienaturalny. Wydaje się jakby osoba mówiła bez przerwy, nie uwzględnia akcentów, czy naturalnych nazw. Czasami również w trakcie nagrania możemy usłyszeć subtelne zmiany akcentu, czy nawet zmianę języka na inny. NASK wskazuje, że wynika to z niedokładnej synchronizacji modelu AI.
Ponadto problemem fałszywych głosów są częste i nagłe zmiany głośności, tj. jedna wypowiedź może być bardzo głośna, a inna ledwo słyszalna. Z reguły brakuje także naturalnych odgłosów tła, takich jak echo pomieszczenia, czy szum w otoczeniu. Gdy naturalnie nagrywamy wypowiedź mikrofonem, urządzenie wychwytuje także akustykę pomieszczenia, czy inne dźwięki. Zbyt sterylny dźwięk może wskazywać na wykorzystanie deepfake.
Joanna Gajewska NASK wskazuje także na syntetyczność głosu, który nie jest w stanie oddać jeszcze ludzkich emocji. Jeśli więc nagranie brzmi dla nas "sztucznie" i "płasko", możemy podejrzewać, że zostało wygenerowane z pomocą sztucznej inteligencji.