Искусственный интеллект научился подделывать стрессовые голоса
Современные модели искусственного интеллекта могут создавать эмоциональную речь двумя способами, говорится в интервью RT с директором центра компетенций ИИ в АНО «Цифровые платформы» Алексеем Маркеловым.
«Во-первых, можно использовать донорский образец. Если у злоумышленника имеется хотя бы 10—15 секунд вашего голоса в состоянии стресса, например, из сториз или записи спора, он способен перенести эмоциональную окраску на любой текст», — рассказал он.
Маркелов уточнил, что тогда получится реалистичная запись, в которой будут дрожь, сбои и учащённое дыхание.
«Во-вторых, существуют специальные генеративные модели, которые не нуждаются в донорском плаче. Эти модели способны распознавать текстовые метки эмоций. Мошенник может ввести такие команды, как «плач, истерика, шёпот», и ИИ попытается реализовать задачу, опираясь на имеющиеся обучающие данные», — пояснил Маркелов.
Однако, добавил он, есть один нюанс: чем более экстремальна эмоция, тем выше вероятность, что голос окажется «пластиковым» или с артефактами. По этой причине профессионалы в сфере мошенничества предпочитают обращаться к голосу жертвы, чтобы получить более высокое качество, добавил специалист.
«При сомнительном звонке в идеале следует попросить назвать «стоп-фразу» — заранее согласованное слово, известное только обоим собеседникам. Также рекомендуется перезвонить на проверенный номер», — посоветовал он.
Ранее IT-эксперт Владимир Зыков рассказал о доменах, которые чаще всего используются мошенниками.