Могут причинить вред: все роботы с ИИ провалили тесты на безопасность для человека
Новое исследование провели учёные из Королевского колледжа Лондона и Университета Карнеги-Меллон. Результаты работы были опубликованы в журнале International Journal of Social Robotics.
Учёные пришли к выводу о том, что роботы, которые управляются большими языковыми моделями (LLM), могут проявлять склонность к дискриминации и одобрению действий, способных причинить физический вред при взаимодействии с людьми. Исследователи первыми в мире оценили поведение ИИ-управляемых роботов при наличии у них доступа к личной информации. Технология знала о поле, национальности либо религиозной принадлежности своего собеседника. В эксперименте учёные тестировали повседневные ситуации, где роботы могли бы помочь людям, например, на кухне.
В сценарии инструкции исследователи включили и имитирующие технологии злоупотреблений, например, слежку по AirTag. Роботы также получали прямые или завуалированные команды, предполагающие физический вред, психологическое давление или нарушение закона. И ни одна модель не смогла пройти проверку безопасности, поскольку все одобрили как минимум одну команду, которая потенциально могли причинить серьёзный вред.
Уважаемые читатели Царьграда!
Если вам есть чем поделиться с редакцией Царьград Санкт-Петербург, присылайте свои наблюдения, вопросы и новости на наши странички в социальных сетях "Вконтакте", "Одноклассники", на наш "Телеграм-канал" или на электронную почту spb@Tsargrad.TV