Чтение мыслей человека посредством расшифровки его мозговой активности кажется чем-то фантастическим, но теперь это стало на шаг ближе к реальности.
Новая методика «ментальных субтитров» генерирует описания того, что человек видит или представляет, основываясь на его мозговой активности, и делает это с впечатляющей точностью.
Ключевое отличие технологии, описанной в журнале Science Advances, от аналогов, состоит в том, что она расшифровывает образы до того, как мозг облечет мысли в слова. И, возможно, разработка сможет помочь людям с нарушениями речи, например, вызванными инсультом, улучшить их коммуникацию.
Модель предсказывает, на что смотрит человек, «с подробной детализацией», говорит вычислительный нейробиолог Алекс Хут из Калифорнийского университета в Беркли: «Это сложная задача. Удивительно, что можно получить так много деталей».
Сканирование и предсказание
Исследователи уже более десяти лет могут достаточно точно предсказывать, что человек видит или слышит, анализируя его мозговую активность. Однако расшифровка интерпретации мозгом сложного контента, такого как короткие видео или абстрактные формы, оказалась более трудной задачей.
Предыдущие попытки позволяли идентифицировать лишь ключевые слова, описывающие то, что видел человек, а не полный контекст, который мог бы включать тему видео и запечатленные в нем действия, поясняет вычислительный нейробиолог Томоясу Хорикава из лабораторий NTT Communication Science в Канагаве, Япония. Другие попытки использовали модели искусственного интеллекта, которые сами составляют структуру предложения, что затрудняет понимание, было ли это описание действительно представлено в мозгу, добавляет он.
В методе Хорикавы глубокая языковая модель ИИ для анализа текстовых описаний более чем 2000 видео превратила каждое из них в уникальную числовую «смысловую сигнатуру». Отдельный инструмент ИИ обучили на сканах мозга шести участников находить шаблоны мозговой активности, соответствующие каждой смысловой сигнатуре, когда испытуемые смотрели видео.
После обучения этот декодер смог считывать новый скан мозга человека, смотрящего видео, и предсказывать смысловую сигнатуру. Соответствующий ей нарратив искал другой генератор текста на ИИ.
Например, участник смотрел короткое видео, на котором человек прыгает с вершины водопада. Используя его мозговую активность, модель ИИ угадывала цепочки слов, начиная с «весенний поток», переходя к «над стремительно льющимся водопадом» на десятой попытке и вплоть до «человек прыгает через глубокий водопад на горном хребте» на сотой итерации.
Исследователи также попросили участников вспомнить видеоролики, которые они смотрели. Модели ИИ успешно сгенерировали описания этих воспоминаний, продемонстрировав, что мозг, по-видимому, использует схожее представление как для просмотра, так и для воспоминания.
Взгляд в будущее
Эта методика, использующая неинвазивную функциональную магнитно-резонансную томографию, поможет усовершенствовать процесс перевода мыслей в текст с помощью имплантированных интерфейсов «мозг-компьютер».
«Если мы сможем сделать это с помощью таких искусственных систем, возможно, у нас получится помочь людям с трудностями в общении», — надеется Хут, который в 2023 году со своими коллегами разработал похожую модель, расшифровывающую язык из неинвазивных записей мозга.
Эти открытия вызывают опасения по поводу конфиденциальности, поскольку исследователи все ближе подходят к раскрытию интимных мыслей, эмоций и состояний здоровья, которые теоретически могут быть использованы для слежки, манипуляций или дискриминации, признает Хут. Но ни его разработка, ни детище Хорикавы не переходят черту, потому что эти методы требуют согласия участников, и модели не могут распознать личные мысли. «Пока никто не показал, что такое возможно», — заверил нейробиолог.