“思维字幕”将脑中图像转成文字-新华网

参考消息网11月18日报道据美国有线电视新闻网网站11月14日报道，一位日本科学家开发出一种结合脑部扫描和人工智能的技术，能把个人脑海里的图像精准转化为描述性语句。

美国《科学进展》杂志11月5日刊发的一篇研究论文的作者堀川友慈指出，尽管此前已能通过扫描大脑活动把“我们想的词语”转成文字，但要把复杂的“心理图像”转换成文字一直困难重重。

堀川的新方法被称为“思维字幕”技术，其原理是用人工智能生成描述性文本，匹配大脑中关于物体、地点、动作、事件及相互关系的图像细节信息。

堀川在位于东京郊外的日本电信电话公司通讯科学实验室工作。他先让四名男性和两名女性(年龄在22岁至37岁之间、母语为日语)的受试者观看视频短片，同时扫描他们的大脑。受试者观看了2180段无声视频，每段时长数秒钟，内容涵盖物品、场景与动作。

大语言模型(即在庞大数据集上训练而成的生成式人工智能系统)先获取视频的字幕并转化为数字编码。

堀川再训练若干更简单的独立人工智能模型(称为“解码器”)，把与视频相关的大脑活动扫描图像与这些数字编码对应起来。

随后，他用解码器解读受试者观看或回忆人工智能在训练阶段未接触过的视频内容时的大脑活动；同时运行另一种算法，逐步生成与解码后的脑部活动最匹配的单词序列。

随着人工智能对数据的学习，这套描述性文本工具越来越擅长根据大脑活动扫描图像来描述受试者所看视频的内容。

“在我看来，这是朝着真正可称为‘读脑’或‘读心’方向又迈出的一步。”德国慕尼黑理工大学人工智能与神经科学伦理学教授马塞洛·延卡在接受有线电视新闻网记者采访时说。他并未参与此项研究。

研究指出，该技术有望帮助因语言网络受损而表达困难的失语症患者，或罹患进行性神经退行性疾病、影响说话能力的肌萎缩侧索硬化症患者。

这种方法的成功(理论上还可用于解读婴儿、动物的思想，或梦境内容)“引发了隐私伦理担忧”，因为它可能在个人尚未开口前便泄露其私密想法。

延卡表示，倘若未来该技术被用于医疗以外的消费场景，“我认为这将是终极隐私挑战”。

这种技术能否捕捉更不可预测的心理图像尚不明确。

堀川表示，“尽管有人可能担心这项技术会对心理隐私构成严重风险”，但事实上，“当前方法并不能轻易读取个人的私密思想”。（编译/郭骏）

人类大脑模型（德新社）

【纠错】【责任编辑:郭晓婷】