科技|耳机内置镜头结合AI 语音变身“即时解说员”准确度八成以上

加拿大都市网

2026年4月22日 13:00

[星岛综合报道]随着人工智能与穿戴式装置不断融合，研究人员正尝试将“视觉理解”功能引入日常配件。一款名为 VueBuds 的实验性AI耳机，近日于学术会议上亮相，其最大特点是在耳机内加入微型镜头，配合语音AI模型，让用户可以透过语音即时了解眼前事物，为视障人士及日常应用带来新想像，同时亦引发私隐关注。

VueBuds由University of Washington研究团队开发，现阶段原型基于Sony WF-1000XM3改装，在耳机内嵌入米粒大小的黑白镜头。装置配合视觉语言模型（VLM），用户只需开口提问，例如询问路牌意思或辨识物件，系统即可即时分析画面并以语音回应。

研究人员形容，这类应用类似“语音版反向图片搜寻”，可提供描述、解释及翻译功能。例如在示范中，用户对着厨房环境提问，AI能在约一秒内描述场景；面对唱片封面，亦可准确说出专辑名称。

为解决耳机体积与电力限制，VueBuds采用低解析度黑白镜头，每个镜头耗电少于5毫瓦，并会自动间歇启动以节省电量。系统透过双镜头模拟人类双眼的立体视觉，将两侧影像整合分析。

根据研究测试，在物件辨识及翻译任务中，准确率约为83%；在书名及作者识别方面则达93%。研究人员指出，其回应质素已接近市面同类AI穿戴装置水平。

团队强调，将镜头置于耳机而非眼镜，是考虑到用户接受度及私隐问题。过去智能眼镜产品因外观及偷拍疑虑备受批评，而耳机作为普及配件，较不易引起反感。

此外，VueBuds只拍摄低解析度静态影像，而非高画质影片，并减少云端传输，理论上可降低个人数据外泄风险。

不过，现阶段技术仍有不足。由于采用黑白镜头，系统无法回答涉及颜色的问题；而在导航或复杂场景理解方面，亦受限于影像质素及运算能力。此外，电池亦未能支持长时间连续影像处理。

尽管设计强调低调与节能，但外界关注，耳机镜头难以被旁人察觉，若结合人脸识别等技术，或带来监控风险。研究团队亦承认，目前仅有基本提示灯提示装置运作，未必足以释除公众疑虑。

图片：Kim et al./CHI ‘26

T10