[星岛综合报道]随着人工智能与穿戴式装置不断融合,研究人员正尝试将“视觉理解”功能引入日常配件。一款名为 VueBuds 的实验性AI耳机,近日于学术会议上亮相,其最大特点是在耳机内加入微型镜头,配合语音AI模型,让用户可以透过语音即时了解眼前事物,为视障人士及日常应用带来新想像,同时亦引发私隐关注。
VueBuds由University of Washington研究团队开发,现阶段原型基于Sony WF-1000XM3改装,在耳机内嵌入米粒大小的黑白镜头。装置配合视觉语言模型(VLM),用户只需开口提问,例如询问路牌意思或辨识物件,系统即可即时分析画面并以语音回应。
研究人员形容,这类应用类似“语音版反向图片搜寻”,可提供描述、解释及翻译功能。例如在示范中,用户对着厨房环境提问,AI能在约一秒内描述场景;面对唱片封面,亦可准确说出专辑名称。
为解决耳机体积与电力限制,VueBuds采用低解析度黑白镜头,每个镜头耗电少于5毫瓦,并会自动间歇启动以节省电量。系统透过双镜头模拟人类双眼的立体视觉,将两侧影像整合分析。
根据研究测试,在物件辨识及翻译任务中,准确率约为83%;在书名及作者识别方面则达93%。研究人员指出,其回应质素已接近市面同类AI穿戴装置水平。
团队强调,将镜头置于耳机而非眼镜,是考虑到用户接受度及私隐问题。过去智能眼镜产品因外观及偷拍疑虑备受批评,而耳机作为普及配件,较不易引起反感。
此外,VueBuds只拍摄低解析度静态影像,而非高画质影片,并减少云端传输,理论上可降低个人数据外泄风险。
不过,现阶段技术仍有不足。由于采用黑白镜头,系统无法回答涉及颜色的问题;而在导航或复杂场景理解方面,亦受限于影像质素及运算能力。此外,电池亦未能支持长时间连续影像处理。
尽管设计强调低调与节能,但外界关注,耳机镜头难以被旁人察觉,若结合人脸识别等技术,或带来监控风险。研究团队亦承认,目前仅有基本提示灯提示装置运作,未必足以释除公众疑虑。
图片:Kim et al./CHI ‘26
T10
