科技|耳机内置镜头结合AI 语音 变身“即时解说员”准确度八成以上

加拿大都市网

[星岛综合报道]随着人工智能与穿戴式装置不断融合,研究人员正尝试将“视觉理解”功能引入日常配件。一款名为 VueBuds 的实验性AI耳机,近日于学术会议上亮相,其最大特点是在耳机内加入微型镜头,配合语音AI模型,让用户可以透过语音即时了解眼前事物,为视障人士及日常应用带来新想像,同时亦引发私隐关注。

VueBuds由University of Washington研究团队开发,现阶段原型基于Sony WF-1000XM3改装,在耳机内嵌入米粒大小的黑白镜头。装置配合视觉语言模型(VLM),用户只需开口提问,例如询问路牌意思或辨识物件,系统即可即时分析画面并以语音回应。

研究人员形容,这类应用类似“语音版反向图片搜寻”,可提供描述、解释及翻译功能。例如在示范中,用户对着厨房环境提问,AI能在约一秒内描述场景;面对唱片封面,亦可准确说出专辑名称。

为解决耳机体积与电力限制,VueBuds采用低解析度黑白镜头,每个镜头耗电少于5毫瓦,并会自动间歇启动以节省电量。系统透过双镜头模拟人类双眼的立体视觉,将两侧影像整合分析。

根据研究测试,在物件辨识及翻译任务中,准确率约为83%;在书名及作者识别方面则达93%。研究人员指出,其回应质素已接近市面同类AI穿戴装置水平。

团队强调,将镜头置于耳机而非眼镜,是考虑到用户接受度及私隐问题。过去智能眼镜产品因外观及偷拍疑虑备受批评,而耳机作为普及配件,较不易引起反感。

此外,VueBuds只拍摄低解析度静态影像,而非高画质影片,并减少云端传输,理论上可降低个人数据外泄风险。

不过,现阶段技术仍有不足。由于采用黑白镜头,系统无法回答涉及颜色的问题;而在导航或复杂场景理解方面,亦受限于影像质素及运算能力。此外,电池亦未能支持长时间连续影像处理。

尽管设计强调低调与节能,但外界关注,耳机镜头难以被旁人察觉,若结合人脸识别等技术,或带来监控风险。研究团队亦承认,目前仅有基本提示灯提示装置运作,未必足以释除公众疑虑。

图片:Kim et al./CHI ‘26

T10

share to wechat

延伸阅读

延伸阅读

光州刺杀女高中生疑犯身分公开 送检没闪缩凝视记者团10秒

以色列称内塔尼亚胡战事期间秘访阿联酋 阿外交部否认说法

习特会︱习近平再提“修昔底德陷阱” 古希腊史学家为何指大国崛起必走向战争

保温杯未坏都要换?日本大厂教2大检查指标 忌用1种清洁剂清洗