▲图源Arxiv
该工具基于How2Sign数据集,这是一个公开可用的大规模、多模态和多视图数据集,包括80小时的美国手语教学视频和相应的英语文字记录。该数据集由BSC和UPC发布,用于训练模型,以便将手语转换为文本。研究人员使用膨胀式三维网络(I3D)对数据进行预处理,这是一种视频提取方法,可以对视频进行三维过滤,直接从视频中获取时空信息。并使用了一个转化器式的机器学习模型,与ChatGPT等其他人工智能工具背后的模型类似。
该研究的主要作者Laia Tarrés表示:“我们开发的新工具是以前发布的名为How2Sign的出版物的延伸,在那里,训练模型所需的数据被公布。利用这些已经可用的数据,我们开发了一个新的开源软件,能够学习视频和文本之间的映射。”
研究人员发现,他们的模型能够产生有意义的翻译,但仍存在改进的空间。该工具尚处于实验阶段,研究人员将继续努力,以创建一个能够与无听力损失者使用的技术相媲美的工具。
Laia Tarrés同时表示:“这个自动手语翻译的开放工具是对关注无障碍环境的科学界的宝贵贡献,它的发表代表了向为所有人创造更具包容性和无障碍的技术迈出的重要一步。”