图说:“书生”(INTERN)技术体系可以让AI模型处理多样化的视觉任务 来源/采访对象供图(下同)
新民晚报讯(记者 郜阳)今天,上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学共同发布新一代通用视觉技术体系“书生”(INTERN),旨在系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。据悉,基于“书生”的通用视觉开源平台OpenGVLab也将在明年年初正式开源,向学术界和产业界公开预训练模型及其使用范式、数据系统和评测基准等。
“书生”由七大模块组成,包括通用视觉数据系统、通用视觉网络结构、通用视觉评测基准三个基础设施模块,以及区分上下游的四个训练阶段模块。作为中国古代读书人的经典形象,“书生”代表着一个通过不断学习、不断成长进而拥有各方面才能的人格化角色:从基础的知识技能学习开始,到对多种专业知识触类旁通,进而成长为拥有通用知识的通才。将全新的通用视觉技术体系命名为“书生”,意在体现它如同书生一般的特质,可通过持续学习,举一反三,逐步实现通用视觉领域的融会贯通,最终实现灵活高效的模型部署。
据介绍,任务通用和数据学习效率是制约当前人工智能发展的核心瓶颈问题。根据相关技术报告,一个“书生”基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。在ImageNet等26个最具代表性的下游场景中,书生模型广泛展现了极强的通用性,显著提升了这些视觉场景中长尾小样本设定下的性能。
相较于当前最强开源模型(OpenAI 于2021年发布的CLIP),“书生”在准确率和数据使用效率上均取得大幅提升。具体而言,基于同样的下游场景数据,“书生”在分类、目标检测、语义分割及深度估计四大任务26个数据集上的平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。“书生”在数据效率方面的提升尤为令人瞩目:只需要1/10的下游数据,就能超过CLIP基于完整下游数据的准确度,例如在花卉种类识别任务上,每一类只需两个训练样本,就能实现99.7%的准确率。
图说:“书生”在分类、目标检测、语义分割、深度估计四大任务上的表现
随着人工智能赋能产业的不断深入,人工智能系统正在从完成单一任务向复杂的多任务协同演进,其覆盖的场景也越来越多样化。在自动驾驶、智能制造、智慧城市等众多的长尾场景中,数据获取通常困难且昂贵,研发通用人工智能模型,对于降低数据依赖尤为重要。而突破“工业应用红线”的模型,需满足同时完成多任务、覆盖大量长尾场景,且基于下游小样本数据进行再训练等要求。上海人工智能实验室、商汤科技、港中文以及上海交大联合推出的“书生”通用视觉技术体系,体现了产学研合作在通用视觉领域的全新探索,为走向通用人工智能迈出坚实一步。借助“书生”通用视觉技术体系,业界可凭借极低的下游数据采集成本,快速验证多个新场景,对于解锁实现人工智能长尾应用具有重要意义。
“当前发展通用视觉的核心,是提升模型的通用泛化能力和学习过程中的数据效率。面向未来,‘书生’通用视觉技术将实现以一个模型完成成百上千种任务,体系化解决人工智能发展中数据、泛化、认知和安全等诸多瓶颈问题。”上海人工智能实验室主任助理乔宇表示。
商汤科技研究院院长王晓刚说:“‘书生’通用视觉技术体系是商汤在通用智能技术发展趋势下前瞻性布局的一次尝试,也是商汤AI大装置背景下的一次新技术路径探索。‘书生’承载了让人工智能参与处理多种复杂任务、适用多种场景和模态、有效进行小数据和非监督学习并最终具备接近人的通用视觉智能的期盼。希望这套技术体系能够帮助业界更好地探索和应用通用视觉AI技术,促进AI规模化落地。”