华中科技大学开源多模态大模型“Monkey”，看图说话能力号称超越微软谷歌

日期：2023-12-15 来源：IT之家评论：0

标签： 大模型

　　据华中科技大学消息，近日，华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”，对图片进行深入的问答交流和精确描述。

▲图源Monkey项目的GitHub页面

　　IT之家注：多模态大模型是一类可以同时处理和整合多种感知数据（例如文本、图像、音频等）的AI架构。

　　据介绍，Monkey模型在18个数据集上的实验中表现出色，特别是在图像描述和视觉问答任务方面，超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、阿里的Mplug-owl等。此外，Monkey在文本密集的问答任务中显示出“显著的优势”，甚至在某些样本上超越了业界公认的领先者——OpenAI的多模态大模型GPT-4V。

　　Monkey的一个显著特点是“看图说话”能力。在详细描述任务中，Monkey展现了对图像细节的感知能力，能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中，Monkey正确地将其识别为埃菲尔铁塔的绘画，并提供了构图和配色方案的详细描述。而对左下角的文字，只有Monkey和GPT-4V能将其准确地识别为作者名。

　　Monkey号称能够利用现有的工具构建一种多层级的描述生成方法，即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结，此举可以充分结合不同工具的特性，提升描述的准确性和丰富程度。

　　“一个个工具就好比不同的零件，合理的排列组合才能使其发挥最大作用，”白翔教授说，“我们团队从2003年开始便从事图像识别研究，去年我们又从海外引进了专攻多模态大模型的青年Kaiyun官方网站app登录，Monkey的最终方案是大家一起反复讨论，尝试了10余种方案后最终确定的。”白翔教授说。

　　Monkey的另一亮点是能够处理分辨率最高1344×896像素的图像，这是目前其他多模态大模型所能处理的最大尺寸的6倍，这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。

　　Monkey多模态大模型代码目前已在GitHub开源。

声明：凡开云电子链接来源注明为其他媒体来源的信息，均为转载自其他媒体，并不代表本网站赞同其观点，也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑，请立即与开云客户(www.www.wykobounce.com)联系，本网站将迅速给您回应并做处理。
电话：021-39553798-8007

更多> 相关开云电子链接

0条 相关评论

推荐图文

加州大学科学家发明了	深圳又一制造业总部基
水下机器人在渔业中的	哈工程水下机器人再夺
里程碑！荆州市首台机	超维科技精彩亮相电力

推荐开云电子链接

点击排行

• 南京农业大学研发全国首个古籍 AI 大模型“荀子	• 多模态大模型落地机器人行业国内多家企业实现
• 美图推出移动端 AI 生图工具 WHEE，基于 Miracl	• 继支持 ChatGPT 之后，经典手机游戏“汤姆猫”
• “技术升级+一站构建”助大模型降本增效	• 中关村西区人工智能产业园“中关村人工智能大模
• 深圳广州新增人工智能企业数量居前广州已发布9	• 科大讯飞携AI大模型创新成果亮相首届链博会
• 《北京市人工智能行业大模型创新应用白皮书（20	• 北京AI大模型数量全国居首

恰佩克奖	机器人高峰论坛	机气林	ITES深圳工业展	机器人研究院	库卡机器人	中国传动网
索比光伏网	数控机床市场网	国家标准化委员会