华中科大发布多模态大模型“Monkey”，团队称“看图说话”能力突出

第一财经•2023-12-11 16:39:00 听新闻

作者：周芳责编：刘展超

近日，华中科技大学软件学院白翔教授领衔的VLRLab团队发布并开源了一个高性能多模态大模型“Monkey”。该模型通过提高输入分辨率和引入多级描述生成方法，解决了现有模型在复杂场景和视觉细节处理方面的挑战。

多模态大模型是一类可以同时处理和整合多种感知数据（例如文本、图像、音频等）的AI架构，近年来在众多场景中展现了卓越的能力。

VLRLab团队介绍，Monkey模型在18个数据集上的实验中表现出色，特别是在图像描述和视觉问答任务方面，超越了众多现有知名模型。

VLRLab团队称，Monkey模型的一个显著特点是“看图说话”能力比较突出。在详细描述任务中，Monkey模型展现了对图像细节的感知能力，能够察觉到其他多模态大模型所忽略的内容。

这是因为在模型选择上，Monkey模型采用了开源模型Qwen-VL作为语言解码器，以及20亿参数的ViT-BigHuge作为视觉编码器，在避免重复预训练、资源浪费的同时，又利用现有工具构建了一种多层级的描述生成方法，即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结，从而打出一套威力十足的“组合拳”，大幅提升了描述的准确性和丰富程度。

“一个个工具就好比不同的零件，合理的排列组合才能使其发挥最大作用，”VLRLab团队负责人、华中科技大学软件学院教授白翔对第一财经记者说，“我们团队从2003年便开始从事图像识别研究，Monkey的最终方案是经10余种方案尝试后才最终确定的”。

记者注意到，Monkey模型还能够处理分辨率达到1344×896像素的图像，这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey模型能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。

VLRLab团队成员刘禹良介绍，目前业内能处理的图片最大分辨率为448×448像素，想要进一步提升处理能力，需投入十分高昂的算力成本。为了以更低成本扩大输入分辨率，VLRLab团队采用了创新性的“裁剪”方法，将原始输入图片分割成多个块，每块尺寸小于448×448像素，并为每个块配备了一个“放大镜”，放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作，分别“放大”不同的图片块，从而提取更多局部特征。

白翔表示，Monkey模型在医学影像、卫星图像等领域具有广泛的应用空间，团队将继续优化Monkey 模型的感知、联想、推理和泛化能力，希望Monkey能成长为神通广大的“孙悟空”。

文章作者

周芳

第一财经广告合作，请点击这里
此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。
如需获得授权请联系第一财经版权部：
banquan@yicai.com

华中科大发布多模态大模型“Monkey”，团队称“看图说话”能力突出

第一财经•2023-12-11 16:39:00 听新闻

作者：周芳责编：刘展超

免责声明

相关阅读

{{it.Tags}}{{it.NewsTitle}}

{{it.Signatures[0].SignatureName}}

{{ it.NewsTitle }}

一财最热

{{it.Tags}}{{it.NewsTitle}}

{{it.Signatures[0].SignatureName}}

{{ it.NewsTitle }}

华中科大发布多模态大模型“Monkey”，团队称“看图说话”能力突出

第一财经•2023-12-11 16:39:00 听新闻

作者：周芳 责编：刘展超

免责声明

相关阅读

{{it.Tags}}{{it.NewsTitle}}

{{it.Signatures[0].SignatureName}}

{{ it.NewsTitle }}

一财最热

{{it.Tags}}{{it.NewsTitle}}

{{it.Signatures[0].SignatureName}}

{{ it.NewsTitle }}

作者：周芳责编：刘展超