华中科大发布多模态大模型“Monkey”,团队称“看图说话”能力突出
近日,华中科技大学软件学院白翔教授领衔的VLRLab团队发布并开源了一个高性能多模态大模型“Monkey”。该模型通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。

多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构,近年来在众多场景中展现了卓越的能力。
VLRLab团队介绍,Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名模型。
VLRLab团队称,Monkey模型的一个显著特点是“看图说话”能力比较突出。在详细描述任务中,Monkey模型展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。
这是因为在模型选择上,Monkey模型采用了开源模型Qwen-VL作为语言解码器,以及20亿参数的ViT-BigHuge作为视觉编码器,在避免重复预训练、资源浪费的同时,又利用现有工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,从而打出一套威力十足的“组合拳”,大幅提升了描述的准确性和丰富程度。
“一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”VLRLab团队负责人、华中科技大学软件学院教授白翔对第一财经记者说,“我们团队从2003年便开始从事图像识别研究,Monkey的最终方案是经10余种方案尝试后才最终确定的”。
记者注意到,Monkey模型还能够处理分辨率达到1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey模型能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。
VLRLab团队成员刘禹良介绍,目前业内能处理的图片最大分辨率为448×448像素,想要进一步提升处理能力,需投入十分高昂的算力成本。为了以更低成本扩大输入分辨率,VLRLab团队采用了创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备了一个“放大镜”,放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,从而提取更多局部特征。
白翔表示,Monkey模型在医学影像、卫星图像等领域具有广泛的应用空间,团队将继续优化Monkey 模型的感知、联想、推理和泛化能力,希望Monkey能成长为神通广大的“孙悟空”。
游戏牵手鸿蒙生态 多股大涨 未来或将实现双向赋能
游族网络涨停,恺英网络、姚记科技涨超7%,神州泰岳涨超5%,三七互娱、盛天网络涨超4%,掌阅科技、冰川网络等股跟涨。今日A股游戏股迎来大涨,游族网络涨停,恺英网络、姚记科技涨超7%,神州泰岳涨超5%,三七互娱、盛天网络涨超4%,掌阅科技、冰川网络等股跟涨。0000曾经的石油出口国每况愈下,苏丹局势何以至此?
苏丹曾是非洲面积最大的国家,但独立后长年陷于内战。苏丹首都喀土穆,战机从天空呼啸而过,爆炸后燃起的黑烟,在城市各处飘散。虽然近几十年苏丹内战不断,但喀土穆一直相对太平,从来没有见过如此景象的首都居民,吓得躲在家中,断然不敢外出。锤子财富2023-04-17 22:55:420000东莞取消首套房贷利率下限,会有城市跟随吗?
有专家认为,即便取消利率下限,但也不可能降至与公积金贷款利率相当的水平。1月1日晚,东莞市住建局通过官方平台“莞e认购”宣布,即日起将阶段性取消首套住房商业性个人住房贷款利率下限,具体的房贷利率由各商业银行根据市场化、法制化原则自主确定。这也意味着,东莞新发放的首套房贷利率将突破下限LPR-20BP的限制。据了解,此前,东莞大部分银行首套房贷利率下限为LPR-20BP,即4.0%。0000人民币国际化受限于资本项目不可兑换?黄奇帆:资本项下自由兑换绝不是现在要推进的事
自由兑换是人民币国际化的一个标志,但不是要用一个标志推动人民币国际化。“我们不去挑战美元,但我们应有一般的世界强国该有的货币地位。”12月22日,中国国家创新与发展战略研究会学术委员会常务副主席、重庆市原市长黄奇帆在“启航·2023金融强国论坛”中指出。锤子财富2023-12-22 16:19:020000