华中科大发布多模态大模型“Monkey”,团队称“看图说话”能力突出
近日,华中科技大学软件学院白翔教授领衔的VLRLab团队发布并开源了一个高性能多模态大模型“Monkey”。该模型通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。

多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构,近年来在众多场景中展现了卓越的能力。
VLRLab团队介绍,Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名模型。
VLRLab团队称,Monkey模型的一个显著特点是“看图说话”能力比较突出。在详细描述任务中,Monkey模型展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。
这是因为在模型选择上,Monkey模型采用了开源模型Qwen-VL作为语言解码器,以及20亿参数的ViT-BigHuge作为视觉编码器,在避免重复预训练、资源浪费的同时,又利用现有工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,从而打出一套威力十足的“组合拳”,大幅提升了描述的准确性和丰富程度。
“一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”VLRLab团队负责人、华中科技大学软件学院教授白翔对第一财经记者说,“我们团队从2003年便开始从事图像识别研究,Monkey的最终方案是经10余种方案尝试后才最终确定的”。
记者注意到,Monkey模型还能够处理分辨率达到1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey模型能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。
VLRLab团队成员刘禹良介绍,目前业内能处理的图片最大分辨率为448×448像素,想要进一步提升处理能力,需投入十分高昂的算力成本。为了以更低成本扩大输入分辨率,VLRLab团队采用了创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备了一个“放大镜”,放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,从而提取更多局部特征。
白翔表示,Monkey模型在医学影像、卫星图像等领域具有广泛的应用空间,团队将继续优化Monkey 模型的感知、联想、推理和泛化能力,希望Monkey能成长为神通广大的“孙悟空”。
李强主持召开专家、企业家和教科文卫体等领域代表座谈会
李强指出,要更好发挥宏观调控作用,切实巩固和增强经济回升向好态势。要坚持深化改革扩大开放,不断增强发展的动力活力。中共中央政治局常委、国务院总理李强1月23日下午主持召开专家、企业家和教科文卫体等领域代表座谈会,听取对《政府工作报告(征求意见稿)》的意见建议。中共中央政治局常委、国务院副总理丁薛祥出席。0000新冠病毒活动处今年最低水平,呼吸道反复感染、咳嗽症状持续怎么办
当前急性呼吸道疾病呈现以流感病毒为主,其他多种病原体共同流行的态势,新冠病毒活动处于今年以来的最低水平。当前,全国多地迎来降温寒潮天气,各类呼吸道疾病处于高发期,多种呼吸道病毒共同流行,疾病防控任务艰巨。但来自国家卫健委的数据显示,近一周来,急诊呼吸道疾病较高峰期有了明显下降。国家卫生健康委在12月24日召开的新闻发布会上称,全国医疗机构门、急诊呼吸道疾病诊疗量总体继续呈波动下降趋势。0000新家电下乡,苏宁易购如何讲好新故事?
此前商务部公布的数据显示,2023年1-5月,家电以旧换新和绿色智能家电下乡销售额同比分别增长83.7%和12.6%,家电消费在下沉市场表现出相对强劲的增长潜力在这个增长数字的背后,新一轮“家电下乡”的热潮正在不断升腾。无论是乡村不断积累的消费势能,还是国家政策对乡村家电消费“升温”的助力,都让家电行业找到了更多的增量可能。如何抓住乡村用户、撬动乡村消费?正在成为家电从业者们的新机遇和新挑战。锤子财富2024-01-09 11:25:320000见证进博会“大国浓香”风采,海纳百川诠释“和美”五粮液
中国国际进口博览会(下称“进博会”)不仅仅是全球客商汇聚的盛会,也同样是展示中国风貌的一扇窗口。11月5日,以“新时代,共享未来”为主题的第七届进博会在上海开幕,作为中国白酒典型代表、进博会“核心支持企业”和虹桥国际经济论坛“钻石会员”,五粮液已连续7年在进博会上大放异彩。锤子财富2024-11-16 14:50:560000