华中科大发布多模态大模型“Monkey”,团队称“看图说话”能力突出
近日,华中科技大学软件学院白翔教授领衔的VLRLab团队发布并开源了一个高性能多模态大模型“Monkey”。该模型通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。
多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构,近年来在众多场景中展现了卓越的能力。
VLRLab团队介绍,Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名模型。
VLRLab团队称,Monkey模型的一个显著特点是“看图说话”能力比较突出。在详细描述任务中,Monkey模型展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。
这是因为在模型选择上,Monkey模型采用了开源模型Qwen-VL作为语言解码器,以及20亿参数的ViT-BigHuge作为视觉编码器,在避免重复预训练、资源浪费的同时,又利用现有工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,从而打出一套威力十足的“组合拳”,大幅提升了描述的准确性和丰富程度。
“一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”VLRLab团队负责人、华中科技大学软件学院教授白翔对第一财经记者说,“我们团队从2003年便开始从事图像识别研究,Monkey的最终方案是经10余种方案尝试后才最终确定的”。
记者注意到,Monkey模型还能够处理分辨率达到1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey模型能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。
VLRLab团队成员刘禹良介绍,目前业内能处理的图片最大分辨率为448×448像素,想要进一步提升处理能力,需投入十分高昂的算力成本。为了以更低成本扩大输入分辨率,VLRLab团队采用了创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备了一个“放大镜”,放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,从而提取更多局部特征。
白翔表示,Monkey模型在医学影像、卫星图像等领域具有广泛的应用空间,团队将继续优化Monkey 模型的感知、联想、推理和泛化能力,希望Monkey能成长为神通广大的“孙悟空”。
商务部部长王文涛会见意大利副总理兼外交部长塔亚尼
王文涛表示,中国正在全面推进中国式现代化,实施高水平对外开放,将为包括意大利在内的各国企业提供新的发展机遇。9月4日,商务部部长王文涛在京会见意大利副总理兼外交部长塔亚尼,双方就深化中意经贸合作等议题进行了友好高效务实交流。0000全方位推动碳中和,恒隆地产以开明、永续之姿推动可持续发展
恒隆还在着力探索循环再利用和回收再造的可能。为了更有效地实现减碳目标,恒隆宣布成为中国内地及香港首家加入SteelZero倡议的地产公司。SteelZero是一个由气候组织(ClimateGroup)和ResponsibleSteel合作推出的全球化倡议,旨在通过需求侧推动整个钢铁价值链向净零碳钢转型。0000赚钱效应不佳基民“神伤”,权益类基金该如何重获信任
权益基金“黯然失色”该如何是好?5月以来,A股市场处在震荡调整阶段。上证指数虽一度冲破3400点,创一年多来新高,但随后又快速回落,失守3200点整数关口。创业板指表现更为羸弱,连续刷新年内低点。在此背景下,与A股市场联系紧密的权益类基金,尤其是主动权益类产品自然也难逃大幅回撤。锤子财富2023-06-07 21:59:090002大众汽车奥博穆:与小鹏、上汽合作是2030战略组成部分,旨在强化中国电动车市场表现
今年上半年营业利润为113亿欧元,同比下降14%。北京时间7月27日下午,大众汽车召开2023年上半年度财报会议。大众汽车首席执行官奥博穆在会议上对大众汽车集团入股小鹏汽车、大众汽车品牌与小鹏汽车合作开发电动车进行了回应。0000我国水产种源存在“卡脖子”风险,业内:重大品种仍依赖国外引种
我国缺乏自主可控的重大品种,大西洋鲑、凡纳滨对虾和大菱鲆等重大品种仍依赖于国外引种。“现代渔业要以科技创新为引领,聚焦关键核心;要以市场需求为导向,促进产业升级;要以品牌建设为抓手,提升发展实力。”5月12日,在第六届渔博会上,国务院参事、农业农村部原副部长于康震提出了上述对于“现代渔业”的观点。0000