华中科大发布多模态大模型“Monkey”,团队称“看图说话”能力突出
近日,华中科技大学软件学院白翔教授领衔的VLRLab团队发布并开源了一个高性能多模态大模型“Monkey”。该模型通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。
多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构,近年来在众多场景中展现了卓越的能力。
VLRLab团队介绍,Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名模型。
VLRLab团队称,Monkey模型的一个显著特点是“看图说话”能力比较突出。在详细描述任务中,Monkey模型展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。
这是因为在模型选择上,Monkey模型采用了开源模型Qwen-VL作为语言解码器,以及20亿参数的ViT-BigHuge作为视觉编码器,在避免重复预训练、资源浪费的同时,又利用现有工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,从而打出一套威力十足的“组合拳”,大幅提升了描述的准确性和丰富程度。
“一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”VLRLab团队负责人、华中科技大学软件学院教授白翔对第一财经记者说,“我们团队从2003年便开始从事图像识别研究,Monkey的最终方案是经10余种方案尝试后才最终确定的”。
记者注意到,Monkey模型还能够处理分辨率达到1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey模型能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。
VLRLab团队成员刘禹良介绍,目前业内能处理的图片最大分辨率为448×448像素,想要进一步提升处理能力,需投入十分高昂的算力成本。为了以更低成本扩大输入分辨率,VLRLab团队采用了创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备了一个“放大镜”,放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,从而提取更多局部特征。
白翔表示,Monkey模型在医学影像、卫星图像等领域具有广泛的应用空间,团队将继续优化Monkey 模型的感知、联想、推理和泛化能力,希望Monkey能成长为神通广大的“孙悟空”。
银行间债券发行迎新规,整顿过度“内卷”乱象
千呼万唤始出来。银行间债市迎来更严格规范。6月19日,中国银行间市场交易商协会(下称“交易商协会”)发布《关于进一步加强银行间债券市场发行业务规范有关事项的通知》(下称《通知》),进一步规范债市发行业务。锤子财富2023-06-21 20:02:500000阿里云又宣布大降价,公有云市场硝烟再起
“忍痛”降价的背后,云厂商们看向的是市场规模。“2024年,阿里巴巴将针对核心业务积极投入。集团最高优先级是让电商和云计算两大核心业务重燃增长动力。”半个多月前,阿里巴巴2024财年第三季度发布后,阿里巴巴集团首席执行官吴泳铭如是说。锤子财富2024-02-29 19:42:070000去年净利下降3.46%成唯二负增长银行,浦发怎么了?
连续三年净利润下降。浦发银行(600000.SH)4月18日晚间公告称,2022年度营业收入1886.22亿元,同比下降1.24%;净利润511.71亿元,同比下降3.46%;基本每股收益1.56元,拟10派3.2元。锤子财富2023-04-19 06:37:240000没赶上大模型的投资人,不想错过具身智能
“人形机器人结合AGI的具身智能,有可能为我们带来下一个iPhone时刻。”“我认为时间还很早,但目前所有的投资人都已经内卷起来了。”在谈及具身智能的投资时,英诺天使基金管理合伙人王晟说到WAIC具身通用人工智能论坛上的一个细节,“那场每一个茶歇,一个嘉宾周围都围着十几二十个投资人在那扫码约时间。”锤子财富2023-07-19 18:54:130000发布供应链两大指数和七大联合倡议,链博会:全球供应链连接水平正处于历史高位
全球供应链的发展环境总体较为稳健,全球供应链本身具备倾向连接的内生动力。全球供应链正在变得更加支离破碎吗?相关指数显示,全球供应链的发展环境总体向好,连接水平也正处于历史高位。第二届中国国际供应链促进博览会(以下简称“链博会”)正于11月26日至30日在北京举办。链博会是全球首个以供应链为主题的国家级展会。本届链博会首次发布2024版《全球供应链促进报告》以及全球供应链促进指数和连接指数。锤子财富2024-12-09 01:50:520000