医疗GPT来了 如何破解语料稀缺瓶颈?
在医疗领域,大型语言模型(LLM)具有广阔的应用潜力。然而,目前类似ChatGPT这样的语言模型在回答患者描述症状时,仍然缺乏精确的专业解读,与医生差距较大。其中很大一部分原因在于训练大模型的数据仍有局限性。
针对这一痛点,香港中文大学(深圳)和深圳市大数据研究院王本友教授团队利用指令微调和强化学习的方法,在ChatGPT和医生的回复中找到结合点,训练并开源了一个新的医疗大模型 华佗GPT(HuatuoGPT)。通过从ChatGPT中提取的“蒸馏数据”,并结合真实世界医生回复的数据,从而试图训练出具备像医生一样诊断能力的大型语言模型。

只提取大模型中的特定数据,这在专业上被称为“数据蒸馏”。“这种方法既保留真实医疗数据的专业性和准确性,又借助ChatGPT的多样性和内容丰富性的特点,结合两者的混合反馈进行优化,可以与用户保持流畅的交互。”研究团队表示。
另据介绍,在多轮问诊场景中,团队成员收集了涵盖20个科室的100个多轮对话进行评估。结果显示,华佗GPT在处理更加复杂的多轮问诊场景中的表现优异,在某些性能方面甚至超过GPT3.5。
第一财经记者尝试使用华佗GPT,在问诊中输入:糖尿病的症状有哪些?华佗GPT的回答比较全面;记者又反过来输入糖尿病的某些症状,问是什么疾病?但华佗GPT的回答较为宽泛,答:可能是由多种原因造成的。
“这至少能说明,这个大模型已经拥有了部分疾病谱的语料,例如糖尿病。”一位专注于医疗大模型开发的研究人员对第一财经记者分析称。
他同时指出,医疗领域的数据相对来说较为稀缺,主要由医院掌握,技术公司要获得医疗数据“门槛很高”。“如果把大模型看作是人,语料就是面包,数据就是面粉。”他说道,“语料越丰富,模型也就越强大。”
针对医疗语料缺乏的问题,业内已经开始寻求解决方案。近日,在天桥脑科学研究院(TCCI)主办的一场“面向AI模型的数据生成方法及其对医疗领域的启示”论坛上,研究人员探讨了被称为“自对话”和“自蒸馏”的训练,可以快速构建专属的大模型。
美国加州大学圣迭戈分校博士生许灿文和中山大学团队的合作者提出一种能自动生成高质量多轮聊天语料库的流程,他们利用ChatGPT与其自身进行对话,生成对话数据,再基于产生的对话数据调优,增强开源的大型语言模型LLaMA,获得了高质量的医疗专属模型“白泽”。
许灿文向第一财经记者介绍道,“白泽”在这个过程中并没有学会新的知识,只提取了大模型中的特定数据,并且保留了ChatGPT分点作答的语言能力。通过自动化的“数据蒸馏”,在特定领域能够达到ChatGPT的能力,但成本却远远低于ChatGPT,兼具经济意义和实用意义。尤其是在医疗领域,本地化或私有化建构的模型有助于消除隐私顾虑,辅助患者诊疗。
美国莱斯大学博士生唐瑞祥与合作者提出另一种新策略,即利用大型模型生成大量医疗数据,再通过小型模型对这些数据进行训练。实验结果显示,相较于直接利用大型模型执行下游任务,这一新策略能够取得更出色的效果。同时由于模型数据在本地,这也大幅降低了潜在的隐私风险。
展望未来,业内普遍认为,医疗大模型一方面是要具备广泛的适应性和泛化能力;另一方面是需要从特定任务出发,进一步精细化地处理。
上海交大博士生曹瑞升在TCCI论坛上表示:“在医疗领域,大模型应该能够做到可以针对特定类型的疾病,例如抑郁症进行专业化的任务处理,并提供更加精准和个性化的解决方案。而最终,数据生成和模型训练的过程将从分离走向融合。”
文旅部:即日起恢复旅行社经营台湾居民入境团队旅游业务
通知发布后,各大旅行社与在线旅游企业都表示这将利好旅游业复苏。文化和旅游部办公厅5月19日发布通知,经综合研判,即日起恢复旅行社及在线旅游企业经营台湾居民入境团队旅游和“机票酒店”业务。各地要秉持“两岸一家亲”的理念,稳妥推进旅行社恢复经营台湾居民入境团队旅游业务工作。指导本地旅行社做好线路设计和产品对接,落实好各项工作要求,执行团队旅游管理各项制度和规范,切实维护旅游市场秩序。0000举办史上最大规模糖酒会,成都消费中心城市地位凸显
为复苏食品酒类行业、释放消费潜力、构建新发展格局按下“加速键”“今年的糖酒会人气太火爆了。”一位多年来一直都来成都参加春季糖酒会的参展商表示,相比去年,今年糖酒会各个展区可谓人山人海、摩肩接踵,他说,“糖酒会回到了它应该有的样子。”锤子财富2023-04-16 21:56:260000全程跟踪报道民营经济立法,多篇社论引发现象级舆论热潮
早在2023年初,第一财经就发稿提出了立法的必要性和可行性。民营经济是推动创新、促进就业、改善民生的重要力量,在实现中国式现代化进程中发挥着不可或缺的重要作用。而加强相关的立法保障,被认为是提振信心、稳定预期的关键一招。2022年底召开的中央经济工作会议首次明确提出要从制度和法律上把对国企民企平等对待的要求落下来。0000银行密集召集房企座谈,企业高管称可对融资“乐观一些”
从“白名单”到“三个不低于”,银行支持房企融资的风向变了。从“白名单”到“三个不低于”,银行支持房企融资的风向正在转变,各类座谈会也在密集召开。“刚结束一家银行总行的会议,接下来还要参加另外一家的。”一家民营房企财务负责人在29日下午接受第一财经采访时透露,目前各家银行仅是召集房企进行沟通,尚未落实到操作环节。0002国家统计局:扣除食品和能源价格的核心CPI同比上涨0.8% 涨幅保持稳定
据测算,在8月份0.1%的CPI同比涨幅中,上年价格变动的翘尾影响约为0.2个百分点,上月为0;今年价格变动的新影响约为-0.1个百分点,上月为-0.3个百分点。扣除食品和能源价格的核心CPI同比上涨0.8%,涨幅保持稳定。国家统计局今天发布了2023年8月份全国CPI(居民消费价格指数)和PPI(工业生产者出厂价格指数)数据。对此,国家统计局城市司首席统计师董莉娟进行了解读。0000