医疗GPT来了 如何破解语料稀缺瓶颈?
在医疗领域,大型语言模型(LLM)具有广阔的应用潜力。然而,目前类似ChatGPT这样的语言模型在回答患者描述症状时,仍然缺乏精确的专业解读,与医生差距较大。其中很大一部分原因在于训练大模型的数据仍有局限性。
针对这一痛点,香港中文大学(深圳)和深圳市大数据研究院王本友教授团队利用指令微调和强化学习的方法,在ChatGPT和医生的回复中找到结合点,训练并开源了一个新的医疗大模型 华佗GPT(HuatuoGPT)。通过从ChatGPT中提取的“蒸馏数据”,并结合真实世界医生回复的数据,从而试图训练出具备像医生一样诊断能力的大型语言模型。

只提取大模型中的特定数据,这在专业上被称为“数据蒸馏”。“这种方法既保留真实医疗数据的专业性和准确性,又借助ChatGPT的多样性和内容丰富性的特点,结合两者的混合反馈进行优化,可以与用户保持流畅的交互。”研究团队表示。
另据介绍,在多轮问诊场景中,团队成员收集了涵盖20个科室的100个多轮对话进行评估。结果显示,华佗GPT在处理更加复杂的多轮问诊场景中的表现优异,在某些性能方面甚至超过GPT3.5。
第一财经记者尝试使用华佗GPT,在问诊中输入:糖尿病的症状有哪些?华佗GPT的回答比较全面;记者又反过来输入糖尿病的某些症状,问是什么疾病?但华佗GPT的回答较为宽泛,答:可能是由多种原因造成的。
“这至少能说明,这个大模型已经拥有了部分疾病谱的语料,例如糖尿病。”一位专注于医疗大模型开发的研究人员对第一财经记者分析称。
他同时指出,医疗领域的数据相对来说较为稀缺,主要由医院掌握,技术公司要获得医疗数据“门槛很高”。“如果把大模型看作是人,语料就是面包,数据就是面粉。”他说道,“语料越丰富,模型也就越强大。”
针对医疗语料缺乏的问题,业内已经开始寻求解决方案。近日,在天桥脑科学研究院(TCCI)主办的一场“面向AI模型的数据生成方法及其对医疗领域的启示”论坛上,研究人员探讨了被称为“自对话”和“自蒸馏”的训练,可以快速构建专属的大模型。
美国加州大学圣迭戈分校博士生许灿文和中山大学团队的合作者提出一种能自动生成高质量多轮聊天语料库的流程,他们利用ChatGPT与其自身进行对话,生成对话数据,再基于产生的对话数据调优,增强开源的大型语言模型LLaMA,获得了高质量的医疗专属模型“白泽”。
许灿文向第一财经记者介绍道,“白泽”在这个过程中并没有学会新的知识,只提取了大模型中的特定数据,并且保留了ChatGPT分点作答的语言能力。通过自动化的“数据蒸馏”,在特定领域能够达到ChatGPT的能力,但成本却远远低于ChatGPT,兼具经济意义和实用意义。尤其是在医疗领域,本地化或私有化建构的模型有助于消除隐私顾虑,辅助患者诊疗。
美国莱斯大学博士生唐瑞祥与合作者提出另一种新策略,即利用大型模型生成大量医疗数据,再通过小型模型对这些数据进行训练。实验结果显示,相较于直接利用大型模型执行下游任务,这一新策略能够取得更出色的效果。同时由于模型数据在本地,这也大幅降低了潜在的隐私风险。
展望未来,业内普遍认为,医疗大模型一方面是要具备广泛的适应性和泛化能力;另一方面是需要从特定任务出发,进一步精细化地处理。
上海交大博士生曹瑞升在TCCI论坛上表示:“在医疗领域,大模型应该能够做到可以针对特定类型的疾病,例如抑郁症进行专业化的任务处理,并提供更加精准和个性化的解决方案。而最终,数据生成和模型训练的过程将从分离走向融合。”
融创境外债重组方案通过,地产股受提振迎来普涨
债务重组是“以时间换空间”,房企中长期的回血自救才是关键。4月21日,内房股集体走高,龙光集团涨超10%,融创中国涨5.62%,禹州集团涨3.92%,合景泰富集团涨3.67%,佳兆业集团涨3.32%,弘阳地产涨3.03%。市场情绪上扬背后,昨日深夜,出险房企融创发布化债积极消息,本金总额为90.48亿美元的境外债务重组方案,目前已获超75%的现有重组债务持有人递交加入重组支持协议的函件。0000殖民时代一去不复返,但城市里的隔离并未消失
《种族隔离:划界城市的全球史》译者、城市研究者相欣奕,在接受第一财经采访时讲述了对理解和超越隔离、探索更好的城市发展方式的思考。美国学者卡尔·H·奈廷格尔的《种族隔离:划界城市的全球史》一书,回顾了人类城市实施种族隔离措施的历史成因与演变,着重研究殖民时代以来,典型的种族隔离现象在知名城市中是怎样经过斗争而得以改善的。锤子财富2023-10-13 11:48:560000最高法称从未叫停文书上网,网游新规引发业内巨震丨一周热点回顾
其他热点还有:住建部定调明年楼市政策,法学泰斗江平逝世。最高法回应:从未“叫停”文书上网近年来,中国裁判文书网上网文书数量呈大幅下降趋势,这一现象引发多方关注。12月22日,最高人民法院相关部门负责人表示,自2021年以来,优化裁判文书公开机制的工作一直在有序开展,但从未“叫停”过文书上网。锤子财富2023-12-23 14:53:360000工信部发布减免车辆购置税的新能源汽车车型目录 小米SU7、智界S7等在列
工信部发布《减免车辆购置税的新能源汽车车型目录》(第四批),小米SU7、比亚迪海豹、智界S7等在列。4月16日,据工业和信息化部网站消息,工业和信息化部将许可的《道路机动车辆生产企业及产品》(第381批)以及经商国家税务总局同意的《享受车船税减免优惠的节约能源使用新能源汽车车型目录》(第六十批)、《减免车辆购置税的新能源汽车车型目录》(第四批)予以公告。锤子财富2024-04-16 18:37:300000