B端训练数据哪里来?︱AI大模型十问(一)
AI大模型不断涌现,“百模大战”愈演愈烈。但不论是To B还是To C的大模型,都面临训练数据日渐匮乏的问题。
业内有报告预测,语言数据将于2030~2040年耗尽,其中能训练出更好性能的高质量语言数据将于2026年耗尽;此外,视觉数据将于2030~2060年耗尽。
未来,如何获得足够的高质量训练数据集,是每一家大模型厂商需要面对的问题。
训练大模型需要高质量、大规模、多样性的数据集。与GPT-2相比,GPT-3对模型架构只进行了微小的修改,但花费精力收集更大的高质量数据集进行训练。据招商证券,GPT-2的预训练数据量为40GB、参数量仅有15亿个,而GPT-3的预训练数据量达到45TB、参数量更是高达1750亿个,约有4900亿个tokens。
训练数据分为通用数据和行业数据。训练数据生产过程则主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。目前通用数据方面已形成产业链,难点在于行业数据的获取。
由于B端数据碎片化,面向行业的通用大模型厂商需要一家家去搜集企业数据,将行业的knowhow封装进大模型,这对企业的研发能力和成本都是极大挑战。而各行业大模型企业也大都对如何获取行业数据讳莫如深。
浪潮通软平台软件与技术研究院总经理周祥国告诉第一财经,B端市场的碎片化程度非常高,各行各业、各种各样数据需要进行的预处理和再加工能力“非常难以统一化”。
他介绍,浪潮海岳新近推出的企业服务大模型inGPT也不可能通过一个模型满足所有企业的需求,除了提供一个良好的底座外,也要为各行各业补上欠缺的“解题步骤”,比如行业数据再加工、行业数据的补齐等,助力企业拥有自己的大模型,赋能千行百业。
倍赛科技创始人、CEO杜霖也告诉第一财经,公司数据的获取是一个比较大的挑战,因为它涉及到对于公司的整个的数据采集、知识梳理以及知识提取。目前行业数据采集还未形成产业,现在还在获取数据的过程中。
此外还有一些企业采取“绕过”行业数据的方式。以工业领域的鼎捷软件为例,其基于雅典娜平台,融合AIGC技术,发布企业级知识机器人ChatFile。
鼎捷软件(300378.SZ)副总裁顾华杰告诉第一财经,鼎捷更聚焦在大模型的应用。据悉,这种模式下鼎捷只基于开源GPT模型去做应用,并不需要获得行业数据去训练大模型,而是为客户“量身定制”,用企业用自身的数据去和ChatFile结合。
总体来看,目前各家B端大模型厂商获取行业数据须得“各显神通”。由于行业数据多在业务中形成,有对应的商用场景,因此行业大模型厂商多为自身有数据基础的行业信息化厂商、SaaS服务商。在不涉及客户隐私的情况下,这类厂商可以选取部分数据对大模型进行训练。
不过,某券商研究所所长、计算机首席分析师告诉第一财经,现在很多也还在灰色地带,数据确权、数据使用权、所有权等,都还没有明确的政策界定。
分析人士认为,未来随着数据要素市场的发展,“数据要素供给-数据要素流通-垂直领域模型研发及应用”循环将逐步打通,行业数据产业链也有望逐渐发展成熟。
北证50大涨9.5%,北交所推出上市公司提质行动方案
北证50指数持续下跌数日后迎来反弹,北交所发布《行动方案》助力市场信心修复。经历了持续多日的下跌行情之后,北证50指数终于迎来强力反弹。2月6日,"国家队"扩大增持、证监会密集发声,A股市场应声上涨。截至收盘,北证50指数收涨814.41点,涨幅达到9.50%,成交金额99.32亿元。个股方面,共232家上市公司收涨,仅1家下跌。其中,包括坤博精工、九菱科技、同心传动等9只个股涨停。0000588家重点企业春节“不打烊”,宜昌力争“开门红”
全力支持兴发集团、宜化集团加速迈向千亿级规模,百亿级企业突破10家。“预计今年1~2月,宜昌规上工业增加值增长8.5%左右,固定资产投资增长10%以上,进出口总额增长21%左右,力争一季度新签约50亿元以上项目不少于10个。”0000收盘丨沪指涨0.07%,创业板指跌逾1%,AIGC概念再度活跃
3200点和年线附近具备较强的支撑,目前市场在逐步磨底。6月5日,A股三大指数走势分化,截至收盘,沪指涨0.07%,深证成指跌0.47%,创业板指跌1.39%。总体上个股涨多跌少,两市超2600只个股上涨。盘面上看,AIGC概念再度活跃,截至收盘,凡拓数创20%涨停,人民网、鸿博股份涨停。旅游、传媒、教育、虚拟数字人等板块涨幅居前,贵金属、白酒、猪肉、证券等板块跌幅居前。锤子财富2023-06-05 15:30:220000“沪”拥机遇 “锡”望未来 无锡城市推介会在上海举行
此次现场集中签约的项目包括高端居住社区、新经济产业园、谈渡桥和大王基地块开发等,涉及有机更新、产业园区建设运营、商业综合体开发、产城融合等多个领域,示范作用突出、带动能力强。锤子财富2023-04-19 09:53:370000IPO周报:医药IPO核查风暴中,荣盛生物主动“离场”,一年学术拜访17万次
上周,三大交易所有3家拟IPO企业宣布终止审核8月7日~8月13日当周,三大交易所共有3家拟IPO企业宣布终止审核。其中,科创板有1家,为上海荣盛生物药业股份有限公司(下称“荣盛生物”);创业板有2家,分别为拓尔微电子股份有限公司(下称“拓尔微”)、夜视丽新材料股份有限公司(下称“夜视丽”)。保荐机构为安信证券、华安证券。平均每天拜访538次0002