19210

B端训练数据哪里来？︱AI大模型十问（一）

锤子财富2023-09-27 16:59:270阅

编者按：ChatGPT爆火后，AI大模型层出不穷，面向行业的垂直大模型也陆续发布。那么，怎么才算一个合格的行业大模型？行业数据哪里来？如何将行业know how更好地融入大模型？第一财经推出“十问AI大模型”专题，进一步追问与解密。

AI大模型不断涌现，“百模大战”愈演愈烈。但不论是To B还是To C的大模型，都面临训练数据日渐匮乏的问题。

业内有报告预测，语言数据将于2030~2040年耗尽，其中能训练出更好性能的高质量语言数据将于2026年耗尽；此外，视觉数据将于2030~2060年耗尽。

未来，如何获得足够的高质量训练数据集，是每一家大模型厂商需要面对的问题。

训练大模型需要高质量、大规模、多样性的数据集。与GPT-2相比，GPT-3对模型架构只进行了微小的修改，但花费精力收集更大的高质量数据集进行训练。据招商证券，GPT-2的预训练数据量为40GB、参数量仅有15亿个，而GPT-3的预训练数据量达到45TB、参数量更是高达1750亿个，约有4900亿个tokens。

训练数据分为通用数据和行业数据。训练数据生产过程则主要包括四个环节：设计（训练数据集结构设计）、采集（获取原料数据）、加工（数据标注）及质检（各环节数据质量、加工质量检测）。目前通用数据方面已形成产业链，难点在于行业数据的获取。

由于B端数据碎片化，面向行业的通用大模型厂商需要一家家去搜集企业数据，将行业的knowhow封装进大模型，这对企业的研发能力和成本都是极大挑战。而各行业大模型企业也大都对如何获取行业数据讳莫如深。

浪潮通软平台软件与技术研究院总经理周祥国告诉第一财经，B端市场的碎片化程度非常高，各行各业、各种各样数据需要进行的预处理和再加工能力“非常难以统一化”。

他介绍，浪潮海岳新近推出的企业服务大模型inGPT也不可能通过一个模型满足所有企业的需求，除了提供一个良好的底座外，也要为各行各业补上欠缺的“解题步骤”，比如行业数据再加工、行业数据的补齐等，助力企业拥有自己的大模型，赋能千行百业。

倍赛科技创始人、CEO杜霖也告诉第一财经，公司数据的获取是一个比较大的挑战，因为它涉及到对于公司的整个的数据采集、知识梳理以及知识提取。目前行业数据采集还未形成产业，现在还在获取数据的过程中。

此外还有一些企业采取“绕过”行业数据的方式。以工业领域的鼎捷软件为例，其基于雅典娜平台，融合AIGC技术，发布企业级知识机器人ChatFile。

鼎捷软件（300378.SZ）副总裁顾华杰告诉第一财经，鼎捷更聚焦在大模型的应用。据悉，这种模式下鼎捷只基于开源GPT模型去做应用，并不需要获得行业数据去训练大模型，而是为客户“量身定制”，用企业用自身的数据去和ChatFile结合。

总体来看，目前各家B端大模型厂商获取行业数据须得“各显神通”。由于行业数据多在业务中形成，有对应的商用场景，因此行业大模型厂商多为自身有数据基础的行业信息化厂商、SaaS服务商。在不涉及客户隐私的情况下，这类厂商可以选取部分数据对大模型进行训练。

不过，某券商研究所所长、计算机首席分析师告诉第一财经，现在很多也还在灰色地带，数据确权、数据使用权、所有权等，都还没有明确的政策界定。

分析人士认为，未来随着数据要素市场的发展，“数据要素供给-数据要素流通-垂直领域模型研发及应用”循环将逐步打通，行业数据产业链也有望逐渐发展成熟。

B端训练数据哪里来AI大模型十问一

0000

评论列表

共(0)条

相关推荐

进入美国FDA进口警示名录，九成收入靠海外的采纳股份这次有点难
在采纳医疗未被移出上述名录之前，采纳医疗部分医用注射器产品将暂时无法进入美国市场，预计对公司后续的主营业务收入和利润产生重大影响。
锤子财富新闻2024-04-08 15:56:49
0000
7月信贷增长出现回落迹象，高质量发展是否应淡化总量关注？
从经济高质量发展的要求看，应当适当淡化对总量的关注，更多重视结构的特点。2023年7月，人民币新增贷款3459亿元，较前期出现了一些回落迹象，各方对7月信贷增长的情况关注较多。8月11日，央行公布最新数据显示，7月份社会融资规模增量为5282亿元，比上年同期少2703亿元；7月份人民币贷款增加3459亿元，同比少增3498亿元。
锤子财富新闻2023-08-11 19:16:52
0000
长安汽车朱华荣：去年还是“少电、贵电”，今年动力电池产能已过剩
去年还是“少电、缺电、贵电”，今年迅速转换为产能过剩。长安汽车董事长、党委书记朱华荣在2023中国汽车重庆论坛上表示，中国新能源汽车行业已进入爆发增长期，中国汽车市场竞争格局也在发生着巨大变化，正在经历一场深度的洗牌，产业格局正在重构中。
锤子财富新闻2023-06-09 18:02:24
0000
上市猪企二季度批量扭亏，行业全面盈利尚需时日
中报正式披露后，上市猪企的负债情况、现金流与养殖成本是关注重点。在二季度全国猪价累计上涨约23%的背景下，生猪养殖上市公司的中报业绩表现受到市场高度关注。截至7月10日晚间，Wind猪板块27家上市公司中，有18家发布了2024年中报业绩预告。整体来看，在经历了超过20个月的亏损后，全行业还未完全进入盈利期，业绩分化显著，仅4家公司实现上半年扭亏，其余均为续亏。
锤子财富新闻2024-07-11 19:27:07
0000
发改委：抓紧出台电解铝、数据中心等重点行业节能降碳专项行动计划
发改委还在抓紧出台电解铝、数据中心、煤电低碳化改造和建设等其他重点行业节能降碳专项行动计划。此外，还将深入开展重点用能单位能效诊断，大力推动节能降碳改造和用能设备更新，持续推进工业、建筑、交通等重点领域节能降碳工作。
锤子财富新闻2024-06-26 14:48:54
0000