B端训练数据哪里来?︱AI大模型十问(一)
AI大模型不断涌现,“百模大战”愈演愈烈。但不论是To B还是To C的大模型,都面临训练数据日渐匮乏的问题。
业内有报告预测,语言数据将于2030~2040年耗尽,其中能训练出更好性能的高质量语言数据将于2026年耗尽;此外,视觉数据将于2030~2060年耗尽。
未来,如何获得足够的高质量训练数据集,是每一家大模型厂商需要面对的问题。
训练大模型需要高质量、大规模、多样性的数据集。与GPT-2相比,GPT-3对模型架构只进行了微小的修改,但花费精力收集更大的高质量数据集进行训练。据招商证券,GPT-2的预训练数据量为40GB、参数量仅有15亿个,而GPT-3的预训练数据量达到45TB、参数量更是高达1750亿个,约有4900亿个tokens。
训练数据分为通用数据和行业数据。训练数据生产过程则主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。目前通用数据方面已形成产业链,难点在于行业数据的获取。
由于B端数据碎片化,面向行业的通用大模型厂商需要一家家去搜集企业数据,将行业的knowhow封装进大模型,这对企业的研发能力和成本都是极大挑战。而各行业大模型企业也大都对如何获取行业数据讳莫如深。
浪潮通软平台软件与技术研究院总经理周祥国告诉第一财经,B端市场的碎片化程度非常高,各行各业、各种各样数据需要进行的预处理和再加工能力“非常难以统一化”。
他介绍,浪潮海岳新近推出的企业服务大模型inGPT也不可能通过一个模型满足所有企业的需求,除了提供一个良好的底座外,也要为各行各业补上欠缺的“解题步骤”,比如行业数据再加工、行业数据的补齐等,助力企业拥有自己的大模型,赋能千行百业。
倍赛科技创始人、CEO杜霖也告诉第一财经,公司数据的获取是一个比较大的挑战,因为它涉及到对于公司的整个的数据采集、知识梳理以及知识提取。目前行业数据采集还未形成产业,现在还在获取数据的过程中。
此外还有一些企业采取“绕过”行业数据的方式。以工业领域的鼎捷软件为例,其基于雅典娜平台,融合AIGC技术,发布企业级知识机器人ChatFile。
鼎捷软件(300378.SZ)副总裁顾华杰告诉第一财经,鼎捷更聚焦在大模型的应用。据悉,这种模式下鼎捷只基于开源GPT模型去做应用,并不需要获得行业数据去训练大模型,而是为客户“量身定制”,用企业用自身的数据去和ChatFile结合。
总体来看,目前各家B端大模型厂商获取行业数据须得“各显神通”。由于行业数据多在业务中形成,有对应的商用场景,因此行业大模型厂商多为自身有数据基础的行业信息化厂商、SaaS服务商。在不涉及客户隐私的情况下,这类厂商可以选取部分数据对大模型进行训练。
不过,某券商研究所所长、计算机首席分析师告诉第一财经,现在很多也还在灰色地带,数据确权、数据使用权、所有权等,都还没有明确的政策界定。
分析人士认为,未来随着数据要素市场的发展,“数据要素供给-数据要素流通-垂直领域模型研发及应用”循环将逐步打通,行业数据产业链也有望逐渐发展成熟。
“双营”模式解码双赢,生态圈共创加速创新落地
历经8个多月的技术研发、场景探访与联合开发,“绿色智能制造创赢计划”第四季收官,这也是绿色智能制造生态圈不断拓展,历时四年沉淀后的又一个里程碑。锤子财富2024-01-23 18:02:300000中国清洁电器全球化:不再隐身幕后了 | 海斌访谈
转到东南亚的企业,目前主要是代工环节,自主品牌的工厂转去的比较少。中国清洁电器在欧洲取得优势地位,仅用了五年左右时间。清洁电器包含了扫地机器人、洗地机以及吸尘器等。这个产业在中国,是从代工业务发展起来的,现在已经有了完备的产业生态。现在中国企业从幕后走到台前,追觅科技、石头科技以及科沃斯等一批中国自主品牌在欧洲完成对iRobot等跨国品牌的超越。锤子财富2024-04-11 09:28:460000国防部批驳美“2024财年国防授权法案”
美方法案无端渲染所谓“中国军事威胁”,粗暴干涉中国内政,严重损害中国主权、安全、发展利益,中国军队对此强烈不满、坚决反对。12月28日下午,国防部举行例行记者会,国防部新闻局局长、国防部新闻发言人吴谦大校答记者问。记者:美国总统拜登近日正式签署“2024财年国防授权法案”,包括提高美国军费、增强太平洋威慑力及对抗中国在印太地区军事扩张等,还提出要协助台湾加强防务。请问国防部有何回应?0000四部门:对特定无人驾驶航空飞行器实施临时出口管制
本公告自2023年9月1日起正式实施。临时管制的实施期限不超过二年。7月31日,商务部、海关总署、国家国防科工局、中央军委装备发展部发布关于对部分无人机实施临时出口管制的公告,全文如下:商务部海关总署国家国防科工局中央军委装备发展部公告2023年第28号关于对部分无人机实施临时出口管制的公告【发布单位】安全与管制局【发布文号】商务部公告2023年第28号0000江西公布鸭脖事件调查结果:判定异物为老鼠类啮齿动物的头部
经认定,江西工业职业技术学院对此次事件负主体责任,涉事企业负直接责任,市场监督管理部门负监管责任。6月17日,江西工业职业技术学院“6·1”食品安全事件调查结果公布,针对江西工业职业技术学院“6·1”食品安全事件,江西省教育厅、省公安厅、省国资委、省市场监督管理局组成的联合调查组,本着实事求是原则开展调查,现将有关情况通报如下。0000