大模型的“海马体”, 向量数据库逐渐吸引资本关注

当下,大模型的火热已成为行业共识,从时间线上看,2022年12月大模型实现破圈爆火,2023年3月,因NVIDIA CEO 黄仁勋在NVIDIA GTC Keynote 中首次提及向量数据库,强调其在构建专有大型语言模型的组织中的重要性,行业内部人士逐渐意识到,向量数据库可以支持大模型进行信息召回,弥补大模型长期没有记忆等问题,拓宽大模型边界。
近日,腾讯云发布AI 原生(AI Native)向量数据库Tencent Cloud VectorDB。该数据库能够被广泛应用于大模型的训练、推理和知识库补充等场景,是国内首个从接入层、计算层、到存储层提供全生命周期AI化的向量数据库。自2019年开始在内部PCG业务团队进行孵化,目前已应用在了腾讯视频、QQ浏览器、QQ音乐等多款产品中。
何为向量?机器学习与数据科学中,向量代表一组数字,构成多维数值空间。向量的每个维度代表该空间的一个不同的特征或属性,如文本中每个词的出现频率等。通过对向量进行数学运算,可以实现各种机器学习算法和数据分析技术。单就数据而言,只有向量化之后的数据才能被AI模型所分析。向量数据库是一种专门用于存储和管理向量数据的数据库。
行业内将大模型称为“大脑”,向量数据库则是其“海马体”。腾讯云数据库副总经理罗云表示,团队内部有一个共识——如果你看好AI,你就可以看好向量数据库。因为在AI市场中,大模型有两大限制——一个是时间上,一个是空间上。前者因客户希望使用最新数据进行训练,后者系客户不愿将私域数据放在公开场合进行大模型训练。而这两方面问题,向量数据库都可以解决。
相对于大模型的高调火热,向量数据库更多在静悄悄地发生迭代。近一个月内,向量数据库迎来融资潮,Qdrant、Chroma、Weaviate先后获得融资,Pinecone宣布1亿美元B轮融资,估值达到7.5亿美元。东北证券预测,到2030年,全球向量数据库市场规模有望达到500亿美元,国内向量数据库市场规模有望超600亿人民币。
罗云透露,目前每天不止一到两位客户会前来咨询向量数据库什么时候能够给他们使用。整体来讲大家对向量数据库的关注度、对它需求的迫切度都很高。
但需注意的是,从技术与行业层面,向量数据库仍面临几方面的挑战。其一是向量化数据有着高昂的计算成本,寻求存储成本替代是必要的。该部分成本主要来自数据预处理、特征提取和向量化表示的生成,涉及大量复杂数学运算,消耗大量的计算资源和时间。
对此,罗云对第一财经记者表示,数据库主要解决低成本存储数据与高效检索数据的问题,向量数据库也一样。目前主要在检索层面成本非常高昂,业界目前有几种解决方案,其一是在算法层面进行优化,其二是通过云上资源调度体系,用更合适的资源对底层算力成本做更好的补充。
但成本层面,短期内,罗云判断不会发生数量级的差异,更多会发生在应用性方面,推动数据库与云资源体系结合,让产品更稳定,实现单价成本有20%~30%的提升。
第二方面的挑战是平台产品与开源社区之间的关系。向量化技术并非新鲜事物,目前已十分成熟,并存在大量开源解决方案,在不同的领域也存在不同的向量化方案,如目前存在Zilliz等做开源向量数据库的公司。
对于大平台与开源社区之间的关系,罗云对第一财经记者表示,目前国内外在云计算领域的发展阶段不同,国内场景更多的企业对公有云持有观望态度,这样的背景下,更多客户对数据类产品相对谨慎,因此公有云厂商提供的数据服务相对而言更有竞争力。
广发证券计算机团队表示,在过去AI模型训练数据量较小、数据类型单一的情况下,向量数据库可应用的场景较小。自2017年Transformer模型推出后,各科技厂商开始大语言模型的探索,对于向量数据库的需求开始形成规模。但向量数据库适于AI大模型非结构化场景,市场需求尚处于初期,中远期规模还不到夸张之时。
零度解读6月15日美联储利率决议发布会
美联储的下一枪会在7月份打响吗?上次议息会议之后美联储主席鲍威尔说“需要看连续几个月的数据“,笔者由此在零度总结中指出“6月份不具备继续加息的条件,除非通胀出人意料地显著抬头向上”。结果公布的5月份CPI是4.1%,核心CPI是5.3%,都比前值下降并符合市场预期,于是美联储借坡下驴,宣布6月份维持基准利率不变。本轮加息周期叫了第一次暂停。锤子财富2023-06-19 11:27:250000新氧发布2023年Q3财报,双引擎驱动增长,产业链布局成效凸显
北京时间2023年11月20日,中国领先的医美行业服务平台新氧科技(纳斯达克股票代码:SY)(以下简称“新氧”或“公司”),发布了截至2023年9月30日的第三季度未经审计的财务业绩,彰显了公司在业务增长和盈利能力方面的显著进展。0000滕泰:总需求不足,企业怎么办
普通企业家通过什么样的新供给来创造新需求?在这儿给大家分享一个方法论,叫做从硬价值制造到软价值创造。当前阶段中国经济的主要矛盾是总需求不足。正是因为这个原因,中央经济工作会议和政府工作报告,把扩大内需作为今年的主要任务。以新供给创造新需求,破解总需求难题制约中国经济可持续增长的根本问题是总需求不足,而破解这个难题的核心难点就是国民收入支出的结构改革,把低效投资转化为居民消费支出。0000我国首个求解费米子哈伯德模型的超冷原子量子模拟器被命名为“天元”
"天元"标志着我国迈向实现专用量子模拟机的新阶段。7月10日晚,第一财经记者从中国科学技术大学了解到,首个求解费米子哈伯德模型的超冷原子量子模拟器被命名为"天元"。"天元"是宋元时期发展起来的来符号代数,将未知数设为"天元一",用算筹列出矩阵式方程,通过运算求解,得出结果。这套方法当时在世界上也是领先的,叫做"天元术"。0000