大模型的“海马体”, 向量数据库逐渐吸引资本关注

当下,大模型的火热已成为行业共识,从时间线上看,2022年12月大模型实现破圈爆火,2023年3月,因NVIDIA CEO 黄仁勋在NVIDIA GTC Keynote 中首次提及向量数据库,强调其在构建专有大型语言模型的组织中的重要性,行业内部人士逐渐意识到,向量数据库可以支持大模型进行信息召回,弥补大模型长期没有记忆等问题,拓宽大模型边界。
近日,腾讯云发布AI 原生(AI Native)向量数据库Tencent Cloud VectorDB。该数据库能够被广泛应用于大模型的训练、推理和知识库补充等场景,是国内首个从接入层、计算层、到存储层提供全生命周期AI化的向量数据库。自2019年开始在内部PCG业务团队进行孵化,目前已应用在了腾讯视频、QQ浏览器、QQ音乐等多款产品中。
何为向量?机器学习与数据科学中,向量代表一组数字,构成多维数值空间。向量的每个维度代表该空间的一个不同的特征或属性,如文本中每个词的出现频率等。通过对向量进行数学运算,可以实现各种机器学习算法和数据分析技术。单就数据而言,只有向量化之后的数据才能被AI模型所分析。向量数据库是一种专门用于存储和管理向量数据的数据库。
行业内将大模型称为“大脑”,向量数据库则是其“海马体”。腾讯云数据库副总经理罗云表示,团队内部有一个共识——如果你看好AI,你就可以看好向量数据库。因为在AI市场中,大模型有两大限制——一个是时间上,一个是空间上。前者因客户希望使用最新数据进行训练,后者系客户不愿将私域数据放在公开场合进行大模型训练。而这两方面问题,向量数据库都可以解决。
相对于大模型的高调火热,向量数据库更多在静悄悄地发生迭代。近一个月内,向量数据库迎来融资潮,Qdrant、Chroma、Weaviate先后获得融资,Pinecone宣布1亿美元B轮融资,估值达到7.5亿美元。东北证券预测,到2030年,全球向量数据库市场规模有望达到500亿美元,国内向量数据库市场规模有望超600亿人民币。
罗云透露,目前每天不止一到两位客户会前来咨询向量数据库什么时候能够给他们使用。整体来讲大家对向量数据库的关注度、对它需求的迫切度都很高。
但需注意的是,从技术与行业层面,向量数据库仍面临几方面的挑战。其一是向量化数据有着高昂的计算成本,寻求存储成本替代是必要的。该部分成本主要来自数据预处理、特征提取和向量化表示的生成,涉及大量复杂数学运算,消耗大量的计算资源和时间。
对此,罗云对第一财经记者表示,数据库主要解决低成本存储数据与高效检索数据的问题,向量数据库也一样。目前主要在检索层面成本非常高昂,业界目前有几种解决方案,其一是在算法层面进行优化,其二是通过云上资源调度体系,用更合适的资源对底层算力成本做更好的补充。
但成本层面,短期内,罗云判断不会发生数量级的差异,更多会发生在应用性方面,推动数据库与云资源体系结合,让产品更稳定,实现单价成本有20%~30%的提升。
第二方面的挑战是平台产品与开源社区之间的关系。向量化技术并非新鲜事物,目前已十分成熟,并存在大量开源解决方案,在不同的领域也存在不同的向量化方案,如目前存在Zilliz等做开源向量数据库的公司。
对于大平台与开源社区之间的关系,罗云对第一财经记者表示,目前国内外在云计算领域的发展阶段不同,国内场景更多的企业对公有云持有观望态度,这样的背景下,更多客户对数据类产品相对谨慎,因此公有云厂商提供的数据服务相对而言更有竞争力。
广发证券计算机团队表示,在过去AI模型训练数据量较小、数据类型单一的情况下,向量数据库可应用的场景较小。自2017年Transformer模型推出后,各科技厂商开始大语言模型的探索,对于向量数据库的需求开始形成规模。但向量数据库适于AI大模型非结构化场景,市场需求尚处于初期,中远期规模还不到夸张之时。
两连板晋拓股份提示风险,公司未涉及市场热点概念
公司未发现可能对公司股票交易价格产生较大影响的媒体报道或市场传闻,亦未涉及市场热点概念。5月23日晚间,晋拓股份发布股票交易异常波动公告,经公司自查,公司未发现可能对公司股票交易价格产生较大影响的媒体报道或市场传闻,亦未涉及市场热点概念。锤子财富2023-05-23 17:33:010000机构论后市丨积极因素正不断积累,预期扭转驱动的行情蓄势待发
机构认为,基于基本面和市场微观资金面的改善,当前市场底线思维或进一步增强,但考虑到巴以冲突等地缘风险扰动,短期市场或仍偏震荡运行。本周A股主要股指延续震荡走势,沪指微跌0.72%,深证成指跌0.41%,创业板指跌0.36%。A股后市怎么走?看看机构怎么说:①中信证券:积极因素正不断积累,预期扭转驱动的行情蓄势待发0000央行:货币政策应对超预期挑战和变化还有充足空间和储备
央行将继续做好逆周期调节,为激活经济内生动力和活力营造适宜的货币金融环境。10月13日,央行举行2023年第三季度金融统计数据新闻发布会,央行货币政策司司长邹澜表示,下阶段央行将进一步实施好稳健的货币政策,密切观察前期政策效果,加快推动政策生效。邹澜表示,货币政策应对超预期挑战和变化还有充足空间和储备,央行将继续做好逆周期调节,为激活经济内生动力和活力营造适宜的货币金融环境。0000国家发改委:深化数字产业国际合作 深化数字经济红利共享
务实推进数字经济的交流合作,鼓励中外企业高质量开展电子商务、移动支付、智慧城市、远程医疗、数字教育、产业数字化转型等领域合作。10月10日,国家发展改革委副主任丛亮在发布会上表示,下一步,国家发改委将不断加强与共建国家数字经济领域交流,拓展数字经济务实合作领域,进一步推动发展红利惠及各国人民。0000