12月17日,一家名叫Databricks的美国科技公司,宣布成功融资100亿美元,公司的估值也因此达到620亿美元。
新闻一出,引起了整个行业的关注。要知道,不久前的10月份,业界最受追捧的OpenAI公司,也只不过融了66亿美元。这个Databricks的融资金额比OpenAI还高,是有史以来最大的风险投资之一,凭什么?
答案很简单,就凭——“数据和AI”。Databricks是全球数据分析和云数据平台巨头。近年来,他们的数据平台产品吸引了大量的企业用户,用于数据价值挖掘和辅助决策,增长势头强劲。
那么,到底什么是数据平台呢?在AI时代,数据平台又能发挥怎样的作用?
今天这篇文章,小枣君就和大家做一个详细的解读。
█ 数据平台的发展演进
数据平台,顾名思义,就是用于存储、处理和分析数据的平台。我们常说的数据库(Oracle、MySQL等),还有这些年来特别火的数据仓库、数据湖,都属于数据平台。有了它们,我们才能更好地“玩转”数据,挖掘其中的价值。
人类的IT技术发展史,其实说白了,就是一部数据“折腾”史。发展CPU,是为了更好地处理数据。发展硬盘,是为了更好地存储数据。发展网络,是为了更好地搬运数据。所有的信息通信技术,都是紧密围绕数据开展工作的。
数据平台,是以数据为中心的平台。它的发展历程,同样也和数据的演进密切相关。
上世纪40年代至50年代,计算机刚刚诞生的早期阶段,因为硬件技术不成熟,人类的数据体量较小。所以,并没有发展出数据平台,仅仅依靠人工进行数据的管理。
到了60年代至70年代,随着软硬件技术的不断成熟,我们终于有了数据库系统,并且,很快开始实现了商业化。尤其是到了80-90年代,商业数据库蓬勃发展,用于各种交易型(OLTP)和分析型(OLAP)场景,为人类社会的信息化浪潮做出了很大的贡献。
那一时期,很多高精尖行业(例如航空或者国防等),因为数据量越来越庞大,所以对数据平台的要求也越来越高。大数据这个概念,也是在那个时候开始诞生和萌芽的。1997年10月,美国宇航局(NASA)研究员发表论文,首次提到了“大数据问题”。
其实,当时的数据量在现在看来也不是很大。全世界加在一起的数据量,可能不会超过1 PB,还停留在TB级别。所以,传统的以Oracle为代表的数据仓库,勉强可以搞定。
进入21世纪后,互联网的全面爆发,带来了数据量的又一次跃升。大数据时代真的到来了,传统的数仓已经hold不住了。于是,以Hadoop为代表的数据平台应运而生(2006年),扛起了大梁。
再后来,因为互联网业务的复杂多样性,加上数据处理的负载和实时性要求越来越高,就有了各种各样的开源数据组件,面向不同的工作场景。
这时的数据平台,就以基于开源的组装式数据平台为主流。各种数据湖、湖仓一体技术,进入了蓬勃发展的阶段,勉强能够满足各行各业的场景需求。
时至今日,情况又发生了巨大的变化。正如大家所看到的,AI浪潮来了。
从2023年开始,以ChatGPT为代表的AI大模型,掀起了一股席卷全球的AI浪潮,改变了人类社会的方方面面。
作为AI的三大要素之一,数据的重要性进一步提升。我们不仅需要更多、更可靠、更准确的数据,还需要更强大的数据平台,能够为业务应用(尤其是AI应用)提供支撑。
第一个是BI看板和离线报表。BI就是Business Intelligence,商业智能。通过BI看板和离线报表,可以将各种数据指标以可视化方式展示出来,帮助企业管理层更好地了解和分析企业运营情况。
第二个是离线数据处理。这个主要是指业界常说的ETL(Extract,Transform,Load,即提取、转换、加载)。通过数仓分层和数据预处理,对数据做“精炼”,为后面的数据分析或BI应用做准备。
第三个是实时的交互式分析。这个主要是要实现毫秒级的AD-Hoc(临时性的、非计划性的活动或决策)实时分析。
首先,场景开始有点延伸。有了大模型所提供的自然语言处理能力,用户与数据平台之间的交互,就可以变成自然语言交互。例如,企业管理者直接提问,自然语言理解生成分析SQL,数据平台给出数据洞察的结果。
其次,数据平台需要实现一体化。以前,一家企业的某个业务处理数据的方式只有一种,离线处理或者交互式处理。未来,可能同时需要多种处理方式,需要数据平台能够以一个平台承载多种需求(例如离线数据处理+交互式处理),实现一体化。
第三,数据的规模急速扩张,但是高效实时处理的需求是不能打折扣的。这就要求平台实现批流一体、增量计算。也就是说,批处理+实时处理也要一体化。
大数据与AI的融合,也产生了一些新的场景。数据平台需要支持大模型的发展。
在大模型开发架构中,通常是数据团队和模型团队是分开的,各自使用各自的平台、工具,会增加开发成本,影响开发效率。更好的解决方案,是数据平台提供一个统一的接口,实现“DataOps+AIOps一体化”,降低运维与开发成本。
RAG是Retrieval-Augmented Agenerated(检索增强生成),可以理解为大模型的一个“数据辅助外挂”。当企业搜索场景单独采用大模型无法满足要求时,可以基于企业数据平台的运营数据,提供一站式的高精度全文检索+向量检索RAG方案,实现更强大的AI搜索。
AIGC能思考,但AI Agent增加了行动的能力,现在成为AI的新焦点,相关的应用数量也急剧增加。企业基于数据平台,将业务数据与大模型融合,可以产生更好的生成式AI应用,创造更多的AI Agent。
我们可以举一个数据平台支撑RAG、Agent应用的例子。
假如你有一个咖啡店,想要发布朋友圈广告,进行咖啡和配套糕点的推荐。首先,你可以基于数据平台,通过对订单数据的大数据查询,找到销量最好的咖啡。然后,你可以基于数据平台的历史数据,训练一个模型(这里应该小模型就够了),找到推荐搭配的糕点。
接下来,基于数据平台知识库和大模型,采用RAG方案,找到一个最合适的广告词。大模型再基于广告词和咖啡糕点的图片,生成一个广告文案。
所有上述过程,都可以配置到Agent里面。以后,只需要一个指令,就能够按步骤快速完成这项工作。是不是很高效?
AI时代的数据平台,除了支持AI发展之外,也要让AI反向赋能平台。例如,将AI能力应用于数据平台的资源管理与运维管理,将大幅提升工作效率。
简单来说,AI时代的大模型应用开发,核心要素就是算卡(算力)、大模型(算法)和数据。在这种应用里,最好的架构,是大模型直接和数据联动。以数据为核心,数据平台足够简单、足够融合、足够智能,让大模型以最高效的方式完成训练和推理。
█ TCHouse-X,AI时代的数据平台创新解决方案
那么,数据平台该如何重构设计,才能满足上面提到的场景和能力需求呢?
最近,腾讯云给出了他们的解决方案——一站式数据智能平台TCHouse-X。
TCHouse-X的核心设计理念,是一体化、智能化、高性能以及云原生。
前面反复提到了一体化。TCHouse-X在架构设计层面,就贯彻了一体化的思想。
它通过云原生多集群共享数据及元数据管理,打破了传统数据平台在离线计算、在线计算和AI开发之间的壁垒。用户可以基于同一份数据,运行在线分析、离线处理、数据湖探索和机器学习等多种业务负载,无需在不同的系统间切换和数据的拷贝搬迁,实现AI、BI和Data在一个平台上开发和共建。
对于用户来说,数据平台的极致简化,不仅方便了产品的开发,改善了体验,也大大降低了产品运维的难度和成本。这是做减法带来的优势。
智能化,是指TCHouse-X获得了来自AI的赋能,借助AI进行技术优化和迭代。
TCHouse-X能够通过智能化的系统交互、资源管理与运维管理功能,实现运维“自动驾驶”,显著提升易用性与运维效率。
以资源管理为例,TCHouse-X具备AI智能调度系统,能够实时感知负载并智能规划资源,从而提高计算资源的利用率。
TCHouse-X还支持前面提到的自然语言交互。用户可通过自然语言描述,快速查询分析数据,无需SQL相关的专业培训与学习。
TCHouse-X基于腾讯云自研核心引擎技术(数据平台三大件,包括优化器、计算引擎、存储引擎,腾讯云都是从零到一进行自研),在计算、存储、网络等多维度优化,能够为用户提供全链路极致性能。在效率层面,TCHouse-X能够支持实时加工处理源头数据,并且具备毫秒级的在线分析能力。
同时,TCHouse-X支持多种弹性策略,无论是应对突发流量高峰还是处理大规模查询,都能有效帮助企业实现资源的灵活配置,降低成本并提高效率。
云原生,是TCHouse-X的核心基因。它带来的优势,是可以提供极致的资源弹性。基于云原生,可以实现存算分离,可以对计算和存储进行弹性配置,增加灵活性。这也是前面一体化开放的前提条件。
弹性可以体现在多个场景。例如分时段(白天/夜晚)的资源分配,资源使用量的智能预测,突发负载的智能弹性伸缩,等等。可以看出,设计理念(云原生和智能化)之间,也是有相互关联的。
我们可以看出,TCHouse-X是腾讯云精心打造的一款大数据数仓产品。
它大幅提升了平台的性能,简化了传统数据平台的复杂架构,并引入了智能化系统交互、资源管理与运维管理能力,能够为大模型时代的应用创新提供一站式数据处理能力。
根据测算,TChouse-X的在线查询性能优于市场同类产品50%,而离线批处理的综合性价比则提升了10倍之多。在计算资源层面,采用TCHouse-X,企业计算资源成本最高也能降低50%。
目前,TCHouse-X已在腾讯内部多个业务线以及多个外部企业客户场景中得到应用,具体包括大模型AIGC应用、车联网数据平台、安全厂商、CRM平台、跨境电商企业、物流平台和手游公司等。
在实际应用中,TCHouse-X充分展示了自身的强大性能和成本效益。特别是在大规模数据处理和实时分析方面,表现非常出色。
以腾讯会议应用为例。采用TCHouse-X后,该应用实现了显著的性能提升和存储优化。
在进行会议质量分析和日志分析时,TCHouse-X相比于原来的Presto/Trino查询性能提升了5到10倍,日均查询数约40万,显示了其在高并发查询处理方面的强大能力。同时,存储从原来的4份减少到1份,大幅降低了存储成本。与原Spark相比,性能提升了2倍,进一步证明了TCHouse-X在处理复杂查询时的高效率。
TCHouse-X的发布,是腾讯云在大数据领域长期深耕和积累的成果。
很多人可能不知道,作为腾讯云基于海量业务打造的世界领先级大数据平台,腾讯云大数据目前的算力规模已经超过千万核,是全球最大规模的大数据平台之一。平台每天实时计算量数百万亿次,每天运行容器数数亿个,每天计算数据量数百PB,量级位居国内第一。
TCHouse-X是企业打造数据基座的一个神器。随着AI浪潮的愈演愈烈,相信越来越多的行业用户会开始采用TCHouse-X,享受它带来的效率提升和成本节约。AI数智时代的数据价值挖掘,将进入一个全新的阶段!
文章转载自微信公众号:鲜枣课堂