Tech Whims

2023数据平台何去何从

张晓龙 / 2023-06-21


数据平台自从阿里提出dataworks 产品化,已经发展很多年。各个公司自建、自己研发、使用第三方都存在,且在2022 年开始向云上迁移。我负责的大数据团队做的数据平台,也是受到行业发展、国内环境的影响,需要考虑数据架构的演进问题。

目前底层使用云能力(由自建上云),数据平台产品层面以自建产品平台为主,包括数据开发和数据应用工具。

未来的发展依赖公司发展阶段、云产品成熟度,做合理的预判和规划。

以下为最近各位大佬对数据平台演进的思考,可以学习下


大数据的发展分成 3 个阶段:孕育期、发展期和普惠期。

  1. 从 2003 年到 2013 年是孕育期。听过一些耳熟能详的大厂在做大数据相关的建设,比如谷歌做搜索引擎后台数据处理。
  2. 之后8-10年的时间是发展期(2013-2023)。发展期有两个关键事项推动了大数据的发展:其一是以 Hadoop 为核心的开源技术;其二是云计算。云计算相关技术的发展极大程度上降低了大数据平台的建设门槛。所以,大家可以看到目前主流的大数据平台都是在 2012 年前后开始发展的,比如说刚才提到的 Redshift 是云上数仓的典型代表,Snowflake 在那时候成立,阿里巴巴大概那个时候开始做阿里云和飞天大数据平台等。
  3. 普惠期。普惠期的特点有两个:其一是千帆竞发后,大部分企业被淘汰,少数企业通过竞争最终占领市场,然后逐步形成规模;其二从技术角度来看,部分技术的发展趋于成熟,如批计算、流计算和分析的一些范式被固定并广泛应用。同时,一些外延的技术比如跟 AI 相关技术的会持续发展。

当前

美国市场可能在普惠期的早期(Snowflake 等核心厂商仍然保持高速增长,年化增长率 60% 以上);中国的市场已经到了发展期向普惠期转换的阶段

数据平台技术演进的视角

美国企业技术和数据平台发展

  1. 过去一年,美国整个经济比较疲软,所以大部分企业的业务重心从不惜一切代价求发展变成了更关注收入和成本控制。所有的公司都在要求削减成本。公司技术负责人需要看人力成本和软件成本,其中软件成本对大部分的创业公司而言,指的是云上的成本、data platform 或者 data warehouse 成本。
  2. 削减成本是 bottom line,增加收入 top line 相较而言更重要。企业在选择项目时的标准是不能天马行空、不能在几年之后才会产生营收,必须要聚焦、要关注接下来的 12 个月左右能够看到营收。
  3. 现在 AI 和大模型都非常非常火,大家对 AI 有非常大的兴趣。看到大公司比如 Amazon,他们在用大模型技术提高、优化现有的一些模型、一些业务。小公司一般不会建设自己的machine learning platform,而是会采购已有产品。
  4. 美国企业对于数据的安全性和隐私的关注度是越来越高的。

技术层面和商业化层面

  1. 从技术层面来讲,大数据已经发展很久,并不存在什么真的难点。
  2. 从商业化角度来讲,现在一个很大的发展方向是效率,企业需要更加高效。高效的标志有多种,比如企业不需要自己建机房、买机器、联机调试等,只需要付钱买服务立刻就能用,方便快捷是高效;随着技术发展,原本昂贵的服务、较差的性能逐渐优化,价格便宜的同时性能越来越好,性价比高是高效;实时服务也是高效的一个标志;所有的数据平台都在往 SQL 方向发展进而提升开发效率。

客户(企业)的角度

  1. 第一类企业,叫做一线大型科技公司,在过去通常是互联网公司为主。比如市值排名前 30 的企业通常有很大的规模,有很强的技术创新的诉求,会有很多定制化的需求。这些企业一般会去选择自建
  2. 第二类企业,叫做 digital native,就是数据原生的公司,这种类型的公司通常规模中等,可能在 100-1000 台物理服务器的这样的一个规模。这些企业我们能看到他们越来越不考虑自建了,他们会觉得自建反而不划算。举个例子,之前国内有一家公司 A,大概需要 100 台 物理服务器做数据平台,硬件成本年化大约 300 万 / 年,如果选择自建的方式,企业要把一整套数据体系做起来大概需要 10 个模块组件,需要 4-5 人的团队来维护,人力成本大概也需要 300 万元一年。如果购买 SaaS 服务,含硬件成本也就 400 万。企业发现自建人力成本几乎和硬件成本一样高,所以这类企业慢慢开始转向购买平台服务。
  3. 第三类企业,叫做有技术能力的传统企业,典型代表比如说银行、保险,现在包括新制造比如造车企业,他们有很多的数据需求。他们技术能力很强,也有很强的付费意愿。这类型客户大部分选择购买数据平台,像银行通常不太会选择自建数据平台,一定会选择购买,因为觉得买来的商业化产品可能从安全性、稳定性的角度是有厂商负责的,有人兜底的,这个对他们很重要。
  4. 第四类企业,叫做传统企业,还有数字政府类的,这些企业通常是个纯粹的使用者,他们甚至都不具备构建数据平台的能力。不同类型的客户要的不一样。

第一类,可能是自建和极致的定制化,中间两类的可能会购买平台型的服务。最后一类,可能不会买平台,也不会建平台,要的是个解决方案。

对 Snowflake 的评价

  1. 最好的一点就是你用它的时候不用去特别去想它背后的细节。它可以提供很多功能,能帮助企业进行基础设施的复杂管理和优化。
  2. 是 SQL based。engieer,product,manager,product analyst 甚至 customer,所有人都可以用 Snowflake 很简单地去查询想要的内容,看到业务数据的一些表现。
  3. 会有一些安全的标准,在数据的加密上做得很好。
  4. 查询响应速度。作为一个用户来说,最关心的是一个 query 能不能很快反馈,能不能支持很多用户同时访问

如果一个平台让你不用去想它就能用,能让你有更多时间专注于做对自己公司而言重要的事情,还能满足公司需求,就是一个很好的平台。

  1. Snowflake 的用户模型,或者说它的收费模式也非常好,好处在于说你不用去选机器,你只要告诉我你选的一个 T-shirt Size,其他东西都帮你搞定了。
  2. Snowflake 现在在往 DataCloud 方向改良,集成了相当多的东西,这些东西能让客户使用产品时一键搞定所有事情。

经过长期访谈发现,用户用 Snowflake 是越用越爽的。

  1. 一体化的能力,是提升业务效率,降低使用门槛的关键。让那些并不太懂技术的人,也能够很好地使用数据平台,就是 Snowflake 成功的第一个关键点
  2. 多云或者叫云中立是 Snowflake 成功的第二个点。很多客户、特别是大客户特别看重数据平台是否会绑定在一家云上。
  3. 第三个关键点是 Snowflake 面向云原生弹性的收费能力。对于小企业来讲, Snowflake 起步非常便宜。

总结 Snowflake 这个平台受欢迎的点,一个是一体化的能力,一个系统解决大多数问题;第二个是多云和云中立;第三个是弹性的收费能力降低了用户使用的门槛

国内需要 Snowflake 类型的公司?

现在大家都可以看到国内有很多云平台,比如说像阿里云、腾讯云、华为云包括像天翼云,包括像其他一些各种各样云平台,有这么多云平台。但是中国似乎没有一家类似于像 Snowflake 这样的独立的云平台。

国内用户他们都希望用多云,不太希望被一家云绑定。他们甚至会自己做一些迁移,就是为了防止被一家云绑定。

=====》》》》 一个第三方的产品,足够好用,价格相对来说比较合理,一定有其存在的合理性。

  1. 第一,快速发展的中国云市场,带来更多需求。中国是个大市场,有很多的用户和海量数据,但是中国的云规模相对不大,中国的云跟美国的云从营收层面比,大概有 1:7 的一个比例,这个跟中国整个经济的体量并不太匹配。
  2. 第二,中国缺乏多云独立的数据平台服务。中国云生态很分散,大家提到美国就是三朵云了,几乎没有第四。中国除了刚才提到的阿里、腾讯、华为以外,还有像天翼、字节等等。中国的云发展的生态更分散,这个也是技术发展期的一个特征,就是百花齐放的一个样子。这种百花齐放对用户来讲确实是个问题,他希望不被锁定。
  3. 第三,从对标厂商层面看。美国三大云数仓 + 两个独立数据平台(Snowflake,Databricks) 的数据平台格局已经形成。相比起来,国内做原创数据平台技术的公司并不多,市场整体还是偏空白的状态。

国内要做 Snowflake,不是简单的 copy to China

Snowflake 对标起来,有五个标准:

  1. 第一,它应该是多云的。
  2. 第二,它是一体化的,能用一套系统能解决用户的很多数据的问题。或许不一定解决所有问题,但它至少应该是一个高内聚、低耦合的系统。
  3. 第三,关键的是原创的技术。如果今天拿开源的技术组装成一个系统,它很难做到非常好一体化。无数的案例已经证明了这一点。Snowflake 好就好在它是一个一体化的东西,是非常耦合一体化的东西。
  4. 第四,就是不能照搬,就是如果今天照抄 Snowflake 的技术,那是 8 年前的技术。Snowflake 起步大概在八九年前,让它火起来的技术在当年是创新但在现在已经不是了。所以中国版 Snowflake 要有原创能力和面向新一代的技术的创新,要比 Snowflake 做得更好才可以。
  5. 第五,好的 To B 能力或者说本土化。好的 To B 能力指的是基础设施产品。除了技术以外,你要有很好的产品的包装能力,让用户用起来很“爽”;要有很好的商业服务能力,包括现场实施、安全性合规等,能够服务好客户。

中国版的 Snowflake 应该有五个特征:多云、一体化、原创的技术、比 Snowflake 更新一代的创新、好的 ToB 能力