当前所在页面:首页 > 成功案例 > 高校/中小学

2022年数据库发展总结

发布时间: 2024-01-25 12:38:41 |   作者: 高校/中小学

  大家知道 2022 年我又创业了,加入以虎哥 Startup 的 Databend 这个担任联创,我也从传统的 OLTP 转战到 OLAP,今年也接触了更多大数据用户。趁着元旦假期整理一下思路,从数据角度和大家聊一下 2022 年数据库发展,这里首先声明这篇文章更多只代表个人自己的观点,大家都看看就好,有兴趣后面找机会再交流。

  中国数据库行业随 2021 年 7 月PingCAP 完成 3.4亿美元融资,估值达到 30 亿美金。把中国数据库行业引爆了。2022 年 达梦数据库 IPO 12 月 23 日 顺利过会,如果上市成功预计估计在 500 亿人民币,不出意外的话,这将是科创板最大的 IPO 之一。

  那么你知道中国的数据公司有多少吗?据不完全的统计已超越 300 +, 那 2023 年数据库市场又是什么变化呢?我这里抛出来 5 个问题和大家讨论一下。

  也许有很多朋友认为,我们现在国内有 300+ 数据库公司,每家公司的产品都有独到之处,应该全球的数据库上来看,我们是最先进的了吧。例如:2019 年 OB 打榜了 TPCC , 全球开源项目TiDB, …

  如果单纯的比中国数据库和海外数据库差多远,其实都比较主观,那么不如通过 OB 打榜 TPCC 来分析一下。

  其实如果懂行人来看 OB 打榜第一名,感觉说是中国数据库第一次参与了 TPCC 更有意义。首先 2019 年的打榜离le 上次打榜 2010 年过去了9年,在硬件,系统,软件都有变化的情况下做到和 Oracle 上次打榜基本相同的成绩:tpmC为6.25, Oracle 第二名1.01USD,从成本上来讲几乎相差无几。OB 打榜公布的第一次打榜费用:380,452,842 元(人民币),,通过个事情可以说我们追上了人家 9 年前的实力。也许被行内人指出来了,OB 也觉得需要再次雄起一下,2020 年 OB 再次打榜 TPCC 花费:2,814,509,552 人民币,实现 3.98 元/tpmC 细心的朋友可能对比出来硬件再次提升了,机器规模又翻 7 倍+ 的情况再次打榜。因为每家的 TPCC 压测程序都不开源,大家也基本是压着 tpmC 上限是 12.86 测试, 高于这个值就被视为全内存操作的无效测试。

  那我们先进吗?我只能说我目前没看到有项目能运行起来这个环境,毕竟一个数据库项目花 28亿人民币(3年费用),我还没见过。OB 的测试基于是基于云上来评测的。我们也来看看海外的云上的 RDS 及对应的报价。

  MySQL 单集群 HTAP 解决方案,月成本:2万美金,存储最大支持: 50T 。

  AWS 的 Aurora 最高配支持 5 PB 存储每月 517,256 美元,其中存储太贵占到:512,000 美元,实际生产中必然不会这么干,真正的 OLTP 数据不会有这么多,更多的数据可以归档到 Databend ,Snowflake 类在线数仓中来减少相关成本,这类云数仓每 TB 的成本一个月在 120元左右。

  这个就成本算我觉得阿里的 PolarDB 价格是优于 Oracle , AWS 的价格。回过头来看:中国的数据库和海外的数据库差距还有多远?

  我的感觉确是我们部分场景确时超越海外的产品,但海外的产品感觉向着更加务实的方向在发展。反观国内这种超大集群的引导,造成的用户不必要的成本浪费。

  - DB Serverless 按使用时间付费,存储按使用空间付费,不再为预留付费

  从这些方面看来,国内的数据库追赶的很快,国内也有上面类似的产品,但真正 get 到灵魂,这些理念被企业所接受,估计还需要 3-5 年时间。

  首先从 TPCC 打榜上来看,数据库厂商对这个 Benchmark 大都是失去兴趣了,也冷静了,微信群里也没有因为打榜而进行口水,我们也成熟了。因为基本上大家也都明白,在一定成本预算下,选择出来合适的产品就可以。例如:业务对 SQL 响应指标要求 500 ms 以下,支持 3000 QPS 就能够完全满足业务,支持到 IPO 没啥问题了,在这样的前提下,大家肯定不再是按打榜来选择,因为大家在数据库这个方向上有所积累后,可以再一次进行选择的开源产品太多了,甚至云的上 RDS 采购一个也够用了。整体上来看现在 OLTP 已经很成熟,现在 OLTP 卖货,更多是打着安全,有保障,合作联合开发(卖数据库保险一样在卖货) 。

  大家口水了多年:MySQL ,PostgreSQL 谁更强,争论多年后,也终于有了一个初步的结果。在互联网领域里 MySQL 还是当之无愧的王者, Pg 也在国产化领域中披上各种马甲在冲锋, MySQL 也在披着马甲,还有套着 Pg 往前冲的。基本上也可以说 OLTP 基本是一种成熟状态,最终谁能在这波浪潮中赢下来,就看谁能拥抱一个更加开放的生态,整合更多的合作伙伴,输出更多解决方案,例如:银行系统运行,火车票售票系统, 电力的数据库系统。

  OLTP 的成熟,但 OLTP 的成本通常比较高,大家也会把 OLTP 的数据慢慢转向 OLAP 对外提供服务,也就从另一方面代表着 OLAP 可以创造更多的财富?我现在算是从 OLTP 跨入了 OLAP ,给大家伙儿一起来分享俩个 2022 年我看到案例。

  Case1 一个朋友在从事猎头行业,别人找他要人后,他总能很快的找到意向标的人给甲方,并较快的获得到甲方的认可。这个事情,最初我看到觉得他太牛X了,我也非常好奇他怎么做到的?后来熟悉后才知道他就是 OLAP 运用的高手,他获取上数据存入 Databend(Databend + COS) , 然后对甲方想要的技术人员画像,这样些人可能对什么 Repo 感兴趣,然后找到对应的 Repo 中的贡献者,联系其中活跃的人,给他们分享机会,获得认可。他是我见过转猎头比较成功的程序员。

  Case 2 分析区块链钱包,进行跟投(纯属虚构)我们在炒股中,经常想着可以了解一下今天谁买了什么,或是大家都在买什么就可以有很多决策了,但这一些数据需要去购买,而且非常的贵,还拿不到成交和账户的对关系。在区块链中,这一切都是透明的,谁花了多少钱,买了什么,这一切都在链上。今年看到一些猛人对链上的数据来进行解析后,分析出来盈利最多的 Top 1000 然后再找到符合个人风格的进行跟投。这个也能说 OLAP 的一个应用。

  举了俩个个人在使用 OLAP 的场景,其实企业的使用 OLAP 的场景也非常多,也有成熟的套路,只是后续的 OLAP 的成本会慢慢的低,越有利于用户的使用。

  目前也能说是海量的数据时代,在 OLAP 中数据到 PB 级都和玩一样,今年经历了 N 多单天数据量在 100T 以上的项目,也让我对 Databend 这个项目产生了非常大的敬意,这类数据的压缩基本能达 8-20倍的压缩, 同时还能较好的支持计算。

  新一代的云原生 OLAP 也在替代着传统大数据项目, SQL 成为统一语言,新一代的云原生 OLAP 也会让大数据项目越来越简单。OLAP 让大数据项目也在向着:更便宜,更好用,高性能 的方向发展。

  HTAP( Hybrid transaction/analytical processing) 是一个数据库的超融合方案,把事务处理和分析处理都集中在一个系统中对外提供服务。目前这也是 OLTP 方向的数据库在追求的一个重要方向。

  可以说一时间大家把是否支持 HTAP 作为数据库对比的一个重要指标,更夸张的一个论调说:HTAP 是 MySQL 生态的最佳归宿。实质上这里有一个前提在 10TB 以下 HTAP 感觉可以一战,再大一点 HTAP 的方案的成本不是一般用能扛住。以至于很多用户产品演示时上最贵的 HTAP 过关再说,交付时可能挂一个PostgreSQL 也能满足客户实际场景也不少, 同时今年可能是因为行情不好,遇到挺多跑300-400台 HTAP 集群,数据量在 500T 左右的用户抱怨复杂 SQL 影响整体集群处理能力,也不太敢扩容,把数据定期归档到 Databend ,利用 Databend + 对象存储对外分担一部分的查询分析,从而降低成本。

  我觉得是的。用户最终赚钱的是业务,让业务可以更加简单的可以在数据库上运行起来,把 OLTP 和 OLAP 包装起来对用户透明,绝对是一个非常硬的需求,这估计也是 Snowflake 今年增长特别快的原因之一吧。

  但 HTAP 也有他的局限性,价格太贵。通常在云环境中,我们认为计算和网络是最贵的,但在 HTAP 数据库系统中,当存储增长到一定量时,你会发现好像计算和网络又是最便宜的,但这些相对于对象存储 1T 一个月只要 110元(国内更便宜)无法相比,这也是我个人感觉 HTAP 适合中小型项目快速 Startup 让业务赚到钱生存下来,再说利用云原生数据库相关技术把成本和运维降下来。

  这个时代一切都在变, 我刚工作那会能把 LAMP + Squid 顺利 40 分钟内安装完毕入职 Sina 都没啥问题了,再早一点帮别人安装一个 Oracle RAC 一晚上赚个 IBM T40 也没啥问题,再后来 Oracle OCP 失业了, MySQL 时代来了, 大数据时代来了,AI 时时代来了,一浪接一浪,总有拍死在沙滩上的,当然也有乘风破浪的弄潮儿,其实在这些 IT 大浪中,你能抓住一浪基本生活无优,早期 BAT 的朋友不知道是不是有钱,还看到他们天天加班,但都住着千万以上的房子,开最骚气的车。我说这些想表达什么呢?我想说:选择比努力更重要

  MySQL 方面的技术,现在非常成熟,合理的使用基本可以做到按年计算不停机

  使用 MySQL 低级错误越来越少,例如早期做 SQL 注入攻击和检测的,基本不存在了

  MySQL 在现在开发架构中已经融入 Serverless , 离服务越来越近

  国内化乙方需要一交付的 DBA, 基本大家都招聘MySQL DBA 为主

  其实早期各个云 RDS 出现后, DBA 圈子里就有一种声音:云平台的 RDS 可能把 MySQL DBA 干掉, RDS 平台的人员还各种掩饰这个问题,现在看来是真正发生了 :) 其实这个也可是可以预见的,一个云平台 RDS 开发通常在百人以上的规模,把 DBA 能想到事情,基本都可以自动化实现了。

  现在来看 Hadoop 生态,基本要成为历史,笨重的 Mapreduce编程终会被 SQL 替代

  传统的复杂的大数据会趋向越来越简单化,以前看大数据架构中,很多公司在重度依赖 kafka, 存储可能 40 台, 中间的 Kafka + 数据洗清机器可能是 80-100 台

  大数据架构师决定把数据存储几种数据库,大数据工程师每天就在应对数据的清洗和不同数据源中数据一致性的比对

  业务产出不明显,但部门成本比较高,更多是面抽报表,ad-hoc 查询生活

  大数据平台原来那波 Hadoop 生态的的现在可能是 Hive, Hbase, HDFS 为主,HDFS 的成功,也让很多做对象存储创业较为成功,例如 xsky 对象存储,在互联网和传统企业都占据了半壁江山。但 Hive 现在也在被很多产品所替代,如;Doris, Clickhouse, Presto, Trino, Impala, 还有国内很多基于 Greenplum 的二开产品,也有新生代云原生数仓:Databend 都在看着这块市场。

  MySQL DBA 如果不转型现在最好的归宿乙方数据库公司,如果能跟上节奏抓着 MySQL + k8s 或是 熟悉 Terraform , SQL 自动审核类工具,了解 CI 还可以在互联网企业一战(DevOPS 运维时代真的来了,运维代码化,避免了面传口授,无法追录过程的运维时代), 其实也给了互联网 DBA 一个更大的想象空间,例如利用云轻松实现多IDC多中心设计,利用 metabase 轻松实现一个 CMDB + 数据控查询系统,利用 terraform 轻松把基础资源管理起来。

  大数据人员现在分为两类,一个报表展现人员,另一个数据整理人员,比较危险的是数据整理人员,对于 Databend 这类云原生数仓( Snowflake 开源实现)中很多理念如果落地,会大大简化大数据方面人力和资产的投入,把大数据走向一个 case by case 模式,同时又较方便的实现各部门数据的共享,互惠。大数据数据人员最终会变成数据质量,数据血缘方面的专家。

  对于数据库创业来讲,我觉得今年可能不是一个好时间,但市场也不缺乏好机会。为什么说现在不是一个好时间呢?2021年资本差不多已经完成了数据软件的布局,很多公司甚至也是高估值拿到了融资,这个过程中也不乏一些摸鱼创业者,其实资本也都不傻,都会看明白的。我们知道对于基础架构创业比较漫长,看海外的产品 10 年都属于正常现象, 第一个 3 年能完成产品开发+打磨迭代到成熟, 然后就是3-4年的生态建设,接下来 3 年才是商业收获的过程,这个过程也能够说是漫长的,对资本来讲是一个收获比较慢的过程。数据库融资方面感觉在 2021 年 10 月份以后,资本忽然集体冷静下来了。2022 年也可以说是市场最不景气的一年,但也不要泄气,看美国成名的数据库公司也都是在经济危机时间创建的,经济危机时不知道做什么,就节衣缩食,专心做个数据库吧。

  但我们需要明白中国的数据库市场相对还是比较低,据 2021 年的市场评估,全球数据库市场 700 亿美元, 中国市场只有 47 亿美元,仅占 5.2%。这以至于 2022 年大部数据库公司也在忙着社区建设,更多的希望通过开源带动商业发展,以至于现在给我的感觉是全球基础架构开源看中国。

  国内数据库市场是面对大额采购时,各大公司的 CTO, CIO 可能至少面对 10 家以上(现在数据库估计在 400 家以上) 的数据库公司在清洗, 大公司的 CTO, CIO 也都是经过市场考验的战士,他们也是冷静的决策者,以至于决策过程也变得更加的长。

  那么现在还是不是数据库公司的创建的好机会,我觉得市场在这个冷静期,以及 2022 年资本市场环境不好, 2023 年估计会有不少数据创业公司离场,但随着达梦 IPO 成功,我估计还会让资本有点小小的冲动。另一个实际情况是 MariaDB 借壳上市直接到现在跌了差不多 70% + 。

  和我交流过数据创业的人,我通常给的建议是:求差异,利他人,共建生态,这三点来谋发展。2022 年在做 DTCC 规划过程中,我给唐川讲今年也可以搞一个开源秀,让在 DTCC 参考的嘉宾及公司或是想创业的伙伴有更多的爆光机会,最后经过几轮讨论后,很快就把开源小秀场落地,我看现在已经进行了 7 期。这个大家可以想想这个栏目为什么能做起来。我在 2022 年遇到同行问的最多一句话是有没有质量高一点的 meetup推荐~~~, 甚至有的公司已经开始各种地方碰瓷宣传。实质上你会发现海外真正牛 X 的产品对中国都是禁售的,中国的 IP 不能注册,中国的信用卡不支付,所以自家就不用碰了,真正做事,可以研究一下海外的产品吧, 一个月 3000-4000 元的基本成本投入就可以把一个基础的数仓项目运营起来,这个放到现在国内的所有的数仓项目中都是无法实现的,真的是创业是我辈当自强。

  现在看来单纯创业上来讲, 做现有数据库的改善或是增强,甚至是数据生库的服务都比从 0 开始做一个数据库比较安全。这块在 Rust 生态有一些不错的参考,如:

  readyset 用于提升现有数据库的性能和可用性,支持 MySQL, PostgreSQL , 看到这一个项目时,也让我想起了内心一直在规划的 update server , 看看别人已经实现了。

  我觉得这些是有绝对的生命力,也是对社区和业务是有绝对帮助的。如果你一定要在这个方面创业,你也可以考虑这些方向,例如我现在也比较看好的

  类似于 metabase 的商业化支持:衡石科技(可能已比 metabase 强大了)

  另外如果对数据库方面创业有较强的执念,可以先想清楚定位,不能只把生意定位在国内还是海外,一定要想清楚做这个事情究竟可以给社会创造什么价值,这才是真正存活的下来的根本。创业的本质就是:忍人之所不能忍,能为人之所不能为。创业没有最好的时间,也没有最差的时间,这只是一种生活的方式,如果你想这一生要做点什么才无悔,就加入进来吧。数据市场上还有多事情可以共同合作,共建这个生态。Dongxu 也是这个方向比较好的天使投资人,如果你想好了就加入进来吧。2023 年一起携手共进。

  文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

  备份与恢复 场景介绍 当应用在处理一项重要的操作,显然是不能被打断的。例如:写入多个表关联的事务。此时,每个表的写入都是单独的,但是表与表之间的事务关联性不能被分割。 如果操作的过程中

  集中以在列表中选择以更快地编辑我的标签. 我找不到如何在 ndef 中格式化我的

  一年的收获 /

  基于开源项目Piasy/RxAndroid音频进行的ohos移植和开发

  【昉·星光 2 高性能RISC-V单板计算机试用体验】开箱及装载Debian系统

  • 跨境收款1天到账的银行产品财务和进销存管理的免费软件来了解一下 愉见财经 跨境收款1天到账的银行产品财务和进销存管理的免费软件来了解一下 愉见财经

    2023-11-24

  • 管家乐企业进销存的教程 管家乐企业进销存的教程

    2023-11-25