在线分析处理 (OLAP) 数据库管理系统独角兽公司:ClickHouse

11月 1, 202114:36:04
评论
656 2827字

ClickHouse由 Aaron Katz, Alexey Milovidov 和 Yury Izrailevsky创立于2021年,总部位于美国加州Portola Valley,ClickHouse 是在线分析处理 (OLAP) 数据库管理系统的创建者。

在线分析处理 (OLAP) 数据库管理系统独角兽公司:ClickHouse

ClickHouse美股百科:

ClickHouse是一个用于在线分析处理(OLAP)的开源列式数据库。ClickHouse是由俄罗斯IT公司Yandex为Yandex.Metrica网络分析服务开发的。ClickHouse允许分析实时更新的数据。该系统以高性能为目标。这个项目是在2016年6月发布的Apache许可证下的开源软件

Yandex.Tank负载测试工具使用ClickHouse。Yandex.Market使用ClickHouse来监控网站的可访问性和KPI。ClickHouse还在CERN的LHCb实验中实现了对100亿个事件的元数据进行存储和处理,每个事件有超过1000个属性,Tinkoff Bank使用ClickHouse作为项目的数据存储。

2021 年 9 月,在加利福尼亚州旧金山,ClickHouse 与 Index VenturesBenchmark Capital 进行了 5000 万美元的初始投资,以容纳开源技术。 2021 年 10 月 28 日,该公司以 20 亿美元的估值从 Coatue ManagementAltimeter Capital 和其他投资者那里获得了总计 2.5 亿美元的 B 轮融资。 公司持续打造开源项目和工程云技术。

Clickhouse DBMS 的主要功能是:

  • 真正的列式数据库。 没有任何内容与值一起存储。例如,支持常量长度值,以避免将它们的长度“ number”存储在值的旁边。
  • 线性可扩展性。 可以通过添加服务器来扩展集群。
  • 容错性。 系统是一个分片集群,其中每个分片都是一组副本。ClickHouse使用异步多主复制。数据写入任何可用的副本,然后分发给所有剩余的副本。Zookeeper用于协调进程,但不涉及查询处理和执行。
  • 能够存储和处理数PB的数据。
  • SQL支持。 Clickhouse支持类似SQL的扩展语言,包括数组和嵌套数据结构、近似函数和URI函数,以及连接外部键值存储的可用性。
  • 高性能。
    • 使用向量计算。数据不仅由列存储,而且由向量处理(一部分列)。这种方法可以实现高CPU性能。
    • 支持采样和近似计算。
    • 可以进行并行和分布式查询处理(包括JOIN)。
  • 数据压缩。
  • HDD优化。 该系统可以处理不适合内存的数据。
  • 用于数据库(DB)连接的客户端。 数据库连接方式包括控制台客户端、HTTP API,或者各种编程语言的wrapper(可以用的有Python、PHP、NodeJS、Perl、Ruby与R语言)。ClickHouse也可以使用JDBC驱动。
  • 详细的文档。

Clickhouse使用场景:

Clickhouse是为OLAP查询而设计的。

  • 它可以处理少量包含大量字段的表。
  • 查询可以使用从数据库中提取的大量行,但只用一小部分字段。
  • 查询相对较少(通常每台服务器大约100个RPS)。
  • 对于简单的查询,允许大约50毫秒的延迟。
  • 列值相当小,通常由数字和短字符串组成(例如每个URL,60字节)。
  • 处理单个查询时需要高吞吐量(每台服务器每秒数十亿行)。
  • 查询结果主要是过滤或聚合的。
  • 数据更新使用简单的场景(通常只是批量处理,没有复杂的事务)。

ClickHouse的一个常见情况是服务器日志分析。在将常规数据上传到ClickHouse之后(建议将数据每次1000条以上批量插入),就可以通过即时查询分析事件或监视服务的指标,如错误率、响应时间等。

ClickHouse还可以用作内部分析师的内部数据仓库。ClickHouse可以存储来自不同系统的数据(比如Hadoop或某些日志),分析人员可以使用这些数据构建内部指示板,或者为了业务目的执行实时分析。

ClickHouse历史:

Yandex.Metrica以前使用一种经典的方法,即以聚合形式存储原始数据。这种方法可以帮助减少存储的数据量。然而,它有几个局限性和缺点:

  • 可用报表的列表必须是预先确定的,而且无法生成自定义报表。
  • 聚合之后,数据量可能会增加。当数据由大量键进行聚合或使用具有高基数的键(如URL)时,就会发生这种情况。
  • 对于具有不同聚合的报表,很难支持逻辑一致性。

另一种方法是存储未聚合的数据。处理原始数据需要高性能的系统,因为所有计算都是实时进行的。为了解决这个问题,需要一个能够处理整个互联网规模的分析数据的列式数据库。Yandex开始开发自己的列式数据库。 ClickHouse的第一个原型在2009年出现。2014年底,Yandex.Metrica 2.0版发布。新版本有一个用于创建自定义报告的接口,并使用ClickHouse存储和处理数据。

  • ClickHouse 的技术最初是在 10 多年前在欧洲领先的互联网服务公司 Yandex 开发的。 2009 年,Alexey Milovidov 和开发人员启动了一个实验项目,以检验从非聚合数据实时生成分析报告是否可行,这些数据也是实时添加的。开发人员花了 3 年时间来证明这一假设,并于 2012 年首次投入生产,为 Yandex.Metrica 提供支持,Yandex.Metrica 是仅次于 Google Analytics 的全球第二大网络分析平台。
  • 与之前使用的自定义数据结构不同,ClickHouse 更普遍地适用于作为数据库管理系统工作。 ClickHouse 的强大功能和实用性提供了真正的面向列的 DBMS,它允许系统以亚秒级延迟从 PB 级原始数据生成报告。 ClickHouse 被 Yandex 广泛采用,包括用于 Yandex.Tank 负载测试工具和 Yandex.Market 来监控站点可访问性和 KPI。
  • 2016 年,ClickHouse 项目于 2016 年 6 月在 Apache 2 许可下作为开源软件发布,为全球分析用例提供支持。 当时的系统提供每秒 10 万行的服务器吞吐量,ClickHouse 以每秒数亿行的吞吐量超过了这个速度。
  • 自 2016 年 ClickHouse 作为开源解决方案推出以来,其受欢迎程度呈指数级增长,优步康卡斯特eBay思科等行业领先公司的采用证明了这一点。 ClickHouse 还在 CERN 的 LHCb 实验中实现,用于存储和处理 100 亿个事件的元数据,每个事件有超过 1000 个属性。
  • 2021 年 9 月,ClickHouse 完成 BenchmarkIndex Ventures 领投的5000万美元A轮融资,Yandex跟投。
  • 2021年10月,ClickHouse 完成 Altimeter CapitalCoatue 领投的2.5亿美元B轮融资,Lightspeed Venture Partners、Redpoint、Index Ventures、Benchmark、FirstMark等跟投。

ClickHouse美股投资:

非上市公司公司官网,等待ClickHouse IPO上市。

盈透证券——一个账户交易全球】

盈透证券(IBKR)提供低成本交易港股、美股(200股/1美元,无平台费)。全市场最低的融资交易成本。借出股票赚取额外收益。

美港股交易最划算的券商,世界排名第一的网络券商!
立即开户
  • 美股之家千人QQ群
  • 群号:109568427
  • weinxin
  • 美股之家微信公众号
  • 公众号"美股百科"
  • weinxin
美股百科
  • 本站原创文章,未经许可,严禁转载!本文由 美股之家 发表于 11月 1, 202114:36:04
  • 美股之家旨在提供各上市公司百科资料,供港股美股投资者参考。本文及本站发布之优惠活动及相关的广告内容不构成任何证券、金融产品或工具的要约、招揽、建议、意见或任何保证。投资有风险,客户应衡量自己所能承受的风险独立作出投资判断,如有疑问,请向独立专业人士咨询。免责声明
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: