
ClickHouse, Inc. 由 Aaron Katz、Alexey Milovidov 和 Yury Izrailevsky创立于2021年,总部位于美国加州Mountain View,ClickHouse 是一款开源的列式数据库管理系统,专注于实时分析型报表场景。它支持高效执行复杂的 SQL 查询,适用于对数据处理速度和分析能力要求较高的应用。该系统在大数据环境中表现尤为出色,能够帮助组织顺畅地管理和分析海量数据。ClickHouse 架构在设计上充分优化了性能与可扩展性,能够满足销售团队和数据分析师从数据中获取可执行洞察的需求。

#Clickhouse
ClickHouse, Inc. 美股百科
ClickHouse, Inc. 是一家总部位于加利福尼亚州的数据库和实时分析公司,致力于将开源的 ClickHouse 列式 OLAP(在线分析处理)数据库商业化。该软件旨在以高性能、低延迟的方式对超大型数据集运行 SQL 分析。其核心技术源自 Yandex,并已在 Apache 2.0 许可下开源;ClickHouse, Inc. 的成立旨在围绕该引擎构建商业业务,并且随着对实时分析(包括可观测性/遥测和人工智能相关工作负载)需求的加速增长,该公司近期已获得大量风险投资。
ClickHouse 的产品可以分为两个层面。首先是开源的 ClickHouse 数据库本身:这是一款面向列的 SQL 数据库,针对大规模快速分析查询进行了优化,通常用于数据仓库、应用程序分析和可观测性类型的工作负载。其次是 ClickHouse Cloud,这是该公司提供的全托管(无服务器式)云服务,可在主要的公共云平台上运行 ClickHouse,并通过其控制台/API 进行操作,从而减少客户管理基础设施、扩展和运维的需要。在云平台中,ClickHouse 还提供托管式数据摄取功能(例如 ClickPipes),帮助用户持续从常见数据源导入数据,从而支持近乎实时的分析流程。
ClickHouse DBMS 的主要特性包括:
- 真正的列式数据库管理系统。数据以列为单位存储,不会为每个值额外存储冗余信息。例如,对定长数据类型无需在数值旁边存储其长度,从而提高存储与计算效率。
- 线性可扩展性。通过增加服务器即可轻松扩展集群规模。
- 高可用与容错能力。系统由多个分片组成,每个分片包含一组副本。ClickHouse 采用异步多主复制机制,数据可写入任意可用副本,再分发至其他副本。ClickHouse Keeper(基于 C++ 实现的 Zookeeper)用于协调数据复制等过程,但不参与查询处理与执行。
- 支持 PB 级数据的存储与处理。
- SQL 支持。ClickHouse 提供扩展的类 SQL 语言,支持数组与嵌套数据结构、近似计算函数、URI 函数,并可连接外部键值存储。
- 高性能:
- 采用向量化查询引擎并行执行任务,最大化硬件利用率,并根据主机 CPU 选择最优的 SIMD 实现。
- 数据以独立的表分片形式写入,无需全局协调,实现快速并行写入;后台通过异步合并分片以优化查询性能和存储效率。
- 写入操作与 SELECT 查询完全隔离,数据合并在后台进行,最大限度降低对并发查询的影响。
- 使用主键索引定义表数据的排序顺序,在查询执行时可进行高效的二分查找,将扫描时间从线性复杂度降低至对数复杂度。
- 支持表投影,通过按不同键排序并存储内部数据副本,优化多种常见过滤场景下的查询性能。
- 支持跳过索引,通过轻量级的列级统计信息(如最小值/最大值、唯一值等)避免不必要的数据读取,加速过滤判断。
- 支持采样与近似计算。
- 支持并行和分布式查询处理(包括 JOIN 操作)。
- 数据压缩能力强。列式存储结合显式排序,使磁盘上相似数据相邻,显著提升压缩效率;支持多种可配置压缩算法,如兼顾速度与压缩率的 Zstandard(Zstd)以及以快速压缩与解压著称的 LZ4,同时支持 Delta 编码等压缩编解码器,实现更高的压缩比。
- 复杂数据类型支持。包括 JSON 等半结构化数据,数据结构可在写入时根据实际字段动态确定。
- 向量搜索支持。通过距离函数实现,既支持精确匹配,也支持近似最近邻搜索索引。
- 变更数据捕获(CDC)。通过收购 PeerDB 这一开源 CDC 方案,ClickHouse 可近实时地从 PostgreSQL 等外部数据库同步插入、更新和删除操作。
- 字典(Dictionaries)功能。提供内存级键值存储,用于高效数据增强,并加速
LEFT ANY JOIN查询。 - 外部表函数。支持直接查询存储在其他系统中的数据,包括 PostgreSQL、MongoDB、MySQL、Redis,以及 Amazon S3、Google Cloud Storage 等对象存储平台。
- 开放文件格式支持。原生支持 Parquet、Avro 等开放数据格式的读写。
- 开放表格式支持。可查询 Apache Iceberg、Delta Lake 等现代开放表格式,实现与数据湖与湖仓生态的互操作。
- 行去重引擎。MergeTree 系列中的多种表引擎(如
ReplacingMergeTree)支持异步行合并逻辑,高效实现数据去重。 - 增量物化视图。支持对物化视图进行增量更新,可保存并刷新部分聚合状态,而无需重新计算全量数据。
- 可刷新物化视图。除增量更新外,还支持定期执行查询并将结果持久化到目标表中的可刷新物化视图。
- 机械硬盘(HDD)优化。系统能够高效处理无法完全放入内存的数据。
- 数据库连接客户端支持。提供原生协议和 HTTP API,可供控制台客户端及多种语言的客户端库使用,包括 Python、Java、Golang、PHP、NodeJS、Ruby、R,同时也提供 ODBC 和 JDBC 驱动。
ClickHouse, Inc. 历史百科
ClickHouse 的技术最早由俄罗斯最大的科技公司 Yandex 开发。2009 年,Alexey Milovidov 与开发团队启动了一个实验性项目,用于验证一个假设:是否可以在非聚合数据持续实时写入的情况下,实现分析型报表的实时生成。开发团队用了三年时间验证这一假设,并于 2012 年首次将 ClickHouse 投入生产环境,用于支持 Yandex.Metrica。
2016 年,ClickHouse 项目以 Apache 2 许可证的形式正式开源,用于支持全球范围内的分析型应用场景。当时的同类系统吞吐量通常只有每秒数十万行,而 ClickHouse 的吞吐能力可达到每秒数亿行,性能显著领先。
自 2016 年开源以来,ClickHouse 的受欢迎程度呈指数级增长,已被优步、康卡斯特、eBay 和思科等行业领先企业采用。ClickHouse 还被应用于 CERN 的 LHCb 实验,用于存储和处理约 100 亿个事件的元数据,每个事件包含 1,000 多个属性。
2022 年 10 月,ClickHouse 收购Arctype。Arctype 的 SQL 客户端被整合进 ClickHouse Cloud,提供基于 Web 的操作界面,并成为 Cloud Console 的基础。
2024 年 7 月,ClickHouse 收购PeerDB。PeerDB 提供变更数据捕获(CDC)技术,可将 PostgreSQL 中的数据复制到 ClickHouse,从而增强实时分析能力。ClickHouse, Inc. 通过 ClickPipes 提供 PeerDB 的托管版本,ClickPipes 是 ClickHouse Cloud 的托管数据接入服务,支持与 Postgres 数据源的无缝集成。
2025 年 3 月,ClickHouse 收购 HyperDX。HyperDX 是一个基于 ClickHouse 构建的开源可观测性平台,提供用户界面和可观测性工具,并被整合进 ClickHouse 的可观测性技术栈。HyperDX 现已成为 ClickStack 的主要用户界面,ClickStack 是一个基于 ClickHouse 的开源可观测性技术栈。
ClickHouse, Inc. 融资百科
- 2021 年 9 月,ClickHouse 完成 Benchmark 和 Index Ventures 领投的5000万美元A轮融资,Yandex跟投。
- 2021年10月,ClickHouse 完成 Altimeter Capital 和 Coatue 领投的2.5亿美元B轮融资,Lightspeed Venture Partners、Redpoint、Index Ventures、Benchmark、FirstMark等跟投。
- 2025年5月,ClickHouse 完成 Khosla Ventures 领投的3.5亿美元C轮融资,Lightspeed Venture Partners、Bessemer Venture Partners、Index Ventures、Battery Ventures等跟投。估值约为 63.5 亿美元。
- 2025年5月,ClickHouse 获得来自 Goldman Sachs 和 Stifel Bank 的1亿美金债务融资。
- 2026年1月,ClickHouse 完成Dragoneer Investment Group领投的4亿美金D轮融资,Lightspeed Venture Partners、Bessemer Venture Partners、Khosla Ventures、Index Ventures、T. Rowe Price等跟投。
ClickHouse, Inc. 美股投资
参考资料:
