云原生数据仓库ByteHouse性能白皮书(企业版).pdf

在数据处理和分析的领域,提升查询效率始终是一项关键挑战。在OLAP领域。性能的关键需求在于能够快速进行数据检索,支持实时分析,具备处理大规模数据的能力,轻松应对复杂查询,提供快速响应,具备良好的可扩展性,高效处理并发操作,以及实现高效的数据压缩和存储。这些方面对于满足高效、准确的数据分析需求至关重要。
ByteHbuse是火山引摩自主研发的云原生数据色库产品,它全道继承了开源CIckHouse的高性能和强大的分析能力,并在架构上遵循新一代云原生理念进行全面重构。实现了容器化、存储计算分离、多租户管理和读写分离等功能。在可扩展性、稳定性、可运维性、性能以及资源利用丰等方面都有显著提升。截至2022年2月,ByteHouse在字节跳动内部的部署规模超过18000台,单集群超过2400台。它经过了内部数百个应用场景和数万用户的锤炼,并在多个外部企业客户中得到了广泛应用。
本文将介绍ByteHouse企业版的一系列优化措施。这些改进旨在缩短查询执行时间、优化资源利用,提供更流畅的数据分析体验。通过智能优化算法和先进的执行技术,ByteHouse能够更好地应对各种复杂的查询场景。
为了让大家亲身感受这些优化带来的效果,我们提供了使用SSB 100G、TPC-H 10OG、TPC-DS 1DOG数据集的性能测试步骤。您可以按照这些步骤进行测试,亲自验证Byte+ouse企业版在查询效丰方面的呈著提升。数据分析场景
实时数仓①
Kafka &Flink
Hakafko:更聪定的高可用Kaha消费引肇
ByteHouse的HaKafka Engine是一款自研表引擎,在数据实时消费性能不牌级的基础上解决了Kafka消费的高可用问题,提供了low-level消费模式,保证了At-least-once消费语义。用户可以通过ByteHouse控制台可视化创建实时导入任务。
FtnkCemree ter
Flink Connector for ByteHouse连接器专用于遇过Flnk将数据加载到ByteHouse,目前FlinkConnector已经支持遇过Toble APBSCL和FInk DataStreamAPI两种方式来连接ByteHouse并处理数据。详情请参见产品手册(https:/www.vdlcengneom/docs16464/M98033)。
CDC(Change Data Capture )实时数据同步
DES数据快车服务(ByleHate插件)
数据快车服务(DES,Data Express Service)是一个用于将多源异构数据源和数据结构导入到ByteHouse的服务,遇过提供数据集成、结构映射、高效导入、安全可靠等功能,帮助用户快违、准确地将各种类型的数据(如关系型数据库、日志文件、对象存储等)导入到ByteHouse中进行后续的处理和分析。
使用DES可实现数据秒级同步到目标端,用户可以根据业务需求选择不同规格的独享资源以享受更高性能的同步体验,同步性能可达到25万reccrds/s以上,详情请参见产品手册。目前,数据快车的CDC同步任务已支持MySQL|PostgreSOL数据源的历史或增量数据同步。
内置MatetslkesMvySCL引壁
为了强化实时数色的能力,便于将MySOL中的表映时到日yteHouse企业版中,ByteHouse引入了Mo tericizedMySOL数据库引擎,ByteHouse服务作为MySOL副本,可以读取Brlog并执行DOL和DML请求,实现了基于MySOL Bnlog机制的业务数据库实时同步功能。
ByteHouse企业版在实现MateridizedMySOL时,底层引擎采用了自研的HoUniqueMerge Tree引擎,支持自定文版本字投以及根据UNOUE KEY实时删除数排功能,无需引入其他额外字投。同时,Bytefbuse增强了MateridicedlMySQL引擎的稳定性和易用性。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入查阅下载3万+精选资料,年享1万+精选更新

(星球内含更多未发布精选报告.其它事宜可联系zzxz_88@163.com)