HBase 与 Cassandra：HBase 和 Cassandra 之间的区别 [2022]

已发表: 2021-01-06

介绍

在处理大型数据集时，拥有能够处理如此大量数据的存储单元和管理系统至关重要。 HBase 和 Cassandra 就是两个这样的可扩展数据库。它们都能够在不影响性能的情况下处理大量数据。它们都是开源数据库，致力于线性可扩展性的概念。此外，这两个数据库都是非关系型的。

Cassandra 被 Activision、Apple、Instagram 和 Netflix 等公司使用，仅举几例。

HBase 被 Siemens、Nvidia 和 Pinterest 等公司使用，仅举几例。 Apple 的一些 Cassandra 实现处理超过 10PB 的数据。

在我们对HBase 与 Cassandra的分析中，我们讨论了这些系统之间的差异和一些共享功能。它将帮助您决定在下一个大数据项目中使用哪个数据库，并帮助弥合有关这些数据库的一些知识空白。

不同之处

1. 基础设施

在讨论HBase 与 Cassandra时，首先需要了解基础架构。尽管据说两者都在 NoSQL 数据库上，但 Cassandra 更像是一个纯粹的实现。与 Cassandra 不同，HBase 使用在 Hadoop 之上开发的 NoSQL 数据库。此外，Cassandra 和 HBase 都源自 Google 的 BigTable，但在 HBase 中，我们发现了一些亚马逊 Dynamo 的痕迹。

2.基础节点

在 HBase 中，我们使用主节点来监控和协调本地服务器以及相关的操作。除了主节点，还有备用节点。这些用于主节点发生故障以及节点间通信的情况。在 Cassandra 中，有种子节点而不是主节点，用于节点间通信。为了确保可扩展性和性能，在 Cassandra 中，单个集群包含多个种子节点。

3. 节点间通信

在这两个数据库中，节点间通信对于驱动数据库在大型数据集上的性能至关重要。在 HBase 中，ZooKeeper 协议处理所有节点间的通信。该协议与主从网络协议非常相似。在 ZooKeeper 协议中，一个节点充当主节点，其他节点都依赖主节点进行所有通信。

在 Cassandra 中，使用了 Gossip 协议。就像这个词所暗示的那样，沟通是连锁的。节点间通信是通过节点之间的消息传递来实现的。因此，在每个节点上，数据都会被复制。

4.查询语言

虽然 HBase 和 Cassandra 都是基于 JRuby 和 Shell，但HBase 与 Cassandra有一个关键点。 Cassandra 使用称为 CQL 的特定查询语言。 Cassandra 查询语言或 CQL 是与 Cassandra 数据库通信的主要语言。要通过 CQL 访问 Cassandra，最常用的工具是 CQL Shell (CQLSH)。因此，有时 Cassandra 被认为比 HBase 功能更丰富。

五、交易机制

由于两者都是非关系型数据库，Cassandra 和 HBase 不提供使用回滚和锁的基本 RDBMS ACID 事务。 Cassandra 提供具有可调一致性的原子、隔离和持久的事务机制。

在 HBase 中，事务服务器用于处理事务。对于轻量级事务，HBase 使用 Read-Check-Delete 和 Check-Put 的方式。然而，Cassandra 使用 Compare-Set 和 Row-Write-Isolation 来处理轻量级事务。

6. 基础设施

如前所述，HBase 是在 Hadoop 上开发的。因此，HBase 使用 Hadoop 的基础架构并提供类似的功能，如 ZooKeeper、主节点等。然而，Cassandra 是使用 Gossip、Snitch、Partitioner、副本放置策略等协议构建的。

Cassandra 使用数据中心、字符串排序和 CQL 表等元素。 Cassandra 通常与 Hadoop 或 Storm 一起使用，将基础设施类型保持为单节点。这样做只有一个缺点。复杂性随着与 Cassandra 结合使用其他系统而增加。

7. 分区和协处理器

HBase 不支持有序分区。尽管 HBase 允许协处理器功能，但它不支持读取负载平衡，因为单行被视为一个区域服务器。然而，Cassandra 提供了对有序分区的支持。有了这个，Cassandra 可以提供几 MB 的行大小。但 Cassandra 既不支持基于范围的行扫描，也不支持协处理器功能。

这些是HBase 与 Cassandra的一些核心差异。但也应该考虑其他一些差异。

布隆过滤器：布隆过滤器是一种用于处理连续数据流的数据结构。布隆过滤器在空间方面是有效的并且是概率性的。 HBase 使用景气过滤器来检查 StoreFile 中是否存在特定的行或单元格。有些人认为繁荣过滤器是 HBase 的一种索引。在 Cassandra 中，boom 过滤器用于搜索特定文件中的某些数据。

设置和文档：虽然 HBase 似乎更容易设置，但 Cassandra 集群比 HBase 集群更容易调整和设置。 Cassandra 还提供了更好的文档，使其更容易适应和学习。 HBase 的工作原理可能更难理解。尽管如此，只要有适当的来源，就可以有效地知道。

通过 WAN 使用：这两个数据库都允许通过WAN（广域网）进行数据复制功能。在 Cassandra 中，它是通过随机分区模块提供的行复制来完成的。在 HBase 中，通过将集群复制为存储单元来异步执行复制。

另请阅读： Hadoop 教程：学习大数据 Hadoop 的终极指南

结论

因此，这些是我们分析HBase 与 Cassandra的一些要点。由于这两个数据库都是基于 NoSQL 的，它们有时会被混淆为双胞胎。但是，在查看核心复杂性时，差异就会浮出水面。通过查看分析，为您的大数据项目选择有用的分析是可能的。这两个数据库都有一些优点和缺点。因此，了解项目中数据库的使用情况并进行相应选择至关重要。

如果您有兴趣了解有关 Hbase、大数据的更多信息，请查看我们的大数据软件开发专业化 PG 文凭课程，该课程专为在职专业人士设计，提供 7 个以上案例研究和项目，涵盖 14 种编程语言和工具，实用的手- 研讨会，超过 400 小时的严格学习和顶级公司的就业帮助。

从世界顶级大学在线学习软件开发课程。获得行政 PG 课程、高级证书课程或硕士课程，以加快您的职业生涯。

掌握未来的技术 - 大数据

IIIT Bangalore 大数据高级证书课程