HBase数据迁移到Kafka？这种逆向操作你懵逼了吗？

DBAplus社群 · 公众号 · 数据库 · 2020-12-04 23:00

正文

请到「今天看啥」查看全文

这里需要注意一个问题，那就是关于HBase Rowkey的抽取，海量数据级别的Rowkey抽取，建议采用MapReduce来实现。这个得益于HBase提供了TableMapReduceUtil类来实现，通过MapReduce任务，将HBase中的Rowkey在map阶段按照指定的时间范围进行过滤，在reduce阶段将rowkey拆分为多个文件，最后存储到HDFS上。

这里可能会有同学有疑问，都用MapReduce抽取Rowkey了，为啥不直接在扫描处理列簇下的列数据呢？这里，我们在启动MapReduce任务的时候，Scan HBase的数据时只过滤Rowkey（利用FirstKeyOnlyFilter来实现），不对列簇数据做处理，这样会快很多。对HBase RegionServer的压力也会小很多。

这里举个例子，比如上表中的数据，其实我们只需要取出Rowkey（row001）。但是，实际业务数据中，HBase表描述一条数据可能有很多特征属性（例如姓名、性别、年龄、身份证等等），可能有些业务数据一个列簇下有十几个特征，但是他们却只有一个Rowkey，我们也只需要这一个Rowkey。那么，我们使用FirstKeyOnlyFilter来实现就很合适了。

/**

* A filter that will only return the first KV from each row.

* This filter can be used to more efficiently perform row count operations.

这个是FirstKeyOnlyFilter的一段功能描述，它用于返回第一条KV数据，官方其实用它来做计数使用，这里我们稍加改进，把FirstKeyOnlyFilter用来做抽取Rowkey。

2、Rowkey生成

抽取的Rowkey如何生成，这里可能根据实际的数量级来确认Reduce个数。建议生成Rowkey文件时，切合实际的数据量来算Reduce的个数。尽量不用为了使用方便就一个HDFS文件，这样后面不好维护。举个例子，比如HBase表有100GB，我们可以拆分为100个文件。

3、数据处理

在步骤1中，按照抽取规则和存储规则，将数据从HBase中通过MapReduce抽取Rowkey并存储到HDFS上。然后，我们在通过MapReduce任务读取HDFS上的Rowkey文件，通过List 的方式去HBase中获取数据。拆解细节如下:

Map阶段，我们从HDFS读取Rowkey的数据文件，然后通过批量Get的方式从HBase取数，然后组装数据发送到Reduce阶段。

在Reduce阶段，获取来自Map阶段的数据，写数据到Kafka，通过Kafka生产者回调函数，获取写入Kafka状态信息，根据状态信息判断数据是否写入成功。

如果成功，记录成功的Rowkey到HDFS，便于统计成功的进度；如果失败，记录失败的Rowkey到HDFS，便于统计失败的进度。

4、失败重跑

通过MapReduce任务写数据到Kafka中，可能会有失败的情况，对于失败的情况，我们只需要记录Rowkey到HDFS上，当任务执行完成后，再去程序检查HDFS上是否存在失败的Rowkey文件，如果存在，那么再次启动步骤10，即读取HDFS上失败的Rowkey文件，然后再List HBase中的数据，进行数据处理后，最后再写Kafka，以此类推，直到HDFS上失败的Rowkey处理完成为止。