有效查询Hbase

格雷格·佩克里（Greg Peckory）：

我使用Java作为查询Hbase的客户端。

我的Hbase表设置如下：

ROWKEY     |     HOST     |     EVENT
-----------|--------------|----------
21_1465435 | host.hst.com |  clicked
22_1463456 | hlo.wrld.com |  dragged
    .             .             .
    .             .             .
    .             .             .

我需要做的第一件事是让所有的清单ROWKEYs已host.hst.com与它相关联。

我可以在Column处创建一个扫描器，host并为每个行值column value = host.hst.com添加对应ROWKEY的列表。似乎效率很高。O(n)获取所有行。

现在是困难的部分。对于ROWKEY列表中的每个，我需要获取相应的EVENT。

如果我使用普通GET命令在处获取单元格(ROWKEY, EVENT)，我相信会创建一个扫描程序，EVENT这将花费一些O(n)时间来找到正确的单元格并返回值。对于每个人来说，这是非常糟糕的时间复杂性ROWKEY。两者结合起来就给了我们O(n^2)。

有没有更有效的方法来解决这个问题？

非常感谢您提前提供的帮助！

javadba：

你这是什么n？有了RowKey，我想您的意思是HBase Rowkey，而不是一些手工制作的？-对于HBase而言，这是快速/容易的。认为它是O（1）。

相反，如果ROWKEY是您创建的实际列..则存在问题。请改用HBase提供的行键。

因此，让我们继续-假设您（a）已经正确使用了提供的hbase- rowkey或已固定结构来执行此操作。

在这种情况下，您只需get为每个(rowkey, EVENT)值创建一个单独的代码，如下所示：

Perform a `get` with the given `rowkey`. 
In your result then filter out EVENT in <yourEventValues for that rowkey>

因此，您最终将获取给定行键的所有最近（最新时间戳）条目。与“ n”相比，这可能很小。然后，过滤是对一列的快速操作。

您也可以通过批量处理来加快速度multiget。节省的钱来自减少到HBase主服务器的往返次数以及主服务器/区域服务器生成的解析/计划。

更新感谢OP：我更清楚地了解了这种情况。我建议只使用“ host |”作为行键。然后，您可以进行范围扫描，并从单个“ 获取 /扫描”中获取条目。

另一个更新

HBase支持基于行键前缀的范围扫描。因此，您具有foobarRow1，foobarRow2等。然后可以对（foobarRow，foobarRowz）进行范围扫描，它将发现所有具有以foobarRow- 开头的行键以及随后带有任何字母数字字符的行。

看看此HBase（轻松）：如何在hbase shell中执行范围前缀扫描

这是一些说明性代码：

SingleColumnValueFilter filter = new SingleColumnValueFilter(
   Bytes.toBytes("columnfamily"),
   Bytes.toBytes("storenumber"),
   CompareFilter.CompareOp.NOT_EQUAL,
   Bytes.toBytes(15)
);
filter.setFilterIfMissing(true);
Scan scan = new Scan(
   Bytes.toBytes("20110103-1"),
   Bytes.toBytes("20110105-1")
);
scan.setFilter(filter);

请注意，20110103-1和20110105-1提供了一系列要搜索的行键。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-06-2

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

有效查询Hbase

有效查询Hbase

Android Studio Kotlin：提取为常量

计算数据帧R中的字符串频率

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

TreeMap中的自定义排序

TYPO3：将 Formhandler 添加到新闻扩展

遍历元素数组以每X秒在浏览器上显示

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

无法连接网络并在Ubuntu 14.04中找到eth0

将辅助轴原点与主要轴对齐

我可以ping IPv6但不能ping IPv4

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

提交html表单时为空

使用C ++ 11将数组设置为零

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称

尝试在Dell XPS13 9360上安装Windows 7时出错

如何在R中转置数据

无法使用 envoy 访问 .ssh/config

未捕获的SyntaxError：带有Ajax帖子的意外令牌u