小菜鸟

HBase读数据过程

发表于 2021-04-27 更新于 2025-07-27 分类于 hbase 阅读次数： Valine：
本文字数： 2.3k 阅读时长 ≈ 2 分钟

HBase读数据流程深度解析

HBase 的读数据过程涉及客户端、ZooKeeper、元数据表（hbase:meta）、RegionServer 等多个组件的协同，核心目标是高效定位数据位置并优化读取性能。以下从客户端发起请求到数据返回的全流程进行详细拆解。

读数据核心流程概述

HBase 读操作的本质是从分布式存储中快速定位并获取目标数据，流程可概括为 “定位 Region → 读取数据 → 优化缓存” 三个阶段，具体步骤如下：

客户端通过 ZooKeeper 获取元数据表（hbase:meta）的位置；
访问 hbase:meta 表，查询目标数据所在的 Region 及对应的 RegionServer；
客户端直接与目标 RegionServer 建立连接，请求读取数据；
RegionServer 在本地 Region 中按 “内存 → 缓存 → 磁盘” 的顺序查找数据；
读取结果返回客户端，同时热点数据写入缓存以优化后续访问。

详细流程拆解

第一步：获取元数据表（hbase:meta）位置

HBase 的元数据（Region 分布信息）存储在 hbase:meta 表中，而该表的位置由 ZooKeeper 维护，这是读流程的起点。

客户端操作：客户端启动时，首先向 ZooKeeper 的 /hbase/meta-region-server 节点发送请求，获取 hbase:meta 表所在的 RegionServer 地址（包括主机名和端口）。
作用：ZooKeeper 作为集群协调中心，提供了元数据的统一入口，确保客户端能快速定位元数据表。

第二步：查询 hbase:meta 表，定位目标 Region

hbase:meta 表是 HBase 的 “目录索引”，存储了所有用户表的 Region 分布信息，每条记录包含以下关键信息：

阅读全文 »

HBase命令

发表于 2021-04-26 更新于 2025-07-27 分类于 hbase 阅读次数： Valine：
本文字数： 4.4k 阅读时长 ≈ 4 分钟

HBase Shell 核心命令全解析

HBase 提供了丰富的 Shell 命令用于表管理、数据操作和集群监控，是日常运维和开发调试的重要工具。本文将详细介绍 HBase 常用命令的语法、功能及使用场景，帮助读者快速掌握 HBase 操作。

表管理命令

1. 创建表（create）

创建 HBase 表时需指定表名和列族（Column Family），列族是表结构的核心组成部分。

语法：

1	create '表名', '列族1', '列族2', ...

示例：

# 创建表 test，包含列族 cf  
create 'test', 'cf'  

# 创建表 user，包含列族 info 和 data  
create 'user', 'info', 'data'

2. 查看表列表（list）

查看当前 HBase 集群中的所有表，或验证指定表是否存在。

语法：

# 查看所有表  
list  

# 查看指定表（支持模糊匹配）  
list '表名'  # 精确匹配  
list 'test.*'  # 模糊匹配以 test 开头的表

阅读全文 »

HBase部署启动

发表于 2021-04-25 更新于 2025-07-27 分类于 hbase 阅读次数： Valine：
本文字数： 4.1k 阅读时长 ≈ 4 分钟

HBase部署与启动全指南

使用的版本为2.2.7

HBase 的部署模式分为单机模式（Standalone）和集群模式（Distributed），本文将详细介绍两种模式的部署步骤、配置要点及常见问题解决方案，帮助读者快速搭建 HBase 环境。

单机模式部署

单机模式适合开发测试环境，部署简单，主要用于功能验证和学习。

环境准备

Java 环境：确保已安装 JDK 8+，并配置 JAVA_HOME 环境变量。
HDFS 依赖：单机模式下 HBase 可直接使用本地文件系统，但若配置 hbase.rootdir 为 HDFS 路径（如示例），需先启动 Hadoop。

配置文件修改

hbase-env.sh

配置 JDK 路径，关闭 HBase 内置 ZooKeeper（使用独立 ZooKeeper）：

1 2	export JAVA_HOME=/usr/1.8 # 替换为实际 JDK 路径 export HBASE_MANAGES_ZK=false # 启用独立 ZooKeeper（需提前启动）

hbase-site.xml

核心配置如下：

<configuration>  
  <!-- HBase 数据存储根路径，可使用 HDFS 或本地文件系统 -->  
  <property>  
    <name>hbase.rootdir</name>  
    <value>hdfs://localhost:9000/hbase</value>  <!-- 若使用本地文件系统，改为 file:///path/to/hbase -->  
  </property>  

  <!-- ZooKeeper 数据目录 -->  
  <property>  
    <name>hbase.zookeeper.property.dataDir</name>  
    <value>/usr/local/myself/hbase-2.2.7/zkData</value>  
  </property>  

  <!-- 单机模式标识 -->  
  <property>  
    <name>hbase.cluster.distributed</name>  
    <value>false</value>  
  </property>  
</configuration>

启动与验证

启动顺序

# 若使用 HDFS，先启动 Hadoop  
$ start-dfs.sh  

# 启动 HBase（自动启动 HMaster 和 RegionServer）  
$ bin/start-hbase.sh  

# 验证进程是否正常运行  
$ jps  
12345 HMaster  # HBase 主节点  
12346 HRegionServer  # HBase 区域服务器  
12347 Jps  # 进程监控工具

访问 Web UI

通过浏览器访问 http://localhost:16010，查看 HBase 管理界面（仅 HMaster 节点提供）。

进入 HBase Shell

1
2
3

$ bin/hbase shell  
hbase(main):001:0> status  # 查看集群状态  
hbase(main):002:0> list  # 查看所有表

阅读全文 »

ortools解决LP问题

发表于 2021-04-24 更新于 2025-08-17 分类于数据结构与算法阅读次数： Valine：
本文字数： 8.4k 阅读时长 ≈ 8 分钟

使用 ojAlgo+OR-Tools 求解线性规划（LP）问题

OR-Tools（Google Optimization Tools）是谷歌开源的优化工具库，支持线性规划（LP）、混合整数规划（MIP）等多种问题，内置 CBC、SCIP 等高效求解器。结合 ojAlgo 的模型构建能力与 OR-Tools 的求解能力，可在最小化代码修改的前提下，提升复杂优化问题的求解效率。本文以具体示例介绍这种整合方案。

方案优势

模型构建复用：用 ojAlgo 的直观 API 定义变量和约束，无需重写模型逻辑。
求解能力增强：OR-Tools 支持多种高效求解器（如 SCIP、CBC），尤其擅长处理大规模整数规划问题。
低侵入性：仅需修改求解部分代码，业务逻辑（变量、约束定义）保持不变。

环境配置

依赖引入

在pom.xml中添加 ojAlgo 和 OR-Tools 的依赖：

<!-- ojAlgo：模型构建 -->
<dependency>
    <groupId>org.ojalgo</groupId>
    <artifactId>ojAlgo</artifactId>
    <version>51.4.1</version>
</dependency>

<!-- OR-Tools：求解器 -->
<dependency>
    <groupId>com.google.ortools</groupId>
    <artifactId>ortools-java</artifactId>
    <version>8.2.9025</version>
</dependency>

问题定义

求解以下整数线性规划问题（与前文 ojAlgo 示例一致）：
目标函数：minimize 5x₁ + 6x₂ + 23x₃ + 5x₄ + 24x₅ + 6x₆ + 23x₇ + 5x₈
约束条件：

阅读全文 »

HBase数据结构

发表于 2021-04-24 更新于 2025-07-27 分类于 hbase 阅读次数： Valine：
本文字数： 1.8k 阅读时长 ≈ 2 分钟

HBase核心数据结构详解

HBase 作为分布式、面向列的开源数据库，其数据结构设计与传统关系型数据库有显著差异，核心围绕分布式存储和高效检索进行优化。以下从核心概念出发，详细解析 HBase 的数据结构体系。

命名空间（NameSpace）

命名空间是 HBase 中最高层级的逻辑组织单元，类似于 MySQL 中的数据库（Database），用于对表进行分组管理。

命名空间的核心作用

表的逻辑隔离：不同业务或应用的表可放在不同命名空间中，避免命名冲突。
权限管理：可针对命名空间设置统一的访问控制列表（ACL），简化权限配置。
资源限额：可限制命名空间内表的总 Region 数量，防止资源滥用。
RegionServer 分组：指定命名空间默认的 RegionServer 集群，实现负载隔离。

默认命名空间

default：未指定命名空间的表默认归属此空间。
hbase：系统内置命名空间，存放 HBase 元数据（如 hbase:meta 表）。

行键（RowKey）

RowKey 是 HBase 表中检索记录的唯一主键，类似关系型数据库的主键，但功能更核心。

核心特性

数据类型：本质是字节数组，可由任意字符串转换（实际应用中长度通常为 10-100 bytes，最大支持 64KB）。
排序规则：表中数据按 RowKey 的字典序（byte order） 排序存储，这是 HBase 高效检索的基础。
检索方式：HBase 仅支持 3 种行级访问方式：
- 单个 RowKey 精确查询
- RowKey 范围查询（如正则匹配或前缀匹配）
- 全表扫描（效率较低，需谨慎使用）

阅读全文 »