Matarialize中文社区-HBase 基本概念、安装与配置

HBase 基本概念、安装与配置

~~情~非~ 2024-07-19 09:28:37

253 大数据,HBase,Hive 专栏

HBase 基本概念、安装与配置

什么是HBase

HBase是一个分布式、面向列的NoSQL数据库，基于Hadoop文件系统（HDFS）构建，能够在大规模数据集上提供实时读写访问。它适用于需要快速随机访问和大规模数据存储的场景。

HBase的关键特性

面向列的存储模型：数据以列族（Column Family）为单位存储，便于按列进行压缩和过滤。
高扩展性：通过水平扩展，可以处理PB级别的数据。
高性能：提供快速的随机读写访问，适合低延迟的实时应用。
强一致性：确保数据读写的一致性。
与Hadoop生态系统的集成：可以与Hadoop、Hive、Pig等工具无缝集成。

HBase数据模型

表（Table）：类似于关系数据库中的表，由行和列组成。
行（Row）：每行有一个唯一的行键（Row Key），用于标识该行。
列族（Column Family）：列的集合，每个表至少有一个列族。
列（Column）：由列族和列限定符（Column Qualifier）组成。
单元（Cell）：行和列的交集，用于存储数据。
时间戳（Timestamp）：每个单元可以存储多个版本的数据，由时间戳标识。

HBase 安装与配置

环境准备

Java环境：HBase依赖于Java运行环境（JDK 8或以上）。
Hadoop环境：HBase依赖于Hadoop文件系统（HDFS），需要先安装并配置Hadoop。

下载和安装

下载HBase
从Apache HBase官方网站下载最新版本的HBase：https://hbase.apache.org/downloads.html

解压HBase

tar -xzf hbase-<version>-bin.tar.gz
mv hbase-<version> /usr/local/hbase

设置环境变量
在~/.bashrc或~/.profile文件中添加以下内容：
```
export HBASE_HOME=/usr/local/hbase
export PATH=$PATH:$HBASE_HOME/bin
```

配置HBase

配置HBase环境
编辑$HBASE_HOME/conf/hbase-env.sh：

export JAVA_HOME=/path/to/java
export HBASE_MANAGES_ZK=true

配置HBase主配置文件
编辑$HBASE_HOME/conf/hbase-site.xml：

<configuration>
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://localhost:9000/hbase</value>
    </property>
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>localhost</value>
    </property>
</configuration>

启动HBase
```
start-hbase.sh
```
验证安装
打开HBase shell：
```
hbase shell
```

使用HBase进行大规模数据存储与查询

创建表

create 'my_table', 'my_column_family'

插入数据

put 'my_table', 'row1', 'my_column_family:col1', 'value1'
put 'my_table', 'row1', 'my_column_family:col2', 'value2'

查询数据

获取单个单元格的值：

get 'my_table', 'row1', 'my_column_family:col1'

扫描表中的所有数据：
```
scan 'my_table'
```

删除数据：

delete 'my_table', 'row1', 'my_column_family:col1'

批量操作

插入多行数据：

put 'my_table', 'row2', 'my_column_family:col1', 'value3'
put 'my_table', 'row3', 'my_column_family:col1', 'value4'

删除整行数据：
```
deleteall 'my_table', 'row1'
```

高级操作

使用HBase与MapReduce集成

HBase可以与Hadoop的MapReduce框架集成，用于处理大规模数据：

输入格式：使用TableInputFormat从HBase表中读取数据。
输出格式：使用TableOutputFormat将结果写回HBase表。

使用HBase与Hive集成

Hive可以通过HBase存储Handler将数据存储在HBase中，并使用SQL进行查询：

创建Hive表：

CREATE EXTERNAL TABLE hbase_table_1(key INT, value STRING)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "hbase_table_1");