- java大数据学习路线
- 数据相关技术集合
- Hadoop HDFS 基本概念及安装与配置
- MapReduce 基本概念及原理
- Apache Spark 基本概念和架构
- Apache Flink 安装与使用,处理实时数据流
- HBase 基本概念、安装与配置
- Cassandra的安装与配置,进行分布式数据存储与管理
- MongoDB的安装与配置,进行文档存储与查询
- Kafka的基本概念、安装与配置,进行实时数据流处理和集成
- Apache NiFi的安装与使用,进行数据流的可视化管理与自动化
- Apache Airflow的安装与配置,编写和调度ETL任务
- Hive的基本概念及安装与配置
- Presto的安装与配置,进行大数据集上的交互式查询
- Impala的安装与配置,进行快速查询
- Tableau的基本操作,进行数据可视化和分析
- Apache Superset的安装与配置,进行数据探索与可视化
- Power BI的使用,进行数据分析和报表生成
- Ranger的安装与配置,进行数据安全管理
- Apache Knox的使用,提供安全的Hadoop集群访问
Hadoop HDFS 基本概念及安装与配置
class Hadoop HDFS,大数据Hadoop HDFS 基本概念
什么是HDFS
HDFS(Hadoop Distributed File System)是Hadoop项目的一部分,它是一个分布式文件系统,设计用于运行在商用硬件上的大规模数据集。HDFS具有高容错性,并设计用于在低成本的硬件上部署。它提供了高吞吐量的数据访问,非常适合大数据处理应用。
HDFS的关键特性
- 高容错性:通过数据复制机制,保证即使部分节点失败,数据依然可用。
- 高吞吐量:适合大数据量的批处理,而不是低延迟的数据访问。
- 流式数据访问:一次写入,多次读取。
- 大数据集支持:能够存储和处理大规模数据。
HDFS架构
- NameNode:管理文件系统的元数据(如文件路径、块位置等)。它是HDFS的主节点。
- DataNode:负责存储实际数据块并执行数据的读写操作。
- Secondary NameNode:用于辅助NameNode,主要用于定期合并NameNode的元数据快照和编辑日志。
Hadoop HDFS 安装与配置
环境准备
- Java环境:Hadoop依赖于Java运行环境(JDK 8或以上)。
- SSH:Hadoop集群节点之间需要通过SSH进行无密码通信。
下载Hadoop
从Apache Hadoop官方网站下载最新版本的Hadoop:https://hadoop.apache.org/releases.html
安装与配置步骤
-
解压Hadoop包
tar -xzvf hadoop-<version>.tar.gz mv hadoop-<version> /usr/local/hadoop
-
设置环境变量
在~/.bashrc
或~/.profile
文件中添加以下内容:export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
-
配置Hadoop核心配置文件
-
编辑
core-site.xml
:<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
-
编辑
hdfs-site.xml
:<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///usr/local/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///usr/local/hadoop/hdfs/datanode</value> </property> </configuration>
-
-
格式化NameNode
hdfs namenode -format
-
启动HDFS
start-dfs.sh
-
验证安装
打开浏览器访问http://localhost:9870
,查看NameNode的Web界面。
示例:在HDFS上操作文件
-
创建目录
hdfs dfs -mkdir /user hdfs dfs -mkdir /user/hadoop
-
上传文件
hdfs dfs -put localfile.txt /user/hadoop/
-
查看文件
hdfs dfs -ls /user/hadoop/
-
读取文件内容
hdfs dfs -cat /user/hadoop/localfile.txt
-
删除文件
hdfs dfs -rm /user/hadoop/localfile.txt
注意事项
- 确保所有节点上的Hadoop配置文件一致。
- 定期备份NameNode的元数据。
- 根据集群规模调整HDFS的复制因子和块大小,以优化性能。
通过以上步骤,你可以在单机或小型集群上搭建和运行Hadoop HDFS,进行分布式存储和处理大规模数据。
评论区
评论列表
{{ item.user.nickname || item.user.username }}