HDFS(Hadoop Distributed File System)是Hadoop项目的一部分,它是一个分布式文件系统,设计用于运行在商用硬件上的大规模数据集。HDFS具有高容错性,并设计用于在低成本的硬件上部署。它提供了高吞吐量的数据访问,非常适合大数据处理应用。
从Apache Hadoop官方网站下载最新版本的Hadoop:https://hadoop.apache.org/releases.html
解压Hadoop包
tar -xzvf hadoop-<version>.tar.gz
mv hadoop-<version> /usr/local/hadoop
设置环境变量
在~/.bashrc
或~/.profile
文件中添加以下内容:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
配置Hadoop核心配置文件
编辑core-site.xml
:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
编辑hdfs-site.xml
:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///usr/local/hadoop/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///usr/local/hadoop/hdfs/datanode</value>
</property>
</configuration>
格式化NameNode
hdfs namenode -format
启动HDFS
start-dfs.sh
验证安装
打开浏览器访问http://localhost:9870
,查看NameNode的Web界面。
创建目录
hdfs dfs -mkdir /user
hdfs dfs -mkdir /user/hadoop
上传文件
hdfs dfs -put localfile.txt /user/hadoop/
查看文件
hdfs dfs -ls /user/hadoop/
读取文件内容
hdfs dfs -cat /user/hadoop/localfile.txt
删除文件
hdfs dfs -rm /user/hadoop/localfile.txt
通过以上步骤,你可以在单机或小型集群上搭建和运行Hadoop HDFS,进行分布式存储和处理大规模数据。