- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【详解】Hadoop命令行运行时指定参数

皮牙子抓饭发表于 2025/11/01 22:15:25 2025/11/01

【摘要】 Hadoop命令行运行时指定参数在大数据处理领域，Hadoop是一个广泛使用的开源框架，它允许用户轻松地处理和分析大量数据。Hadoop的核心是HDFS（Hadoop分布式文件系统）和MapReduce编程模型。本文将重点介绍如何在Hadoop命令行中通过指定参数来优化作业的执行。1. 基本命令结构Hadoop命令行工具提供了丰富的命令集来管理HDFS、提交MapReduce作业等。基本的命...

Hadoop命令行运行时指定参数

在大数据处理领域，Hadoop是一个广泛使用的开源框架，它允许用户轻松地处理和分析大量数据。Hadoop的核心是HDFS（Hadoop分布式文件系统）和MapReduce编程模型。本文将重点介绍如何在Hadoop命令行中通过指定参数来优化作业的执行。

1. 基本命令结构

Hadoop命令行工具提供了丰富的命令集来管理HDFS、提交MapReduce作业等。基本的命令格式如下：

hadoop <command> [genericOptions] [commandOptions]

<command> 是你想要执行的具体命令，例如 fs、jar 等。
[genericOptions] 是通用选项，适用于所有Hadoop子命令。
[commandOptions] 是特定于每个子命令的选项。

2. 通用选项 (Generic Options)

通用选项可以在任何Hadoop命令前使用，用于设置如配置文件位置、日志级别等全局参数。常见的通用选项包括：

-conf <configuration file>: 指定一个替代的配置文件。
-D <property=value>: 覆盖或添加配置属性。
-fs <local|namenode:port>: 指定要连接的文件系统。
-jt <local|jobtracker:port>: 指定要连接的JobTracker。
-files <comma separated list of files>: 将额外的文件复制到工作目录。
-libjars <comma separated list of jars>: 将额外的JAR包添加到类路径。
-archives <comma separated list of archives>: 解压归档文件并将其添加到类路径。

3. 示例：使用`-D`选项优化MapReduce作业

假设我们有一个MapReduce作业需要处理大量的小文件，我们知道在Hadoop中处理大量小文件效率较低，因为每个文件都会启动一个单独的map任务。为了优化这一点，我们可以调整mapreduce.input.fileinputformat.split.minsize参数来合并输入文件，减少map任务的数量。

3.1 修改MapReduce作业的最小分割大小

hadoop jar myjob.jar -D mapreduce.input.fileinputformat.split.minsize=134217728 input output

在这个例子中，我们通过-D选项设置了mapreduce.input.fileinputformat.split.minsize为128MB（134217728字节），这意味着如果输入文件的总大小小于128MB，则它们将被合并成一个split，从而减少map任务的数量。

3.2 指定多个配置

你也可以同时指定多个配置项，只需多次使用-D选项即可：

hadoop jar myjob.jar -D mapreduce.input.fileinputformat.split.minsize=134217728 -D mapreduce.job.reduces=5 input output

这里，除了设置输入split的最小大小外，还指定了reduce任务的数量为5。

4. 使用`-files`, `-libjars`, 和 `-archives` 分发资源

当你的MapReduce作业依赖于外部文件或库时，可以使用-files, -libjars, 和 -archives 选项来分发这些资源给集群中的各个节点。

4.1 分发文件

如果你的应用程序需要读取一个配置文件，可以这样指定：

hadoop jar myjob.jar -files config.xml input output

这会将config.xml文件复制到所有任务的工作目录中。

4.2 分发JAR包

如果需要额外的库支持，可以通过-libjars选项添加：

hadoop jar myjob.jar -libjars extra-lib.jar input output

4.3 分发归档文件

对于较大的资源文件，可以先将其打包成tar或zip文件，然后使用-archives选项解压并分发：

hadoop jar myjob.jar -archives resources.tar.gz input output

Hadoop命令行提供了丰富的参数选项来控制作业的执行、数据处理和集群管理等。以下是一些常见的Hadoop命令行操作及其参数示例：

1. HDFS文件系统操作

列出目录内容

hadoop fs -ls /user/username/

上传文件到HDFS

hadoop fs -put localfile.txt /user/username/hdfsfile.txt

下载文件从HDFS

hadoop fs -get /user/username/hdfsfile.txt localfile.txt

删除HDFS上的文件或目录

hadoop fs -rm -r /user/username/directory

2. 运行MapReduce作业

提交一个MapReduce作业

假设你有一个MapReduce作业的JAR文件 myjob.jar，并且该作业的主类是 com.example.MyJob。

hadoop jar myjob.jar com.example.MyJob -D mapreduce.job.reduces=5 /input/path /output/path

在这个例子中：

-D mapreduce.job.reduces=5 设置了Reduce任务的数量为5。
/input/path 是输入数据的路径。
/output/path 是输出结果的路径。

3. 配置Hadoop参数

查看当前配置

hadoop fs -conf

指定配置文件

如果你有一个自定义的配置文件 custom-site.xml，可以在命令行中指定使用它。

hadoop --config /path/to/config/directory fs -ls /user/username/

4. 调整MapReduce任务的资源

设置Map和Reduce任务的内存限制

hadoop jar myjob.jar com.example.MyJob \
-D mapreduce.map.memory.mb=1024 \
-D mapreduce.reduce.memory.mb=2048 \
-D mapreduce.map.java.opts=-Xmx800m \
-D mapreduce.reduce.java.opts=-Xmx1600m \
/input/path /output/path

在这个例子中：

mapreduce.map.memory.mb=1024 设置每个Map任务的最大内存为1024MB。
mapreduce.reduce.memory.mb=2048 设置每个Reduce任务的最大内存为2048MB。
mapreduce.map.java.opts=-Xmx800m 设置每个Map任务的Java堆内存为800MB。
mapreduce.reduce.java.opts=-Xmx1600m 设置每个Reduce任务的Java堆内存为1600MB。

5. 查看作业状态

列出所有正在运行的作业

hadoop job -list

查看特定作业的详细信息

hadoop job -status job_1234567890123456789_0001

6. 停止作业

杀死一个正在运行的作业

hadoop job -kill job_1234567890123456789_0001

在Hadoop中，命令行工具提供了丰富的选项来控制和执行各种操作，比如文件系统的管理、MapReduce作业的提交等。这些命令行参数对于定制化操作非常有用。下面是一些常见的Hadoop命令及其参数的介绍：

1. Hadoop FileSystem (HDFS) 命令

Hadoop提供了一个类似于Unix的文件系统命令行接口，用于与HDFS交互。基本命令格式如下：

hadoop fs [通用选项] <命令> [命令特定选项]

通用选项

-D <property=value>：设置或覆盖配置属性。
-fs <local|namenode:port>：指定要使用的文件系统。默认使用core-site.xml中配置的文件系统。

常见命令及其参数

put: 将文件从本地文件系统上传到HDFS。

hadoop fs -put <localsrc> ... <dst>

get: 将文件从HDFS下载到本地文件系统。

hadoop fs -get <src> ... <localdst>

hadoop fs -mkdir [-p] <path>

-p: 如果指定，会递归创建所有不存在的父目录。

hadoop fs -rm [-skipTrash] <path>

-skipTrash: 直接删除文件，不放入回收站。

ls: 列出HDFS目录下的文件信息。

hadoop fs -ls [-R] <path>

cat: 显示HDFS文件内容。

hadoop fs -cat <path>

2. MapReduce Job 提交命令

提交MapReduce作业的基本命令格式如下：

hadoop jar <jar> [通用选项] <主类> [作业参数]

通用选项

-D <property=value>：设置或覆盖配置属性。
-files <逗号分隔的文件列表>：将这些文件复制到MapReduce任务的工作目录。
-libjars <逗号分隔的JAR文件列表>：将这些JAR添加到MapReduce任务的类路径中。
-archives <逗号分隔的归档文件列表>：解压这些归档文件，并将其内容添加到MapReduce任务的类路径中。

示例

假设有一个名为WordCount.jar的JAR文件，其中包含一个名为org.apache.hadoop.examples.WordCount的主类，可以使用以下命令提交作业：

hadoop jar WordCount.jar org.apache.hadoop.examples.WordCount -D mapreduce.job.reduces=3 input output

在这个例子中：

WordCount.jar 是包含MapReduce程序的JAR文件。
org.apache.hadoop.examples.WordCount 是启动MapReduce作业的主类。
-D mapreduce.job.reduces=3 设置了Reduce任务的数量为3。
input 和 output 分别是输入和输出目录。

通过理解和熟练使用这些命令及参数，可以更高效地管理和操作Hadoop集群。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【详解】Hadoop命令行运行时指定参数

Hadoop命令行运行时指定参数

1. 基本命令结构

2. 通用选项 (Generic Options)

3. 示例：使用​​-D​​选项优化MapReduce作业

3.1 修改MapReduce作业的最小分割大小

3.2 指定多个配置

4. 使用​​-files​​, ​​-libjars​​, 和 ​​-archives​​ 分发资源

4.1 分发文件

4.2 分发JAR包

4.3 分发归档文件

1. HDFS文件系统操作

列出目录内容

上传文件到HDFS

下载文件从HDFS

删除HDFS上的文件或目录

2. 运行MapReduce作业

提交一个MapReduce作业

3. 配置Hadoop参数

查看当前配置

指定配置文件

4. 调整MapReduce任务的资源

设置Map和Reduce任务的内存限制

5. 查看作业状态

列出所有正在运行的作业

查看特定作业的详细信息

6. 停止作业

杀死一个正在运行的作业

1. Hadoop FileSystem (HDFS) 命令

通用选项

常见命令及其参数

2. MapReduce Job 提交命令

通用选项

示例

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

3. 示例：使用`-D`选项优化MapReduce作业

4. 使用`-files`, `-libjars`, 和 `-archives` 分发资源