- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Linux系统之使用split切割日志文件

江湖有缘发表于 2024/10/16 21:55:55 2024/10/16

【摘要】 Linux系统之使用split切割日志文件

一、split命令介绍

split是一个在Unix和类Unix系统（如Linux）中非常有用的命令行工具，它用于将大文件分割成较小的片段。这对于处理大型日志文件、数据传输或存储受限的情况特别有用。

二、split命令的使用帮助

2.1 split命令help帮助信息

在命令行终端中，我们使用--help查询split命令的基本帮助信息。

root@jeven01:~# split --help
Usage: split [OPTION]... [FILE [PREFIX]]
Output pieces of FILE to PREFIXaa, PREFIXab, ...;
default size is 1000 lines, and default PREFIX is 'x'.

With no FILE, or when FILE is -, read standard input.

Mandatory arguments to long options are mandatory for short options too.
  -a, --suffix-length=N   generate suffixes of length N (default 2)
      --additional-suffix=SUFFIX  append an additional SUFFIX to file names
  -b, --bytes=SIZE        put SIZE bytes per output file
  -C, --line-bytes=SIZE   put at most SIZE bytes of records per output file
  -d                      use numeric suffixes starting at 0, not alphabetic
      --numeric-suffixes[=FROM]  same as -d, but allow setting the start value
  -x                      use hex suffixes starting at 0, not alphabetic
      --hex-suffixes[=FROM]  same as -x, but allow setting the start value
  -e, --elide-empty-files  do not generate empty output files with '-n'
      --filter=COMMAND    write to shell COMMAND; file name is $FILE
  -l, --lines=NUMBER      put NUMBER lines/records per output file
  -n, --number=CHUNKS     generate CHUNKS output files; see explanation below
  -t, --separator=SEP     use SEP instead of newline as the record separator;
                            '\0' (zero) specifies the NUL character
  -u, --unbuffered        immediately copy input to output with '-n r/...'
      --verbose           print a diagnostic just before each
                            output file is opened
      --help     display this help and exit
      --version  output version information and exit

The SIZE argument is an integer and optional unit (example: 10K is 10*1024).
Units are K,M,G,T,P,E,Z,Y (powers of 1024) or KB,MB,... (powers of 1000).
Binary prefixes can be used, too: KiB=K, MiB=M, and so on.

CHUNKS may be:
  N       split into N files based on size of input
  K/N     output Kth of N to stdout
  l/N     split into N files without splitting lines/records
  l/K/N   output Kth of N to stdout without splitting lines/records
  r/N     like 'l' but use round robin distribution
  r/K/N   likewise but only output Kth of N to stdout

GNU coreutils online help: <https://www.gnu.org/software/coreutils/>
Full documentation <https://www.gnu.org/software/coreutils/split>
or available locally via: info '(coreutils) split invocation'

2.2 split命令选项解释

下面是 split 命令的帮助信息翻译成中文，并以Markdown表格的形式进行整理：

选项	描述
`-a, --suffix-length=N`	生成长度为N的后缀（默认为2）
`--additional-suffix=SUFFIX`	在文件名后面追加额外的SUFFIX
`-b, --bytes=SIZE`	每个输出文件大小为SIZE字节
`-C, --line-bytes=SIZE`	每个输出文件最多包含SIZE字节的记录
`-d`	使用从0开始的数字后缀，而不是字母后缀
`--numeric-suffixes[=FROM]`	与-d相同，但允许设置起始值
`-x`	使用从0开始的十六进制后缀，而不是字母后缀
`--hex-suffixes[=FROM]`	与-x相同，但允许设置起始值
`-e, --elide-empty-files`	当使用’-n’时，不生成空的输出文件
`--filter=COMMAND`	将内容写入shell命令COMMAND；文件名为$FILE
`-l, --lines=NUMBER`	每个输出文件包含NUMBER行/记录
`-n, --number=CHUNKS`	生成CHUNKS个输出文件；详情见下文
`-t, --separator=SEP`	使用SEP作为记录分隔符，而不是换行符；’\0’指定NUL字符
`-u, --unbuffered`	在使用’-n r/…'时立即复制输入到输出
`--verbose`	在打开每个输出文件之前打印诊断信息
`--help`	显示帮助信息并退出
`--version`	输出版本信息并退出

SIZE 参数

SIZE参数是一个整数和可选单位（例如：10K表示10*1024）。
单位可以是K, M, G, T, P, E, Z, Y（1024的幂）或KB, MB, …（1000的幂）。
也可以使用二进制前缀：KiB=K, MiB=M等。

CHUNKS 参数

N: 根据输入的大小分割成N个文件
K/N: 将第K个输出到标准输出，总共N份
l/N: 不拆分行/记录地分割成N个文件
l/K/N: 不拆分行/记录地将第K个输出到标准输出，总共N份
r/N: 类似’l’，但是使用循环分配
r/K/N: 同上，但只输出第K个到标准输出

三、split命令的基本使用

3.1 生成测试文件

生成一个2M大小的测试文件

root@jeven01:/test# dd if=/dev/zero bs=1M count=2 of=test.file
2+0 records in
2+0 records out
2097152 bytes (2.1 MB, 2.0 MiB) copied, 0.00158099 s, 1.3 GB/s
root@jeven01:/test# ll -h test.file
-rw-r--r-- 1 root root 2.0M Oct  3 20:35 test.file

3.2 分割大小为200KB的小文件

使用-b选项，将刚才创建的文件分割成大小为200KB的小文件：

root@jeven01:/test# split -b 200k test.file
root@jeven01:/test# ls
test.file  xaa  xab  xac  xad  xae  xaf  xag  xah  xai  xaj  xak

3.3 切割为带数字后缀的文件

使用-a与-d选项，将大文件切割为带数字后缀的小文件。

 root@jeven01:/test# split -b 200k test.file -d -a 3
root@jeven01:/test# ll
total 4104
drwxr-xr-x  2 root root    4096 Oct  3 20:42 ./
drwxr-xr-x 22 root root    4096 Sep 24 22:37 ../
-rw-r--r--  1 root root 2097152 Oct  3 20:35 test.file
-rw-r--r--  1 root root  204800 Oct  3 20:42 x000
-rw-r--r--  1 root root  204800 Oct  3 20:42 x001
-rw-r--r--  1 root root  204800 Oct  3 20:42 x002
-rw-r--r--  1 root root  204800 Oct  3 20:42 x003
-rw-r--r--  1 root root  204800 Oct  3 20:42 x004
-rw-r--r--  1 root root  204800 Oct  3 20:42 x005
-rw-r--r--  1 root root  204800 Oct  3 20:42 x006
-rw-r--r--  1 root root  204800 Oct  3 20:42 x007
-rw-r--r--  1 root root  204800 Oct  3 20:42 x008
-rw-r--r--  1 root root  204800 Oct  3 20:42 x009
-rw-r--r--  1 root root   49152 Oct  3 20:42 x010

3.4 按行数分割文件

按行数分割文件：将test.file 文件每1000行分割成一个新的文件，新文件名为 logs_part_aa, logs_part_ab 等等

split -l 1000 test.file logs_part_

3.5 定文件名的前缀

切割后的文件名后缀以000等依次命名，前缀使用split_file。

root@jeven01:/test# split -b 200k test.file -d -a 3 split_file
root@jeven01:/test# ll -h
total 4.1M
drwxr-xr-x  2 root root 4.0K Oct  3 20:57 ./
drwxr-xr-x 22 root root 4.0K Sep 24 22:37 ../
-rw-r--r--  1 root root 200K Oct  3 20:57 split_file000
-rw-r--r--  1 root root 200K Oct  3 20:57 split_file001
-rw-r--r--  1 root root 200K Oct  3 20:57 split_file002
-rw-r--r--  1 root root 200K Oct  3 20:57 split_file003
-rw-r--r--  1 root root 200K Oct  3 20:57 split_file004
-rw-r--r--  1 root root 200K Oct  3 20:57 split_file005
-rw-r--r--  1 root root 200K Oct  3 20:57 split_file006
-rw-r--r--  1 root root 200K Oct  3 20:57 split_file007
-rw-r--r--  1 root root 200K Oct  3 20:57 split_file008
-rw-r--r--  1 root root 200K Oct  3 20:57 split_file009
-rw-r--r--  1 root root  48K Oct  3 20:57 split_file010
-rw-r--r--  1 root root 2.0M Oct  3 20:35 test.file

四、注意事项

确保日志文件完整性：
- 当按行数或字节数分割日志文件时，请注意保持日志记录的完整性。避免将一条完整的日志记录拆分到两个不同的文件中，这可能会导致日志分析时出现误解。可以使用 -C 选项来限制每个输出文件的最大字节数，同时尽量不拆分行。
合理选择分割大小：
- 根据您的存储需求和日志处理策略，合理设置每个分割文件的大小。过大的文件可能导致处理不便，而过小的文件则会增加管理复杂度。例如，如果每天生成的日志量大约是50MB，那么可以考虑将文件分割成10MB左右的小块。
使用合适的后缀命名规则：
- 为了便于管理和识别，给分割后的文件设置清晰且有意义的前缀和后缀。通过 -a 选项指定后缀长度，并使用 -d 或 --numeric-suffixes 选项为文件添加数字后缀，这样有助于按顺序处理这些文件。
考虑时间戳信息：
- 如果日志文件包含时间戳，确保在分割过程中保留这一重要信息。这有助于后续根据时间进行快速定位和检索。可以通过 -t 选项自定义记录分隔符，以适应不同格式的时间戳。
测试并验证结果：
- 在正式应用之前，先对少量样本数据进行分割测试，检查输出文件是否符合预期。确保所有配置正确无误后再对完整日志执行操作。这一步骤可以帮助您提前发现可能的问题并及时调整方案。
备份原始日志文件：
- 在进行任何切割操作之前，务必先备份原始日志文件。虽然 split 命令不会修改源文件，但备份可以防止意外删除或其他人为错误导致的数据丢失。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Linux系统之使用split切割日志文件

一、split命令介绍

二、split命令的使用帮助

2.1 split命令help帮助信息

2.2 split命令选项解释

三、split命令的基本使用

3.1 生成测试文件

3.2 分割大小为200KB的小文件

3.3 切割为带数字后缀的文件

3.4 按行数分割文件

3.5 定文件名的前缀

四、注意事项

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Linux系统之使用split切割日志文件

一、split命令介绍

二、split命令的使用帮助

2.1 split命令help帮助信息

2.2 split命令选项解释

三、split命令的基本使用

3.1 生成测试文件

3.2 分割大小为200KB的小文件

3.3 切割为带数字后缀的文件

3.4 按行数分割文件

3.5 定文件名的前缀

四、注意事项

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品