linux统计命令

Linux 统计命令详解：wc 命令的全方位应用

在 Linux 系统中，wc（Word Count）命令是用于统计文本文件内容的实用工具，可快速计算文件的行数、单词数、字符数和字节数。无论是处理日志文件、分析数据还是脚本编写，wc 都能提供高效的统计支持。本文将详细介绍 wc 命令的用法、选项及实战示例。

wc 命令的基本格式如下：

1	wc [选项] 文件名/文件列表

若不指定文件名，wc 会从标准输入（如管道传递的数据）中读取内容并统计。

wc 命令通过不同选项实现不同维度的统计，常用选项如下：

选项	功能描述	说明
`-l`	统计行数	以换行符（`\n`）为行结束标志，空行也会被计入。
`-w`	统计单词数	以空格、制表符（`\t`）或换行符分隔的字符串视为一个单词，连续分隔符视为一个。
`-m`	统计字符数	包括所有字符（字母、数字、符号、空格、换行符等），支持多字节字符（如中文）。
`-c`	统计字节数	以字节为单位计数，与字符数的区别在于：单字节字符（如英文）两者相同，多字节字符（如中文）则不同（如 UTF-8 中一个中文字符占 3 字节）。

假设存在文件 test.txt，内容如下：

1
2
3

Hello World
Linux 统计命令
wc 很实用

1
2
3

wc -l test.txt
# 输出：3 test.txt
# 说明：文件共 3 行（包括空行，若有的话）

扩展：统计当前目录下所有 .txt 文件的总行数：

wc -l *.txt
# 输出示例：
# 3 test.txt
# 5 data.txt
# 8 总用量

1
2
3

wc -w test.txt
# 输出：7 test.txt
# 说明：文件中共有 7 个单词（"Hello"、"World"、"Linux"、"统计"、"命令"、"wc"、"很实用"）

注意：中文词语之间若用空格分隔，会被视为不同单词；若连续书写（如 “统计命令”），会被视为一个单词。

1
2
3

wc -m test.txt
# 输出：30 test.txt
# 说明：包括所有字符（字母、汉字、空格、换行符），上述内容中每个中文占 1 字符，换行符占 1 字符。

1
2
3

wc -c test.txt
# 输出：42 test.txt
# 说明：英文和符号占 1 字节，中文（UTF-8 编码）占 3 字节，换行符占 1 字节，总字节数为 42。

对比：-m 和 -c 的区别（以包含中文的文件为例）：

# 同时统计行数、单词数、字节数
wc -lwc test.txt
# 输出：3  7  42 test.txt

# 同时统计行数、字符数
wc -lm test.txt
# 输出：3  30 test.txt

wc 可与其他命令配合，统计命令输出的内容：

# 统计当前目录下的文件数（ls 输出的行数即文件数）
ls | wc -l

# 统计日志文件中包含 "error" 的行数
grep "error" /var/log/syslog | wc -l

空文件处理：空文件（无任何内容）的统计结果为：行数 0、单词数 0、字符数 0、字节数 0。
换行符影响：-l 统计的行数取决于换行符数量，若文件最后一行无换行符，仍会被计入一行。
符号与空格：-w 统计单词时，标点符号若与单词连写（如 “Hello!”），会被视为一个单词；若单独存在（如 “Hello !”），“!” 会被视为一个单词。
编码影响：-c 统计的字节数受文件编码影响（如 GBK 编码中中文占 2 字节，UTF-8 中占 3 字节）。

代码行数统计：统计项目中 .java 文件的总行数：

1	find . -name "*.java" \| xargs wc -l \| tail -n 1 # tail -n 1 取总计数

单词频率分析：结合 sort 和 uniq 统计文件中单词出现的次数：

1 2	cat test.txt \| tr -s ' ' '\n' \| sort \| uniq -c \| sort -nr # 说明：tr 拆分单词为行，sort 排序，uniq -c 统计次数，最后按次数降序排列