linux命令两个文件去重 • Worktile社区

fiy

Worktile&PingCode市场小伙伴

要将两个文件进行去重，可以使用以下几个linux命令：

1. `sort` 命令：将两个文件的内容进行排序。
“`bash
sort file1.txt -o file1.txt
sort file2.txt -o file2.txt
“`

2. `uniq` 命令：去除排序后的文件中的重复行。
“`bash
uniq file1.txt -o file1.txt
uniq file2.txt -o file2.txt
“`

3. `comm` 命令：比较两个已排序的文件，并输出三个列别的内容：只在第一个文件中出现的行、只在第二个文件中出现的行以及两个文件中都出现的行。
“`bash
comm -23 file1.txt file2.txt > file1_unique.txt
comm -13 file1.txt file2.txt > file2_unique.txt
“`

4. `cat` 命令：将两个文件的内容合并。
“`bash
cat file1_unique.txt file2_unique.txt > merged_unique.txt
“`

通过以上几个命令的组合，你可以将两个文件进行去重操作。首先使用 `sort` 命令将文件进行排序，然后使用 `uniq` 命令去除重复行，最后使用 `comm` 命令比较两个文件的内容，并输出不同的行。如果需要合并去重后的内容，可以使用 `cat` 命令将文件合并。

2年前 0条评论

worktile

Worktile官方账号

在Linux中，你可以使用一些命令来删除两个文件中的重复行。下面是五个常见的方法：

1. 使用sort和uniq命令：首先，使用sort命令对每个文件进行排序，然后使用uniq命令来删除重复的行。你可以使用以下命令来实现：

“`
sort file1.txt | uniq > file1_uniq.txt
sort file2.txt | uniq > file2_uniq.txt
“`

这将分别对file1.txt和file2.txt中的行进行排序，并将去重后的结果分别保存到file1_uniq.txt和file2_uniq.txt中。

2. 使用comm命令：comm命令可以比较两个文件，并显示它们之间的不同行。你可以使用以下命令来实现：

“`
sort file1.txt > file1_sorted.txt
sort file2.txt > file2_sorted.txt
comm -1 -3 file1_sorted.txt file2_sorted.txt > file_diff.txt
“`

这将首先对file1.txt和file2.txt进行排序，并将结果保存到file1_sorted.txt和file2_sorted.txt中。然后，comm命令将比较两个排序后的文件，并将不同的行保存到file_diff.txt中。

3. 使用awk命令：awk是一种强大的文本处理工具，可以用于删除重复的行。你可以使用以下命令来实现：

“`
awk ‘!seen[$0]++’ file1.txt > file1_uniq.txt
awk ‘!seen[$0]++’ file2.txt > file2_uniq.txt
“`

这将使用awk命令来遍历文件的每一行，并使用一个数组来记录已经出现过的行。如果某一行没有出现过，那么就将它输出到文件。

4. 使用diff和grep命令：diff命令可以比较两个文件，并显示它们之间的差异。你可以使用以下命令来实现：

“`
sort file1.txt > file1_sorted.txt
sort file2.txt > file2_sorted.txt
comm -1 -3 file1_sorted.txt file2_sorted.txt | grep -v ‘^$’ > file_diff.txt
“`

这将首先对file1.txt和file2.txt进行排序，并将结果保存到file1_sorted.txt和file2_sorted.txt中。然后，comm命令将找到两个排序后的文件中的差异行，并将结果保存到file_diff.txt中。最后，使用grep命令来过滤掉空行。

5. 使用grep和sort命令：grep命令可以搜索并匹配文本中的特定行。你可以使用以下命令来实现：

“`
sort file1.txt | grep -v -f file2.txt > file1_uniq.txt
sort file2.txt | grep -v -f file1.txt > file2_uniq.txt
“`

这将首先对file1.txt和file2.txt中的行进行排序，并将结果传递给grep命令。grep命令将查找不匹配的行，并将它们保存到file1_uniq.txt和file2_uniq.txt中。

以上是五种在Linux中去重两个文件的常见方法。根据你的具体需求，选择其中一种方法即可。

2年前 0条评论

不及物动词

这个人很懒，什么都没有留下～

在Linux中，可以使用许多方法和命令来去除两个文件中的重复行。下面是一种常用的方法。

# 方法一：使用sort和uniq命令
这种方法首先对两个文件进行排序，然后使用uniq命令去除重复行。

1. 将file1和file2中的内容按字典序排序并写入新的文件sorted_file1和sorted_file2。

“`
sort file1 > sorted_file1
sort file2 > sorted_file2
“`

2. 使用uniq命令去除sorted_file1和sorted_file2中的重复行，并将结果写入新的文件deuplicated_file。

“`shell
uniq sorted_file1 > deduplicated_file
uniq sorted_file2 >> deduplicated_file
“`

注意，第一次使用uniq命令时使用了`>`符号，将结果写入deduplicated_file文件；第二次使用uniq命令时使用了`>>`符号，将结果附加到deduplicated_file文件中。

3. 删除生成的中间文件sorted_file1和sorted_file2。

“`
rm sorted_file1
rm sorted_file2
“`

这种方法的优点是简单快速，适用于处理小型文件。

# 方法二：使用comm命令
在Linux中，comm命令可以用来比较两个已排序的文件，并打印出它们的交集、差集等。

1. 将file1和file2中的内容按字典序排序并写入新的文件sorted_file1和sorted_file2。

“`
sort file1 > sorted_file1
sort file2 > sorted_file2
“`

2. 使用comm命令比较sorted_file1和sorted_file2，并将结果写入到新的文件deduplicated_file。

“`shell
comm -3 sorted_file1 sorted_file2 > deduplicated_file
“`

-3选项表示只输出两个文件不共有的行。
如果要输出共有的行，请使用-1，-2或-12选项。

3. 删除生成的中间文件sorted_file1和sorted_file2。

“`
rm sorted_file1
rm sorted_file2
“`

这种方法的优点是只需要一个命令就可以完成，适用于处理大型文件。

综上所述，以上是两种常见的方法来去除两个文件中的重复行。使用这些方法可以轻松地对比和删除文件中的重复内容。根据文件的大小和需求选择适合的方法。

2年前 0条评论