linux删除指定列重复行命令 • Worktile社区

fiy

Worktile&PingCode市场小伙伴

Linux中删除文件中指定列重复的行可以使用以下命令：

“`shell
sort -u -k<列号> <文件名> -o <文件名>
“`

其中，`-u`表示去重，`-k<列号>`表示按指定列进行排序，`<文件名>`是要处理的文件名，`-o <文件名>`表示将结果输出到原文件。

如果你要删除的是某一列的值重复的行，可以使用`cut`命令和`uniq`命令结合操作。假设你要删除的是第2列的值重复的行，可以使用以下命令：

“`shell
cut -d ‘ ‘ -f2 <文件名> | uniq -d | while read line; do sed -i “/$line/Id” <文件名>; done
“`

其中，`cut -d ‘ ‘ -f2 <文件名>`是将第2列的值提取出来，`uniq -d`表示只显示重复的行，`while read line; do sed -i “/$line/Id” <文件名>; done`表示使用循环读取重复的行，并使用`sed`命令删除对应行。

以上是删除指定列重复行的两种方法，你可以根据实际需求选择适合的方法进行操作。

2年前 0条评论

worktile

Worktile官方账号

在Linux中，可以使用以下命令删除文件中指定列重复的行：
1. uniq命令：uniq命令可以用来去除重复的行，但是它只能删除连续的重复行。要删除指定列中的重复行，可以先使用cut命令提取出需要比较的列，然后再使用uniq命令来删除重复行。例如，假设我们要删除文件file.txt中第1列重复的行，可以使用以下命令：
“`
cut -f1 file.txt | uniq -d | xargs -I {} grep {} file.txt -n | cut -f1 -d’:’ | xargs -I {} sed -i ‘{}d’ file.txt
“`
该命令首先使用cut命令提取出file.txt文件的第1列，然后使用uniq -d命令找出重复的行，并将结果传递给xargs命令，再使用grep命令输出行号，最后使用cut命令提取出行号，再使用sed -i命令进行行删除。

2. awk命令：awk是一种处理文本文件的强大工具，可以使用它来删除重复行。假设我们要删除文件file.txt中第1列重复的行，可以使用以下命令：
“`
awk ‘!seen[$1]++’ file.txt > tmpfile.txt && mv tmpfile.txt file.txt
“`
该命令使用awk命令，将文件的第1列作为数组seen的索引，如果数组中对应的元素为0，则输出该行并将数组元素自增1；如果数组中对应的元素不为0，则不输出该行。最后将输出结果重定向到临时文件tmpfile.txt，并将其重命名为file.txt，从而实现删除重复行的功能。

3. sort命令和uniq命令的组合：sort命令可以按照指定的列对文件进行排序，然后使用uniq命令删除重复的行。假设我们要删除文件file.txt中第1列重复的行，可以使用以下命令：
“`
sort -u -k1,1 file.txt > tmpfile.txt && mv tmpfile.txt file.txt
“`
该命令首先使用sort命令按第1列进行排序，然后使用uniq命令删除重复行，并将结果重定向到临时文件tmpfile.txt，最后将tmpfile.txt重命名为file.txt，从而实现删除重复行的功能。

4. Perl脚本：Perl是一种强大的脚本语言，可以使用它来处理文本文件。假设我们要删除文件file.txt中第1列重复的行，可以使用以下Perl脚本：
“`
perl -ane ‘print unless $seen{$F[0]}++’ file.txt > tmpfile.txt && mv tmpfile.txt file.txt
“`
该脚本使用perl -ane命令，将文件的每一行按照空格进行切割，并将第1列作为哈希表seen的键，如果哈希表中对应的值为0，则输出该行并将哈希表值自增1；如果哈希表中对应的值不为0，则不输出该行。最后将输出结果重定向到临时文件tmpfile.txt，并将其重命名为file.txt，从而实现删除重复行的功能。

5. Python脚本：Python是一种易学易用的脚本语言，也可以用来处理文本文件。假设我们要删除文件file.txt中第1列重复的行，可以使用以下Python脚本：
“`python
seen = set()
with open(“file.txt”, “r”) as file:
lines = file.readlines()
with open(“file.txt”, “w”) as file:
for line in lines:
if line.split()[0] not in seen:
file.write(line)
seen.add(line.split()[0])
“`
该脚本首先使用set()函数创建一个空集合seen，然后使用open()函数打开文件file.txt，并使用readlines()方法将文件的每一行读取到列表lines中。然后使用open()函数重新打开文件file.txt，并使用write()方法将不重复的行写入文件中，同时将不重复的第1列添加到集合seen中，从而实现删除重复行的功能。最后关闭文件。

这些命令和脚本可以根据具体需要进行调整，以满足对指定列重复行进行删除的需求。

2年前 0条评论

不及物动词

这个人很懒，什么都没有留下～

在Linux系统中，可以使用一些命令来删除指定列中的重复行。下面是一种常用的方法，可以实现这个功能：

1. 使用cut命令提取指定列，使用sort命令对提取的列进行排序，再使用uniq命令进行去重。

示例：
“`shell
cut -d’分隔符’ -f 列数文件名 | sort | uniq
“`
其中，“分隔符”代表列的分隔符（如逗号、制表符等），“列数”代表要提取的列的编号（从1开始），“文件名”代表要处理的文件名。

示例：
“`shell
cut -d’,’ -f 2 myfile.txt | sort | uniq
“`

2. 使用awk命令进行去重。

示例：
“`shell
awk ‘!a[$列号]++’ 文件名
“`
其中，“列号”代表要判断重复的列的编号（从1开始），“文件名”代表要处理的文件名。

示例：
“`shell
awk ‘!a[$2]++’ myfile.txt
“`

3. 使用awk命令结合数组和循环，可以实现删除其他列的重复行。

示例：
“`shell
awk ‘!($列号 in a){a[$列号]; print}’ 文件名
“`
其中，“列号”代表要判断重复的列的编号（从1开始），“文件名”代表要处理的文件名。

示例：
“`shell
awk ‘!($2 in a){a[$2]; print}’ myfile.txt
“`

以上是一些常用的在Linux系统中删除指定列重复行的方法，根据具体的需求选择合适的方法即可。

2年前 0条评论