文本处理命令有哪些
文本处理命令有:1.sort命令;2.uniq命令;3.tr命令;4.cut命令;5.split命令;6.eval命令;7.wc命令。sort命令用于将文本文件内容加以排序,可针对文本文件的内容以及不同的数据类型,以行为单位来排序。
1.sort命令
sort命令以行为单位对文件内容进行排序,也可以根据不同的数据类型来排序,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。语法格式:sort[选项]参数。
常用选项:
- sort -n:按照数字大小进行排序;
- sort -r:反向排序;
- sort -u:等同于uniq,相同的数据仅显示一行;
- sort -t:指定字段分隔符,默认使用[Tab]键分隔;
- sort -k:指定排序字段;
- sort -o:将结果转存到指定文件。
2.uniq命令
uniq命令以行为单位,进行行与行之间的字符串比较并进行去重;只能对有序的文本行进行有效去重,所以常与sort命令结合使用。语法格式:uniq[选项]参数。
常用选项:
- uniq-c:统计重复出现的次数;
- uniq-d:所有邻近的重复行只被打印一次。重复次数要>=2次;
- uniq-D:所有邻近的重复行将全部打印;
- uniq-f:跳过对前n个列的比较;
- uniq-s:跳过对前n个字符的比较;
- uniq-w:只对每行前n个字符进行比较。
3.tr命令
常用来对来自标准输入的字符进行替换、压缩和删除。语法格式:tr [选项] [参数]。
常用选项:
- tr-c∶保留字符集1的字符,其他的字符(也包括换行符\n)用字符集2替换;
- tr-d∶ 删除所有属于字符集1的字符;
- tr-s∶ 将重复出现的字符串压缩为一个字符串,用字符集2替换字符集1;
- tr-t∶ 字符集2替换字符集1,与不加选项-t结果相同。
4.cut命令
cut命令用于显示行中的指定部分,删除文件中指定字段。
(1)cut命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。
(2)如果不指定File参数,cut命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一。
常用选项:
- cut-f∶通过指定哪一个字段进行提取。cut命令使用”TAB”作为默认的字段分隔符;
- cut-d∶“TAB”是默认的分隔符,使用此选项可以更改为其他的分隔符;
- cut–complement∶ 此选项用于排除所指定的字段;
- cut–output-delimiter∶ 更改输出内容的分隔符;
- cut-b:以字节为单位进行分割。这些字节位置将忽略多字节字符边界,除非也指定了-n标志。
5.split命令
Linux下将一个大的文件拆分成若干个小文件。语法格式:split 选项 参数 原始文件 拆分后文件名前缀。
常用选项:
- split-l:以行数拆分;
- split-b:以大小拆分。
6.eval命令
命令字前加上eval时,shell会在执行命令之前扫描它两次。eval命令将首先会先扫描命令行进行所有的置换,然后再执行该命令。该命令适用于那些一次扫描无法实现其功能的变量。该命令对变量进行两次扫描。
7.wc命令
wc命令用于计算字数。利用wc指令我们可以计算文件的字节数、字数、或是行数,若不指定文件名称、或是所给予的文件名为”-“,则wc指令会从标准输入设备读取数据。语法格式:wc -选项 参数。
常用选项:
- wc-c:统计字节数chars;
- wc-l:统计行数;
- wc-w:统计单词数;
- wc-L:打印最长行的长度。
延伸阅读
文本文件类型有哪些
文本文件是一种计算机文件,它是一种典型的顺序文件,其文件的逻辑结构又属于流式文件。计算机文本文件类型有txt、doc(word及wps可打开)、hlp、wps(wPS软件可打开)、rtf(word及wps软件可打开)、htm(浏览器可打开、用写字板打开)、pdf。
文本文件在MIME标准中的类型为“text/plain”,此外它通常还附加编码的信息。在Mac OS X出现前,当Resource fork指定某一个文件的类型为“TEXT”时,Mac OS就认为这个文件是文本文件。在Windows中,当一个文件的扩展名为“txt”时,系统就认为它是一个文本文件。此外,处于特殊的目的,有些文本文件使用其它的扩展名。例如,计算机的源代码也是文本文件,它们的后缀是用来指明它的程序语言的。

