四、IO重定向和管道以及基本文本处理工具

一、三种IO设备

程序:数据+指令 数据结构+算法
程序必须能够读入输入然后经过加工来产生结果,其接受的输入可以是变量、数组、列表、文件等等,生产出来的结果可以使变量、数组、列表、文件等等。即:
程序都有读入数据和输出数据的需求
读入数据:input
输出数据:output

一、标准文件描述符

linux系统将每个对象当作文件处理,这包括输入和输出进程。linux用文件描述符(file descriptor)来标识每个文件对象。文件描述符是一个非负整数,可以唯一标识会话中打开的文件。每个进程一次最多可以有九个文件描述符。出于特殊目的,bash shell保留了前三个文件描述符(0,1和2)

Linux给程序提供三种IO设备:

  • 标准输入(STDIN)-0 默认接受来自键盘的输入
  • 标准输出(STDOUT)-1 默认输出到终端窗口
  • 标准错误(STDERR)-2 默认输出到终端窗口

在Linux中,一切皆文件,我们每打开文件,系统都会自动分配一个FD(file description,文件描述符)。上面的0,1,2就是系统分配的文件描述符。

1 ll /proc/$$/fd    查看目前的文件描述符
2 exec 8<>/data/hosts    
3 表示给/data/hosts文件指定一个文件描述符8,且8与/data/hosts之间是软链接
4 exec 8>&-    删除8号这个文件描述符

二、IO重定向:改变默认位置
1、>标准的输出重定向:
  ls > /dev/pts/5 命令ls重定向输出至窗口5
  ls > /data/ls.out 命令ls重定向输出至/data/ls.out文件中
  注意:假如ls.out文件中本来就有内容,那么重定向输出后会覆盖文件中原有的内容

2、>>:追加重定向,新内容会追加至目标文件尾部
  ls >> /data/ls.out

3、():合并多个程序的STDOUT
(cal 2007;cal 2008) > all.txt


4、2>标准错误的输出重定向:
cmd 2> /data/err.log cmd(本身无cmd这个命令,所以输入此命令会显示错误的结果)的错误结果重新定向显示至 data/err.log 中
注意:history 2> /data/err.log 由于本身history命令是正确的,所以默认的输出设备会正常显示history命令的内容,且不会输出至/data/err.log中。原data/err.log中的文件会被空文件覆盖。
cmd 2>> /data/err.log 这样就会将正确的信息显示在默认的输出设备上,而且每次的错误信息输入至err.log文件中,方便后面研究问题

对于输出既有正确信息又有错误信息的场景:

1 ls /err /data >f1 2>f2 则正确信息输出至f1 中,错误信息输出至f2 中
2 ls /err /data &>all.log 正确信息和错误信息都输出至all.log文件中。
3 4 ls /err /data >all.log 2>&1   #把错的当成对的
5 ls /err /data 2>all.log >&2 注意次序!!
  • 注意区分以下几项,哪个与众不同:
1 cmd > log 2>&1
2 cmd 2>&1 >log 此项与众不同
3 cmd &> log 
4 cmd 2>log >&2

set –C 禁止将内容覆盖已有文件,但可追加
>| file 强制覆盖
set +C 允许覆盖


TIPS:
小技巧:> bigfile效果是创建了一个bigfile的空文件。背后的原理是利用重定向标准输出的原理,重定向输出至bigfile文件,由于无任何输出结果,所以直接效果就是创建了一个空的bigfile文件。所以一个比较安全的创建空文件的方法是:>> file .
原因:1. 假如file文件原来就存在,那么>> 不会覆盖原来的文件,只会在原文件基础上累加。
     2.>> 不会刷新时间,touch命令会刷新时间
     *** 非常重要: 假如 abc_link -> abc (abc_link软链接abc),
   那么我们> abc_link 的话,会直接覆盖源文件abc !!!!


5、 < 标准输入重定向
cat < file file文件内容输入到cat命令上

1 cat < f1 > f2 f2里显示f1 内容的文件
2 cat < f1 > f1 清空f1 文件
3 cat < f1 >>f2 无限循环将f1文件累加至f2文件

二、tr命令(删除和转换字符)
tr [OPTION]... SET1 [SET2]
Translate, squeeze, and/or delete characters from standard input, writing to standard output.

1 tr 'a-z' 'A-Z' #将输入的任意小写字符转换为大写,其他的字符保持原样
2 tr -c,–C --complement:#use the complement of SET1;取字符集的补集;
3 tr -d,--delete: #delete characters in SET1, do not translate;删除所有属于第一字符集的字符
4 tr -s,--squeeze-repeats:#replace each input sequence of a repeated character that is listed in SET1 with a single occurrence of that character;把连续重复的字符以单独一个字符表示
5 tr -t,--truncate-set1:#first truncate SET1 to length of SET2;将第一个字符集对应字符转化为第二字符集

tr 'a-z' 'A-Z' < /etc/fstab :将/etc/fstab这个文件中的小写字符转换为大写字符

tr –d abc < /etc/fstab 删除/etc/fstab这个文件中的abc字符


实验1:将df命令显示输出里的连续空格全部以一个空格输出
  第一步:df > /data/test.out 将df命令的输出结果定向至/data/test.out文件中。
  第二步:tr -s ' ' < /data/test.out 完成

 


把多行发送给STDIN
使用“<<终止词”命令从键盘把多行重导向给STDIN

 1 mail -s "PleaseCall" admin@magedu.com << END
 2 
 3 >HiWang,
 4 >
 5 >Pleasegivemeacallwhenyougetin.Wemayneed
 6 >todosomemaintenanceonserver1.
 7 >
 8 >Detailswhenyou’reon-site
 9 >Zhang
10 >END
11 用END终止多行输入,并将内容以邮件方式发送给admin@magedu.com,邮件主题为PleaseCall

三、管道

less :一页一页地查看输入

  ls -l  /etc | less

mail :通过电子邮件发送输入

  echo "test email" | mail  -s "test"  user @example.com

lpr:把输入发送给打印机

  echo "test print" | lpr -p printer_name

管道(使用符号“|”表示)用来连接命令
命令1 | 命令2 | 命令3 | …

  • 将命令1的STDOUT发送给命令2的STDIN,命令2的STDOUT发送到命令3的STDIN
  • STDERR默认不能通过管道转发,可利用2>&1 或|& 实现
1 ls /data /err 2>&1 | tr 'a-z' 'A-Z'
2 ls /data /err |& tr 'a-z' 'A-Z' 

实验1: 随机产生的16位字符串,将其中的小写字符换成大写字符,并且删除无用的字符。
第一步:
  openssl rand -base64 16 > /data/test.out 随机产生16位的字符串。并将其定向输出至文件中。
第二步:
  tr -dc '[:alpha:]' < /data/test.out | tr 'a-z' 'A-Z' 删除非字母的字符并将小写转换为大写
实验2: 计算1+2+3+4+…+100 =
  echo {1..100} | tr '  '  '+' | bc

  seq -s + 1 100 | bc


管道中"-"符号
示例:
将/home 里面的文件打包,但打包的数据不是记录到文件,而是传送到stdout,经过管道后,将tar -cvf-/home 传送给后面的tar -xvf-, 后面的这个-则是取前一个命令的stdout,因此,就不需要使用临时file了
tar -cvf-/home | tar -xvf-

四、tee,重定向到多个目标
tee - read from standard input and write to standard output and files


tee  [OPTION]... [FILE]...
命令1 | tee [-a ] 文件名| 命令2
把命令1的STDOUT保存在文件中,同时做为命令2的输入,

1 tee -a, --append #append to the given FILEs, do not overwrite,追加输出至文件中

使用场景:

  • 保存不同阶段的输出
  • 复杂管道的故障排除
  • 同时查看和记录输出

五、几个文本查看工具:wc, cut, sort, uniq, diff, patch

1.wc:word count

wc - print newline, word, and byte counts for each file

wc [OPTION]... [FILE]...
~]# wc anaconda-ks.cfg
 66  167 1858 anaconda-ks.cfg
# 66:表示行数
# 167:表示字数
# 1858:字节数

# option
    -l:只计数行数
    -w:只计算单词总数
    -c:只计数字节总数
    -m:只计数字符总数

2.cut:remove sections from each line of files

cut OPTION... [FILE]...
# option:
    -d --delimiter=DELIM : 指明分隔符,默认tab
    -f --fields=LIST :
        # :指定第#个字段
        #-#:指定第#-#个字段;如3-5,第3-5个字段
        #,#:指定离散的多个字段;如3,5,7
        #,#-#:

3.sort:sort lines of text files

把整理过的文本显示在STDOUT,不改变原始文件

sort [OPTION]... [FILE]...      
# option:
    -n:基于数值大小而非字符进行排序-r:逆序排序;
    -f:忽略字符大小写
    -t CHAR:指定分隔符;  (类似cut的-d命令)
    -k #:用于排序比较的字段;(类似cut -f 命令)
    -u:连续且相同的重复的行只保留一行;

4.uniq:report or omit repeated lines

报告或移除重复的行

uniq [OPTION]... [INPUT [OUTPUT]]
# option
    -c:显示每行的重复次数;
    -u:仅显示未曾重复过的行;
    -d:仅显示重复过的的行;

# 常和sort一起使用:
sort userlist.txt | uniq-c

5.diff、patch

diff - compare files line by line
patch - apply changes to files

diff [OPTION]... FILES
diff  /PATH/TO/OLDFILE  /PATH/TO/NEWFILE  > /PATH/TO/PATCH_FILE
    -u:使用unfied机制,即显示要修改的行的上下文,默认为3行,适用于补丁文件;

###
patch:复制在其它文件中进行的改变(要谨慎使用),即向文件打补丁;
patch [OPTIONS] -i /PATH/TO/PATCH_FILE /PATH/TO/OLDFILE
patch /PATH/TO/OLDFILE < /PATH/TO/PATCH_FILE
    -b:自动备份改变了的文件

6.cat、tac、rev

cat - concatenate files and print on the standard output
cat [OPTION]... [FILE]...
# option:
    -E: 显示行结束符$
    -n: 对显示出的每一行进行编号
    -A:显示所有控制符
    -s:压缩连续的空行成一行

###
tac - concatenate and print files in reverse  (反向显示cat的输出结果)
tac [OPTION]... [FILE]...       

###
rev - reverse lines of a file or files
rev [options] [file ...]

7.more、less

分页查看文件内容

8.head、tail

head - output the first part of files 默认显示前10行
tail - output the last part of files 默认显示后10行

head [OPTION]... [FILE]...
# option:
    -n #: 指定获取前#行
    -c #: 指定获取前#字节
    -#:指定行数 

###
tail [OPTION]... [FILE]...
# option:
    -n #: 指定获取后#行
    -c #: 指定获取后#字节
    -#:指定行数
    -f: 跟踪显示文件fd新追加的内容,常用日志监控;相当于--follow=descriptor
    -F: 跟踪文件名,相当于—follow=name --retry


要获取/etc/passwd文件, 要获取其第6-10行,并显示每行的行号
# 1). -n显示行号,tail -n +6显示第6行之后的行,结合head -n 5,获取前面5行,刚好6-10 $ cat -n /etc/passwd | tail -n +6 | head -n 5 # 2). 先用head -n 10来获取前10行,再结合tail -n 5获取后面5行,刚好也是6-10行 $ cat -n /etc/passwd | head -n 10 | tail -n 5 |sort -n -k3 |cut -d: -f1 # 3). cat -n来显示行号,再用awk中$1来判断行号范围 $ cat -n /etc/passwd | awk '($1 > 1 && $1 < 11){print $0}' # 4). 借助于6,10p来打印第6行到第10行 $ cat -n /etc/passwd | sed -n '6,10p' # 5). =打印行号,使用N;来获取下一行,再用 来替换换行符,最后使用6,10p来获取 $ sed = /etc/passwd | sed 'N;s/ / /' | sed -n '6,10p'

六、练习
1、将/etc/issue文件中的内容转换为大写后保存至/tmp/issue.out文件中
  tr 'a-z' 'A-Z' < /etc/issue | tee -a /data/issue.out

2、将当前系统登录用户的信息转换为大写后保存至/tmp/who.out文件中
  who | tr 'a-z' 'A-Z' > /data/who.out

3、一个linux用户给root发邮件,要求邮件标题为”help”,邮件正文如下:
Hello, I am 用户名,The system version is here,pleasehelp me to check it ,thanks!
操作系统版本信息


4、将/root/下文件列表,显示成一行,并文件名之间用空格隔开
  ls /root | tr ' ' ' '

5、计算1+2+3+…+99+100的总和
  echo {1..100} | tr ' ' '+' | bc

6、处理字符串“xt.,l 1 jr#!$mn2 c*/fe3 uz4”,只保留其中的数字和空格
  tr -dc [0-9][:space:]

7、将PATH变量每个目录显示在独立的一行
  echo $PATH | tr ':' ' '

8、将指定文件中0-9分别替代成a-j
  tr '0-9' 'a-j' < 文件





原文地址:https://www.cnblogs.com/liuzhiyun/p/11247099.html