AWK与SED命令

  linux系统比较常用的AWK与SED命令,这两个命令主要是格式化文本文件信息。接下来将详细介绍这两个命令的基本用法以及可以实现的功能。

 一、AWK命令

  AWK语言的基本功能是在文件或者字符串中基于指定规则浏览和抽取信息。awk抽取信息后,才能对其他文本操作。完整awk脚本通常用来格式化文本文件信息。

  

  1、内置变量

   $0: 当前记录(作为单个变量)
   $1~$n: 当前记录的第n个字段,字段间由FS分隔
   FS: 输入字段分隔符 默认是空格
   NF: 当前记录中的字段个数,就是有多少列
   NR: 已经读出的记录数,就是行号,从1开始
   FNR: 当前记录数
   RS:   输入的记录他隔符 默认为换行符
   OFS: 输出字段分隔符  默认也是空格
   ORS: 输出的记录分隔符,默认为换行符
   ARGC: 命令行参数个数
   ARGV: 命令行参数数组
   FILENAME: 当前输入文件的名字
   IGNORECASE: 如果为真,则进行忽略大小写的匹配
   ARGIND: 当前被处理文件的ARGV标志符
   CONVFMT: 数字转换格式 %.6g
   ENVIRON: UNIX环境变量
   ERRNO: UNIX系统错误消息
   FIELDWIDTHS: 输入字段宽度的空白分隔字符串
   OFMT: 数字的输出格式 %.6g
   RSTART: 被匹配函数匹配的字符串首
   RLENGTH: 被匹配函数匹配的字符串长度
   SUBSEP: 数组分隔符。将(I,J)转换为 I SUBSEP J, 模拟多维数组用

    2、 内置字符串函数

  1)gsub(Ere,Repl,[ In ]) 

    除了正则表达式所有具体值被替代这点,它和 sub 函数完全一样地执行。

  2)sub( Ere,Repl,[ In ])

   用 Repl 参数指定的字符串替换 In 参数指定的字符串中的由 Ere 参数指定的扩展正则表达式的第一个具体值。sub 函数返回替换的数量。出现在 Repl 参数指定的字符串中的 &(和符号)由 In 参数指定的与 Ere 参数的指定的扩展正则表达式匹配的字符串替换。如果未指定 In 参数,缺省值是整个记录($0 记录变量)。

  3)index(String1,String2)

   在由 String1 参数指定的字符串(其中有出现 String2 指定的参数)中,返回位置,从1 开始编号。如果String2 参数不在 String1 参数中出现,则返回0(零)。

  4)length [(String)]
     返回String参数指定的字符串的长度(字符形式)。如果未给出 String 参数,则返回整个记录的长度($0 记录变量)。
  5)blength[(String)]
   返回 String 参数指定的字符串的长度(以字节为单位)。如果未给出 String 参数,则返回整个记录的长度($0 记录变量)。
  6)substr(String,M,[N])
   返回具有N参数指定的字符数量子串。子串从String参数指定的字符串取得,其字符以M参数指定的位置开始。M参数指定为将String参数中的第一个字符作为编号1。如果未指定N参数,则子串的长度将是M参数指定的位置到String参数的末尾 的长度。

  7)split(String,A,[Ere]) 
   将 String 参数指定的参数分割为数组元素A[1],A[2],...,A[n],并返回n变量的值。此分隔可以通过Ere参数指定的扩展正则表达式进行,或用当前字段分隔符(FS 特殊变量)来进行(如果没有给出 Ere 参数)。除非上下文指明特定的元素还应具有一个数字值,否则 A 数组中的元素用字符串值来创建。
  8)tolower(String) 
   返回String参数指定的字符串,字符串中每个大写字符将更改为小写。大写和小写的映射由当前语言环境的LC_CTYPE范畴定义。
  9)toupper(String) 
   返回String参数指定的字符串,字符串中每个小写字符将更改为大写。大写和小写的映射由当前语言环境的LC_CTYPE范畴定义。

 3、时间函数

  1)mktime(YYYYMMDDHHMMSS[DST]) 

    生成时间格式
  2)strftime([format [,timestamp]]) 

    格式化时间输出,将时间戳转为时间字符串
  3)systime() 

    得到时间戳,返回从1970年1月1日开始到当前时间(不计闰年)的整秒数

 二、SED命令

  SED是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 改变,除非你使用重定向存储输出。

  Sed主要用来自动编辑一个或多个文件;简化对文件的反复操作;编写转换程序等。

  调用sed命令有两种形式: 
   (1)sed [options] 'command' file(s) 
   (2)sed [options] -f scriptfile file(s) 

  1、元字符集

  ^
  锚定行的开始 如:/^sed/匹配所有以sed开头的行。  
  $
  锚定行的结束 如:/sed$/匹配所有以sed结尾的行。  
  .
  匹配一个非换行符的字符 如:/s.d/匹配s后接一个任意字符,然后是d。  
  *
  匹配零或多个字符 如:/*sed/匹配所有模板是一个或多个空格后紧跟sed的行。 
  []
  匹配一个指定范围内的字符,如/[Ss]ed/匹配sed和Sed。 
  [^]
  匹配一个不在指定范围内的字符,如:/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一个字母开头,紧跟ed的行。 
  (..)
  保存匹配的字符,如s/(love)able/1rs,loveable被替换成lovers。 
  &
  保存搜索字符用来替换其他字符,如s/love/**&**/,love这成**love**。  
  <
  锚定单词的开始,如:/<love/匹配包含以love开头的单词的行。  
  >
  锚定单词的结束,如/love>/匹配包含以love结尾的单词的行。  
  x{m}
  重复字符x,m次,如:/0{5}/匹配包含5个o的行。  
  x{m,}
  重复字符x,至少m次,如:/o{5,}/匹配至少有5个o的行。  
  x{m,n}

  重复字符x,至少m次,不多于n次,如:/o{5,10}/匹配5--10个o的行。 

  

原文地址:https://www.cnblogs.com/oracle-dba/p/3331756.html