Linux运维

统计行数

wc -l /home/hadoop/workspace/ChemicalFactory/input/device101.csv

输出前两行数据

 head -n 2 /home/hadoop/workspace/ChemicalFactory/input/device101.csv

 提取需要的某几列数据 (将csv文件中的第1,2和6列提取出来并输出到complexes.txt

cut -d ';' -f 1,2,6 allComplexes.csv > complexes.txt

 按行取出含关键字的行并追加输入到另一文件中

sed -n '/P04800/ p' oldfile >> newfile

在关键字后加入内容(同行)

sed 's/1151/&10086xxx/' filename

 替换字符串(可用于删除,例子删除了所有 '(' )

sed -i "s/(//g" protein_complexes.csv 

 找出所有符合格式的文件(find),并对所有文件进行操作(-exec),最后将 结果输出到一个文件中(>>)

find . -name "updates.20180129.*" -exec ../ripencc-bgpdump/bgpdump -m {} ; >> file

看文件大小(du)

du -b *

 统计重复记录个数

* uniq -c 统计相邻的重复记录

* sort -k 1 对第一列排序 -n 按数字而不是ASCII码 -r 逆序,即从大到小

cut -d '|' -f 4 file | sort | uniq -c | sork -k 1 -n -r | head -n 10

 统计重复记录并求平均数

cut -d '|' -f 4 file | sort | uniq -c | sork -k 1 -n -r | awk '{sum+=$1} END {print "Average=", sum/NR}'
原文地址:https://www.cnblogs.com/waynelin/p/5775572.html