Linux运维

统计行数

wc -l /home/hadoop/workspace/ChemicalFactory/input/device101.csv

输出前两行数据

 head -n 2 /home/hadoop/workspace/ChemicalFactory/input/device101.csv

提取需要的某几列数据（将csv文件中的第1，2和6列提取出来并输出到complexes.txt

cut -d ';' -f 1,2,6 allComplexes.csv > complexes.txt

按行取出含关键字的行并追加输入到另一文件中

sed -n '/P04800/ p' oldfile >> newfile

在关键字后加入内容（同行）

sed 's/1151/&10086xxx/' filename

替换字符串（可用于删除，例子删除了所有 '(' ）

sed -i "s/(//g" protein_complexes.csv

找出所有符合格式的文件(find)，并对所有文件进行操作(-exec)，最后将结果输出到一个文件中(>>)

find . -name "updates.20180129.*" -exec ../ripencc-bgpdump/bgpdump -m {} ; >> file

看文件大小(du)

du -b *

统计重复记录个数

* uniq -c 统计相邻的重复记录

* sort -k 1 对第一列排序 -n 按数字而不是ASCII码 -r 逆序，即从大到小

cut -d '|' -f 4 file | sort | uniq -c | sork -k 1 -n -r | head -n 10

统计重复记录并求平均数

cut -d '|' -f 4 file | sort | uniq -c | sork -k 1 -n -r | awk '{sum+=$1} END {print "Average=", sum/NR}'