linux命令应用之一

某个目录下有两个文件a.txt和b.txt.文件格式为（ip username）,例如：

a.txt

127.0.0.1 zhangsan
127.0.0.1 wangxiao
127.0.0.2 lisi
127.0.0.3 wangwu

b.txt

127.0.0.4 lixiao
127.0.0.1 lisi
127.0.0.2 lisi

a.txt,b.txt 中至少 100 万行，用 linux命令行实现下列要求（题目要求linux命令行方式。。。）：
1）a.txt,b.txt 中各自的 ip 个数，ip 的总个数。
2）a.txt 中存在的 ip 而 b.txt 中不存在的 ip。
3）每个 username 出现的总个数，每个 username 对应的 ip 个数。

答案：

1：单个文件中ip个数不去重 cut -d ' ' -f 1 a.txt | wc -l

单个文件中ip去重后的总个数 cut -d ' ' -f 1 a.txt |sort | uniq |wc -l

ip总个数不去重 cut -d ' ' -f 1 a.txt b.txt | wc -l

ip去重后的总个数 cut -d ' ' -f 1 a.txt b.txt |sort | uniq |wc -l

2：a中存在而b中不存在的ip cut -d ' ' -f 1 a.txt b.txt |sort | uniq -u

3：每个 username 出现的总个数 cut -d ' ' -f 2 a.txt b.txt | sort | uniq -c

或者 awk '{arr[$2]++;}END{for(i in arr){print i , arr[i] }}' a.txt b.txt

每个 username 对应的 ip 个数 cut -d ' ' -f 1-2 a.txt b.txt | sort -k 2 | uniq -c | awk '{arr[$3]++;}END{for(i in arr){print i , arr[i] }}'