清除文件里的中文字 wget http://www.baidu.com cat index.html | sed 's/[^a-zA-Z0-9[:punct:]]//g' | grep -v '^$' 过滤index.html的中文