CentOS初步学习记录(四)curl文件传输和grep文本搜索

一、curl 工具

curl命令是一个利用URL规则在命令行下工作的文件传输工具。它支持文件的上传和下载,所以是综合传输工具,但按传统,习惯称curl为下载工具。作为一款强力工具,curl支持包括HTTP、HTTPS、ftp等众多协议,还支持POST、cookies、认证、从指定偏移处下载部分文件、用户代理字符串、限速、文件大小、进度条等特征。做网页处理流程和数据检索自动化,curl可以祝一臂之力。

1.1 基本语法

curl (选项) (Url地址)

1.2 选项

-a/--append 上传文件时,附加到目标文件
-A/--user-agent <string> 设置用户代理发送给服务器
-anyauth 可以使用“任何”身份验证方法
-b/--cookie <name=string/file> cookie字符串或文件读取位置
     --basic 使用HTTP基本验证
-B/--use-ascii 使用ASCII /文本传输
-c/--cookie-jar <file> 操作结束后把cookie写入到这个文件中
-C/--continue-at <offset> 断点续转
-d/--data <data> HTTP POST方式传送数据
     --data-ascii <data> 以ascii的方式post数据
     --data-binary <data> 以二进制的方式post数据
     --negotiate 使用HTTP身份验证
     --digest 使用数字身份验证
     --disable-eprt 禁止使用EPRT或LPRT
     --disable-epsv 禁止使用EPSV
-D/--dump-header <file> 把header信息写入到该文件中
     --egd-file <file> 为随机数据(SSL)设置EGD socket路径
     --tcp-nodelay 使用TCP_NODELAY选项
-e/--referer 来源网址
-E/--cert <cert[:passwd]> 客户端证书文件和密码 (SSL)
     --cert-type <type> 证书文件类型 (DER/PEM/ENG) (SSL)
     --key <key> 私钥文件名 (SSL)
     --key-type <type> 私钥文件类型 (DER/PEM/ENG) (SSL)
     --pass <pass> 私钥密码 (SSL)
     --engine <eng> 加密引擎使用 (SSL). "--engine list" for list
     --cacert <file> CA证书 (SSL)
     --capath <directory> CA目录 (made using c_rehash) to verify peer against (SSL)
     --ciphers <list> SSL密码
     --compressed 要求返回是压缩的形势 (using deflate or gzip)
     --connect-timeout <seconds> 设置最大请求时间
     --create-dirs 建立本地目录的目录层次结构
     --crlf 上传是把LF转变成CRLF
-f/--fail 连接失败时不显示http错误
     --ftp-create-dirs 如果远程目录不存在,创建远程目录
     --ftp-method [multicwd/nocwd/singlecwd] 控制CWD的使用
     --ftp-pasv 使用 PASV/EPSV 代替端口
     --ftp-skip-pasv-ip 使用PASV的时候,忽略该IP地址
     --ftp-ssl 尝试用 SSL/TLS 来进行ftp数据传输
     --ftp-ssl-reqd 要求用 SSL/TLS 来进行ftp数据传输
-F/--form <name=content> 模拟http表单提交数据
     --form-string <name=string> 模拟http表单提交数据
-g/--globoff 禁用网址序列和范围使用{}和[]
-G/--get 以get的方式来发送数据
-H/--header <line> 自定义头信息传递给服务器
     --ignore-content-length 忽略的HTTP头信息的长度
-i/--include 输出时包括protocol头信息
-I/--head 只显示请求头信息
-j/--junk-session-cookies 读取文件进忽略session cookie
     --interface <interface> 使用指定网络接口/地址
     --krb4 <level> 使用指定安全级别的krb4
-k/--insecure 允许不使用证书到SSL站点
-K/--config 指定的配置文件读取
-l/--list-only 列出ftp目录下的文件名称
     --limit-rate <rate> 设置传输速度
     --local-port<NUM> 强制使用本地端口号
-m/--max-time <seconds> 设置最大传输时间
     --max-redirs <num> 设置最大读取的目录数
     --max-filesize <bytes> 设置最大下载的文件总量
-M/--manual 显示全手动
-n/--netrc 从netrc文件中读取用户名和密码
     --netrc-optional 使用 .netrc 或者 URL来覆盖-n
     --ntlm 使用 HTTP NTLM 身份验证
-N/--no-buffer 禁用缓冲输出
-o/--output 把输出写到该文件中
-O/--remote-name 把输出写到该文件中,保留远程文件的文件名
-p/--proxytunnel 使用HTTP代理
     --proxy-anyauth 选择任一代理身份验证方法
     --proxy-basic 在代理上使用基本身份验证
     --proxy-digest 在代理上使用数字身份验证
     --proxy-ntlm 在代理上使用ntlm身份验证
-P/--ftp-port <address> 使用端口地址,而不是使用PASV
-q 作为第一个参数,关闭 .curlrc
-Q/--quote <cmd> 文件传输前,发送命令到服务器
-r/--range <range> 检索来自HTTP/1.1或FTP服务器字节范围
--range-file 读取(SSL)的随机文件
-R/--remote-time 在本地生成文件时,保留远程文件时间
     --retry <num> 传输出现问题时,重试的次数
     --retry-delay <seconds> 传输出现问题时,设置重试间隔时间
     --retry-max-time <seconds> 传输出现问题时,设置最大重试时间
-s/--silent 静默模式。不输出任何东西
-S/--show-error 显示错误
     --socks4 <host[:port]> 用socks4代理给定主机和端口
     --socks5 <host[:port]> 用socks5代理给定主机和端口
     --stderr <file>  
-t/--telnet-option <OPT=val> Telnet选项设置
     --trace <file> 对指定文件进行debug
     --trace-ascii <file> Like --跟踪但没有hex输出
     --trace-time 跟踪/详细输出时,添加时间戳
-T/--upload-file <file> 上传文件
     --url <URL> Spet URL to work with
-u/--user <user[:password]> 设置服务器的用户和密码
-U/--proxy-user <user[:password]> 设置代理用户名和密码
-w/--write-out [format] 什么输出完成后
-x/--proxy <host[:port]> 在给定的端口上使用HTTP代理
-X/--request <command> 指定什么命令
-y/--speed-time 放弃限速所要的时间,默认为30
-Y/--speed-limit 停止传输速度的限制,速度时间

1.3 实例

1)基本用法

curl http://www.linux.com

执行后,www.linux.com 的 html 就会显示在屏幕上了,默认情况下下 curl 执行的是 GET 操作,所以可以当做 wget 使用。

2)使用选项 -o 将下载数据写入到指定名称的文件中

curl -o linux.html http://www.linux.com

3)使用选项 -O 保存网页中的文件,必须使用文件的绝对地址

curl -O http://www.linux.com/hello.sh

4)循环下载

有时候下载图片可以能是前面的部分名称是一样的,就最后的尾椎名不一样:

curl -O http://www.linux.com/dodo[1-5].JPG

5)下载重命名

curl -O http://www.linux.com/{hello,bb}/dodo[1-5].JPG

由于下载的hello与bb中的文件名都是dodo1,dodo2,dodo3,dodo4,dodo5。因此第二次下载的会把第一次下载的覆盖,这样就需要对文件进行重命名:

curl -o #1_#2.JPG http://www.linux.com/{hello,bb}/dodo[1-5].JPG

这样在hello/dodo1.JPG的文件下载下来就会变成hello_dodo1.JPG,其他文件依此类推,从而有效的避免了文件被覆盖。

6)分段下载

有时候下载的东西会比较大,这个时候我们可以分段下载,使用内置 -r 选项:

# curl -r 0-100 -o dodo1_part1.JPG http://www.linux.com/dodo1.JPG
# curl -r 100-200 -o dodo1_part2.JPG http://www.linux.com/dodo1.JPG
# curl -r 200- -o dodo1_part3.JPG http://www.linux.com/dodo1.JPG
# cat dodo1_part* > dodo1.JPG

这样就可以查看dodo1.JPG的内容了。

7)通过ftp下载文件

curl提供两种从ftp中下载的语法:

# curl -O -u 用户名:密码 ftp://www.linux.com/dodo1.JPG
# curl -O ftp://用户名:密码@www.linux.com/dodo1.JPG

8)显示、隐藏下载进度条

curl -# -O http://www.linux.com/dodo1.JPG
curl -s -O http://www.linux.com/dodo1.JPG

9)断点续传

在windows中,我们可以使用迅雷这样的软件进行断点续传。curl可以通过 -C 选项达到相同的效果。
如果在下载 dodo1.JPG 的过程中突然掉线了,可以使用以下的方式续传:

# curl -C -O http://www.linux.com/dodo1.JPG

10)上传文件

curl 不仅可以下载文件,还可以上传文件,使用 -T 选项:

# curl -T dodo1.JPG -u 用户名:密码 ftp://www.linux.com/img/

这样就向 ftp 服务器上传了文件 dodo1.JPG。

11)测试网页返回值

curl -o /dev/null -s -w %{http_code} www.linux.com

在脚本中,这是很常见的测试网站是否正常的用法。

12)指定代理服务器以及其端口

curl -x 192.168.100.100:1080 http://www.linux.com

很多时候上网需要用到代理服务器(比如是使用代理服务器上网或者因为使用 curl 别人网站而被别人屏蔽 IP 地址的时候),需要用到 -x 来支持设置代理。

13)设置 cookies

使用 --cookie "COKKIES"选项来指定cookie,多个cookie使用分号分隔:

curl http://www.linux.com --cookie "user=root;pass=123456"

使用 --cookie-jar选项来保存 http 的 response 里面的 cookie 信息:

curl --cookie-jar cookiec.txt http://www.linux.com

14)保存 http 的 response 里面的 header 信息

curl -D cookied.txt http://www.linux.com

15)设置用户代理字符串

有些网站需要使用特定的浏览器去访问他们,有些还需要使用某些特定的版本,这是因为这些网站设置了检查用户代理,使用 --user-agen t或者 -A 选项:

curl -A "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.0)" http://www.linux.com

16)伪造 Referer

很多服务器会检查 http 访问的 referer 从而来控制访问。比如:你是先访问首页,然后再访问首页中的邮箱页面,这里访问邮箱的 referer 地址就是访问首页成功后的页面地址,使用 -e 选项:

curl -e "www.linux.com" http://mail.linux.com

这样就会让服务器其以为你是从 www.linux.com 点击某个链接跳转过来的。

17)显示抓取错误

curl -f http://www.linux.com/error

二、grep 工具

grep 是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。

2.1 基本语法

grep [-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文件或目录...]

2.2 选项

  • -a 或 --text:不要忽略二进制的数据
  • -A <显示列数> 或 --after-context = <显示列数>:除了显示符合范本样式的那一列之外,并显示该列之后的内容
  • -b 或 --byte-offset:在显示符合范本样式的那一列之前,标示出该列第一个字符的位编号
  • -B <显示列数> 或 --before-context = <显示列数>:除了显示符合范本样式的那一列之外,并显示该列之前的内容
  • -c 或 --count:计算符合范本样式的列数
  • -C <显示列数> 或 --context = <显示列数> 或 -<显示列数>:除了显示符合范本样式的那一列之外,并显示该列之前后的内容
  • -d <进行动作> 或 --directories = <进行动作>:当指定要查找的是目录而非文件时,必须使用这项参数,否则 grep 指令将回报信息并停止动作
  • -e <范本样式> 或 --regexp = <范本样式>:指定字符串做为查找文件内容的范本样式
  • -E 或 --extended-regexp:将范本样式为延伸的普通表示法来使用
  • -f <范本文件> 或 --file = <范本文件>:指定范本文件,其内容含有一个或多个范本样式,让 grep 查找符合范本条件的文件内容,格式为每列一个范本样式
  • -F 或 --fixed-regexp:将范本样式视为固定字符串的列表
  • -G 或 --basic-regexp:将范本样式视为普通的表示法来使用
  • -h 或 --no-filename:在显示符合范本样式的那一列之前,不标示该列所属的文件名称
  • -H 或 --with-filename:在显示符合范本样式的那一列之前,表示该列所属的文件名称
  • -i 或 --ignore-case:忽略字符大小写的差别
  • -l 或 --file-with-matches:列出文件内容符合指定的范本样式的文件名称
  • -L 或 --files-without-match:列出文件内容不符合指定的范本样式的文件名称
  • -n 或 --line-number:在显示符合范本样式的那一列之前,标示出该列的列数编号
  • -q 或 --quiet或--silent:不显示任何信息
  • -r 或 --recursive:此参数的效果和指定 -d recurse 参数相同
  • -s 或 --no-messages:不显示错误信息
  • -v 或 --revert-match:反转查找
  • -V 或 --version:显示版本信息
  • -w 或 --word-regexp:只显示全字符合的列
  • -x 或 --line-regexp:只显示全列符合的列
  • -y:此参数的效果和指定 -i 参数相同
  • --help:在线帮助。

2.3 实例

1)在文件中搜索一个单词,命令会返回一个包含“match_pattern”的文本行:

grep "match_pattern" file_name

2)统计文件或者文本中包含匹配字符串的行数:

grep -c "text" file_name

3)搜索多个文件并查找匹配文本在哪些文件中:

grep -l "text" file1 file2 file3...

三、Shell Script 实例

有时我们的软件需要自动根据到网上去获取当前版本是否要更新,如果需要更新则下载一些必要的文件:

  1. 首先判断本地的 version 文件,读取
  2. 用 curl 访问远程 conf.txt,然后读取第二行
  3. 本地的版本和远程版本进行比较,如果版本小则:① 模拟post访问update.php,并获取需要下载的地址;② 使用wget下载下来
LOCAL_VER=`cat version`
REMOTE_VER=`curl http://www.jtthink.com/test/conf.txt -s | sed -n '2p'`
#echo $REMOTE_VER
if [ $LOCAL_VER -lt $REMOTE_VER ]
   then
  # echo "begin update"
   GET_UPDATE=`curl -d "password=123" http://www.jtthink.com/test/update.php -s`
   wget $GET_UPDATE
   echo "2">version
fi
原文地址:https://www.cnblogs.com/tangxuliang/p/9121677.html