PHP采集之CURL函数库简介

curl是一个函数库。CURL(Client URL Library Functions)是一个利用URL语法在命令行方式下工作的文件传输工具。它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER,  TELNET, DICT, FILE 以及 LDAP。CURL同样支持HTTPS认证,HTTP POST方法, HTTP PUT方法,FTP 上传, kerberos认证,HTTP上传, 代理服务器, cookies, 用户名/密码认证,下载文件断点续传,上载文件断点续传, http代理服务器管道( proxy tunneling),甚至它还支持IPv6, socks5代理服务器, 通过http代理服务器上传文件到FTP服务器等等,功能十分强大。基本代码:

<?php

// create a new curl resource
$ch = curl_init();
// set URL and other appropriate options
curl_setopt($ch, CURLOPT_URL, “http://www.google.nl/”);
// grab URL and pass it to the browser
curl_exec($ch);
// close curl resource, and free up system resources
curl_close($ch);
?>

刚刚把另外一个站点的内容,获取过来以后自动输出到浏览器,我们有没有其他的方式组织获取的信息,然后控制其输出的内容呢?完全没有问题,在curl_setopt()函数的参数中,如果希望获得内容但不输出,使用CURLOPT_RETURNTRANSFER参数,并设为非0值/true!,完整代码请看:

<?php

// create a new curl resource
$ch = curl_init();
// set URL and other appropriate options
curl_setopt($ch, CURLOPT_URL, “http://www.google.nl/”);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
// grab URL, and return output
$output = curl_exec($ch);
// close curl resource, and free up system resources
curl_close($ch);
// Replace ‘Google’ with ‘PHPit’
$output = str_replace(‘Google’, ‘PHPit’, $output);
// Print output
echo $output;
?>

CURL的相关选项:

如果你看过php手册中的curl_setopt()函数,你可以注意到了,它下面长长的参数列表,我们不可能一一介绍,更多的内容请查看PHP手册,这里只介绍常用的和有的一些参数。

第一个很有意思的参数是 CURLOPT_FOLLOWLOCATION ,当你把这个参数设置为true时,curl会根据任何重定向命令更深层次的获取转向路径,举个例子:当你尝试获取一个PHP的页面,然后这个PHP的页面中有一段跳转代码 <?php header(“Location:http://new_url”);….?>,curl将从http://new_url获取内容,而不是返回跳转代码。完整的代码如下:

<?php

// create a new curl resource
$ch = curl_init();
// set URL and other appropriate options
curl_setopt($ch, CURLOPT_URL, “http://www.google.com/”);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
// grab URL, and print
curl_exec($ch);
?>

(查看在线demo),
如果Google发送一个转向请求,上面的例子将根据跳转的网址继续获取内容,和这个参数有关的两个选项是CURLOPT_MAXREDIRSCURLOPT_AUTOREFERER .
参数CURLOPT_MAXREDIRS选项允许你定义跳转请求的最大次数,超过了这个次数将不再获取其内容。如果CURLOPT_AUTOREFERER 设置为true时,curl会自动添加Referer header在每一个跳转链接,可能它不是很重要,但是在一定的案例中却非常的有用。

下一步介绍的参数是CURLOPT_POST,这是一个非常有用的功能,因为它可以让您这样做POST请求,而不是GET请求,这实际上意味着你可以提交
其他形式的页面,无须其实在表单中填入。下面的例子表明我的意思:

<?php
// create a new curl resource
$ch = curl_init();
// set URL and other appropriate options
curl_setopt($ch, CURLOPT_URL,”http://projects/phpit/content/using%20curl%20php/demos/handle_form.php”);
// Do a POST
$data = array(‘name’ => ‘Dennis’, ‘surname’ => ‘Pallett’);
curl_setopt($ch, CURLOPT_POST, true);
curl_setopt($ch, CURLOPT_POSTFIELDS, $data);
// grab URL, and print
curl_exec($ch);
?>

(View Live Demo)
And the handle_form.php file:

<?php
echo ‘<h3>Form variables I received: </h3>’;
echo ‘<pre>’;
print_r ($_POST);
echo ‘</pre>’;
?>

CURLOPT_POSTFIELDS:全部数据使用HTTP协议中的"POST"操作来发送。要发送文件,在文件名前面加上@前缀并使用完整路径。这个参数可以通过urlencoded后的字符串类似'para1=val1&para2=val2&...'或使用一个以字段名为键值,字段数据为值的数组。如果value是一个数组,Content-Type头将会被设置成multipart/form-data

正如你可以看到,这使得它真的很容易提交形式,这是一个伟大的方式来测试您的所有形式,而不以填补他们在所有的时间。
参数CURLOPT_CONNECTTIMEOUT 通常用来设置curl尝试请求链接的时间,这是一个非常重要的选项,如果你把这段时间设置的太短了,可能会导致curl请求失败。
但是如果你把它设置的时间太长了,可能PHP脚本将死掉。和这个参数相关的一个选项是CURLOPT_TIMEOUT,这是用来设置curl允许执行的时间需求。如果您设置这一个很小的值,它可能会导下载的网页上是不完整的,因为他们需要一段时间才能下载。
最后一个选项是 CURLOPT_USERAGENT,它允许你自定义请求是的客户端名称,比如webspilder或是IE6.0.示例代码如下:

<?php
// create a new curl resource
$ch = curl_init();
// set URL and other appropriate options
curl_setopt($ch, CURLOPT_URL, “http://www.useragent.org/”);
curl_setopt($ch, CURLOPT_USERAGENT, ‘My custom web spider/0.1′);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
// grab URL, and print
curl_exec($ch);
?>

(View Live Demo)

现在我们把最有意思的一个参数都介绍过了,下面我们来介绍一个curl_getinfo() 函数,看看它能为我们做些什么。

参数CURLOPT_CONNECTTIMEOUT 通常用来设置curl尝试请求链接的时间,这是一个非常重要的选项,如果你把这段时间设置的太短了,可能会导致curl请求失败。
但是如果你把它设置的时间太长了,可能PHP脚本将死掉。和这个参数相关的一个选项是CURLOPT_TIMEOUT,这是用来设置curl允许执行的时间需求。如果您设置这一个很小的值,它可能会导下载的网页上是不完整的,因为他们需要一段时间才能下载。
最后一个选项是 CURLOPT_USERAGENT,它允许你自定义请求是的客户端名称,比如webspilder或是IE6.0.示例代码如下:

<?php
// create a new curl resource
$ch = curl_init();
// set URL and other appropriate options
curl_setopt($ch, CURLOPT_URL, “http://www.useragent.org/”);
curl_setopt($ch, CURLOPT_USERAGENT, ‘My custom web spider/0.1′);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
// grab URL, and print
curl_exec($ch);
?>

(View Live Demo)

现在我们把最有意思的一个参数都介绍过了,下面我们来介绍一个curl_getinfo() 函数,看看它能为我们做些什么。

获取页面的信息:

函数curl_getinfo()可以使得我们获取接受页面各种信息,你能编辑这些信息通过设定选项的第二个参数,你也可以传递一个数组的形式。就像下面的例子:

<?php
// create a new curl resource
$ch = curl_init();
// set URL and other appropriate options
curl_setopt($ch, CURLOPT_URL, “http://www.google.com”);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FILETIME, true);
// grab URL
$output = curl_exec($ch);
// Print info
echo ‘<pre>’;
print_r (curl_getinfo($ch));
echo ‘</pre>’;
?>

(View Live Demo)

大部分返回的信息是请求本身的,像:这个请求花的时间,返回的头文件信息,当然也有一些页面的信息,像页面内容的大小,最后修改的时间。

那些全是关于curl_getinfo()函数的,现在让我们看看它的实际用途。

实际用途:

curl库的第一用途可以查看一个URL页面是否存在,我们可以通过查看这个URL的请求返回的代码来判断比如404代表这个页面不存在,我们来看一些例子:

<?php
// create a new curl resource
$ch = curl_init();
// set URL and other appropriate options
curl_setopt($ch, CURLOPT_URL, “http://www.google.com/does/not/exist”);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
// grab URL
$output = curl_exec($ch);
// Get response code
$response_code = curl_getinfo($ch, CURLINFO_HTTP_CODE);
// Not found?
if ($response_code == ’404′) {
echo ‘Page doesn’t exist’;
} else {
echo $output;
}
?>

(View Live Demo)

其他的用户可能是创建一个自动检查器,验证每个请求的页面是否存在。
我们可以用curl库来写和google类似的网页蜘蛛(web spider),或是其他的网页蜘蛛。这篇文章不是关于如何写一个网页蜘蛛的,因此所以我们没有讲任何关于网页蜘蛛的细节问题,但是以后在PHPit 将会介绍用 curl来构造一个web spider.

实现批处理句柄,同时打开多个URL链接:

<?php
// 创建两个cURL资源
$ch1 = curl_init();
$ch2 = curl_init();
// 指定URL和适当的参数
curl_setopt($ch1, CURLOPT_URL, "http://www.phpddt.com/");
curl_setopt($ch1, CURLOPT_HEADER, 0);
curl_setopt($ch2, CURLOPT_URL, "http://www.google.cn/");
curl_setopt($ch2, CURLOPT_HEADER, 0);
// 创建cURL批处理句柄
$mh = curl_multi_init();
// 加上前面两个资源句柄
curl_multi_add_handle($mh,$ch1);
curl_multi_add_handle($mh,$ch2);
// 预定义一个状态变量
$active = null;
// 执行批处理
do {
    $mrc = curl_multi_exec($mh, $active);
} while ($mrc == CURLM_CALL_MULTI_PERFORM);
while ($active && $mrc == CURLM_OK) {
    if (curl_multi_select($mh) != -1) {
        do {
            $mrc = curl_multi_exec($mh, $active);
        } while ($mrc == CURLM_CALL_MULTI_PERFORM);
    }
}
// 关闭各个句柄
curl_multi_remove_handle($mh, $ch1);
curl_multi_remove_handle($mh, $ch2);
curl_multi_close($mh);
?>

 int curl_multi_exec ( resource $mh , int &$still_running )

处理在栈中的每一个句柄。无论该句柄需要读取或写入数据都可调用此方法。

返回值:

一个定义于 cURL 预定义常量中的 cURL 代码。

Note:

该函数仅返回关于整个批处理栈相关的错误。即使返回 CURLM_OK 时单个传输仍可能有问题

回调函数:(cURL调用指定回调函数)

<?php
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,'http://www.baidu.com');
curl_setopt($ch, CURLOPT_WRITEFUNCTION,"progress_function");
curl_exec($ch);
curl_close ($ch);
function progress_function($ch,$str) {
    echo $str;
    return strlen($str);
}
?>

文件上传

上传文件和前面的POST十分相似。因为所有的文件上传表单都是通过POST方法提交的。

首先新建一个接收文件的页面,命名为 upload_output.php:

print_r($_FILES);

以下是真正执行文件上传任务的脚本:

$url = "http://localhost/upload_output.php";
$post_data = array (
    "foo" => "bar",
    // 要上传的本地文件地址
    "upload" => "@C:/wamp/www/test.zip"
);
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $post_data);
$output = curl_exec($ch);
curl_close($ch);
echo $output;

如果你需要上传一个文件,只需要把文件路径像一个post变量一样传过去,不过记得在前面加上@符号。执行这段脚本应该会得到如下输出:

/** 保存文件 */
if (is_uploaded_file($_FILES['upload']['tmp_name'])) {
    $filename = $_FILES['upload']['tmp_name'];
    $destination = DATA_PATH . 'xxxyyyzzz.rar';
    move_uploaded_file($filename, $destination);
}

echo 'upload sucess';

来源:http://www.qianyunlai.com/blog/322.html

目前为目最全的CURL中文说明了,学PHP的要好好掌握。有很多的参数。大部份都很有用。真正掌握了它和正则,一定就是个采集高手了。

先写一个简单的抓取页面函数

<?php 
function GetSources($Url,$User_Agent='',$Referer_Url='') //抓取某个指定的页面 
{ 
//$Url 需要抓取的页面地址 
//$User_Agent 需要返回的user_agent信息 如“baiduspider”或“googlebot” 
$ch = curl_init(); 
curl_setopt ($ch, CURLOPT_URL, $Url); 
curl_setopt ($ch, CURLOPT_USERAGENT, $User_Agent); 
curl_setopt ($ch, CURLOPT_REFERER, $Referer_Url); 
curl_setopt($ch, CURLOPT_FOLLOWLOCATION,1); 
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1); 
$MySources = curl_exec ($ch); 
curl_close($ch); 
return $MySources; 
} 
$Url = "http://www.jb51.net"; //要获取内容的也没 
$User_Agent = "baiduspider+(+http://www.baidu.com/search/spider.htm)"; 
$Referer_Url = 'http://www.jb51.net/'; 
echo GetSources($Url,$User_Agent,$Referer_Url); 
?> 

PHP中的CURL函数库(Client URL Library Function) 
curl_close — 关闭一个curl会话; 
curl_copy_handle — 拷贝一个curl连接资源的所有内容和参数; 
curl_errno — 返回一个包含当前会话错误信息的数字编号; 
curl_error — 返回一个包含当前会话错误信息的字符串; 
curl_exec — 执行一个curl会话; 
curl_getinfo — 获取一个curl连接资源句柄的信息; 
curl_init — 初始化一个curl会话; 
curl_multi_add_handle — 向curl批处理会话中添加单独的curl句柄资源; 
curl_multi_close — 关闭一个批处理句柄资源; 
curl_multi_exec — 解析一个curl批处理句柄; 
curl_multi_getcontent — 返回获取的输出的文本流; 
curl_multi_info_read — 获取当前解析的curl的相关传输信息; 
curl_multi_init — 初始化一个curl批处理句柄资源; 
curl_multi_remove_handle — 移除curl批处理句柄资源中的某个句柄资源; 
curl_multi_select — Get all the sockets associated with the cURL extension, which can then be "selected"; 
curl_setopt_array — 以数组的形式为一个curl设置会话参数; 
curl_setopt — 为一个curl设置会话参数; 
curl_version — 获取curl相关的版本信息; 
curl_init()函数的作用初始化一个curl会话,curl_init()函数唯一的一个参数是可选的,表示一个url地址; 
curl_exec()函数的作用是执行一个curl会话,唯一的参数是curl_init()函数返回的句柄; 
curl_close()函数的作用是关闭一个curl会话,唯一的参数是curl_init()函数返回的句柄; 
PHP代码

<?php 
$ch = curl_init("http://blog.huangchao.org/"); 
curl_exec($ch); 
curl_close($ch); 
?>

curl_version()函数的作用是获取curl相关的版本信息,curl_version()函数有一个参数,不清楚是做什么的; 
PHP代码 
<?php 
print_r(curl_version()) 
?> 
curl_getinfo()函数的作用是获取一个curl连接资源句柄的信息,curl_getinfo()函数有两个参数,第一个参数是curl的资源句柄,第二个参数是下面一些常量: 
PHP代码

<?php 
$ch = curl_init("http://blog.huangchao.org/"); 
print_r(curl_getinfo($ch)); 
?>

可选的常量包括: 
CURLINFO_EFFECTIVE_URL:最后一个有效的url地址; 
CURLINFO_HTTP_CODE:最后一个收到的HTTP代码; 
CURLINFO_FILETIME:远程获取文档的时间,如果无法获取,则返回值为“-1”; 
CURLINFO_TOTAL_TIME:最后一次传输所消耗的时间; 
CURLINFO_NAMELOOKUP_TIME:名称解析所消耗的时间; 
CURLINFO_CONNECT_TIME:建立连接所消耗的时间; 
CURLINFO_PRETRANSFER_TIME:从建立连接到准备传输所使用的时间; 
CURLINFO_STARTTRANSFER_TIME:从建立连接到传输开始所使用的时间; 
CURLINFO_REDIRECT_TIME:在事务传输开始前重定向所使用的时间; 
CURLINFO_SIZE_UPLOAD:上传数据量的总值; 


CURLINFO_SIZE_DOWNLOAD:下载数据量的总值; 
CURLINFO_SPEED_DOWNLOAD:平均下载速度; 
CURLINFO_SPEED_UPLOAD:平均上传速度; 
CURLINFO_HEADER_SIZE:header部分的大小; 
CURLINFO_HEADER_OUT:发送请求的字符串; 
CURLINFO_REQUEST_SIZE:在HTTP请求中有问题的请求的大小; 
CURLINFO_SSL_VERIFYRESULT:Result of SSL certification verification requested by setting CURLOPT_SSL_VERIFYPEER; 
CURLINFO_CONTENT_LENGTH_DOWNLOAD:从Content-Length: field中读取的下载内容长度; 
CURLINFO_CONTENT_LENGTH_UPLOAD:上传内容大小的说明; 
CURLINFO_CONTENT_TYPE:下载内容的“Content-type”值,NULL表示服务器没有发送有效的“Content-Type: header”; 
curl_setopt()函数的作用是为一个curl设置会话参数。curl_setopt_array()函数的作用是以数组的形式为一个curl设置会话参数; 
PHP代码

<?
?php 
$ch = curl_init(); 
$fp = fopen("example_homepage.txt", "w"); 
curl_setopt($ch, CURLOPT_FILE, $fp); 
$options = array( 
CURLOPT_URL => 'http://www.baidu.com/', 
CURLOPT_HEADER => false 
); 
curl_setopt_array($ch, $options); 
curl_exec($ch); 
curl_close($ch); 
fclose($fp); 
?> 

可设置的参数有: 
CURLOPT_AUTOREFERER:自动设置header中的referer信息; 
CURLOPT_BINARYTRANSFER:在启用CURLOPT_RETURNTRANSFER时候将获取数据返回; 
CURLOPT_COOKIESESSION:启用时curl会仅仅传递一个session cookie,忽略其他的cookie,默认状况下curl会将所有的cookie返回给服务端。session cookie是指那些用来判断服务器端的session是否有效而存在的cookie; 


CURLOPT_CRLF:启用时将Unix的换行符转换成回车换行符; 
CURLOPT_DNS_USE_GLOBAL_CACHE:启用时会启用一个全局的DNS缓存,此项为线程安全的,并且默认为true; 
CURLOPT_FAILONERROR:显示HTTP状态码,默认行为是忽略编号小于等于400的HTTP信息; 
CURLOPT_FILETIME:启用时会尝试修改远程文档中的信息。结果信息会通过curl_getinfo()函数的CURLINFO_FILETIME选项返回; 
CURLOPT_FOLLOWLOCATION:启用时会将服务器服务器返回的“Location:”放在header中递归的返回给服务器,使用CURLOPT_MAXREDIRS可以限定递归返回的数量; 
CURLOPT_FORBID_REUSE:在完成交互以后强迫断开连接,不能重用; 
CURLOPT_FRESH_CONNECT:强制获取一个新的连接,替代缓存中的连接; 
CURLOPT_FTP_USE_EPRT:TRUE to use EPRT (and LPRT) when doing active FTP downloads. Use FALSE to disable EPRT and LPRT and use PORT only;Added in PHP 5.0.0. 
CURLOPT_FTP_USE_EPSV:TRUE to first try an EPSV command for FTP transfers before reverting back to PASV. Set to FALSE to disable EPSV; 
CURLOPT_FTPAPPEND:TRUE to append to the remote file instead of overwriting it; 
CURLOPT_FTPASCII:An alias of CURLOPT_TRANSFERTEXT. Use that instead; 
CURLOPT_FTPLISTONLY:TRUE to only list the names of an FTP directory; 
CURLOPT_HEADER:启用时会将头文件的信息作为数据流输出; 
CURLOPT_HTTPGET:启用时会设置HTTP的method为GET,因为GET是默认是,所以只在被修改的情况下使用; 
CURLOPT_HTTPPROXYTUNNEL:启用时会通过HTTP代理来传输; 
CURLOPT_MUTE:讲curl函数中所有修改过的参数恢复默认值; 
CURLOPT_NETRC:在连接建立以后,访问~/.netrc文件获取用户名和密码信息连接远程站点; 
CURLOPT_NOBODY:启用时将不对HTML中的body部分进行输出; 
CURLOPT_NOPROGRESS:启用时关闭curl传输的进度条,此项的默认设置为true; 
CURLOPT_NOSIGNAL:启用时忽略所有的curl传递给php进行的信号。在SAPI多线程传输时此项被默认打开; 
CURLOPT_POST:启用时会发送一个常规的POST请求,类型为:application/x-www-form-urlencoded,就像表单提交的一样; 
CURLOPT_PUT:启用时允许HTTP发送文件,必须同时设置CURLOPT_INFILE和CURLOPT_INFILESIZE 
CURLOPT_RETURNTRANSFER:将curl_exec()获取的信息以文件流的形式返回,而不是直接输出; 


CURLOPT_SSL_VERIFYPEER:FALSE to stop cURL from verifying the peer's certificate. Alternate certificates to verify against can be specified with the CURLOPT_CAINFO option or a certificate directory can be specified with the CURLOPT_CAPATH option. CURLOPT_SSL_VERIFYHOST may also need to be TRUE or FALSE if CURLOPT_SSL_VERIFYPEER is disabled (it defaults to 2). TRUE by default as of cURL 7.10. Default bundle installed as of cURL 7.10; 
CURLOPT_TRANSFERTEXT:TRUE to use ASCII mode for FTP transfers. For LDAP, it retrieves data in plain text instead of HTML. On Windows systems, it will not set STDOUT to binary mode; 
CURLOPT_UNRESTRICTED_AUTH:在使用CURLOPT_FOLLOWLOCATION产生的header中的多个locations中持续追加用户名和密码信息,即使域名已发生改变; 
CURLOPT_UPLOAD:启用时允许文件传输; 
CURLOPT_VERBOSE:启用时会汇报所有的信息,存放在STDERR或指定的CURLOPT_STDERR中; 
CURLOPT_BUFFERSIZE:每次获取的数据中读入缓存的大小,这个值每次都会被填满; 
CURLOPT_CLOSEPOLICY:不是CURLCLOSEPOLICY_LEAST_RECENTLY_USED就是CURLCLOSEPOLICY_OLDEST,还存在另外三个,但是curl暂时还不支持; 
CURLOPT_CONNECTTIMEOUT:在发起连接前等待的时间,如果设置为0,则不等待; 
CURLOPT_DNS_CACHE_TIMEOUT:设置在内存中保存DNS信息的时间,默认为120秒; 
CURLOPT_FTPSSLAUTH:The FTP authentication method (when is activated): CURLFTPAUTH_SSL (try SSL first), CURLFTPAUTH_TLS (try TLS first), or CURLFTPAUTH_DEFAULT (let cURL decide); 
CURLOPT_HTTP_VERSION:设置curl使用的HTTP协议,CURL_HTTP_VERSION_NONE(让curl自己判断),CURL_HTTP_VERSION_1_0(HTTP/1.0),CURL_HTTP_VERSION_1_1(HTTP/1.1); 
CURLOPT_HTTPAUTH:使用的HTTP验证方法,可选的值有:CURLAUTH_BASIC,CURLAUTH_DIGEST,CURLAUTH_GSSNEGOTIATE,CURLAUTH_NTLM,CURLAUTH_ANY,CURLAUTH_ANYSAFE,可以使用“|”操作符分隔多个值,curl让服务器选择一个支持最好的值,CURLAUTH_ANY等价于CURLAUTH_BASIC | CURLAUTH_DIGEST | CURLAUTH_GSSNEGOTIATE | CURLAUTH_NTLM,CURLAUTH_ANYSAFE等价于CURLAUTH_DIGEST | CURLAUTH_GSSNEGOTIATE | CURLAUTH_NTLM 
CURLOPT_INFILESIZE:设定上传文件的大小; 
CURLOPT_LOW_SPEED_LIMIT:当传输速度小于CURLOPT_LOW_SPEED_LIMIT时,PHP会根CURLOPT_LOW_SPEED_TIME来判断是否因太慢而取消传输; 
CURLOPT_LOW_SPEED_TIME:The number of seconds the transfer should be below CURLOPT_LOW_SPEED_LIMIT for PHP to consider the transfer too slow and abort; 
当传输速度小于CURLOPT_LOW_SPEED_LIMIT时,PHP会根据CURLOPT_LOW_SPEED_TIME来判断是否因太慢而取消传输; 
CURLOPT_MAXCONNECTS:允许的最大连接数量,超过是会通过CURLOPT_CLOSEPOLICY决定应该停止哪些连接; 
CURLOPT_MAXREDIRS:指定最多的HTTP重定向的数量,这个选项是和CURLOPT_FOLLOWLOCATION一起使用的; 


CURLOPT_PORT:一个可选的用来指定连接端口的量; 
CURLOPT_PROXYAUTH:The HTTP authentication method(s) to use for the proxy connection. Use the same bitmasks as described in CURLOPT_HTTPAUTH. For proxy authentication, only CURLAUTH_BASIC and CURLAUTH_NTLM are currently supported. 
CURLOPT_PROXYPORT:The port number of the proxy to connect to. This port number can also be set in CURLOPT_PROXY. 
CURLOPT_PROXYTYPE:Either CURLPROXY_HTTP (default) or CURLPROXY_SOCKS5. 
CURLOPT_RESUME_FROM:在恢复传输时传递一个字节偏移量(用来断点续传) 
CURLOPT_SSL_VERIFYHOST: 
1 to check the existence of a common name in the SSL peer certificate. 
2 to check the existence of a common name and also verify that it matches the hostname provided. 
CURLOPT_SSLVERSION:The SSL version (2 or 3) to use. By default PHP will try to determine this itself, although in some cases this must be set manually. 
CURLOPT_TIMECONDITION:如果在CURLOPT_TIMEVALUE指定的某个时间以后被编辑过,则使用CURL_TIMECOND_IFMODSINCE返回页面,如果没有被修改过,并且CURLOPT_HEADER为true,则返回一个"304 Not Modified"的header,CURLOPT_HEADER为false,则使用CURL_TIMECOND_ISUNMODSINCE,默认值为CURL_TIMECOND_IFMODSINCE 
CURLOPT_TIMEOUT:设置curl允许执行的最长秒数 
CURLOPT_TIMEVALUE:设置一个CURLOPT_TIMECONDITION使用的时间戳,在默认状态下使用的是CURL_TIMECOND_IFMODSINCE 
CURLOPT_CAINFO:The name of a file holding one or more certificates to verify the peer with. This only makes sense when used in combination with CURLOPT_SSL_VERIFYPEER. 
CURLOPT_CAPATH:A directory that holds multiple CA certificates. Use this option alongside CURLOPT_SSL_VERIFYPEER. 
CURLOPT_COOKIE:设定HTTP请求中“Set-Cookie:”部分的内容。 
CURLOPT_COOKIEFILE:包含cookie信息的文件名称,这个cookie文件可以是Netscape格式或者HTTP风格的header信息。 
CURLOPT_COOKIEJAR:连接关闭以后,存放cookie信息的文件名称 


CURLOPT_CUSTOMREQUEST:A custom request method to use instead of "GET" or "HEAD" when doing a HTTP request. This is useful for doing "DELETE" or other, more obscure HTTP requests. Valid values are things like "GET", "POST", "CONNECT" and so on; i.e. Do not enter a whole HTTP request line here. For instance, entering "GET /index.html HTTP/1.0\r\n\r\n" would be incorrect. 
Note: Don't do this without making sure the server supports the custom request method first. 
CURLOPT_EGBSOCKET:Like CURLOPT_RANDOM_FILE, except a filename to an Entropy Gathering Daemon socket. 
CURLOPT_ENCODING:header中“Accept-Encoding: ”部分的内容,支持的编码格式为:"identity","deflate","gzip"。如果设置为空字符串,则表示支持所有的编码格式 
CURLOPT_FTPPORT:The value which will be used to get the IP address to use for the FTP "POST" instruction. The "POST" instruction tells the remote server to connect to our specified IP address. The string may be a plain IP address, a hostname, a network interface name (under Unix), or just a plain '-' to use the systems default IP address. 
CURLOPT_INTERFACE:在外部网络接口中使用的名称,可以是一个接口名,IP或者主机名。 
CURLOPT_KRB4LEVEL:KRB4(Kerberos 4)安全级别的设置,可以是一下几个值之一:"clear","safe","confidential","private"。默认的值为"private",设置为null的时候表示禁用KRB4,现在KRB4安全仅能在FTP传输中使用。 
CURLOPT_POSTFIELDS:在HTTP中的“POST”操作。如果要传送一个文件,需要一个@开头的文件名 
CURLOPT_PROXY:设置通过的HTTP代理服务器 
CURLOPT_PROXYUSERPWD:连接到代理服务器的,格式为“[username]:[password]”的用户名和密码。 
CURLOPT_RANDOM_FILE:设定存放SSL用到的随机数种子的文件名称 
CURLOPT_RANGE:设置HTTP传输范围,可以用“X-Y”的形式设置一个传输区间,如果有多个HTTP传输,则使用逗号分隔多个值,形如:"X-Y,N-M"。 
CURLOPT_REFERER:设置header中"Referer: " 部分的值。 
CURLOPT_SSL_CIPHER_LIST:A list of ciphers to use for SSL. For example, RC4-SHA and TLSv1 are valid cipher lists. 
CURLOPT_SSLCERT:传递一个包含PEM格式证书的字符串。 


CURLOPT_SSLCERTPASSWD:传递一个包含使用CURLOPT_SSLCERT证书必需的密码。 
CURLOPT_SSLCERTTYPE:The format of the certificate. Supported formats are "PEM" (default), "DER", and "ENG". 
CURLOPT_SSLENGINE:The identifier for the crypto engine of the private SSL key specified in CURLOPT_SSLKEY. 
CURLOPT_SSLENGINE_DEFAULT:The identifier for the crypto engine used for asymmetric crypto operations. 
CURLOPT_SSLKEY:The name of a file containing a private SSL key. 
CURLOPT_SSLKEYPASSWD:The secret password needed to use the private SSL key specified in CURLOPT_SSLKEY. 
Note: Since this option contains a sensitive password, remember to keep the PHP script it is contained within safe. 
CURLOPT_SSLKEYTYPE:The key type of the private SSL key specified in CURLOPT_SSLKEY. Supported key types are "PEM" (default), "DER", and "ENG". 
CURLOPT_URL:需要获取的URL地址,也可以在PHP的curl_init()函数中设置。 
CURLOPT_USERAGENT:在HTTP请求中包含一个”user-agent”头的字符串。 
CURLOPT_USERPWD:传递一个连接中需要的用户名和密码,格式为:“[username]:[password]”。 
CURLOPT_HTTP200ALIASES:设置不再以error的形式来处理HTTP 200的响应,格式为一个数组。 
CURLOPT_HTTPHEADER:设置一个header中传输内容的数组。 
CURLOPT_POSTQUOTE:An array of FTP commands to execute on the server after the FTP request has been performed. 
CURLOPT_QUOTE:An array of FTP commands to execute on the server prior to the FTP request.
CURLOPT_FILE:设置输出文件的位置,值是一个资源类型,默认为STDOUT (浏览器)。 
CURLOPT_INFILE:在上传文件的时候需要读取的文件地址,值是一个资源类型。 
CURLOPT_STDERR:设置一个错误输出地址,值是一个资源类型,取代默认的STDERR。 
CURLOPT_WRITEHEADER:设置header部分内容的写入的文件地址,值是一个资源类型。 
CURLOPT_HEADERFUNCTION:设置一个回调函数,这个函数有两个参数,第一个是curl的资源句柄,第二个是输出的header数据。header数据的输出必须依赖这个函数,返回已写入的数据大小。 
CURLOPT_PASSWDFUNCTION:设置一个回调函数,有三个参数,第一个是curl的资源句柄,第二个是一个密码提示符,第三个参数是密码长度允许的最大值。返回密码的值。 
CURLOPT_READFUNCTION:设置一个回调函数,有两个参数,第一个是curl的资源句柄,第二个是读取到的数据。数据读取必须依赖这个函数。返回读取数据的大小,比如0或者EOF。 
CURLOPT_WRITEFUNCTION:设置一个回调函数,有两个参数,第一个是curl的资源句柄,第二个是写入的数据。数据写入必须依赖这个函数。返回精确的已写入数据的大小 


curl_copy_handle()函数的作用是拷贝一个curl连接资源的所有内容和参数 
PHP代码

<?php 
$ch = curl_init("http://qzone.myqq.us/"); 
$another = curl_copy_handle($ch); 
curl_exec($another); 
curl_close($another); 
?>

curl_error()函数的作用是返回一个包含当前会话错误信息的字符串。 
curl_errno()函数的作用是返回一个包含当前会话错误信息的数字编号。 
curl_multi_init()函数的作用是初始化一个curl批处理句柄资源。 
curl_multi_add_handle()函数的作用是向curl批处理会话中添加单独的curl句柄资源。curl_multi_add_handle()函数有两个参数,第一个参数表示一个curl批处理句柄资源,第二个参数表示一个单独的curl句柄资源。 
curl_multi_exec()函数的作用是解析一个curl批处理句柄,curl_multi_exec()函数有两个参数,第一个参数表示一个批处理句柄资源,第二个参数是一个引用值的参数,表示剩余需要处理的单个的curl句柄资源数量。 
curl_multi_remove_handle()函数表示移除curl批处理句柄资源中的某个句柄资源,curl_multi_remove_handle()函数有两个参数,第一个参数表示一个curl批处理句柄资源,第二个参数表示一个单独的curl句柄资源。 
curl_multi_close()函数的作用是关闭一个批处理句柄资源。 
PHP代码

<?php 
$ch1 = curl_init(); 
$ch2 = curl_init(); 
curl_setopt($ch1, CURLOPT_URL, "http://blog.huangchao.org/"); 
curl_setopt($ch1, CURLOPT_HEADER, 0); 
curl_setopt($ch2, CURLOPT_URL, "http://test.huangchao.org/"); 
curl_setopt($ch2, CURLOPT_HEADER, 0); 
$mh = curl_multi_init(); 
curl_multi_add_handle($mh,$ch1); 
curl_multi_add_handle($mh,$ch2); 
do { 
curl_multi_exec($mh,$flag); 
} while ($flag > 0); 
curl_multi_remove_handle($mh,$ch1); 
curl_multi_remove_handle($mh,$ch2); 
curl_multi_close($mh); 
?> 

curl_multi_getcontent()函数的作用是在设置了CURLOPT_RETURNTRANSFER的情况下,返回获取的输出的文本流。 
curl_multi_info_read()函数的作用是获取当前解析的curl的相关传输信息。 
curl_multi_select():Get all the sockets associated with the cURL extension, which can then be "selected"

via:http://www.jb51.net/article/22130.htm

 curl命令行使用;

有时想在命令行使用post

http提交一个表单,比较常用的是POST模式和GET模式

GET模式什么option都不用,只需要把变量写在url里面就可以了

比如:curl http://www.waynerQiu.com/login.cgi?user=nickwolfe&password=12345

而POST模式的option则是 -d (--data

-d/--data <data>
(HTTP) Sends the specified data in a POST request to the HTTP
server, in the same way that a browser does when a user has filled
in an HTML form and presses the submit button. This will cause curl
to pass the data to the server using the content-type >application/x-
www-form-urlencoded.

比如,curl -d "user=nickwolfe&password=12345" http://www.waynerQiu.com/login.cgi

就相当于向这个站点发出一次登陆申请;

到底该用GET模式还是POST模式,要看对面服务器的程序设定。

curl --data "data=xxx" example.com/form.cgi

如果你的数据没有经过表单编码,还可以让curl为你编码,参数是--data-urlencode。

  curl --data-urlencode "date=April 1" example.com/form.cgi

一点需要注意的是,POST模式的文件上传,比如

<form method="POST" enctype="multipar/form-data" 

action="http://... /~zzh/up_file.cgi">

<input type=file name=upload>

<input type=submit name=nick value="go">

</form>

这样一个HTTP表单,我们要用curl进行模拟,就该是这样的语法:

curl -F upload=@localfile -F nick=go http://.../~zzh/up_file.cgi

11)https的时候使用本地证书,可以使用option:-E

curl -E localcert.pem https://remote_server

参考了:http://www.ruanyifeng.com/blog/2011/09/curl.html

http://www.dewen.org/q/3803/%E5%9C%A8linux%E5%91%BD%E4%BB%A4%E8%A1%8C%E4%B8%8Bcurl+%E6%8F%90%E4%BA%A4json%E6%95%B0%E6%8D%AE%E7%9A%84%E9%97%AE%E9%A2%98

原文地址:https://www.cnblogs.com/youxin/p/2923934.html