php学习之采集新浪头条新闻

采集的时候要注意,编码,如果编码一致,会导致匹配不了采集失败

<?php
//采集的时候要注意编码一直,才能匹配想要的东西,要不会采集不到东西,主要还是需要用正则表达式
$con = file_get_contents("http://news.sina.com.cn/");
//可以先输出
//echo  htmlspecialchars($con);exit;
$preg='/<h1 data-client="headline"><a href="(.*)" target="_blank">(.*)<\/a><\/h1>/U';
preg_match_all($preg,$con,$arr);
echo "<pre>";
//print_r($arr);
echo "</pre>";
foreach($arr[1] as $id=>$v)
{
echo "<a href=show.php?url=$v>".$arr[2][$id]."</a>----来源:http://news.sina.com.cn/<br>"; } ?>
原文地址:https://www.cnblogs.com/smallwind/p/2920404.html