PHP 实现一个简单的爬虫示例

  • 抓取网页的内容:

  • 在抓取到的内容里提取需要的内容,这里要用到一个 解析器库:Simple HTML DOM

Simple HTML DOM 是一个 PHP 库,可以方便地操作 HTML 文档。它使用了 DOM(文档对象模型)技术,把 HTML 文档看成树形结构,可以非常方便地提取或修改 HTML 文档中的信息。

使用方法很简单:

  1. 先下载 Simple HTML DOM 库: https://simplehtmldom.sourceforge.io/
  2. 将下载的库文件(simple_html_dom.php)包含到你的代码中:
include 'simple_html_dom.php';

3. 使用 Simple HTML DOM 解析 HTML 文档:

// 接上面代码,获取到抓取到的完整的HTML代码
$html = $output;

// 查找文档中的所有链接
foreach($html->find('a') as $element) 
   echo $element->href . '
'; // 查找文档中所有图片 foreach($html->find('img') as $element) echo $element->src . '
'; // 查找文档中第一个 h1 标签 $h1 = $html->find('h1', 0); echo $h1->innertext;

通过 Simple HTML DOM,您可以方便地提取 HTML 文档中的各种元素、属性、文本等信息,也可以方便地修改 HTML 文档,大大简化了爬虫开发的难度。

如果您想了解更多关于 Simple HTML DOM 的信息,可以参考其官方文档:
https://simplehtmldom.sourceforge.io/manual.htm