- 抓取网页的内容:
- 在抓取到的内容里提取需要的内容,这里要用到一个 解析器库:Simple HTML DOM
Simple HTML DOM 是一个 PHP 库,可以方便地操作 HTML 文档。它使用了 DOM(文档对象模型)技术,把 HTML 文档看成树形结构,可以非常方便地提取或修改 HTML 文档中的信息。
使用方法很简单:
- 先下载 Simple HTML DOM 库: https://simplehtmldom.sourceforge.io/
- 将下载的库文件(simple_html_dom.php)包含到你的代码中:
include 'simple_html_dom.php';
3. 使用 Simple HTML DOM 解析 HTML 文档:
// 接上面代码,获取到抓取到的完整的HTML代码
$html = $output;
// 查找文档中的所有链接
foreach($html->find('a') as $element)
echo $element->href . '
';
// 查找文档中所有图片
foreach($html->find('img') as $element)
echo $element->src . '
';
// 查找文档中第一个 h1 标签
$h1 = $html->find('h1', 0);
echo $h1->innertext;
通过 Simple HTML DOM,您可以方便地提取 HTML 文档中的各种元素、属性、文本等信息,也可以方便地修改 HTML 文档,大大简化了爬虫开发的难度。
如果您想了解更多关于 Simple HTML DOM 的信息,可以参考其官方文档:
https://simplehtmldom.sourceforge.io/manual.htm