WordPress 胖鼠采集如何自定义采集规则方法。-HQY 一个和谐有爱的空间

20

2024
08
10:27:36

WordPress 胖鼠采集如何自定义采集规则方法。

大家好。简单的采集规则让不懂代码的同学通过简单学习掌握爬虫技巧是胖鼠采集的核心

来源: 胖鼠采集（原文保持最新规则教程）

下面带领大家来创建一个自己采集规则。

视频版本 https://v.youku.com/v_show/id_XNDI5MTQ2NzkwMA==.html?spm=a2h3j.8428770.3416059.1

核心只需要填好五个参数

采集地址
采集范围
采集规则
详情页采集范围
详情页采集规则

地址: 顾名思义, 是我们大家目标页面的地址

采集范围: 你要采集目标页面的哪一块数据

采集规则: 你要怎么采

详情采集范围: 同上

详情采集规则: 同上

核心五部曲:

例子

采集目标地址: https://xx.qq.com/webplat/info/news_version3/154/2233/3889/m2702/list_1.shtml

右键检查即可看到页面代码

黄色区域就是我们要采集的范围，所以我们采集范围这么写

采集范围： .down-nr>ul>li

解释: 加上 ul li 会循环的采集每一个块。达到了我们列表采集的目的

采集规则: a:eq(1)

解释: a 选中a标签 :eq(1) 是选中 li下面第1个a标签，注: 数字是从0开始的。第一个a是0 第二个a是1 懂了吧？

详情采集范围 .sub-cont

解释: 看图 .sub-cont 包括了标题和内容。所以我们选择这个区域

详情采集规则 title = .n_title

详情采集规则 content = .sub-nr

解释: 看图 .n_title 是文章的标题

解释: 看图 .sub-nr 使文章的内容

完成的配置

解释一下规则名目前默认三个值暂时够用

a href 取 a标签的 href(这个属性都是跳转地址) 值
xxx text 意指取 xxx的text(文本的意思)值
xxx html 意指去 xxx 那个区域的所有的html 一般用到取内容，内容比较多。且内容有排版。所以要拿到所有的原始html

标签过滤怎么用呢？给大家描述一下

a 就是去除掉所有a标签保留a标签的文本（去掉原文一些跳转规则）
-a 就是删除a标签已经a标签里面所有的内容 (不建议使用，因为有些图片是在a里面的删除a 图片也没了。)
-div 删除所有div
-.class1 删除内容中 class = class1 的标签
- #aaaa 删除文中 id = aaaa 的标签
-p 同上
-b 同上
-span 同上
-p:first 删除第一个 p标签
-p:last 删除最后一个 p标签
就是这个规律...

看这里这个只是一部分。大家自行百度，所以说胖鼠采集过滤功能很强大。

这个例子在导入默认例子按钮里面有。大家可以导入自己品尝！

还有一个debug功能要告诉大家

给大家实战一下

上面这个debug例子是 debug 列表页面的链接。大家要使用debug功能测试详情页面的标题内容是否都获取正常了才保存这个匹配

一次花10分钟配一次除了目标网站改版就可以一直使用。希望大家花一点点时间学习一下。

推荐本站淘宝优惠价购买喜欢的宝贝:

本文链接：https://hqyman.cn/post/7707.html 非本站原创文章欢迎转载，原创文章需保留本站地址！

分享到：

打赏

休息一下~~

作者:hqy | 分类:SEO | 浏览:556 | 评论:0

发表评论:

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

« 2025年6月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

本站推荐小工具: MSDN ISO 磁力地址版本1

MSDN ISO 磁力地址版本2

Windows系统下载仓储站

微软原版软件官方镜像下载列表

Windows kms激活

Office kms激活

VMware ESXi8.0 补丁免费下载

Vmpatch镜像站

领淘宝优惠券

在线小工具

BING精品壁纸图片

360精品4K壁纸图片，每日词霸

Unlock Music 音乐解锁 (React)

在线查IP |WhatIsMyIPAddress

在线下载测速

百家姓暗号

在线fc小游戏

圈住猫的游戏

2048的游戏

找色差小游戏

今天吃什么呢

毒鸡汤网页

每日笑话精选

在线查QQ价值

在线it-tools工具箱

在线it-tools工具箱(备站)

微软密钥在线检测

在线WinXP虚拟机

whois在线查询

开发者资源的宝库

Linux工具箱一键脚本

Linux工具箱

城通网盘

宝塔服务器面板

阿里云特价VPS服务器

腾讯云特价VPS服务器

华为云特价VPS服务器

京东云特价VPS服务器

cloudcone特价VPS服务器

racknerd特价VPS服务器

恒创VPS特价服务器

简云免费虚拟云主机

PrivacyPolicy

控制面板: 您好，欢迎到访网站！
登录后台查看权限
个人中心修改密码

随心随性: 沧海月明珠有泪，蓝田日暖玉生烟。

网站分类

搜索

最新留言

文章归档

网站收藏

一个和谐有爱的空间

友情链接

孙悟空

HQY 一个和谐有爱的空间

HQY

20

20240810:27:36