当前位置: 首页 > news >正文

采集数据筛选-过滤不要数据或只保留指定数据

采集文章数据,有时候会遇到一些不需要采集的数据,或者只想采集一些特定的数据,可以使用简数采集器的内容过滤功能,对采集的数据进行筛选,只有符合的数据才采集保留。

可以用于过滤掉一些广告、专题、网站首页等无效数据,也可以监控采集指定的文章数据。

使用方法:

目录

1. 过滤内容为空的数据

2. 字数筛选(内容长度筛选)

3. 关键词筛选

3-1. 关键词出现保留数据

3-2. 关键词出现删除数据


1. 过滤内容为空的数据

可以指定某个字段采集内容为空时,这条数据就不采集入库,过滤掉不保留了。

 

2. 字数筛选(内容长度筛选)

可以根据内容长度(字符数量计算)是否采集保留,可以设置小于、等于、大于、不等于多少字符时,过滤不保留该数据。

3. 关键词筛选

可以指定关键词筛选,当内容中出现对应的关键词,此数据采集保留或者过滤不保留。

 

3-1. 关键词出现保留数据

在【内容必须包含】处填写关键词,如果在该数据对应字段的内容中出现了,就采集保留该数据。

多个关键词用分隔符#_#隔开(例:关键词1#_#关键词2#_#关键词3),如果出现其中任何一个关键词,则保留此数据。

3-2. 关键词出现删除数据

在【内容不得包含】处填写关键词,如果在该数据对应字段的内容中出现了,就不采集过滤掉该数据。

多个关键词用分隔符#_#隔开(例:关键词1#_#关键词2#_#关键词3),如果出现其中任何一个关键词,则不采集删掉此数据。

这样就可以完成对数据的筛选过滤,简数采集器的内容过滤功能可以过滤掉一些广告或专题页面,或者监控采集一些指定的文章数据。

http://www.lryc.cn/news/107209.html

相关文章:

  • RISC-V基础指令之shift移动指令slli、srli、srai、sll、srl、sra
  • 【沁恒蓝牙mesh】CH58x flash分区与数据存储管理
  • Ctfshow web入门 JWT篇 web345-web350 详细题解 全
  • 2023年国家留学基金委(CSC)青年骨干教师项目即将开始申报
  • GC垃圾回收器【入门笔记】
  • 在 React 中渲染大型数据集的 3 种方法
  • uniapp iOS 消息推送扩展:后台/杀死app进程状态能语音播报
  • 批量创建可配置物料参数文件
  • 性能压力测试的重要性与实施方法
  • HCIP入门静态实验
  • Vue与js的融合,如何编写现代化的前端应用
  • Boost开发指南-3.10singleton_pool
  • 腾讯云从业者认证考试考点——云网络产品
  • Miniled透明屏:超薄、轻便,还有哪些特点?
  • MySQL 极速安装使用与卸载
  • 举个栗子!Tableau 技巧(256):灵活折叠文本表的多级数据行
  • Android View 初始化完成后,如果再调用measure再设置点击事件则点击事件会失效的解决方案
  • 客户端电脑使用 FTP的Cadence_CIS库方法说明 (下)
  • 【ES】笔记-let 声明及其特性
  • wps 预加载项插件本地开发启动项目打开wps 客户端,未看到加载项菜单,
  • uni-app开发微信小程序经常遇到的一些问题及解决方案
  • 一个 git 仓库下拥有多个项目的 git hooks 配置方案
  • 钉钉对接打通金蝶云星空获取流程实例列表详情(宜搭)接口与其他应收单接口
  • 用python做一个小项目,python做简单小项目
  • 输入筛选框搜索
  • 公司植物日常护养方法备忘录
  • 小红书JAVA后端一面汇总总结
  • 【图论】强连通分量进阶
  • perl GetOptions
  • QGIS下载谷歌地图或者其他地图