当前位置: 首页 > news >正文

CEF内核和高级爬虫知识

(转)关于MFC中如何使用CEF内核(CEF初解析)
Python GUI: cefpython3的简单分析和应用
cefpython3:一款强大的Python库

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

开始大多数抓取尝试可以从几乎一行代码开始:

fun main() = PulsarContexts.createSession().scrapeOutPages("https://www.amazon.com/", "-outLink a[href~=/dp/]", listOf("#title", "#acrCustomerReviewText"))

上面的代码从一组产品页面中抓取由 css 选择器 #title 和 #acrCustomerReviewText 指定的字段。 示例代码可以在这里找到:kotlin,java,国内镜像:kotlin,java。大多数 生产环境 数据采集项目可以从以下代码片段开始:

fun main() {val context = PulsarContexts.create()val parseHandler = { _: WebPage, document: Document ->// use the document// ...// and then extract further hyperlinkscontext.submitAll(document.selectHyperlinks("a[href~=/dp/]"))}val urls = LinkExtractors.fromResource("seeds10.txt").map { ParsableHyperlink("$it -refresh", parseHandler) }context.submitAll(urls).await()
}

最复杂的数据采集项目可以使用 RPA 模式:

最复杂的数据采集项目往往需要和网页进行复杂交互,为此我们提供了简洁强大的 API。以下是一个典型的 RPA 代码片段,它是从顶级电子商务网站收集数据所必需的:

val options = session.options(args)
val event = options.event.browseEvent
event.onBrowserLaunched.addLast { page, driver ->// warp up the browser to avoid being blocked by the website,// or choose the global settings, such as your location.warnUpBrowser(page, driver)
}
event.onWillFetch.addLast { page, driver ->// have to visit a referrer page before we can visit the desired pagewaitForReferrer(page, driver)// websites may prevent us from opening too many pages at a time, so we should open links one by one.waitForPreviousPage(page, driver)
}
event.onWillCheckDocumentState.addLast { page, driver ->// wait for a special fields to appear on the pagedriver.waitForSelector("body h1[itemprop=name]")// close the mask layer, it might be promotions, ads, or something else.driver.click(".mask-layer-close-button")
}
// visit the URL and trigger events
session.load(url, options)

https://www.zhihu.com/question/21207097/answer/3028413827
https://blog.csdn.net/weixin_48738961/article/details/127534104

http://www.lryc.cn/news/161696.html

相关文章:

  • 视频集中存储/云存储/磁盘阵列EasyCVR平台分组批量绑定/取消设备功能详解
  • 科技成果鉴定测试报告一般包含哪些测试内容?
  • IDEA中的“Deployment“ 将项目直接部署到服务器上
  • 密室逃脱小游戏
  • 【MyBatis】MyBatis项目结构的搭建
  • Vant组件库入门知识
  • Java字符串查找
  • 2023年7月京东投影仪行业品牌销售排行榜(京东大数据)
  • 设计模式-01简单工厂模式详解 详细代码对比
  • IPD-PDT-POP角色的名称、定位和职责说明书
  • 在MySQL中查看数据库和表的数据大小
  • Android前端音视频数据接入GB28181平台意义
  • Ubuntu 20.04上docker安装Redis
  • linux 压缩webfile文件夹 webfile.tar.gz和webfile.tar的区别
  • 基于SSM的农产品推广应用网站
  • 人大金仓分析型数据库身份鉴别
  • 基于SpringBoot的在线教育平台系统
  • 基于大规模测量和多任务深度学习的电子鼻系统目标识别、浓度预测和状态判断
  • Unity游戏客户端进阶路线(只针对本人)
  • 【C++】封装map和set(红黑树实现)
  • 【补】代码随想录算法训练营day38|动态规划 |509. 斐波那契数|70. 爬楼梯|746. 使用最小花费爬楼梯
  • C语言sizeof()计算空间大小为8的问题
  • 时序分解 | MATLAB实现基于LMD局部均值分解的信号分解分量可视化
  • 景区AR虚拟三维场景沉浸式体验成为新兴的营销手段
  • 【深度学习】 Python 和 NumPy 系列教程(五):Python容器:3、集合Set详解(初始化、访问元素、常用操作、常用函数)
  • 单片机C语言实例:6、定时器的应用
  • ChatGPT Prompting开发实战(五)
  • MySQL——DQL union合并、limit限制与DDL建表和删表
  • Java“牵手”唯品会商品列表数据,关键词搜索唯品会商品数据接口,唯品会API申请指南
  • Springboot整合JWT完成验证登录