当前位置: 首页 > news >正文

基于java的爬虫框架webmagic基本使用

     简单记录一下java项目实现网页爬取数据的基本使用.

     需要引入的依赖

<dependency><groupId>us.codecraft</groupId><artifactId>webmagic-core</artifactId><version>0.7.3</version></dependency><dependency><groupId>us.codecraft</groupId><artifactId>webmagic-extension</artifactId><version>0.7.3</version></dependency>

     如果引入项目失败可以到GitHub去下载master分支的最新源码,将项目导入到idea之后找到父工程webmagic-parent进行install,然后将target中jar:

webmagic-core-0.8.0.jar、
webmagic-extension-0.8.0.jar

打包到本地仓库即可.maven打包到本地方式可以参考如下:

mvn install:install-file -Dfile="D:\storage\maven_repository\com\us\codecraft\webmagic-core-0.8.0.jar" -DgroupId=us.codecraft -DartifactId=webmagic-core -Dversion=0.8.0 -Dpackaging=jarmvn install:install-file -Dfile="D:\storage\maven_repository\com\us\codecraft\webmagic-extension-0.8.0.jar" -DgroupId=us.codecraft -DartifactId=webmagic-extension -Dversion=0.8.0 -Dpackaging=jar

     jar存储目录:D:\storage\maven_repository\us\codecraft\0.8.0,然后从该目录下执行上面命令.
D:\storage\maven_repository\com\us\codecraft为jar安装目录.

     WebMagic使用说明:http://webmagic.io/docs/zh/posts/ch1-overview/

     常用获取标签内容以及属性方法参考下面:

html<a href='www.some.com'><span>hello </span>world</a>#获取a标签下的文本xpath("//a/text()") # world#获取a标签以及子标签中的内容xpath("//a//text()") # hello world#获取a标签中的连接xpath("//a/@href") # www.some.com即获取标签属性值 (位置/@属性)

     更多xpath使用说明:https://www.runoob.com/xpath/xpath-examples.html

以下是获取网页上昵称的demo:

public class MyPageProcessor implements PageProcessor {private Site site = Site.me().setRetryTimes(3).setSleepTime(100);// 存储获取的昵称private static List<String> nickNameList=new ArrayList<>();@Overridepublic void process(Page page) {//对抓取到的页面进行处理page.putField("value",page.getHtml().xpath("//p//text()").all());int a=0;// 组装数据nickNameList.addAll(Collection.class.cast(page.getResultItems().getAll().get("value")));}@Overridepublic Site getSite() {return site;}public static void main(String[] args) {//创建爬虫Spider.create(new MyPageProcessor())            //将创建好的PageProcessor页面处理器交给Spider.addUrl("https://www.qiwangming.com/wm/haoting/4583.html")   //输入url//.addPipeline(new FilePipeline())          //设置结果 保存到文件
//                .addPipeline(new ConsolePipeline())         //设置结果 控制台输出//.addPipeline(new JsonFilePipeline())        //设置结果 以Json格式输出//当没有设置结果输出时 默认控制台输出
//                .thread(5)                  //设置5个线程同时执行.run();                   //启动爬虫System.out.println("输出内容:"+MyPageProcessor.nickNameList);}
}

输出内容:

输出内容:[ 漫步云中月,  关于你,  触摸的星光,  踏雪无痕,  但愿,  藏在云里的喜欢,  美梦收藏家,  趁月色还在,  倾听寂寞,  独往归途,  扬花落满肩,  人间烟火,  ,  微云淡月,  山月记,  追逐我的明天。,  染指流年,  且听且行,  簡單陪絆,  你如温阳,  梦里七彩虹,  闻风丧破胆,  初雪未霁,  偏于谁,  暖光的惆怅,  你眼里的雾,  恰上心头,  长得帅会喊麦,  初夏的雨,  望断归来路,  终于说出口,  故事讲完,  云淡风轻,  怀抱清风,  落梅香带雪,  泪染裳,  佯装执着,  深爱不腻,  月亮魔法,  笑眼迷人,  顾北清歌寒,  难能心动,  世俗眼光,  满是欢喜,  月亮遮住脸,  莫洛曾过往,  难得一生,  往复随安,  笑弄清风,  枯守一座城,  南风向北,  草莓仙,  一池喜欢,  起舞弄影,  寒橘,  沧桑为饮,  雨下的芭蕉,  绝世的容颜,  从心动到古稀,  时光旅行者,  风中的歌声,  凡尘一梦,  繁星画作泥尘,  眉黛浅,  旧城的伤,  掌握梦想,  云深不知处,  证明给你看,  笔尖微凉,  一纸水与青,  望一片星辰,  北巷长歌悠,  饮惯烈酒,  泪水中成长,  遙遙無歸期,  灵感集市,  等风醒来,  山水几相逢,  如初不遇,  心动甜甜圈,  山后别相逢,  北葵向暖,  与我何干,  你不好看,  笑中带伤,  清风徐来,  光辉时刻,  稳做枕边人,  你是柔风,  随风远走,  煙雨霓裳,  孤魂伴野鬼,  澄澈的眼,  绿杨堤黄鸟,  迷上书甜,  恬淡春风,  许你春夏,  余情已逝,  人间惊鸿宴,  碎了星光一地,  椰果味的牛奶,  湛蓝星空,  躺在你的梨涡里,  一曲墨白,  光辉终结,  追尾的猫,   |  |  ,  copyright © 2018-2020   ]

     如果不确定页面的标签位置可以查看网页源码格式化,在线格式化网页代码:http://www.wetools.com/html-formatter

http://www.lryc.cn/news/14813.html

相关文章:

  • Python每日一练(20230221)
  • 【Linux】vim拒绝服务安全漏洞修复
  • moveit 2源码编译
  • 2022年全国职业院校技能大赛(中职组)网络安全竞赛试题A模块(4)
  • 微服务保护之sentinel熔断器
  • 电动打气泵方案开发--鼎盛合PCBA方案
  • 第十三届蓝桥杯省赛 C++ A 组 F 题、Java A 组 G题、C组 H 题、Python C 组 I 题——青蛙过河(AC)
  • django项目实战四(django+bootstrap实现增删改查)进阶时间控件
  • Jetpack之ViewModel
  • 追梦之旅【数据结构篇】——详解C语言动态实现顺序表
  • xss基础
  • 移动WEB开发二、流式布局
  • 分享在线预约系统制作步骤_在线预约链接怎么做
  • 【每日一题Day125】LC1326灌溉花园的最少水龙头数目 | 动态规划 贪心
  • C# FFmpeg推流Vlc.DotNet拉流优化参数
  • pnpm v8版本升级变化关注点(前瞻速攻版)
  • Python基础-环境安装
  • 重载、重写、重构概念辨析
  • 第九章 - 多表查询(join,left join 等)与合并查询(union union all)
  • matplotlib学习笔记(持续更新中…)
  • STM32 SystemInit()函数学习总结
  • 【Spring Boot 原理分析】- 自动配置
  • 简明易懂的JVM理解
  • 新考纲下的PMP考试有多难?
  • 朗润国际期货:知名投行/大佬打Call记
  • 遗传算法及Python实现
  • 零基础 Ubuntu 20.04.01 下搭建51单片机开发环境[开源编译器SDCC]
  • 手摸手快速入门 正则表达式 (Vue源码中的使用)
  • TCP/IP网络协议族分成及其每层作用
  • 041、子序列类型问题(labuladong)