当前位置: 首页 > news >正文

小组分享第二部分:Jsoup

1.Jsoup是什么:

        是HTML的解析器,可以解析URL地址,HTML的文本内容,可以使用DOM,CSS以及类似Jquery的操作方法来操作数据

2.Jsoup的作用

        1.通过URL或者文件或者字符串获取到HTML页面并解析

        2.使用DOM或CSS等操作来对数据进行操作

        3.可以操作HTML元素

3.通过Jsoup获取文档对象

                每一个HTML都是一个文档对象(document对象),里面包含很多元素或者元素集合(Element或者Elements)

        1.使用Jsoup进行URL的解析

                既然要通过URL进行HTML的获取,那第一步肯定是先通过URL获取到网页内容了,使用parse方法

Document document = Jsoup.parse(new URL("https://www.loyo.cc/xianggangju/wohejiangshiyougeyuehuiguoyudiyibu/2-24.html"),5000);

        2.使用Jsoup可以进行html标签代码的解析

                也是用parse方法,参数是String类型的html代码,这里使用的是一个文件里面的HTML标签代码

        我需要先把文件里面的字符串提取出来,采用FileUtils类的readFileToString方法,参数是文件和编码方式

String content = FileUtils.readFileToString(new File(urlAddress),"utf-8");
Document document = Jsoup.parse(content);

        3.使用Jsoup可以进行html文件的解析

                还是使用parse方法,第一个参数是文件,第二个参数是编码方式

Document document = Jsoup.parse(new File(urlAddress),"utf-8");

4.为了要操作页面的元素,可以使用Document对象的方法获取到页面某些标签

        1.getElementByTag()方法可以根据标签名字来获取标签

                这里使用getElementByTag()获取title标签之后选中获取到的这一堆标签里面的第一个标签(.first)然后输出他标签内部的文本内容(.text)

String titleText = document.getElementsByTag("title").first().text();

http://www.lryc.cn/news/331851.html

相关文章:

  • C#(winform) 调用MATLAB函数
  • Kubernetes探索-Pod面试(补充)
  • 深入了解JUnit 5:新一代Java单元测试框架
  • 2024年清明节安装matlab 2024a
  • 关于PostgreSQL JDBC中的log输出是怎么回事?
  • 【科研笔记】知识星球不可选择内容爬虫
  • [技术闲聊]我对电路设计的理解(二)
  • 【Android、 kotlin】kotlin学习笔记
  • Debian 配置国内软件源
  • 选数(dfs,isprime)
  • RocketMQ(版本4.9.4)+RocketMQ_Dashbord环境搭建(生产者、消费者的前置环境搭建)
  • css隐藏溢出隐藏的滚动条
  • scss常用混入(mixin)、@inclue
  • 补代码随想录算法训练营第44天 | 完全背包、518. 零钱兑换 II 、377. 组合总和 Ⅳ
  • 【Linux】网络基础常识{OSI七层模型/ TCP/IP / 端口号 /各种协议}
  • python--面向对象编程和类的定义,对象的创建
  • nssm 工具把asp.net core mvc变成 windows服务,使用nginx反向代理访问
  • String Encryptor custom Bean not found with name ‘jasyptStringEncryptor‘...
  • FastAPI+React全栈开发14 FastAPI如何开发REST接口
  • 在 DDD 中,如何处理领域对象的持久化?
  • centos 如何安装nvidia-container-runtime
  • 非写代码无以致远
  • 刷题之Leetcode34题(超级详细)
  • 从0到1构建uniapp应用-store状态管理
  • Uinx线程详解
  • 线性代数笔记23--马尔可夫矩阵、傅里叶级数
  • Elasticsearch 压测实践总结
  • Spirngboot JWT快速配置和使用
  • 【Java SE】继承
  • 设计模式(19):策略模式