当前位置: 首页 > news >正文

爬虫 学习HTML标签和元素的基本概念,了解网页的结构和内容

HTML(Hypertext Markup Language)是一种用于创建网页的标记语言,由一系列的标签组成。标签使用尖括号(< 和 >)包围,并且通常成对出现,一个是开始标签,一个是结束标签。

HTML文档的基本结构如下:


<!DOCTYPE html>
<html>
<head>
  <title>页面标题</title>
</head>
<body>
  页面内容...
</body>
</html>



<!DOCTYPE html>:声明文档类型为HTML5。

<html>:表示HTML文档的根元素。

<head>:该元素用于定义文档的头部信息,包括页面标题、引入外部样式表和脚本等。

<title>:用于定义页面的标题,会显示在浏览器的标题栏或标签页中。

<body>:HTML文档的主体内容。


在<body>元素中,可以使用不同的标签来组织和呈现网页的内容。一些常见的HTML标签及其作用如下:



<h1>到<h6>:定义标题,从大到小表示不同级别的标题。

<p>:定义段落。

<a>:定义超链接,通常用于跳转到其他页面或锚点位置。

<img>:插入图像,指定图片的URL、宽度和高度等属性。

<ul>和<ol>:定义无序列表和有序列表。

<li>:定义列表项。

<div>:用于将文档分割为独立的区块,可用于布局和样式分组。

<span>:用于在行内文本中应用样式或标记特殊内容。

此外,还有一些特殊的标签和属性用于添加特定功能或样式:

<header>、<nav>、<main>、<footer>等:用于定义网页的不同部分,方便搜索引擎和辅助技术的理解。

<table>、<tr>、<td>等:用于创建表格。

<form>、<input>、<button>等:用于创建表单,接收用户输入。

<style>:用于定义内部样式表。

<script>:用于引入JavaScript代码。

id和class属性:用于标识和选择具有相同样式或功能的元素。

通过使用HTML标签和属性,我们可以构建出具有结构化和语义化的网页内容。爬虫就是利用这些HTML标签和内容来解析和提取所需的数据。

本文由 mdnice 多平台发布

http://www.lryc.cn/news/118724.html

相关文章:

  • mysql将id重新修改为递增
  • http、https笔记
  • 飞凌嵌入式「国产」嵌入式核心板大盘点(三)——龙芯中科、赛昉科技
  • 以vue2为例,用npm开发环境在后端部署vue2项目(更推荐使用nginx部署)
  • docker容器监控:Cadvisor +Prometheus+Grafana的安装部署
  • 前端食堂技术周刊第 93 期:7 月登陆 Web 平台的新功能、Node.js 工具箱、Nuxt3 开发技巧、MF 重构方案
  • 获取 Android 的 SHA1 值
  • ! [remote rejected] develop -> develop (pre-receive hook declined)
  • 最强的表格组件—AG Grid使用以及License Key Crack
  • 【算法】逆波兰表达式
  • 添加SQLCipher 到项目中
  • 轻松预约,尽享美食,详解餐厅预约小程序的设计与实现
  • 数据结构--栈和队列3.1(栈-顺序结构)
  • pdf怎么压缩到1m?这样做压缩率高!
  • AttentionFreeTransformer 源码解析(一):AFTFull、AFTSimple、AFTLocal
  • C++ 计算 拟合优度R^2
  • Springboot-Retrofit HTTP工具框架快速使用
  • 微信小程序实现人脸识别(从一个没有开通人脸核身的小程序跳转到要给开通人脸核身的小程序,进行人脸识别后再跳转回来)
  • CSS-grid布局
  • 【JavaEE进阶】Bean 作用域和生命周期
  • 3分钟自建查分系统?现在每个人都可以实现了
  • 关于APP备案、小程序备案的问题,如何备案?
  • git上传代码后,如何清空历史日志以及文件操作,重新上传?以及上传代码
  • 超导热催生meme,换汤不换药的投机轮回
  • 【HashMap】 73. 矩阵置零
  • Vue-2.nodejs的介绍和安装
  • 分别用Vue和Java来实现的风靡一时的2048 游戏
  • echarts甘特图 一个值多条线
  • 多态性说明
  • 2023-08-04 LeetCode每日一题(不同路径 III)