当前位置: 首页 > news >正文

基于go 1.19的站点模板爬虫

好像就三步:

1 建立http连接

2 解析html内容

3 递归遍历

创建一个基于 Go 1.19 的网站模板爬虫主要涉及几个步骤,包括设置 HTTP 客户端来获取网页内容、解析 HTML 来提取所需的数据,以及处理可能的并发和错误。下面我会给出一个简单的例子来说明如何使用 Go 编写一个基本的网站爬虫。

首先,确保你安装了 Go。然后,你可以选择使用如 `net/http` 标准库来发送 HTTP 请求,使用 `golang.org/x/net/html` 包来解析 HTML。

下面是一个简单的爬虫示例,它将访问一个网站,下载首页的 HTML,然后提取并打印出所有的超链接(a标签的href属性):

```go
package main

import (
    "fmt"
    "golang.org/x/net/html"
    "net/http"
    "os"
)

// fetchURL 从给定的 URL 中获取 HTML 内容
func fetchURL(url string) (*html.Node, error) {
    resp, err := http.Get(url)
    if err != nil {
        return nil, err
    }
    defer resp.Body.Close()

    if resp.StatusCode != http.StatusOK {
        return nil, fmt.Errorf("error getting URL %s: %s", url, resp.Status)
    }

    doc, err := html.Parse(resp.Body)
    if err != nil {
        return nil, fmt.Errorf("parsing HTML: %s", err)
    }
    return doc, nil
}

// extractLinks 递归地检索 HTML 文档中的所有链接
func extractLinks(n *html.Node) {
    if n.Type == html.ElementNode && n.Data == "a" {
        for _, a := range n.Attr {
            if a.Key == "href" {
                fmt.Println(a.Val)
                break
            }
        }
    }
    for c := n.FirstChild; c != nil; c = c.NextSibling {
        extractLinks(c)
    }
}

func main() {
    if len(os.Args) < 2 {
        fmt.Println("Usage: go run main.go <url>")
        os.Exit(1)
    }
    url := os.Args[1]

    doc, err := fetchURL(url)
    if err != nil {
        fmt.Fprintln(os.Stderr, "Error fetching URL:", err)
        os.Exit(1)
    }

    extractLinks(doc)
}
```

在这个示例中,我们创建了几个功能:

- `fetchURL` 用于发送 HTTP 请求并解析返回的 HTML。
- `extractLinks` 递归地遍历 HTML 节点,查找并打印 `<a>` 标签的 `href` 属性。
- `main` 函数接受命令行参数作为 URL,调用以上函数来提取链接。

你可以通过运行 `go run main.go [URL]` 来使用这个脚本,其中 `[URL]` 是你想爬取的网站地址。

请注意,大规模使用网络爬虫时需要遵守网站的 `robots.txt` 文件和其他法律法规。同时,网站的结构可能会变化,这可能影响爬虫的正常工作。始终尊重网站所有者的权利和爬取数据的合法性。

http://www.lryc.cn/news/397106.html

相关文章:

  • 0基础学会在亚马逊云科技AWS上搭建生成式AI云原生Serverless问答QA机器人(含代码和步骤)
  • [PaddlePaddle飞桨] PaddleOCR图像小模型部署
  • C语言 | Leetcode C语言题解之第227题基本计算题II
  • kafka.common.KafkaException: Socket server failed to bind to xx:9092
  • 【JS+H5+CSS实现烟花特效】
  • uniapp小程序使用webview 嵌套 vue 项目
  • 命令模式在金融业务中的应用及其框架实现
  • WordPress的性能优化有哪些方法?
  • 【Python基础】代码如何打包成exe可执行文件
  • Golang | Leetcode Golang题解之第227题基本计算器II
  • 云端美味:iCloud中食谱与餐饮计划的智能存储方案
  • leetcode:1332. 删除回文子序列(python3解法)
  • 智慧交通的神经中枢:Transformer模型在智能交通系统中的应用
  • PCIe驱动开发(1)— 开发环境搭建
  • YOLOv10改进 | Conv篇 | CVPR2024最新DynamicConv替换下采样(解决低FLOPs陷阱)
  • 变革设计领域:Transformer模型在智能辅助设计中的革命性应用
  • Spring——配置说明
  • 禁用华为小米?微软中国免费送iPhone15
  • nginx初理解
  • FreeCAD源码分析:属性系统
  • C++入门 模仿mysql控制台输出表格
  • SpringBoot新手快速入门系列教程五:基于JPA的一个Mysql简单读写例子
  • 开源大势所趋
  • 智能无人机飞行控制系统:基于STM32的设计与实现(内附资料)
  • centos磁盘空间满了-问题解决
  • 宝塔:如何开启面板ssl并更新过期ssl
  • 大白话讲解AI大模型
  • pandas+pywin32操作excel办公自动化
  • 防火墙(ensp USG6000v)---安全策略 + 用户认证综合实验
  • Java使用POI导出后数字类型为常规类型,不能计算