当前位置: 首页 > news >正文

汽车之家车型_车系_配置参数数据抓取

// 导入所需的库
#include <iostream>
#include <fstream>
#include <string>
#include <curl/curl.h>
#include <regex>// 声明全局变量
std::string htmlContent;
std::regex carModelRegex("\\d{4}-\\d{2}-\\d{2}");
std::regex carSeriesRegex("\\d{4}-\\d{2}-\\d{2}");
std::regex carConfigRegex("\\d{4}-\\d{2}-\\d{2}");// 定义函数来获取网页内容
std::string getHtmlContent(const std::string& url) {CURL* curl = curl_easy_init();if (curl) {curl_easy_setopt(curl, CURLOPT_URL, url.c_str());curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L);curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, static_cast<size_t>([](void* buffer, size_t size, size_t nmemb, std::string* str) -> size_t {str->append((char*)buffer, size * nmemb);return size * nmemb;}));curl_easy_setopt(curl, CURLOPT_WRITEDATA, &htmlContent);CURLcode res = curl_easy_perform(curl);curl_easy_cleanup(curl);if (res != CURLE_OK) {std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;}return htmlContent;} else {std::cerr << "curl_easy_init() failed" << std::endl;return "";}
}// 定义函数来解析网页内容
void parseHtmlContent(const std::string& htmlContent) {std::smatch match;if (std::regex_search(htmlContent, match, carModelRegex)) {std::cout << "车型: " << match.str() << std::endl;}if (std::regex_search(htmlContent, match, carSeriesRegex)) {std::cout << "车系: " << match.str() << std::endl;}if (std::regex_search(htmlContent, match, carConfigRegex)) {std::cout << "配置参数: " << match.str() << std::endl;}
}int main() {std::string proxy_host = "jshk.com.cn"; // 换成实际的代理服务器地址CURL* curl = curl_easy_init();if (curl) {curl_easy_setopt(curl, CURLOPT_URL, url.c_str());curl_easy_setopt(curl, CURLOPT_PROXY, proxy_host.c_str());curl_easy_setopt(curl, CURLOPT_PROXYPORT, proxy_port);curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L);curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, static_cast<size_t>([](void* buffer, size_t size, size_t nmemb, std::string* str) -> size_t {str->append((char*)buffer, size * nmemb);return size * nmemb;}));curl_easy_setopt(curl, CURLOPT_WRITEDATA, &htmlContent);CURLcode res = curl_easy_perform(curl);curl_easy_cleanup(curl);if (res != CURLE_OK) {std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;}parseHtmlContent(htmlContent);} else {std::cerr << "curl_easy_init() failed" << std::endl;}return 0;
}

在这个示例中,我们首先导入了所需的库,然后声明了三个全局变量,用于存储匹配到的车型、车系和配置参数。

然后,我们定义了一个函数来获取网页内容。在这个函数中,我们使用了libcurl库来发送HTTP请求并获取网页内容。如果请求失败了,我们就打印出错误信息并返回。

接下来,我们定义了一个函数来解析网页内容。在这个函数中,我们使用了正则表达式来匹配我们需要的信息。如果匹配成功了,我们就打印出匹配到的信息。

在主函数中,我们首先设置了要爬取的网页地址和代理信息,然后使用curl_easy_init()函数创建一个CURL会话对象。我们设置了请求的URL、代理服务器和端口,然后调用curl_easy_perform()函数发送请求并获取网页内容。如果请求失败了,我们就打印出错误信息并退出。

最后,我们调用parseHtmlContent()函数来解析网页内容并打印出匹配到的信息。在这里插入图片描述

http://www.lryc.cn/news/225702.html

相关文章:

  • RabbitMQ的 五种工作模型
  • 原型制作神器ProtoPie的使用Unity与网页跨端交互
  • 另辟奚径-Android Studio调用Delphi窗体
  • SOLID 原则,程序设计五大原则,设计模式
  • Java基础——数组(一维数组与二维数组)
  • Python爬虫抓取微博数据及热度预测
  • Qt QTableWidget表格的宽度
  • OpenCV(opencv_apps)在ROS中的视频图像的应用(重点讲解哈里斯角点的检测)
  • 常见排序算法之插入排序类
  • Dubbo服务消费端远程调用过程剖析
  • 华硕荣获“EPEAT Climate+ Champion”永续先驱称号
  • 基于QT使用OpenGL,加载obj模型,进行鼠标交互
  • 三大赛题指南发布!2023 冬季波卡黑客松本周末开启 Workshop
  • 数据结构与算法(Java版) | 算法的空间复杂度简介
  • 大数据-之LibrA数据库系统告警处理(ALM-12037 NTP服务器异常)
  • 烟草5G智慧工厂数字孪生可视化平台,赋能烟草工业数字化智慧转型
  • PHP编写采集药品官方数据的程序
  • 解决Jenkins执行git脚本时报错:No such device or address问题
  • LCD英文字模库(16x8)模拟测试程序
  • 二分法
  • Linux文件类型与权限及其修改
  • RPC 框架 openfeign 介绍和学习使用总结
  • 大厂真题:【DP/贪心】字节跳动2023秋招-小红的 01 串
  • 【技术类-01】doc转PDF程序卡死的解决方案,
  • 探索未来,开启无限可能:打造智慧应用,亚马逊云科技大语言模型助您一臂之力
  • HTML点击链接强制触发下载
  • Paimon 与 Spark 的集成(一)
  • 批量导入SQL Server中的建表、建存储过程和建调度作业的文件
  • 启动Hbase出现报错
  • 【数据结构】——栈、队列简答题模板