当前位置: 首页 > news >正文

java web爬虫

目录

读取本地文件

从网站读取文件 

java爬虫 

 总结


读取本地文件

import java.io.File;
import java.io.PrintWriter;
import java.util.Scanner;public class ReplaceText {public static void main() throws Exception{File file = new File("basic\\test.txt");if(!file.exists()) {System.exit(0);}File targetFile = new File("basic\\target.txt");if(targetFile.exists()) {System.exit(1);}String oldString = "case";String newString = "CASE";try(Scanner input = new Scanner(file);PrintWriter output = new PrintWriter(targetFile);) {while (input.hasNext()) {String src = input.nextLine();String dist = src.replaceAll(oldString, newString);output.println(dist);}input.close();output.close();}}
}

输出结果: 

 

从网站读取文件 

import java.io.IOException;
import java.util.Scanner;public class ReadFileFromUrl {public static void main() {System.out.println("Input the URL:");String addr = new Scanner(System.in).next();try {java.net.URL url = new java.net.URL(addr);int count = 0;Scanner input = new Scanner(url.openStream());while (input.hasNext()) {count = count + input.nextLine().length();}System.out.println("The website has " + count + " charactors.");} catch (java.net.MalformedURLException e) {// TODO: handle exceptionSystem.out.println("Invalid url!");} catch (IOException e) {System.out.println("No such file!");}}
}

 输出结果:

java爬虫 

package crawler;import java.util.ArrayList;
import java.util.Scanner;public class MyCrawler{public static void main() {String addr = new Scanner(System.in).next();crawler(addr);}private static void crawler(String url) {ArrayList<String> pendingUrls = new ArrayList<>();ArrayList<String> traversedUrls = new ArrayList<>();pendingUrls.add(url);while (!pendingUrls.isEmpty() && traversedUrls.size() < 100) {String urlString = pendingUrls.remove(0);if (!traversedUrls.contains(urlString)) {traversedUrls.add(urlString);System.out.println("crawl the website: " + urlString);}for(String s: getSubUrl(url)) {if(!traversedUrls.contains(s))pendingUrls.add(s);}}}private static ArrayList<String> getSubUrl(String urlString) {ArrayList<String> list = new ArrayList<>();try {java.net.URL url = new java.net.URL(urlString);int count = 0;Scanner input = new Scanner(url.openStream());while (input.hasNext()) {String line = input.nextLine();count = line.indexOf("http:", count);while (count > 0) {int endIndex = line.indexOf("\"", count);if (endIndex > 0) {list.add(line.substring(count, endIndex));count = line.indexOf("http:", endIndex);} else {count = -1;}}}} catch (Exception e) {// TODO: handle exceptionSystem.out.println("Error : " + e.getMessage());}return list;}}

 输出结果:


 总结

本文从读取本地文件,读取网站文件和爬虫,一步一步地实现简单的网络爬虫功能。

http://www.lryc.cn/news/360239.html

相关文章:

  • MySQL开发教程和具体应用案例
  • QT C++ 模型视图结构 QTableView 简单例子
  • 2024年3月电子学会Python编程等级考试(四级)真题题库
  • 深入分析 Android BroadcastReceiver (一)
  • 2024医美如何做抖音医美抖音号,本地团购、短视频直播双ip爆品引流,实操落地课
  • Debian常用指令指南:高效管理你的Linux系统
  • 什么是DELINS交货指示?
  • 基于Open3D的点云处理24-ICP匹配cuda加速
  • UE_地编教程_创建地形洞材质
  • 「C系列」C 基本语法
  • java期末细节知识整理(一)
  • GIt快速入门(一文学会使用Git)
  • 电机测试方法的介绍与功能实现(T测试方法)
  • 多线程和多进程的快速入门
  • 【TensorFlow深度学习】经典卷积网络架构回顾与分析
  • Salesforce推出Einstein 1 Studio:用于自定义Einstein Copilot并将人工智能嵌入任何CRM应用程序的低代码人工智能工具
  • 点赋科技:建设智能饮品高地,打造数字化产业先锋
  • ORACLE RAC的一些基本理论知识
  • CMake的作用域:public/private/interface
  • 设计模式基础知识点(七大原则、UML类图)
  • Android开机动画的结束过程BootAnimation(基于Android10.0.0-r41)
  • 微软远程连接工具:Microsoft Remote Desktop for Mac 中文版
  • 【安规介绍】
  • [sylar]后端学习:配置环境(一)
  • XDMA原理及其应用和发展
  • 携程梁建章:持续投资创新与AI,开启旅游行业未来增长
  • 【网络安全的神秘世界】在win11搭建pikachu靶场
  • 基于Java的零食管理系统的设计与实现(论文+源码)_kaic
  • 【案例实操】银河麒麟桌面操作系统实例分享,V10SP1重启后网卡错乱解决方法
  • 初级前端开发岗