当前位置：首页 > article >正文

nutch 【配置与运行】

article 2025/8/24 22:59:15

1、在运行Nutch之前，jdk必须已经安装配置好

2、设置NUTCH_JAVA_HOME为 jdk的安装主目录

3、设置 Nutch-site.xml 的Http.agent.name 属性

4、创建待抓取的URL 文件

5、修改crawl-urlfilter.txt文件

6、运行命令bin/nutch crawl url.txt .......(开始抓取，具体参数自己设定)

7、修改Nutch-site.xml 文件，添加searcher.dir 属性为存储抓取数据的目录

8、通过命令行查询：bin/nutch org.apache.nutch.searcher.NutchBean [待查询的关键词]

9、通过tomcat查询，解压tomcat，将tomcat 的webapps安装目录下的ROOT目录删除（或改为另外一个名字），然后新建一个ROOT

目录，将nutch安装目录下的Nutch-*.war文件解压，将解压后的文件夹中的文件拷贝到ROOT目录中，修改ROOT目录中WEB-INF/classes文件夹中的Nutch-site文件，添加searcher.dir属性为存放抓取数据的目录。

（注：如果不修改其他文件，由Nutch-*.war解压后得到的文件需要放到ROOT 目录中才能运行）

参考网址： http://wiki.apache.org/nutch/Nutch_-_The_Java_Search_Engine

nutch 的分布式配置运行参考网址：http://wiki.apache.org/nutch/NutchHadoopTutorial

http://www.lryc.cn/news/2418169.html

相关文章：

iptables端口转发配置实现

分享88个搜索链接PHP源码，总有一款适合你

SUSE Studio 的用户可以透过 SUSE Gallery 分享做好的 Linux appliance

Linux 准确延时

魔域富甲天下mysql打不开_《魔域》魔域3.2无敌版之富甲天下心得

属兔的人今日运势-360星座网_【十二生肖明日运势查询】12月11日

BEV感知：BEV开山之作LSS（lift,splat,shoot）原理代码串讲

JAVA 异常Exception讲解

一张图解释TCP和UDP有啥区别，太精辟了！

B 站出面回应源码泄露门事件！裁员报复还是反抗 996？

区块链白皮书（2023年）

【并发编程】--- interrupt、interrupted和isInterrupted使用详解

需要了解下Android的Recovery模式

世界上最难的视觉图_世界上最长的蛇有多长?四川惊现55米洪荒巨蟒(图)

各种电子书格式及优缺点

无限制版电驴搜索器(绿色版)

塞尔达传说gba_3分钟快聊《塞尔达传说》全系列

古文中惊艳的句子，绝对有你想要的！

python初学入门————列表

基于51单片机的12864液晶显示4X4矩阵键盘程序仿真

q讯家园看加密空间官方免费版

445port入侵详细解释

如何优化百度搜索引擎？（10个技巧让你的网站更容易被搜索到）

MT6732芯片资料MT6732芯片最新参考设计MT6732芯片规格书

验证邮箱平台

MEGA是Mega Limited公司推出的一款云存储服务。

ProEssentials的MFC 图表库在VS2019-VS2022上机试用教程

计算机丢失lidcef.dll,lidcef.dll(libcef.dll丢失修复文件)V1.0 免费版

浅析近场通信技术特点及未来可能的应用与发展