当前位置: 首页 > article >正文

nutch 【配置与运行】

1、在运行Nutch之前,jdk必须已经安装配置好

2、设置NUTCH_JAVA_HOME为 jdk的安装主目录

3、设置 Nutch-site.xml 的Http.agent.name 属性

4、创建 待抓取的URL 文件

5、修改crawl-urlfilter.txt文件

6、运行命令bin/nutch crawl url.txt   .......(开始抓取,具体参数自己设定)

7、修改Nutch-site.xml 文件,添加searcher.dir 属性 为 存储抓取数据的目录

8、通过命令行查询:bin/nutch org.apache.nutch.searcher.NutchBean  [待查询的关键词]

9、通过tomcat查询,解压tomcat,将tomcat 的webapps安装目录下的ROOT目录删除(或改为另外一个名字),然后新建一个ROOT

     目录,将nutch安装目录下的Nutch-*.war文件解压,将解压后的文件夹中的文件拷贝到ROOT目录中,修改ROOT目录中WEB-INF/classes文件夹中的Nutch-site文件,添加searcher.dir属性为存放抓取数据的目录。

(注:如果不修改其他文件,由Nutch-*.war解压后得到的文件需要放到ROOT 目录中才能运行)

参考网址: http://wiki.apache.org/nutch/Nutch_-_The_Java_Search_Engine

 

nutch 的分布式配置运行 参考网址:http://wiki.apache.org/nutch/NutchHadoopTutorial

http://www.lryc.cn/news/2418169.html

相关文章:

  • iptables端口转发配置实现
  • 分享88个搜索链接PHP源码,总有一款适合你
  • SUSE Studio 的用户可以透过 SUSE Gallery 分享做好的 Linux appliance
  • Linux 准确延时
  • 魔域富甲天下mysql打不开_《魔域》魔域3.2无敌版之富甲天下心得
  • 属兔的人今日运势-360星座网_【十二生肖明日运势查询】12月11日
  • BEV感知:BEV开山之作LSS(lift,splat,shoot)原理代码串讲
  • JAVA 异常Exception讲解
  • 一张图解释TCP和UDP有啥区别,太精辟了!
  • B 站出面回应源码泄露门事件!裁员报复还是反抗 996?
  • 区块链白皮书(2023年)
  • 【并发编程】--- interrupt、interrupted和isInterrupted使用详解
  • 需要了解下Android的Recovery模式
  • 世界上最难的视觉图_世界上最长的蛇有多长?四川惊现55米洪荒巨蟒(图)
  • 各种电子书格式及优缺点
  • 无限制版电驴搜索器(绿色版)
  • 塞尔达传说gba_3分钟快聊《塞尔达传说》全系列
  • 点子库
  • 古文中惊艳的句子,绝对有你想要的!
  • python初学入门————列表
  • 基于51单片机的12864液晶显示4X4矩阵键盘程序仿真
  • q讯家园看加密空间 官方免费版
  • 445port入侵详细解释
  • 如何优化百度搜索引擎?(10个技巧让你的网站更容易被搜索到)
  • MT6732芯片资料MT6732芯片最新参考设计MT6732芯片规格书
  • 验证邮箱平台
  • MEGA是Mega Limited公司推出的一款云存储服务。
  • ProEssentials的MFC 图表库在VS2019-VS2022上机试用教程
  • 计算机丢失lidcef.dll,lidcef.dll(libcef.dll丢失修复文件)V1.0 免费版
  • 浅析近场通信技术特点及未来可能的应用与发展