nutch 【配置与运行】
1、在运行Nutch之前,jdk必须已经安装配置好
2、设置NUTCH_JAVA_HOME为 jdk的安装主目录
3、设置 Nutch-site.xml 的Http.agent.name 属性
4、创建 待抓取的URL 文件
5、修改crawl-urlfilter.txt文件
6、运行命令bin/nutch crawl url.txt .......(开始抓取,具体参数自己设定)
7、修改Nutch-site.xml 文件,添加searcher.dir 属性 为 存储抓取数据的目录
8、通过命令行查询:bin/nutch org.apache.nutch.searcher.NutchBean [待查询的关键词]
9、通过tomcat查询,解压tomcat,将tomcat 的webapps安装目录下的ROOT目录删除(或改为另外一个名字),然后新建一个ROOT
目录,将nutch安装目录下的Nutch-*.war文件解压,将解压后的文件夹中的文件拷贝到ROOT目录中,修改ROOT目录中WEB-INF/classes文件夹中的Nutch-site文件,添加searcher.dir属性为存放抓取数据的目录。
(注:如果不修改其他文件,由Nutch-*.war解压后得到的文件需要放到ROOT 目录中才能运行)
参考网址: http://wiki.apache.org/nutch/Nutch_-_The_Java_Search_Engine
nutch 的分布式配置运行 参考网址:http://wiki.apache.org/nutch/NutchHadoopTutorial