当前位置: 首页 > news >正文

Aapche Nutch建立自己的搜索引擎

sudo apt install default-jdk‘

java -version
openjdk version "11.0.22" 2024-01-16

vi .bashrc
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

爬梯子下载源代码 Apache Nutch™ – Downloads

mkdir -p urls
cd urls
touch seed.txt 
里面放入我的网站地址

bin/nutch inject crawl/crawldb urls
显示
 Injecting seed URL file file:/data/apache-nutch-1.19/urls/seed.txt
Total new urls injected: 1

s1=`ls -d crawl/segments/2* | tail -1`
echo $s1

bin/nutch generate crawl/crawldb crawl/segments

apache nutch  No agents listed in 'http.agent.name' property.
conf/ nutch-site.xml
    <property>
      <name>http.agent.name</name>
      <value>MyNutchBot/1.0</value>
    </property>


 export APACHE_SOLR_HOME=/data/solr-8.11.3
export NUTCH_RUNTIME_HOME=/data/apache-nutch-1.19
${APACHE_SOLR_HOME}/bin/solr start -force
open file limit is currently 1024
vi /etc/security/limits.conf
* soft nofile 4096
* hard nofile 4096
Started Solr server on port 8983 (pid=29369). Happy searching!
http://192.168.1.131:8983

${APACHE_SOLR_HOME}/bin/solr start -force
 
${APACHE_SOLR_HOME}/bin/solr create -c nutch -d ${APACHE_SOLR_HOME}/server/solr/configsets/nutch/conf/ -force

ls crawl/segments/

 bin/nutch index crawl/crawldb/ -linkdb crawl/linkdb/ crawl/segments/20240326063028/ -filter -normalize -deleteGone
 
https://dlcdn.apache.org/lucene/solr/8.11.3/solr-8.11.3.tgz

https://nutch.apache.org/download/
https://dlcdn.apache.org/nutch/1.19/apache-nutch-1.19-bin.tar.gz

https://cwiki.apache.org/confluence/display/NUTCH/NutchTutorial

去掉robot的处理
https://blog.csdn.net/jediael_lu/article/details/43227693

http://www.lryc.cn/news/326073.html

相关文章:

  • 阅读笔记(ICIP2023)Rectangular-Output Image Stitching
  • 就业班 第二阶段 2401--3.26 day6 Shell初识 连接vscode
  • 碳课堂|什么是碳资产?企业如何进行碳资产管理?
  • 如何使用 ChatGPT 进行编码和编程
  • 学习java第二十四天
  • 中小型集群部署,Docker Swarm(集群)使用及部署应用介绍
  • gateway做负载均衡
  • pytorch中的torch.hub.load()
  • R语言学习——Rstudio软件
  • 触发器的工艺结构原理及选型参数总结
  • Hana数据库 No columns were bound prior to calling SQLFetch or SQLFetchScroll
  • DevOps是什么
  • windows下的vscode + opencv4.8.0(C++) 配置
  • 微信小程序之多视频暂停播放,超出可视区域停止播放视频在自定义组件中实现案例
  • Java 加载外部 Jar 中的类并通过反射调用类中的方法
  • Arduino+ESP8266+华为云物联网平台实现智能开关
  • 使用 python 拆分 excel 文件
  • uniapp小程序中onShareAppMessage(OBJECT)实现带参数的分享功能
  • 5个免费的3D钣金CAD软件
  • 3.26学习总结
  • Cisco Catalyst3850交换机RTU license使用方法
  • 简明 Python 教程(第5章 函数)
  • flutter 保存一堆多语言翻译词条,由key和value组成
  • 3月25日,每日信息差
  • Git常用指令使用
  • 数据结构与算法 顺序表的基本运算
  • docker部署nacos(单机与集群)
  • 开启Safari手势支持
  • Amuse:.NET application for stable diffusion
  • Java冒泡排序详细讲解