当前位置: 首页 > news >正文

python solr数据导出脚本

import pysolr
import json


#更改url需要修改的地方,查看文章id,修改search_sql,修改要更改的modify_url

search_sql='*:*'
modify_url='http://www.baidu.com/111'


if __name__=="__main__":
#solr地址,如果实时提交always_commit=True
url="http://192.168.1.185:8080/solr/kap"
s=pysolr.Solr(url,always_commit=True)
#新建json文件
f=open('json_data.json','w+',encoding="utf-8")
#查询语句
#一次查询数量
one_count=1
#需要过滤的字段,例如COPY字段,需要跳过
caption_fields=['KNOWLEDGE_ID','author_s','suggestion','danweiaddr','multizuozhes','multizuozhedanwei','multitopic','multilabel','multizuozhe']
data_num_count=int(s.search(search_sql,start=0,rows=1).raw_response['response']['numFound'])
s_num=data_num_count
print('数据总量:',data_num_count)
for page in range(0,data_num_count,one_count):
result_src=s.search(search_sql,sort='feachdataid  asc',start=page,rows=one_count)
#解析单条数据
for data in result_src.docs:
fields=data.keys()
tmp_doc={}
for cur_field in fields:
if cur_field in caption_fields:
data[cur_field]=''
continue
if cur_field=='_version_':
continue
if cur_field=='url':
tmp_doc[cur_field]=data[cur_field]
continue
if cur_field=='id' or cur_field=='content' or cur_field=='abstract' or cur_field=='title' or cur_field=='zuozhe' or cur_field=='zuozhedanwei' or cur_field=='keywords':
tmp_doc[cur_field]=data[cur_field]
continue
tmp_doc[cur_field]=data[cur_field]
s_num-=1
print("剩余数量",s_num,":::::使用时间::::")
f.write(json.dumps(tmp_doc,ensure_ascii=False)+"\n")
f.flush()
f.close()
#print(s.add(tmp_doc),"剩余数量",s_num,":::::使用时间::::")

http://www.lryc.cn/news/585008.html

相关文章:

  • 分割网络Segformer
  • 界面组件DevExpress WPF中文教程:Grid - 如何检查节点?
  • mongodb 开源同步工具介绍
  • Windows 应用程序的 UI 框架:WPF、WinUI 3 和 UWP的差异区别
  • Django--02模型和管理站点
  • 【三】ObservableCollection 与 List 的区别
  • 【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔(四)
  • (二)OpenCV——边缘增强与检测
  • 大数据在UI前端的应用创新:基于用户反馈的产品迭代优化系统
  • PPT处理控件Aspose.Slides教程:使用 C# 将 PPTX 转换为 EMF
  • 游戏的程序员会不会偷偷改自己账号的数据?
  • TypeScript---class类型
  • 工业通信升级新选择:耐达讯CCLINKIE转Modbus TCP网关
  • 猿人学js逆向比赛第一届第十九题
  • U-Net网络学习笔记(1)
  • 2025亚太中文赛项 B题疾病的预测与大数据分析保姆级教程思路分析
  • 机器学习数据集加载全攻略:从本地到网络
  • 【读代码】开源音乐分离工具Spleeter
  • 深度学习14(循环神经网络)
  • 深度学习篇---昇腾NPUCANN 工具包
  • JVM故障处理与类加载全解析
  • 数据结构自学Day5--链表知识总结
  • 大规模集群下 Prometheus 监控架构实战经验分享
  • LTR相关记录
  • 牛客周赛 Round 99
  • 【Dify(v1.x) 核心源码深入解析】mcp 模块
  • 4.丢出异常捕捉异常TryCatch C#例子
  • USB数据丢包真相:为什么log打印会导致高频USB数据丢包?
  • mysql数据库导入导出命令
  • 【Linux-云原生-笔记】系统引导修复(grub、bios、内核、系统初始化等)