当前位置: 首页 > news >正文

解决 The ‘more_itertools‘ package is required

在使用爬虫获取维基百科数据时看到了一个很好的项目:
博客:https://blog.51cto.com/u_15919249/5962100
项目地址:https://github.com/wjn1996/scrapy_for_zh_wiki

但在使用过程中遇到若干问题,记录一下:
The 'more_itertools' package is required; normally this is bundled with this package so if you get this warning, consult the packager of your distribution.:

1.解决方案:

或许并不是环境本身的问题。
1. pip show more_itertools没有则安装,有则下一步
2. 把queue.py 文件及该文件中的Queue类均重命名分别为myqueue.py 与 MyQueue。
3. 将重命名后的myqueue.py放到spiders文件夹下,
4. 将spider下单wiki.py 中的from queue import  Queue修改为from .myqueue import MyQueue
原因可能是Python中自带queue库,而博主这里是想调用自己的queue。

2.后面同样要把filter_words.py文件拿到spider下,并修改wiki中的from filter_words import filter_url 为from .filter_words import filter_url

3.在wiki.py繁简转换中加判断,避免输入为空

def Traditional2Simplified(sentence):'''将sentence中的繁体字转为简体字:param sentence: 待转换的句子:return: 将句子中繁体字转换为简体字之后的句子'''# sentence = Converter('zh-hans').convert(sentence)# return sentenceif sentence:sentence = Converter('zh-hans').convert(sentence)return sentenceelse:return sentence

4. 在wiki.py中修改

'''
content_entity = search.xpath("//h1[@id='firstHeading']/text()").extract_first()
为
content_entity = search.xpath("//h1[@id='firstHeading']/span/text()").extract_first()
'''



 

http://www.lryc.cn/news/102600.html

相关文章:

  • 手把手教你在云环境炼丹(部署Stable Diffusion WebUI)
  • pytorch-gpu 极简安装
  • 有道云笔记迁移到自建服务器Joplin
  • qt源码--事件系统之QAbstractEventDispatcher
  • 深入了解Python中的os.path.join函数
  • Node.js:execSync执行一个shell命令
  • 《入门级-Cocos2d 4.0塔防游戏开发》---第二课:游戏加载界面开发
  • 打卡力扣题目十二
  • QT服务器练习
  • Vcenter 创建 虚拟机配置 Thin Provision 模式 disk
  • 初识mysql数据库之事务的概念及操作
  • MPL-2.0(Mozilla Public License 2.0)
  • Qt+OpenCV+VTK在VS2017中配置路径
  • 线性代数(应用篇):第五章:特征值与特征向量、第六章:二次型
  • Java8实战-总结9
  • 大数据开发面试必问:Hive调优技巧系列一
  • Jupyter Notebook 7重磅发布,新增多个特性!
  • linux V4L2子系统——v4l2架构(1)之整体架构
  • Qt信号与槽机制的本质
  • Linux:入门学习知识及常见指令
  • K8s:Kubernetes 故障排除方法论
  • TCP 三次握手四次挥手浅析
  • 【软件安装】MATLAB_R2021b for mac 安装
  • 电脑维护:10妙招,让你的电脑更加稳定!
  • 大数据面试题:Kafka的单播和多播
  • python与深度学习(八):CNN和fashion_mnist二
  • 开发一个RISC-V上的操作系统(五)—— 协作式多任务
  • Mybatis-plus集合
  • C++ 结构体和联合体
  • 使用TensorFlow训练深度学习模型实战(下)