当前位置: 首页 > news >正文

维基百科数据抽取

1. 数据路径

https://dumps.wikimedia.org/enwiki/latest/ ----英文
https://dumps.wikimedia.org/zhwiki/latest/ ----中文

https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 --下载最新的

https://dumps.wikimedia.org/wikidatawiki/20230201/ 按天存储数据集

2. 基于wikiextractor包解析 bz2文件

linux 环境下数据解析成功。windows环境尝试报错,未成功。

2.1 安装wikiextractor
  • 下载git安装包:
    git: https://github.com/attardi/wikiextractor

  • 解压后进入 setpu目录
    python setup.py install
    在这里插入图片描述

  • 数据解析
    之前下载bz2 文件如在wikiextractor
    python WikiExtractor.py -b 1024M -o zh_test enwiki-latest-pages-articles.xml.bz2
    -b: 文件大小分割
    -o: 存储的路径
    在这里插入图片描述

http://www.lryc.cn/news/79.html

相关文章:

  • 2020年因果推断综述《A Survey on Causal Inference》
  • 嵌入式linux系统测试程序编写
  • 力扣SQL刷题5
  • 动态规划详解(完结篇)——如何抽象出动态规划算法?以及解题思路
  • C语言一维数组篇【下】——每日刷题经验分享
  • VHDL语言基础-组合逻辑电路-其它组合逻辑模块
  • 初识Vue
  • TOUGH系列软件建模实践方法及在地下水、CO2地质封存、水文地球化学、地热等多相多组分系统多过程耦合
  • Codeforces Round #699 (Div. 2)
  • MySQL存储过程的传参和流程控制
  • MySQl学习(从入门到精通11)
  • 关于ThreadLocal
  • 【C++】类和对象(中)
  • js下载文件
  • ESP8266 + STC15+ I2C OLED带网络校时功能的定时器时钟
  • 计算机入门基础知识大全
  • Python程序出现错误怎么办?
  • 【Vue3】v-if和v-for优先级
  • Windows上实现 IOS 自动化测试
  • Linux云服务器下怎么重置MySQL8.0数据库密码
  • JVM调优
  • 【配电网规划】SOCPR和基于线性离散最优潮流(OPF)模型的配电网规划( DNP )(Matlab代码实现)
  • 锦正茂EM3电磁铁的技术参数
  • Go最新版下载 Go1.20版新特性
  • Pywirt:一款基于Python的Windows安全应急响应工具
  • KDZD832 智能蓄电池活化仪
  • 纯css实现loading加载中(多种展现形式)
  • 【面试题】2023 vue高频面试知识点汇总
  • 跨境电商选品重要吗?
  • SpringBoot