当前位置: 首页 > news >正文

python-windows10普通笔记本跑bert mrpc数据样例0.1.048

python-windows10普通笔记本跑bert mrpc数据样例0.1.000

    • 背景
    • 参考章节
    • 获取数据
    • 下载bert模型
    • 下载bert代码
    • windows10的cpu进行训练
    • 进行预测
    • 注意事项
    • TODOLIST

背景

看了介绍说可以在gpu或者tpu上去微调,当前没环境,所以先在windows10上跑一跑,看是否能顺利进行,目标就是训练的过程中没有报错就行

参考章节

参考这个链接https://github.com/google-research/bert/tree/master?tab=readme-ov-file,其中的这个章节Sentence (and sentence-pair) classification tasks

获取数据

文章提高的使用 GLUE data by running this script(https://gist.github.com/W4ngatang/60c2bdb54d156a41194446737ce03e2e),但是我使用这个脚本下载不了,因为是内网,没有办法只能手动下载了,方法如下

  1. 下载download_glue_data.py这个脚本后
  2. 找到第39和40行,将里面的链接打开保存文件就可以获得msr_paraphrase_train.txt和sr_paraphrase_test.txt文件了
MRPC_TRAIN = 'https://dl.fbaipublicfiles.com/senteval/senteval_data/msr_paraphrase_train.txt'
MRPC_TEST = 'https://dl.fbaipublicfiles.com/senteval/senteval_data/msr_paraphrase_test.txt'
  1. 数据不大,我直接修改的文本格式为tsv,最后得到test.tsv和train.tsv文件
  2. 打开这个链接下载另外一个需要的数据dev_ids.tsv
    https://raw.githubusercontent.com/MegEngine/Models/master/official/nlp/bert/glue_data/MRPC/dev_ids.tsv
  3. 注释掉download_glue_data.py里面的下面的代码
#     try:
#         urllib.request.urlretrieve(TASK2PATH["MRPC"], os.path.join(mrpc_dir, "dev_ids.tsv"))
#     except KeyError or urllib.error.HTTPError:
#         print("\tError downloading standard development IDs for MRPC. You will need to manually split your data.")
#         return
  1. 将dev_ids.tsv的文件放在–data_dir下面的MRPC里面
  2. 运行download_glue_data.py文件生成数据如下
python .\download_glue_data.py --tasks=MRPC --data_dir=D:\jpdir\bert\glue_data\MRPC\fin --path_to_mrpc=D:\jpdir\bert\glue_data\MRPC

在这里插入图片描述
8. 将生成的dev.tsv文件放在python run_classifier.py脚本的data_dir目录下

下载bert模型

下载bert-base-uncased模型,如下图
在这里插入图片描述

下载bert代码

将这个链接https://github.com/google-research/bert/tree/master?tab=readme-ov-file的代码clone下来到本地,进入到这个文件夹里,执行如下命令即可:

python run_classifier.py --task_name=MRPC --do_train=true --do_eval=true --data_dir=D:\jpdir\bert\glue_data\MRPC --vocab_file=D:\jpdir\bert\bert-base-uncased\bert-base-uncased\bert-base-uncased\vocab.txt --bert_config_file
http://www.lryc.cn/news/370173.html

相关文章:

  • 4句话明白虚拟机和容器的区别
  • Django render()函数页面渲染
  • 基于webrtc的媒体流传输工具tl-rtc-file
  • 【最新鸿蒙应用开发】——类Web开发范式2——前端语法
  • 前端的强缓存和协商缓存
  • JSON如何处理包含特殊字符的字段
  • JavaScript 中的 AbortController
  • 【前端】vue在线编辑器
  • leetcode67:二进制求和
  • 程序员必备的职业素养:专业精神、沟通能力与持续学习
  • Spring源码:核心类的介绍
  • 文化融合,市场共赢:品牌海外推广中的符号与象征策略
  • fabric.util.enlivenObjects是什么意思
  • 几个阶段性的面试难点整理
  • CTFHUB-技能树-web-信息泄露
  • 面试计算机网络八股文十问十答第八期
  • 0605-JavaSE-单例模式-饿懒汉模式
  • TCP和UDP区别
  • [Shell编程学习路线]——编制第一个shell脚本入门篇
  • python数据处理分析库(一)
  • 使用Transformer进行抄袭检测
  • 基于深度学习的电池健康状态预测(Python)
  • 【吊打面试官系列-Mysql面试题】MySQL 如何优化 DISTINCT?
  • 企业IT运维管理体系-总体规划
  • RabbitMQ-Stream(高级详解)
  • Web前端图片并排显示的艺术与技巧
  • 豆瓣电影信息爬虫【2024年6月】教程
  • Flutter- AutomaticKeepAliveClientMixin 实现Widget保持活跃状态
  • 《计算机组成原理》期末复习题节选
  • NSSCTF中的popchains、level-up、 What is Web、 Interesting_http、 BabyUpload