当前位置: 首页 > news >正文

机器学习:提取问题答案

在这里插入图片描述

模型BERT

在这里插入图片描述

任务:提取问题和答案

在这里插入图片描述

问题的起始位置和结束位置。

数据集

在这里插入图片描述
数据集 DRCD+ODSQA
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
先分词,然后tokenize
在这里插入图片描述
在这里插入图片描述
文章长度是不同的,bert的token的长度有限制,一般是512, self-attention的计算量是 O ( n 2 ) O(n^2) O(n2),所以无法将长的整篇文章送进去处理。

Train

在这里插入图片描述
以正确答案为中心,以固定长度的windows去找问题。关键字,答案一般在关键字附近,在答案的附近画一个window,越大越好。然后将这些片段进行tokenizer,再去训练。

在这里插入图片描述

Hints

在这里插入图片描述
在这里插入图片描述

  • Linear Learning rate decay
    在这里插入图片描述

在这里插入图片描述
overlapping window, 因为分割可能会看不到,重叠一些部分。 修改doc stride参数。

在这里插入图片描述
正确答案不一定是在窗户正中心。

在这里插入图片描述
不同的预训练模型,建议使用中文预训练模型。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
自动混合精度,有的时候不需要那么高的精度Float32,仅部分卡支持,以加速训练。

在这里插入图片描述
如果GPU内存不够的话,可以使用Gradient accumulation,累计参数一次更新。

在这里插入图片描述

Kaggle项目

在这里插入图片描述

在这里插入图片描述
套件:pip install transformers
在这里插入图片描述

http://www.lryc.cn/news/99564.html

相关文章:

  • 【Ansible】
  • 分布式版本控制系统git详解
  • 如何使用Python进行数据挖掘?
  • 若依-前台无法正常启动,npm run dev失败
  • Spring之IoC源码分析及设计思想(一)——BeanFactory
  • ⛳ 面向对象面试题
  • Java中使用Gson操作json数据
  • Verilog语法学习——LV10_使用函数实现数据大小端转换
  • Leetcode-每日一题【剑指 Offer II 009. 乘积小于 K 的子数组】
  • html/javascript-表格的创建和使用
  • [点微]同城原生微信小程序 小程序原生版 1.0.7(tom_xiaofenlei)
  • JDBC Some Templates
  • dubbo启动指定ip不使用docker虚拟网络ip
  • Bobo String Construction
  • 基于java在线个人网站源码设计与实现
  • Ubuntu18.04下编译qgc源码
  • Ros2_windows_install的学习笔记
  • 5、Kubernetes核心技术 - Controller控制器工作负载
  • 【java设计模式】创建型模式介绍(工厂模式、抽象工厂模式、单例模式、建造者模式、原型模式)
  • Redis系列:Redis 的事务机制
  • 动静态网页、Django创建表关系、Django框架的请求生命周期流程图
  • 神经网络的初始化方法
  • 【SQL Server】DBCC CHECKDB只是一个数据库维护命令吗?
  • 三、Web安全相关知识
  • Android系统服务之AMS
  • Unity UGUI的EventTrigger (事件监听器)组件的介绍及使用
  • Matlab的SimuLink对FS32K144编程--内部数据存储Flash
  • 【MySQL】centos 7下MySQL的环境搭建
  • 【SpringCloud Alibaba】(四)使用 Feign 实现服务调用的负载均衡
  • ShardingSphere-Proxy水平分片详解与实战