当前位置: 首页 > news >正文

强化学习策略买卖股票的效果如何?

Github 项目:

GitHub - daocodedao/stable-baselines-stock: 深度强化学习自动炒股

主体参考了 https://github.com/wangshub/RL-Stock,修改了一些

  • requirements 修改到新版本
  • 支持 mac
  • stable-baselines 改为 stable-baselines3

使用强化学习预测股价,需要在决策的时候采取合适的行动 (Action) 使最后的奖励最大化。与监督学习预测未来的数值不同,强化学习根据输入的状态(如当日开盘价、收盘价等),输出系列动作(例如:买进、持有、卖出),并对好的动作结果不断进行奖励,对差的动作结果不断进行惩罚,使得最后的收益最大化,实现自动交易。

策略网络观测的就是一只股票的各项参数,比如开盘价、收盘价、成交数量等。部分数值会是一个很大的数值,比如成交金额或者成交量,有可能百万、千万乃至更大,为了训练时网络收敛,观测的状态数据输入时,必须要进行归一化,变换到 `[-1, 1]` 的区间内。

测试结果:

测试了 SH.600036  招商银行

训练集 1990-01-01 到 2019-11-30

测试集 2019-12-01 到 2024-09-13

测试了6次,每次结果都不一样。。。

参考:

https://pythondict.com/quant/reinforcement-learnning/

http://www.lryc.cn/news/444327.html

相关文章:

  • Kotlin 基本介绍(一)
  • Cocos Creator发布Moloco平台试玩广告(PlayableAd)
  • 七种修复错误:由于找不到msvcr110.dll 无法继续执行的方法
  • Python模拟鼠标轨迹[Python]
  • Ubuntu搭建java开发环境
  • 新能源汽车知识点集萃
  • c++234继承
  • Axios 封装网络请求
  • LeetCode 面试经典150题 190.颠倒二进制位
  • vulhub搭建漏洞环境docker-compose up -d命令执行报错以及解决方法汇总
  • C++ 简介
  • shardingjdbc分库分表原理
  • C++泛型编程:模版
  • 一道涉及 Go 中的并发安全和数据竞态(Race Condition)控制的难题
  • 如何降低H5商城系统的开发成本
  • 为什么越来越多的网工运维转行网络安全?_idc运维转网络安全工程师_系统运维转行网安
  • 【TabBar嵌套Navigation案例-产品推荐页面-UICollectionView-结合xib使用 Objective-C语言】
  • java.nio.ByteBuffer的 capacity, limit, position, mark
  • 握手传输 状态机序列检测(记忆科技笔试题)_2024年9月2日
  • 电商跨境电商商城系统/网上商城接口/电商数据接口详情
  • openFrameworks_如何使用ofxXmlSettings和ofxGui来创建识别界面
  • 180多个GIS地理空间定义术语中英文对照配图
  • Vue(14)——组合式API①
  • 【图像检索】基于颜色模型的图像内容检索,matlab实现
  • 看过来——量子计算中一个神奇符号的解释
  • 传输层 IV(TCP协议——流量控制、拥塞控制)【★★★★】
  • Java设计模式全面解析
  • spring全家桶使用教程
  • REST-系统架构师(六十九)
  • SAP B1 营销单据 - 复制从复制到总结