当前位置: 首页 > news >正文

南通单位网站建设近期国际热点大事件

南通单位网站建设,近期国际热点大事件,多人在线协作网站开发,中国核工业第五建设有限公司简介一、代码 # 4-2 用ε贪婪算法解决多老虎机问题 import numpy as np import matplotlib.pyplot as plt # 参数设置 c 10 # 老虎机数量 l 501 # 最后时刻 runs 1000 # 运行次数 epsilon 0.01 # ε贪婪中的ε # 构造随机种子为指定值的随机数生成器 rng np.random.de…

一、代码

# 4-2 用ε贪婪算法解决多老虎机问题

import numpy as np
import matplotlib.pyplot as plt

# 参数设置
c = 10  # 老虎机数量
l = 501  # 最后时刻
runs = 1000  # 运行次数
epsilon = 0.01  # ε贪婪中的ε

# 构造随机种子为指定值的随机数生成器
rng = np.random.default_rng(1)

# 初始化每一时刻的奖赏和
timestep_rewards = np.zeros(l)  # 修改为大小为 l 的数组
timestep_rewards_epsilon = np.zeros(l)  # 修改为大小为 l 的数组

# 运行循环
for run in range(runs):
    # 每次运行的初始化
    occ_actions = np.zeros(c)  # 每个行动被选择的次数
    acc_rewards = np.zeros(c)  # 每个行动下累加获得的奖赏
    estimated_rewards = np.zeros(c)  # 每台老虎机奖赏期望值的估计值
    occ_actions_epsilon = np.zeros(c)  # 每个行动被选择的次数(ε贪婪)
    acc_rewards_epsilon = np.zeros(c)  # 每个行动下累加获得的奖赏(ε贪婪)
    estimated_rewards_epsilon = np.zeros(c)  # 每台老虎机奖赏期望值的估计值(ε贪婪)
    means_bandits = rng.normal(0, 1, c)  # 每次运行时的老虎机奖赏期望值

    # 从第1个时刻到第l-1个时刻
    for t in range(l - 1):
        # 计算每台老虎机的奖赏期望值的估计值
        for i in range(c):
            estimated_rewards[i] = 0 if acc_rewards[i] == 0 else acc_rewards[i] / occ_actions[i]
            estimated_rewards_epsilon[i] = 0 if acc_rewards_epsilon[i] == 0 else acc_rewards_epsilon[i] / occ_actions_epsilon[i]

        # 选择贪婪行动
        a_t = np.argmax(estimated_rewards).item()
        # ε贪婪
        if rng.random() > epsilon:
            # 选择贪婪行动
            a_t_epsilon = np.argmax(estimated_rewards_epsilon).item()
        else:
            # 随机选择行动
            a_t_epsilon = rng.integers(0, c)

        # 选择该行动后(在下一时刻)获得的奖赏
        r_tp1 = rng.normal(means_bandits[a_t], 1)
        r_tp1_epsilon = rng.normal(means_bandits[a_t_epsilon], 1)

        # 累加当前行动选择获得的奖赏
        occ_actions[a_t] += 1
        acc_rewards[a_t] += r_tp1
        occ_actions_epsilon[a_t_epsilon] += 1
        acc_rewards_epsilon[a_t_epsilon] += r_tp1_epsilon

        # 累加每个时刻下获得的奖赏
        timestep_rewards[t + 1] += r_tp1
        timestep_rewards_epsilon[t + 1] += r_tp1_epsilon

# 画平均奖赏线
plt.figure()
plt.plot(np.arange(1, l), timestep_rewards[1:] / runs, linewidth=2)
plt.plot(np.arange(1, l), timestep_rewards_epsilon[1:] / runs, 'r', linewidth=2)
plt.ylabel('Averaged rewards')
plt.xlabel('Time steps')
plt.title('Greedy v.s. Epsilon-greedy')
plt.legend(['Greedy', 'Epsilon-greedy'])
plt.show()

二、结果图

http://www.lryc.cn/news/616953.html

相关文章:

  • 青岛正规公司网站建设公司接广告推广
  • 学校网站建设汇报长春网站制作
  • wordpress 中文版 编码如何做seo整站优化
  • c2c电子商务网站有哪些各大网站收录入口
  • 集团网站建设特点 互联网课堂北京网站推广助理
  • 网站的开发客服外包
  • 建设银行广达行网站站长统计入口
  • 做网站只用php不用html网站搭建公司哪家好
  • 大型企业网站建设制作口碑营销案例及分析
  • 我想投资谁有项目台州关键词首页优化
  • 东莞网站建设定制下载百度app并安装
  • 哈尔滨市建筑企业管理站网站优化是什么
  • 专做视频和ppt的网站南京网站推广排名
  • 做个网站得多少钱制作一个简单的网站
  • 做网络竞拍的网站需要什么seo怎么学在哪里学
  • 网站建设的行业市场的特点百度广告服务商
  • 小说网站开发的实际意义手机软文广告300字
  • 工商网站查询企业谷歌浏览器官方app下载
  • 建立个机密网站nba哈登最新消息
  • 表情包做旧网站河北seo关键词排名优化
  • 福田网站建设价格韩国搜索引擎排名
  • 镇江做网站要多少钱长沙网站定制公司
  • 盐城网站开发建设宣传推广计划
  • 深圳制作网站制作公司哪家好做任务赚佣金一单10块
  • 网站网络推广运营山东seo推广
  • 广州网站建设电话优化营商环境应当坚持什么原则
  • 女人动漫做受网站seo快速优化
  • 人力资源做网站的好处站长统计推荐
  • 表格制作excel基础教学武汉网络优化知名乐云seo
  • 如何建立和设计公司网站作文推广手段有哪些