- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

强化学习笔记4-Python/OpenAI/TensorFlow/ROS-时间差分

zhangrelay 发表于 2021/07/15 04:13:04 2021/07/15

【摘要】时间差分学习（Temporal Difference Learing）预测，估计值函数；控制，优化值函数。离线：Q学习；在线：SARSA。智能体驾驶出租车。总共有四个地点，智能体必须在一个地方接载一名乘客，然后在另一个地方放下乘客。智能体将获得+20分作为成功下车的奖励，并且每次获得的时间步数为-1分。非法接送和丢弃的智能体也将失去-10分。因此，智能体的...

时间差分学习（Temporal Difference Learing）

预测，估计值函数；控制，优化值函数。

离线：Q学习；在线：SARSA。

智能体驾驶出租车。总共有四个地点，智能体必须在一个地方接载一名乘客，然后在另一个地方放下乘客。智能体将获得+20分作为成功下车的奖励，并且每次获得的时间步数为-1分。非法接送和丢弃的智能体也将失去-10分。因此，智能体的目标是学习在短时间内在正确的位置接载和放下乘客，无需登上任何非法乘客。

出租车案例-Q学习


      import random
      import gym
      env = gym.make('Taxi-v2')
      env.render()
      q = {}
      for s in range(env.observation_space.n):
      for a in range(env.action_space.n):
       q[(s,a)] = 0.0
      def update_q_table(prev_state, action, reward, nextstate, alpha, gamma):
       qa = max([q[(nextstate, a)] for a in range(env.action_space.n)])
       q[(prev_state,action)] += alpha * (reward + gamma * qa - q[(prev_state,action)])
      def epsilon_greedy_policy(state, epsilon):
      if random.uniform(0,1) < epsilon:
      return env.action_space.sample()
      else:
      return max(list(range(env.action_space.n)), key = lambda x: q[(state,x)])
      alpha = 0.4
      gamma = 0.999
      epsilon = 0.017
      for i in range(8000):
       r = 0
       prev_state = env.reset()
      while True:
       env.render()
      # In each state, we select the action by epsilon-greedy policy
       action = epsilon_greedy_policy(prev_state, epsilon)
      # then we perform the action and move to the next state, and receive the reward
       nextstate, reward, done, _ = env.step(action)
      # Next we update the Q value using our update_q_table function
      # which updates the Q value by Q learning update rule
       update_q_table(prev_state, action, reward, nextstate, alpha, gamma)
      # Finally we update the previous state as next state
       prev_state = nextstate
      # Store all the rewards obtained
       r += reward
      #we will break the loop, if we are at the terminal state of the episode
      if done:
      break
       print("total reward: ", r)
      env.close()

部分结果如下：


      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : |_: |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : :_: |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : :_: : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : :_: : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | :_: : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R:_| : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      total reward:  7

出租车案例-SARSA


      import random
      import gym
      env = gym.make('Taxi-v2')
      env.render()
      Q = {}
      for s in range(env.observation_space.n):
      for a in range(env.action_space.n):
       Q[(s,a)] = 0.0
      def epsilon_greedy(state, epsilon):
      if random.uniform(0,1) < epsilon:
      return env.action_space.sample()
      else:
      return max(list(range(env.action_space.n)), key = lambda x: Q[(state,x)])
      alpha = 0.85
      gamma = 0.90
      epsilon = 0.8
      for i in range(4000):
      # we store cumulative reward of each episodes in r
       r = 0
      # initialize the state,
       state = env.reset()
      # select the action using epsilon-greedy policy
       action = epsilon_greedy(state,epsilon)
      while True:
      # env.render()
       env.render()
      # then we perform the action and move to the next state, and receive the reward
       nextstate, reward, done, _ = env.step(action)
      # again, we select the next action using epsilon greedy policy
       nextaction = epsilon_greedy(nextstate,epsilon)
      # we calculate the Q value of previous state using our update rule
       Q[(state,action)] += alpha * (reward + gamma * Q[(nextstate,nextaction)]-Q[(state,action)])
      # finally we update our state and action with next action and next state
       action = nextaction
       state = nextstate
      # store the rewards
       r += reward
      # we will break the loop, if we are at the terminal state of the episode
      if done:
      break
       print("total reward: ", r)
      env.close()

部分结果显示如下：


      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      total reward:  -695

参考文献资料：

https://github.com/shashir/td-learning
https://link.springer.com/article/10.1007%2FBF00115009
https://link.springer.com/content/pdf/10.1007%2FBF00115009.pdf

Temporal difference (TD) learning (Sutton, 1988; Barto et al., 1990; Bertekas and Tsitsiklis, 1996; Sutton and Barto, 1998) is a form of error-driven learning used in feed-forward neural networks in which input patterns(e.g., patterns of place cell activity) are to be associated with output values(e.g., an expectation of how close the goal is), but where additionally there isinformation to be had in the sequence in which input patterns and outputvalues present themselves.

文章来源: zhangrelay.blog.csdn.net，作者：zhangrelay，版权归原作者所有，如需转载，请联系作者。

原文链接：zhangrelay.blog.csdn.net/article/details/92012795

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

强化学习笔记4-Python/OpenAI/TensorFlow/ROS-时间差分

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

强化学习笔记4-Python/OpenAI/TensorFlow/ROS-时间差分

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品