强化学习笔记4-Python/OpenAI/TensorFlow/ROS-时间差分

举报
zhangrelay 发表于 2021/07/15 04:13:04 2021/07/15
【摘要】 时间差分学习(Temporal Difference Learing) 预测,估计值函数;控制,优化值函数。 离线:Q学习;在线:SARSA。 智能体驾驶出租车。 总共有四个地点,智能体必须在一个地方接载一名乘客,然后在另一个地方放下乘客。 智能体将获得+20分作为成功下车的奖励,并且每次获得的时间步数为-1分。 非法接送和丢弃的智能体也将失去-10分。 因此,智能体的...

时间差分学习(Temporal Difference Learing)

预测,估计值函数;控制,优化值函数。

离线:Q学习;在线:SARSA。

智能体驾驶出租车。 总共有四个地点,智能体必须在一个地方接载一名乘客,然后在另一个地方放下乘客。 智能体将获得+20分作为成功下车的奖励,并且每次获得的时间步数为-1分。 非法接送和丢弃的智能体也将失去-10分。 因此,智能体的目标是学习在短时间内在正确的位置接载和放下乘客,无需登上任何非法乘客。

出租车案例-Q学习


      import random
      import gym
      env = gym.make('Taxi-v2')
      env.render()
      q = {}
      for s in range(env.observation_space.n):
      for a in range(env.action_space.n):
       q[(s,a)] = 0.0
      def update_q_table(prev_state, action, reward, nextstate, alpha, gamma):
       qa = max([q[(nextstate, a)] for a in range(env.action_space.n)])
       q[(prev_state,action)] += alpha * (reward + gamma * qa - q[(prev_state,action)])
      def epsilon_greedy_policy(state, epsilon):
      if random.uniform(0,1) < epsilon:
      return env.action_space.sample()
      else:
      return max(list(range(env.action_space.n)), key = lambda x: q[(state,x)])
      alpha = 0.4
      gamma = 0.999
      epsilon = 0.017
      for i in range(8000):
       r = 0
       prev_state = env.reset()
      while True:
       env.render()
      # In each state, we select the action by epsilon-greedy policy
       action = epsilon_greedy_policy(prev_state, epsilon)
      # then we perform the action and move to the next state, and receive the reward
       nextstate, reward, done, _ = env.step(action)
      # Next we update the Q value using our update_q_table function
      # which updates the Q value by Q learning update rule
       update_q_table(prev_state, action, reward, nextstate, alpha, gamma)
      # Finally we update the previous state as next state
       prev_state = nextstate
      # Store all the rewards obtained
       r += reward
      #we will break the loop, if we are at the terminal state of the episode
      if done:
      break
       print("total reward: ", r)
      env.close()
  
 

部分结果如下:


      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : |_: |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : :_: |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : :_: : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : :_: : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | :_: : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R:_| : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      total reward:  7
  
 

出租车案例-SARSA


      import random
      import gym
      env = gym.make('Taxi-v2')
      env.render()
      Q = {}
      for s in range(env.observation_space.n):
      for a in range(env.action_space.n):
       Q[(s,a)] = 0.0
      def epsilon_greedy(state, epsilon):
      if random.uniform(0,1) < epsilon:
      return env.action_space.sample()
      else:
      return max(list(range(env.action_space.n)), key = lambda x: Q[(state,x)])
      alpha = 0.85
      gamma = 0.90
      epsilon = 0.8
      for i in range(4000):
      # we store cumulative reward of each episodes in r
       r = 0
      # initialize the state,
       state = env.reset()
      # select the action using epsilon-greedy policy
       action = epsilon_greedy(state,epsilon)
      while True:
      # env.render()
       env.render()
      # then we perform the action and move to the next state, and receive the reward
       nextstate, reward, done, _ = env.step(action)
      # again, we select the next action using epsilon greedy policy
       nextaction = epsilon_greedy(nextstate,epsilon)
      # we calculate the Q value of previous state using our update rule
       Q[(state,action)] += alpha * (reward + gamma * Q[(nextstate,nextaction)]-Q[(state,action)])
      # finally we update our state and action with next action and next state
       action = nextaction
       state = nextstate
      # store the rewards
       r += reward
      # we will break the loop, if we are at the terminal state of the episode
      if done:
      break
       print("total reward: ", r)
      env.close()
  
 

 部分结果显示如下:


      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Dropoff)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (North)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (South)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (Pickup)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (East)
      +---------+
      |R: | : :G|
      | : : : : |
      | : : : : |
      | | : | : |
      |Y| : |B: |
      +---------+
        (West)
      total reward:  -695
  
 

参考文献资料:

Temporal difference (TDlearning (Sutton1988Barto et al., 1990; Bertekas and Tsitsiklis, 1996; Sutton and Barto1998is a form of error-driven learning used in feed-forward neural networks in which input patterns(e.g., patterns of place cell activityare to be associated with output values(e.g., an expectation of how close the goal is), but where additionally there isinformation to be had in the sequence in which input patterns and outputvalues present themselves.


 

文章来源: zhangrelay.blog.csdn.net,作者:zhangrelay,版权归原作者所有,如需转载,请联系作者。

原文链接:zhangrelay.blog.csdn.net/article/details/92012795

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。