强化学习笔记4-Python/OpenAI/TensorFlow/ROS-时间差分

举报
zhangrelay 发表于 2021/07/15 04:13:04 2021/07/15
【摘要】 时间差分学习(Temporal Difference Learing) 预测,估计值函数;控制,优化值函数。 离线:Q学习;在线:SARSA。 智能体驾驶出租车。 总共有四个地点,智能体必须在一个地方接载一名乘客,然后在另一个地方放下乘客。 智能体将获得+20分作为成功下车的奖励,并且每次获得的时间步数为-1分。 非法接送和丢弃的智能体也将失去-10分。 因此,智能体的...

时间差分学习(Temporal Difference Learing)

预测,估计值函数;控制,优化值函数。

离线:Q学习;在线:SARSA。

智能体驾驶出租车。 总共有四个地点,智能体必须在一个地方接载一名乘客,然后在另一个地方放下乘客。 智能体将获得+20分作为成功下车的奖励,并且每次获得的时间步数为-1分。 非法接送和丢弃的智能体也将失去-10分。 因此,智能体的目标是学习在短时间内在正确的位置接载和放下乘客,无需登上任何非法乘客。

出租车案例-Q学习


  
  1. import random
  2. import gym
  3. env = gym.make('Taxi-v2')
  4. env.render()
  5. q = {}
  6. for s in range(env.observation_space.n):
  7. for a in range(env.action_space.n):
  8. q[(s,a)] = 0.0
  9. def update_q_table(prev_state, action, reward, nextstate, alpha, gamma):
  10. qa = max([q[(nextstate, a)] for a in range(env.action_space.n)])
  11. q[(prev_state,action)] += alpha * (reward + gamma * qa - q[(prev_state,action)])
  12. def epsilon_greedy_policy(state, epsilon):
  13. if random.uniform(0,1) < epsilon:
  14. return env.action_space.sample()
  15. else:
  16. return max(list(range(env.action_space.n)), key = lambda x: q[(state,x)])
  17. alpha = 0.4
  18. gamma = 0.999
  19. epsilon = 0.017
  20. for i in range(8000):
  21. r = 0
  22. prev_state = env.reset()
  23. while True:
  24. env.render()
  25. # In each state, we select the action by epsilon-greedy policy
  26. action = epsilon_greedy_policy(prev_state, epsilon)
  27. # then we perform the action and move to the next state, and receive the reward
  28. nextstate, reward, done, _ = env.step(action)
  29. # Next we update the Q value using our update_q_table function
  30. # which updates the Q value by Q learning update rule
  31. update_q_table(prev_state, action, reward, nextstate, alpha, gamma)
  32. # Finally we update the previous state as next state
  33. prev_state = nextstate
  34. # Store all the rewards obtained
  35. r += reward
  36. #we will break the loop, if we are at the terminal state of the episode
  37. if done:
  38. break
  39. print("total reward: ", r)
  40. env.close()

部分结果如下:


  
  1. +---------+
  2. |R: | : :G|
  3. | : : : : |
  4. | : : : : |
  5. | | : | : |
  6. |Y| : |B: |
  7. +---------+
  8. +---------+
  9. |R: | : :G|
  10. | : : : : |
  11. | : : : : |
  12. | | : | : |
  13. |Y| : |B: |
  14. +---------+
  15. (East)
  16. +---------+
  17. |R: | : :G|
  18. | : : : : |
  19. | : : : : |
  20. | | : | : |
  21. |Y| : |B: |
  22. +---------+
  23. (South)
  24. +---------+
  25. |R: | : :G|
  26. | : : : : |
  27. | : : : : |
  28. | | : | : |
  29. |Y| : |B: |
  30. +---------+
  31. (South)
  32. +---------+
  33. |R: | : :G|
  34. | : : : : |
  35. | : : : : |
  36. | | : | : |
  37. |Y| : |B: |
  38. +---------+
  39. (South)
  40. +---------+
  41. |R: | : :G|
  42. | : : : : |
  43. | : : : : |
  44. | | : | : |
  45. |Y| : |B: |
  46. +---------+
  47. (South)
  48. +---------+
  49. |R: | : :G|
  50. | : : : : |
  51. | : : : : |
  52. | | : | : |
  53. |Y| : |B: |
  54. +---------+
  55. (Pickup)
  56. +---------+
  57. |R: | : :G|
  58. | : : : : |
  59. | : : : : |
  60. | | : |_: |
  61. |Y| : |B: |
  62. +---------+
  63. (North)
  64. +---------+
  65. |R: | : :G|
  66. | : : : : |
  67. | : : :_: |
  68. | | : | : |
  69. |Y| : |B: |
  70. +---------+
  71. (North)
  72. +---------+
  73. |R: | : :G|
  74. | : : : : |
  75. | : :_: : |
  76. | | : | : |
  77. |Y| : |B: |
  78. +---------+
  79. (West)
  80. +---------+
  81. |R: | : :G|
  82. | : :_: : |
  83. | : : : : |
  84. | | : | : |
  85. |Y| : |B: |
  86. +---------+
  87. (North)
  88. +---------+
  89. |R: | : :G|
  90. | :_: : : |
  91. | : : : : |
  92. | | : | : |
  93. |Y| : |B: |
  94. +---------+
  95. (West)
  96. +---------+
  97. |R:_| : :G|
  98. | : : : : |
  99. | : : : : |
  100. | | : | : |
  101. |Y| : |B: |
  102. +---------+
  103. (North)
  104. +---------+
  105. |R: | : :G|
  106. | : : : : |
  107. | : : : : |
  108. | | : | : |
  109. |Y| : |B: |
  110. +---------+
  111. (West)
  112. total reward: 7

出租车案例-SARSA


  
  1. import random
  2. import gym
  3. env = gym.make('Taxi-v2')
  4. env.render()
  5. Q = {}
  6. for s in range(env.observation_space.n):
  7. for a in range(env.action_space.n):
  8. Q[(s,a)] = 0.0
  9. def epsilon_greedy(state, epsilon):
  10. if random.uniform(0,1) < epsilon:
  11. return env.action_space.sample()
  12. else:
  13. return max(list(range(env.action_space.n)), key = lambda x: Q[(state,x)])
  14. alpha = 0.85
  15. gamma = 0.90
  16. epsilon = 0.8
  17. for i in range(4000):
  18. # we store cumulative reward of each episodes in r
  19. r = 0
  20. # initialize the state,
  21. state = env.reset()
  22. # select the action using epsilon-greedy policy
  23. action = epsilon_greedy(state,epsilon)
  24. while True:
  25. # env.render()
  26. env.render()
  27. # then we perform the action and move to the next state, and receive the reward
  28. nextstate, reward, done, _ = env.step(action)
  29. # again, we select the next action using epsilon greedy policy
  30. nextaction = epsilon_greedy(nextstate,epsilon)
  31. # we calculate the Q value of previous state using our update rule
  32. Q[(state,action)] += alpha * (reward + gamma * Q[(nextstate,nextaction)]-Q[(state,action)])
  33. # finally we update our state and action with next action and next state
  34. action = nextaction
  35. state = nextstate
  36. # store the rewards
  37. r += reward
  38. # we will break the loop, if we are at the terminal state of the episode
  39. if done:
  40. break
  41. print("total reward: ", r)
  42. env.close()

 部分结果显示如下:


  
  1. +---------+
  2. |R: | : :G|
  3. | : : : : |
  4. | : : : : |
  5. | | : | : |
  6. |Y| : |B: |
  7. +---------+
  8. (Pickup)
  9. +---------+
  10. |R: | : :G|
  11. | : : : : |
  12. | : : : : |
  13. | | : | : |
  14. |Y| : |B: |
  15. +---------+
  16. (North)
  17. +---------+
  18. |R: | : :G|
  19. | : : : : |
  20. | : : : : |
  21. | | : | : |
  22. |Y| : |B: |
  23. +---------+
  24. (West)
  25. +---------+
  26. |R: | : :G|
  27. | : : : : |
  28. | : : : : |
  29. | | : | : |
  30. |Y| : |B: |
  31. +---------+
  32. (Dropoff)
  33. +---------+
  34. |R: | : :G|
  35. | : : : : |
  36. | : : : : |
  37. | | : | : |
  38. |Y| : |B: |
  39. +---------+
  40. (West)
  41. +---------+
  42. |R: | : :G|
  43. | : : : : |
  44. | : : : : |
  45. | | : | : |
  46. |Y| : |B: |
  47. +---------+
  48. (North)
  49. +---------+
  50. |R: | : :G|
  51. | : : : : |
  52. | : : : : |
  53. | | : | : |
  54. |Y| : |B: |
  55. +---------+
  56. (Dropoff)
  57. +---------+
  58. |R: | : :G|
  59. | : : : : |
  60. | : : : : |
  61. | | : | : |
  62. |Y| : |B: |
  63. +---------+
  64. (Pickup)
  65. +---------+
  66. |R: | : :G|
  67. | : : : : |
  68. | : : : : |
  69. | | : | : |
  70. |Y| : |B: |
  71. +---------+
  72. (South)
  73. +---------+
  74. |R: | : :G|
  75. | : : : : |
  76. | : : : : |
  77. | | : | : |
  78. |Y| : |B: |
  79. +---------+
  80. (South)
  81. +---------+
  82. |R: | : :G|
  83. | : : : : |
  84. | : : : : |
  85. | | : | : |
  86. |Y| : |B: |
  87. +---------+
  88. (West)
  89. +---------+
  90. |R: | : :G|
  91. | : : : : |
  92. | : : : : |
  93. | | : | : |
  94. |Y| : |B: |
  95. +---------+
  96. (Dropoff)
  97. +---------+
  98. |R: | : :G|
  99. | : : : : |
  100. | : : : : |
  101. | | : | : |
  102. |Y| : |B: |
  103. +---------+
  104. (Pickup)
  105. +---------+
  106. |R: | : :G|
  107. | : : : : |
  108. | : : : : |
  109. | | : | : |
  110. |Y| : |B: |
  111. +---------+
  112. (East)
  113. +---------+
  114. |R: | : :G|
  115. | : : : : |
  116. | : : : : |
  117. | | : | : |
  118. |Y| : |B: |
  119. +---------+
  120. (West)
  121. +---------+
  122. |R: | : :G|
  123. | : : : : |
  124. | : : : : |
  125. | | : | : |
  126. |Y| : |B: |
  127. +---------+
  128. (East)
  129. +---------+
  130. |R: | : :G|
  131. | : : : : |
  132. | : : : : |
  133. | | : | : |
  134. |Y| : |B: |
  135. +---------+
  136. (Pickup)
  137. +---------+
  138. |R: | : :G|
  139. | : : : : |
  140. | : : : : |
  141. | | : | : |
  142. |Y| : |B: |
  143. +---------+
  144. (North)
  145. +---------+
  146. |R: | : :G|
  147. | : : : : |
  148. | : : : : |
  149. | | : | : |
  150. |Y| : |B: |
  151. +---------+
  152. (East)
  153. +---------+
  154. |R: | : :G|
  155. | : : : : |
  156. | : : : : |
  157. | | : | : |
  158. |Y| : |B: |
  159. +---------+
  160. (South)
  161. +---------+
  162. |R: | : :G|
  163. | : : : : |
  164. | : : : : |
  165. | | : | : |
  166. |Y| : |B: |
  167. +---------+
  168. (Dropoff)
  169. +---------+
  170. |R: | : :G|
  171. | : : : : |
  172. | : : : : |
  173. | | : | : |
  174. |Y| : |B: |
  175. +---------+
  176. (West)
  177. +---------+
  178. |R: | : :G|
  179. | : : : : |
  180. | : : : : |
  181. | | : | : |
  182. |Y| : |B: |
  183. +---------+
  184. (Dropoff)
  185. +---------+
  186. |R: | : :G|
  187. | : : : : |
  188. | : : : : |
  189. | | : | : |
  190. |Y| : |B: |
  191. +---------+
  192. (East)
  193. +---------+
  194. |R: | : :G|
  195. | : : : : |
  196. | : : : : |
  197. | | : | : |
  198. |Y| : |B: |
  199. +---------+
  200. (North)
  201. +---------+
  202. |R: | : :G|
  203. | : : : : |
  204. | : : : : |
  205. | | : | : |
  206. |Y| : |B: |
  207. +---------+
  208. (East)
  209. +---------+
  210. |R: | : :G|
  211. | : : : : |
  212. | : : : : |
  213. | | : | : |
  214. |Y| : |B: |
  215. +---------+
  216. (East)
  217. +---------+
  218. |R: | : :G|
  219. | : : : : |
  220. | : : : : |
  221. | | : | : |
  222. |Y| : |B: |
  223. +---------+
  224. (West)
  225. +---------+
  226. |R: | : :G|
  227. | : : : : |
  228. | : : : : |
  229. | | : | : |
  230. |Y| : |B: |
  231. +---------+
  232. (Dropoff)
  233. +---------+
  234. |R: | : :G|
  235. | : : : : |
  236. | : : : : |
  237. | | : | : |
  238. |Y| : |B: |
  239. +---------+
  240. (East)
  241. +---------+
  242. |R: | : :G|
  243. | : : : : |
  244. | : : : : |
  245. | | : | : |
  246. |Y| : |B: |
  247. +---------+
  248. (East)
  249. +---------+
  250. |R: | : :G|
  251. | : : : : |
  252. | : : : : |
  253. | | : | : |
  254. |Y| : |B: |
  255. +---------+
  256. (West)
  257. +---------+
  258. |R: | : :G|
  259. | : : : : |
  260. | : : : : |
  261. | | : | : |
  262. |Y| : |B: |
  263. +---------+
  264. (Pickup)
  265. +---------+
  266. |R: | : :G|
  267. | : : : : |
  268. | : : : : |
  269. | | : | : |
  270. |Y| : |B: |
  271. +---------+
  272. (Pickup)
  273. +---------+
  274. |R: | : :G|
  275. | : : : : |
  276. | : : : : |
  277. | | : | : |
  278. |Y| : |B: |
  279. +---------+
  280. (Dropoff)
  281. +---------+
  282. |R: | : :G|
  283. | : : : : |
  284. | : : : : |
  285. | | : | : |
  286. |Y| : |B: |
  287. +---------+
  288. (North)
  289. +---------+
  290. |R: | : :G|
  291. | : : : : |
  292. | : : : : |
  293. | | : | : |
  294. |Y| : |B: |
  295. +---------+
  296. (South)
  297. +---------+
  298. |R: | : :G|
  299. | : : : : |
  300. | : : : : |
  301. | | : | : |
  302. |Y| : |B: |
  303. +---------+
  304. (East)
  305. +---------+
  306. |R: | : :G|
  307. | : : : : |
  308. | : : : : |
  309. | | : | : |
  310. |Y| : |B: |
  311. +---------+
  312. (Pickup)
  313. +---------+
  314. |R: | : :G|
  315. | : : : : |
  316. | : : : : |
  317. | | : | : |
  318. |Y| : |B: |
  319. +---------+
  320. (South)
  321. +---------+
  322. |R: | : :G|
  323. | : : : : |
  324. | : : : : |
  325. | | : | : |
  326. |Y| : |B: |
  327. +---------+
  328. (East)
  329. +---------+
  330. |R: | : :G|
  331. | : : : : |
  332. | : : : : |
  333. | | : | : |
  334. |Y| : |B: |
  335. +---------+
  336. (North)
  337. +---------+
  338. |R: | : :G|
  339. | : : : : |
  340. | : : : : |
  341. | | : | : |
  342. |Y| : |B: |
  343. +---------+
  344. (West)
  345. +---------+
  346. |R: | : :G|
  347. | : : : : |
  348. | : : : : |
  349. | | : | : |
  350. |Y| : |B: |
  351. +---------+
  352. (East)
  353. +---------+
  354. |R: | : :G|
  355. | : : : : |
  356. | : : : : |
  357. | | : | : |
  358. |Y| : |B: |
  359. +---------+
  360. (South)
  361. +---------+
  362. |R: | : :G|
  363. | : : : : |
  364. | : : : : |
  365. | | : | : |
  366. |Y| : |B: |
  367. +---------+
  368. (East)
  369. +---------+
  370. |R: | : :G|
  371. | : : : : |
  372. | : : : : |
  373. | | : | : |
  374. |Y| : |B: |
  375. +---------+
  376. (East)
  377. +---------+
  378. |R: | : :G|
  379. | : : : : |
  380. | : : : : |
  381. | | : | : |
  382. |Y| : |B: |
  383. +---------+
  384. (Dropoff)
  385. +---------+
  386. |R: | : :G|
  387. | : : : : |
  388. | : : : : |
  389. | | : | : |
  390. |Y| : |B: |
  391. +---------+
  392. (West)
  393. +---------+
  394. |R: | : :G|
  395. | : : : : |
  396. | : : : : |
  397. | | : | : |
  398. |Y| : |B: |
  399. +---------+
  400. (Dropoff)
  401. +---------+
  402. |R: | : :G|
  403. | : : : : |
  404. | : : : : |
  405. | | : | : |
  406. |Y| : |B: |
  407. +---------+
  408. (North)
  409. +---------+
  410. |R: | : :G|
  411. | : : : : |
  412. | : : : : |
  413. | | : | : |
  414. |Y| : |B: |
  415. +---------+
  416. (North)
  417. +---------+
  418. |R: | : :G|
  419. | : : : : |
  420. | : : : : |
  421. | | : | : |
  422. |Y| : |B: |
  423. +---------+
  424. (Dropoff)
  425. +---------+
  426. |R: | : :G|
  427. | : : : : |
  428. | : : : : |
  429. | | : | : |
  430. |Y| : |B: |
  431. +---------+
  432. (West)
  433. +---------+
  434. |R: | : :G|
  435. | : : : : |
  436. | : : : : |
  437. | | : | : |
  438. |Y| : |B: |
  439. +---------+
  440. (Pickup)
  441. +---------+
  442. |R: | : :G|
  443. | : : : : |
  444. | : : : : |
  445. | | : | : |
  446. |Y| : |B: |
  447. +---------+
  448. (East)
  449. +---------+
  450. |R: | : :G|
  451. | : : : : |
  452. | : : : : |
  453. | | : | : |
  454. |Y| : |B: |
  455. +---------+
  456. (West)
  457. +---------+
  458. |R: | : :G|
  459. | : : : : |
  460. | : : : : |
  461. | | : | : |
  462. |Y| : |B: |
  463. +---------+
  464. (East)
  465. +---------+
  466. |R: | : :G|
  467. | : : : : |
  468. | : : : : |
  469. | | : | : |
  470. |Y| : |B: |
  471. +---------+
  472. (North)
  473. +---------+
  474. |R: | : :G|
  475. | : : : : |
  476. | : : : : |
  477. | | : | : |
  478. |Y| : |B: |
  479. +---------+
  480. (South)
  481. +---------+
  482. |R: | : :G|
  483. | : : : : |
  484. | : : : : |
  485. | | : | : |
  486. |Y| : |B: |
  487. +---------+
  488. (South)
  489. +---------+
  490. |R: | : :G|
  491. | : : : : |
  492. | : : : : |
  493. | | : | : |
  494. |Y| : |B: |
  495. +---------+
  496. (East)
  497. +---------+
  498. |R: | : :G|
  499. | : : : : |
  500. | : : : : |
  501. | | : | : |
  502. |Y| : |B: |
  503. +---------+
  504. (West)
  505. +---------+
  506. |R: | : :G|
  507. | : : : : |
  508. | : : : : |
  509. | | : | : |
  510. |Y| : |B: |
  511. +---------+
  512. (East)
  513. +---------+
  514. |R: | : :G|
  515. | : : : : |
  516. | : : : : |
  517. | | : | : |
  518. |Y| : |B: |
  519. +---------+
  520. (South)
  521. +---------+
  522. |R: | : :G|
  523. | : : : : |
  524. | : : : : |
  525. | | : | : |
  526. |Y| : |B: |
  527. +---------+
  528. (West)
  529. +---------+
  530. |R: | : :G|
  531. | : : : : |
  532. | : : : : |
  533. | | : | : |
  534. |Y| : |B: |
  535. +---------+
  536. (West)
  537. +---------+
  538. |R: | : :G|
  539. | : : : : |
  540. | : : : : |
  541. | | : | : |
  542. |Y| : |B: |
  543. +---------+
  544. (South)
  545. +---------+
  546. |R: | : :G|
  547. | : : : : |
  548. | : : : : |
  549. | | : | : |
  550. |Y| : |B: |
  551. +---------+
  552. (North)
  553. +---------+
  554. |R: | : :G|
  555. | : : : : |
  556. | : : : : |
  557. | | : | : |
  558. |Y| : |B: |
  559. +---------+
  560. (East)
  561. +---------+
  562. |R: | : :G|
  563. | : : : : |
  564. | : : : : |
  565. | | : | : |
  566. |Y| : |B: |
  567. +---------+
  568. (East)
  569. +---------+
  570. |R: | : :G|
  571. | : : : : |
  572. | : : : : |
  573. | | : | : |
  574. |Y| : |B: |
  575. +---------+
  576. (North)
  577. +---------+
  578. |R: | : :G|
  579. | : : : : |
  580. | : : : : |
  581. | | : | : |
  582. |Y| : |B: |
  583. +---------+
  584. (North)
  585. +---------+
  586. |R: | : :G|
  587. | : : : : |
  588. | : : : : |
  589. | | : | : |
  590. |Y| : |B: |
  591. +---------+
  592. (West)
  593. +---------+
  594. |R: | : :G|
  595. | : : : : |
  596. | : : : : |
  597. | | : | : |
  598. |Y| : |B: |
  599. +---------+
  600. (South)
  601. +---------+
  602. |R: | : :G|
  603. | : : : : |
  604. | : : : : |
  605. | | : | : |
  606. |Y| : |B: |
  607. +---------+
  608. (North)
  609. +---------+
  610. |R: | : :G|
  611. | : : : : |
  612. | : : : : |
  613. | | : | : |
  614. |Y| : |B: |
  615. +---------+
  616. (West)
  617. +---------+
  618. |R: | : :G|
  619. | : : : : |
  620. | : : : : |
  621. | | : | : |
  622. |Y| : |B: |
  623. +---------+
  624. (West)
  625. +---------+
  626. |R: | : :G|
  627. | : : : : |
  628. | : : : : |
  629. | | : | : |
  630. |Y| : |B: |
  631. +---------+
  632. (North)
  633. +---------+
  634. |R: | : :G|
  635. | : : : : |
  636. | : : : : |
  637. | | : | : |
  638. |Y| : |B: |
  639. +---------+
  640. (East)
  641. +---------+
  642. |R: | : :G|
  643. | : : : : |
  644. | : : : : |
  645. | | : | : |
  646. |Y| : |B: |
  647. +---------+
  648. (East)
  649. +---------+
  650. |R: | : :G|
  651. | : : : : |
  652. | : : : : |
  653. | | : | : |
  654. |Y| : |B: |
  655. +---------+
  656. (East)
  657. +---------+
  658. |R: | : :G|
  659. | : : : : |
  660. | : : : : |
  661. | | : | : |
  662. |Y| : |B: |
  663. +---------+
  664. (Pickup)
  665. +---------+
  666. |R: | : :G|
  667. | : : : : |
  668. | : : : : |
  669. | | : | : |
  670. |Y| : |B: |
  671. +---------+
  672. (West)
  673. +---------+
  674. |R: | : :G|
  675. | : : : : |
  676. | : : : : |
  677. | | : | : |
  678. |Y| : |B: |
  679. +---------+
  680. (West)
  681. +---------+
  682. |R: | : :G|
  683. | : : : : |
  684. | : : : : |
  685. | | : | : |
  686. |Y| : |B: |
  687. +---------+
  688. (Dropoff)
  689. +---------+
  690. |R: | : :G|
  691. | : : : : |
  692. | : : : : |
  693. | | : | : |
  694. |Y| : |B: |
  695. +---------+
  696. (Dropoff)
  697. +---------+
  698. |R: | : :G|
  699. | : : : : |
  700. | : : : : |
  701. | | : | : |
  702. |Y| : |B: |
  703. +---------+
  704. (Pickup)
  705. +---------+
  706. |R: | : :G|
  707. | : : : : |
  708. | : : : : |
  709. | | : | : |
  710. |Y| : |B: |
  711. +---------+
  712. (West)
  713. +---------+
  714. |R: | : :G|
  715. | : : : : |
  716. | : : : : |
  717. | | : | : |
  718. |Y| : |B: |
  719. +---------+
  720. (Pickup)
  721. +---------+
  722. |R: | : :G|
  723. | : : : : |
  724. | : : : : |
  725. | | : | : |
  726. |Y| : |B: |
  727. +---------+
  728. (Dropoff)
  729. +---------+
  730. |R: | : :G|
  731. | : : : : |
  732. | : : : : |
  733. | | : | : |
  734. |Y| : |B: |
  735. +---------+
  736. (South)
  737. +---------+
  738. |R: | : :G|
  739. | : : : : |
  740. | : : : : |
  741. | | : | : |
  742. |Y| : |B: |
  743. +---------+
  744. (West)
  745. +---------+
  746. |R: | : :G|
  747. | : : : : |
  748. | : : : : |
  749. | | : | : |
  750. |Y| : |B: |
  751. +---------+
  752. (East)
  753. +---------+
  754. |R: | : :G|
  755. | : : : : |
  756. | : : : : |
  757. | | : | : |
  758. |Y| : |B: |
  759. +---------+
  760. (West)
  761. +---------+
  762. |R: | : :G|
  763. | : : : : |
  764. | : : : : |
  765. | | : | : |
  766. |Y| : |B: |
  767. +---------+
  768. (Pickup)
  769. +---------+
  770. |R: | : :G|
  771. | : : : : |
  772. | : : : : |
  773. | | : | : |
  774. |Y| : |B: |
  775. +---------+
  776. (Dropoff)
  777. +---------+
  778. |R: | : :G|
  779. | : : : : |
  780. | : : : : |
  781. | | : | : |
  782. |Y| : |B: |
  783. +---------+
  784. (South)
  785. +---------+
  786. |R: | : :G|
  787. | : : : : |
  788. | : : : : |
  789. | | : | : |
  790. |Y| : |B: |
  791. +---------+
  792. (North)
  793. +---------+
  794. |R: | : :G|
  795. | : : : : |
  796. | : : : : |
  797. | | : | : |
  798. |Y| : |B: |
  799. +---------+
  800. (North)
  801. +---------+
  802. |R: | : :G|
  803. | : : : : |
  804. | : : : : |
  805. | | : | : |
  806. |Y| : |B: |
  807. +---------+
  808. (North)
  809. +---------+
  810. |R: | : :G|
  811. | : : : : |
  812. | : : : : |
  813. | | : | : |
  814. |Y| : |B: |
  815. +---------+
  816. (North)
  817. +---------+
  818. |R: | : :G|
  819. | : : : : |
  820. | : : : : |
  821. | | : | : |
  822. |Y| : |B: |
  823. +---------+
  824. (South)
  825. +---------+
  826. |R: | : :G|
  827. | : : : : |
  828. | : : : : |
  829. | | : | : |
  830. |Y| : |B: |
  831. +---------+
  832. (West)
  833. +---------+
  834. |R: | : :G|
  835. | : : : : |
  836. | : : : : |
  837. | | : | : |
  838. |Y| : |B: |
  839. +---------+
  840. (Dropoff)
  841. +---------+
  842. |R: | : :G|
  843. | : : : : |
  844. | : : : : |
  845. | | : | : |
  846. |Y| : |B: |
  847. +---------+
  848. (South)
  849. +---------+
  850. |R: | : :G|
  851. | : : : : |
  852. | : : : : |
  853. | | : | : |
  854. |Y| : |B: |
  855. +---------+
  856. (East)
  857. +---------+
  858. |R: | : :G|
  859. | : : : : |
  860. | : : : : |
  861. | | : | : |
  862. |Y| : |B: |
  863. +---------+
  864. (South)
  865. +---------+
  866. |R: | : :G|
  867. | : : : : |
  868. | : : : : |
  869. | | : | : |
  870. |Y| : |B: |
  871. +---------+
  872. (Pickup)
  873. +---------+
  874. |R: | : :G|
  875. | : : : : |
  876. | : : : : |
  877. | | : | : |
  878. |Y| : |B: |
  879. +---------+
  880. (East)
  881. +---------+
  882. |R: | : :G|
  883. | : : : : |
  884. | : : : : |
  885. | | : | : |
  886. |Y| : |B: |
  887. +---------+
  888. (North)
  889. +---------+
  890. |R: | : :G|
  891. | : : : : |
  892. | : : : : |
  893. | | : | : |
  894. |Y| : |B: |
  895. +---------+
  896. (East)
  897. +---------+
  898. |R: | : :G|
  899. | : : : : |
  900. | : : : : |
  901. | | : | : |
  902. |Y| : |B: |
  903. +---------+
  904. (South)
  905. +---------+
  906. |R: | : :G|
  907. | : : : : |
  908. | : : : : |
  909. | | : | : |
  910. |Y| : |B: |
  911. +---------+
  912. (South)
  913. +---------+
  914. |R: | : :G|
  915. | : : : : |
  916. | : : : : |
  917. | | : | : |
  918. |Y| : |B: |
  919. +---------+
  920. (South)
  921. +---------+
  922. |R: | : :G|
  923. | : : : : |
  924. | : : : : |
  925. | | : | : |
  926. |Y| : |B: |
  927. +---------+
  928. (East)
  929. +---------+
  930. |R: | : :G|
  931. | : : : : |
  932. | : : : : |
  933. | | : | : |
  934. |Y| : |B: |
  935. +---------+
  936. (Pickup)
  937. +---------+
  938. |R: | : :G|
  939. | : : : : |
  940. | : : : : |
  941. | | : | : |
  942. |Y| : |B: |
  943. +---------+
  944. (South)
  945. +---------+
  946. |R: | : :G|
  947. | : : : : |
  948. | : : : : |
  949. | | : | : |
  950. |Y| : |B: |
  951. +---------+
  952. (Pickup)
  953. +---------+
  954. |R: | : :G|
  955. | : : : : |
  956. | : : : : |
  957. | | : | : |
  958. |Y| : |B: |
  959. +---------+
  960. (West)
  961. +---------+
  962. |R: | : :G|
  963. | : : : : |
  964. | : : : : |
  965. | | : | : |
  966. |Y| : |B: |
  967. +---------+
  968. (South)
  969. +---------+
  970. |R: | : :G|
  971. | : : : : |
  972. | : : : : |
  973. | | : | : |
  974. |Y| : |B: |
  975. +---------+
  976. (Pickup)
  977. +---------+
  978. |R: | : :G|
  979. | : : : : |
  980. | : : : : |
  981. | | : | : |
  982. |Y| : |B: |
  983. +---------+
  984. (East)
  985. +---------+
  986. |R: | : :G|
  987. | : : : : |
  988. | : : : : |
  989. | | : | : |
  990. |Y| : |B: |
  991. +---------+
  992. (West)
  993. total reward: -695

参考文献资料:

Temporal difference (TDlearning (Sutton1988Barto et al., 1990; Bertekas and Tsitsiklis, 1996; Sutton and Barto1998is a form of error-driven learning used in feed-forward neural networks in which input patterns(e.g., patterns of place cell activityare to be associated with output values(e.g., an expectation of how close the goal is), but where additionally there isinformation to be had in the sequence in which input patterns and outputvalues present themselves.


 

文章来源: zhangrelay.blog.csdn.net,作者:zhangrelay,版权归原作者所有,如需转载,请联系作者。

原文链接:zhangrelay.blog.csdn.net/article/details/92012795

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。