作者小头像 Lv.3
更多个人资料
203 成长值
0 关注
3 粉丝
+ 关注 私信

个人介绍

985高校A+学科博士二年级在读,CSDN专家博主,人工智能领域优质创作者

感兴趣或擅长的领域

开发语言、嵌入式、人工智能、软件开发
个人勋章
TA还没获得勋章~
成长雷达
200
3
0
0
0

个人资料

个人介绍

985高校A+学科博士二年级在读,CSDN专家博主,人工智能领域优质创作者

感兴趣或擅长的领域

开发语言、嵌入式、人工智能、软件开发

达成规则

以上满足项可达成此勋章

  • 博客
  • 关注
  • 粉丝
  • 论坛
全部时间
全部时间
最近三天
最近一周
最近一月
  • 全部
  • 强化学习
【MADRL】独立Q学习(IQL)算法
独立Q学习 ---- IQL(Independent Q-Learning)是多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)中一种经典且简单的算法,主要思想是将每个智能体视为独立的学习者,各自执行单智能体的 Q-learning 算法。尽管 IQL 是一个早期的方法,但它在处理多智能体任务时具有一定的应用价值。 [Python] IQL实现(可
Python 人工智能 区块链 数据库 机器学习
作者小头像 不去幼儿园 2024-12-20 11:14:58
3225
0
0
2024-12-20 11:14:58
999+
0
0
【MADRL】多智能体近端策略优化(MAPPO)算法
多智能体近端策略优化算法MAPPO(Multi-Agent Proximal Policy Optimization)是PPO(Proximal Policy Optimization)在多智能体环境中的一种扩展,它通过在多智能体系统中引入PPO的策略优化机制,实现了在协作和竞争环境中更加高效的策略学习。MAPPO是一种基于策略梯度的多智能体强化学习算法,特别适用于混合协作和竞争的多智能体场景。
Python 人工智能 机器学习 神经网络 网络
作者小头像 不去幼儿园 2024-12-20 11:13:16
2514
0
0
2024-12-20 11:13:16
999+
0
0
【MADRL】多智能体价值分解网络(VDN)算法
多智能体强化学习(MARL, Multi-Agent Reinforcement Learning)中,一个关键挑战是如何在多个智能体的协作环境下学习有效的策略。价值分解网络(VDN, Value Decomposition Network)是解决这一问题的一种重要方法,特别是在 集中训练,分散执行
Python 人工智能 机器学习 神经网络 网络
作者小头像 不去幼儿园 2024-12-20 11:11:56
1779
0
0
2024-12-20 11:11:56
999+
0
0
【MADRL】多智能体双延迟深度确定性策略梯度(MATD3)算法
MATD3(Multi-Agent Twin Delayed Deep Deterministic Policy Gradient)是基于TD3(Twin Delayed DDPG)算法的多智能体版本。TD3是深度确定性策略梯度(DDPG)算法的一个改进版本,主要针对其在确定性策略学习中的一些不稳定性进行了增强。MATD3则扩展了TD3,使其能够在多智能体环境下进行训练和执行。 DDPG算法用于连
Python 人工智能 机器学习 神经网络 网络
作者小头像 不去幼儿园 2024-12-20 11:10:10
2172
0
0
2024-12-20 11:10:10
999+
0
0
【MADRL】反事实多智能体策略梯度(COMA)算法
反事实多智能体策略梯度法COMA (Counterfactual Multi-Agent Policy Gradient) 是一种面向多智能体协作问题的强化学习算法,旨在通过减少策略梯度的方差,来提升去中心化智能体的学习效果。 COMA 算法最早由 DeepMind 团队提出,论文标题为 "Counterfactual Multi-Agent Policy Gradients",由 Jakob
Python 人工智能 机器学习 神经网络 网络
作者小头像 不去幼儿园 2024-12-20 11:08:24
2074
0
0
2024-12-20 11:08:24
999+
0
0
【MADRL】基于MADRL的单调价值函数分解(QMIX)算法
基于MADRL的单调价值函数分解(Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning)QMIX是一种用于多智能体强化学习的算法,特别适用于需要协作的多智能体环境,如分布式控制、团队作战等场景。QMIX 算法由 Rashid 等人在 2018 年提出,其核心思想是通过一种混合网络(Mix
Python 人工智能 机器学习 神经网络 网络
作者小头像 不去幼儿园 2024-12-20 11:06:39
1768
0
0
2024-12-20 11:06:39
999+
0
0
【MADRL】多智能体深度确定性策略梯度(MADDPG )算法
MADDPG (Multi-Agent Deep Deterministic Policy Gradient) 是一种用于多智能体强化学习环境的算法。它由2017年发布的论文《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》提出。MADDPG结合了深度确定性策略梯度(DDPG)算法的思想,并对多智能体场
Python 人工智能 机器学习 神经网络 网络
作者小头像 不去幼儿园 2024-12-20 11:04:43
2304
0
0
2024-12-20 11:04:43
999+
0
0
【MADRL】多智能体深度强化学习《纲要》
1.【MADRL】多智能体深度强化学习《纲要》 2.【MADRL】独立Q学习(IQL)算法 3.【MADRL】基于MADRL的单调价值函数分解(QMIX)算法 4.【MADRL】多智能体深度确定性策略梯度(MADDPG)算法 5.【MADRL】多智能体双延迟深度确定性策略梯度(MATD3)算法 6.【MADRL】多智能体近似策略优化(MAPPO)算法 ​ 7.【MADRL】反事实多智能体
机器学习 深度学习 神经网络
作者小头像 不去幼儿园 2024-12-20 11:02:31
1982
0
0
2024-12-20 11:02:31
999+
0
0
【Hierarchical RL】不允许你不了解分层强化学习(总结篇)
分层强化学习从月初更新到了月中,也准备告一段落了,后续深入研究强化学习,分层的理念多多少少都会涉及。面对复杂场景下的智能体决策问题,如何将复杂问题简单化总是不可避免的。如果后续还有值得分享算法,也会再开单文介绍。
Python 人工智能 机器人 机器学习 神经网络
作者小头像 不去幼儿园 2024-12-05 20:46:50
6392
0
0
2024-12-05 20:46:50
999+
0
0
【Hierarchical RL】离线策略修正分层强化学习(HIRO)算法
离线策略修正分层强化学习,Hierarchical Reinforcement Learning with Off-Policy Correction (HIRO) 是一种基于分层强化学习的算法,旨在解决长时间跨度和稀疏奖励问题。HIRO 特别引入了离策略(off-policy)校正机制,允许高层策略利用低层策略的经验,而不会因为低层策略的更新而产生偏差。
Python 人工智能 机器学习 神经网络 网络
作者小头像 不去幼儿园 2024-12-05 20:45:05
1993
0
0
2024-12-05 20:45:05
999+
0
0
总条数:31
10
10
20
50
100
  • 1
  • 2
  • 3
  • 4

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
作者小头像
作者小头像
快速交付
+ 关注