Hello

Thinking will not overcome fear but action will.

Evaluation

Evaluation of algorithm

study Evaluation index of algorithm 精确率与召回率精确率与召回率多用于二分类问题。精确率（Precision）指的是模型判为正的所有样本中有多少是真正的正样本；召回率（Recall）指的是所有正样本有多少被模型判为正样本，即召回。设模型输出的正样本集合为A，真正的正样本集合为B，则有：有时候需要在精确率与召回率间进行权衡，一种选择是...

Posted by Zhourui on June 7, 2023

QMIX

multi agent

study 联合动作值函数在多智能体强化学习中一个关键的问题就是如何学习联合动作值函数，因为该函数的参数会随着智能体数量的增多而成指数增长，如果动作值函数的输入空间过大，则很难拟合出一个合适函数来表示真实的联合动作值函数。另一个问题就是学得了联合动作值函数后，如何通过联合值函数提取出一个优秀的分布式的策略。这其实是单智能体强化学习拓展到MARL的核心问题。 VDN：局部值函数只...

Posted by Zhourui on June 4, 2023

psro

Policy-space response oracles博弈论与 RL 算法结合

study PSRO: Policy-space response oracles博弈论与 RL 算法结合智能体间复杂的关系和智能体之间的影响让 MARL 变得极其复杂。这个时候，博弈论的引入就会让建模变得轻松很多，博弈论的引入让智能体在过去与环境打交道的基础上又学会了如何与其他智能体打交道。纳什均衡（Nash Equilibrium, NE）是指的游戏中的一个状态，在这个状态下...

Posted by Zhourui on June 1, 2023

multi-agent reinforcement learning

AlphaStar

study 摘要强化学习旨在通过试错的方式来学习序列决策问题的最优策略。多智能体强化学习要解决群体智能相关的问题，其研究往往涉及群体内智能体之间的协作与对抗。在算法方面，解决此类群体问题的一个重要的途径是基于群体的多智能体强化学习方法，本文聚焦于多智能体强化学习和种群训练。主要围绕基于多智能体强化学习主宰星际争霸游戏这篇论文，研究它的训练过程，包括监督学习、单智能体的强化学习和多智能...

Posted by Zhourui on May 31, 2023

My thought about doing research in the big model time

research

thought Do research in the big model time The era of big models is upon us. Big models are large-scale neural networks that can perform a variety of tasks, such as natural language understandi...

Posted by Zhourui on May 8, 2023

My First Post

Hello World, Hello Blog

Hey 这是我的第一篇博客。

Posted by Zhourui on May 6, 2023

ABOUT ME

Goals determine what you going to be!

✉️ little.devil.happy@gmail.com