RL Optimization PPO Algorithm - 搜索视频

RDP Algorithm

RDP Algorithm

2022年11月14日

thecodingtrain.com

Balanced Reposition Mutation Particle Swarm Optimization

Balanced Reposition Mutation Particle Swarm Optimization

2024年1月1日

Direct Preference Optimization (DPO) explained

Direct Preference Optimization (DPO) explained

已浏览 100 次2024年12月27日

【PPO】【已完结】PPO第二部分完整实现和代码解读

【PPO】【已完结】PPO第二部分完整实现和代码解读

已浏览 6418 次4 周前

bilibili东川路第一可爱猫猫虫

算法面试考点复习 [LLM-RL-PPO]

算法面试考点复习 [LLM-RL-PPO]

已浏览 90 次2 周前

bilibili小飞鱼的日常

【PPO的前身】【TRPO】第一部分直观理解与算法理论

【PPO的前身】【TRPO】第一部分直观理解与算法理论

已浏览 7053 次2 个月之前

bilibili东川路第一可爱猫猫虫

从经典PPO到PPO-RLHF(一) 构建RL到LLM的概念映射

从经典PPO到PPO-RLHF(一) 构建RL到LLM的概念映射

已浏览 2651 次2 周前

bilibili东川路第一可爱猫猫虫

ChatGPT狂飙：强化学习RLHF与PPO！【ChatGPT】系列第02篇

已浏览 3077 次2023年2月12日

Policy Optimization in Reinforcement Learning

已浏览 3 次3 周前

🔍 Understanding Proximal Policy Optimization (PPO) Advanced Rei…

3.4 Optimal Policies and Optimal Value Functions | DRL Course

已浏览 5 次2 个月之前

YouTubeBarmenteros FX

What is Proximal Policy Optimization ( PPO)?

YouTubeData Science Made Easy

GRPO: The Reinforcement Learning Trick That Changed Everything

已浏览 31 次3 周前

YouTubemathtartic

Proximal Policy Optimization (PPO) - How to train Large Language Mod…

已浏览 121 次1 个月前

bilibilibender2016

Advanced Concepts in Large Language Models. RL / SFT / MHA …

Direct Preference Optimization: Forget RLHF (PPO)

已浏览 1.6万次2023年6月6日

YouTubeDiscover AI

A great explanation of link-time optimization (LTO)

2018年2月4日

redditredditthinks

Proximal Policy Optimization (PPO) With TensorFlow 2.x | Towards Da…

2020年9月21日

towardsdatascience.com

DPO Meets PPO: Reinforced Token Optimization for RLHF

已浏览 168 次2024年4月30日

YouTubeArxiv Papers

Further Contemporary RL Algorithms (TRPO, PPO - Lecture …

已浏览 515 次2023年7月5日

YouTubePaderborn University - Department LEA

Proximal Policy Optimization is Easy with Tensorflow 2 | PPO Tuto…

已浏览 1.3万次2022年1月12日

YouTubeMachine Learning with Phil

PPO Algorithm

已浏览 4 次6 个月之前

YouTubeMachine Learning and Artificial Intelligence

Policy Optimization & TRPO & PPO | RL原理讲解系列 #3

已浏览 11 次3 个月之前

7-PPO算法原理与实验实现

已浏览 713 次2024年9月19日

bilibilikindlytrees

近端策略优化算法 PPO（Proximal Policy Optimization Algorithms）

已浏览 235 次1 个月前

bilibili小迪学AI

简单解释近端策略优化算法（PPO）：全白板详细讲解

已浏览 457 次4 个月之前

bilibilirobert_zeng

[论文精读] Deepseek r1 (prepare) - RLHF & PPO & GRPO

已浏览 1.2万次9 个月之前

bilibili酸果酿

98.RL专题：PPO中为什么不直接计算 θ 与 θ′ 之间的距离？

已浏览 4350 次7 个月之前

bilibili文言AI

DPO直接偏好优化算法（动画讲解）

已浏览 8116 次2024年10月26日

bilibili数源创域

97.RL专题：简述一下PPO算法。其与TRPO算法有何关系呢？

已浏览 3431 次8 个月之前

bilibili文言AI

观看更多视频