原文:
OpenAI重磅免费的强化学习最强修炼系列 | 算法基础(22)
深度强化学习导引
宋_JL 阅715 转6
ChatGPT第二弹:PPO算法
520jefferson 阅1971 转5
推特爆款:谷歌大脑工程师的深度强化学习劝退文
万语千言525 阅265 转2
IEEE预发:DeepMind主攻的深度强化学习3大核心算法及7大挑战
点画狼藉 阅796 转5
【ICML2018】63篇强化学习论文全解读
yangtz008 阅383 转3
可视化解释的强化学习(第6部分):分步实施的策略梯度
新用户0175WbuX 阅47
如何一文读懂「进化策略」?这里有几组动图!
taomaohu860706 阅79
RL之PG:基于TF利用策略梯度算法玩Cartpole游戏实现智能得高分
处女座的程序猿 阅10
强化学习必知二要素:计算效率和样本效率
taotao_2016 阅164
【重磅】马斯克的AI野心——OpenAI Gym系统深度解析
刘真合 阅175
快速上手深度强化学习?学会TensorForce就够了
玉宇书房 阅495
是时候抄底了?Python强化学习炒股,走向人生巅峰(或倾家荡产)
heii2 阅297 转3
深度增强学习暑期学校 PPT讲解 | 36大数据
暖宝宝j 阅428 转2
一个求解零和博弈的通用框架:让人工智能自己发现算法
长沙7喜 阅19
深度强化学习入门,这一篇就够了!
LibraryPKU 阅13125 转85
(转)搜索引擎中网络爬虫的搜索策略
A_Geek 阅504 转10
逻辑斯蒂回归(Logistic Regression)
大数据部落 阅365
ICML 2016 谷歌 DeepMind 论文上辑(大咖点评附下载)
LZS2851 阅493 转3
MuZero:用学习模型规划MuZero玩转雅达利、围棋、国际象棋和日本将棋
印度阿三17 阅161
使用价值迭代网络进行规划
黄元昌5533 阅266
RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好
天承办公室 阅17
强化学习的基本迭代方法
四地贤夫 阅170
B站学强化学习?港中文周博磊变身up主,中文课程已上线
托尼虎 阅72
Nature重磅:OpenAI科学家提出全新增强学习算法,玩游戏可完胜人类,或推动AI向真正智能学习体进化
学术头条 阅67
Learning to Rank算法介绍:RankNet,LambdaRank,LambdaMart
Clay*more 阅25
首页
留言交流
联系我们
回顶部