👾 xlinker's blog
Search
Search
Dark mode
Light mode
Explorer
LLM
post training
DPO
Let's Verify Step by Step阅读笔记
llm应该如何做rl
OpenAI o1的PRM
PRM800K标注指南
RLHF
生成式奖励模型
Adam优化器
BitNet:直接训练一个低比特模型
huggingface transformers
LLM投机解码
Tokenization
大模型并行训练
大语言模型
如何计算Attention
强化学习笔记
旋转位置编码
语言模型与压缩
mlsys
推理
推理时的batching
推理时的kv-cache
推理框架vLLM的内存管理
训练
GaLore:利用梯度的低秩减少优化器状态的存储
Gradient Checkpointing
张量并行
数据并行
流水线并行
混合精度训练
矩阵乘的反向传播
训练神经网络的时间开销
Alpa - 算子内和算子间的自动并行
cuda编程
Roofline model
深度学习量化
集合通信
其他
neo4j入门
softmax与softargmax
SVD分解
压缩算法入门
维特比算法
计算机网络笔记
工具
docker相关
github workflows
pybind11记录
python debug小技巧
python单元测试模块-pytest
ssh使用记录
各种网络问题
把obsidian笔记部署到github上
项目迁移
强化学习
elo分数
GAE:广义优势函数估计
Muzero的直观理解
MuZero相关工作
机器人模仿学习
策略梯度算法
生活
If I needed someone
real love
The Beach Boys
The Beatles
一天到晚游泳的鱼
口是心非 抛物线版本
听歌清单
咽喉炎
小时候
张雨生
影视清单
罗大佑
肩颈酸痛
Home
❯
强化学习
Folder: 强化学习
6 items under this folder.
Nov 20, 2024
GAE:广义优势函数估计
Nov 20, 2024
MuZero相关工作
强化学习
Nov 20, 2024
Muzero的直观理解
强化学习
todo
Nov 20, 2024
elo分数
Nov 20, 2024
机器人模仿学习
todo
Nov 20, 2024
策略梯度算法