Appearance
title: DeepSeek description: DeepSeek相关知识 aside: false
介绍
学习资料
课程地址: https://www.boyuai.com/elites/course/xVqhU42F5IDky94x/video/chaFNX1CI2sPPdSb
王树森老师强化学习: B站视频
王树森老师GIT地址: https://github.com/wangshusen/DRL
源码地址: https://github.com/boyu-ai/Hands-on-RL/tree/main
源码地址: https://github.com/DeepRLChinese/DeepRL-Chinese
TRL - Transformer Reinforcement Learning 强化学习 源码地址: https://github.com/huggingface/trl.git
加州伯克利大学在读博士Jiayi Pan的研究团队成功地以极低的成本(低于30美元)复现了 DeepSeek R1-Zero 的关键技术 源码地址: https://github.com/Jiayi-Pan/TinyZero
港科大近日宣布完成了 R1 模型的复现和开源。 源码地址: https://github.com/hkust-nlp/simpleRL-reason
huggingface构建 R1 管道的缺失部分,以便每个人都可以重现并在此基础上构建。 源码地址: https://github.com/huggingface/open-r1
Mini-R1: Reproduce Deepseek R1 „aha moment“ a RL tutorial 源码地址: https://github.com/philschmid/deep-learning-pytorch-huggingface/blob/main/training/mini-deepseek-r1-aha-grpo.ipynb
open-thoughts目标是策划一个推理数据集来训练最先进的小型推理模型 源码地址: https://github.com/open-thoughts/open-thoughts