Skip to content

title: DeepSeek description: DeepSeek相关知识 aside: false

介绍

学习资料

课程地址: https://www.boyuai.com/elites/course/xVqhU42F5IDky94x/video/chaFNX1CI2sPPdSb

王树森老师强化学习: B站视频

王树森老师GIT地址: https://github.com/wangshusen/DRL

源码地址: https://github.com/boyu-ai/Hands-on-RL/tree/main

源码地址: https://github.com/DeepRLChinese/DeepRL-Chinese

TRL - Transformer Reinforcement Learning 强化学习 1738822113522源码地址: https://github.com/huggingface/trl.git

加州伯克利大学在读博士Jiayi Pan的研究团队成功地以极低的成本(低于30美元)复现了 DeepSeek R1-Zero 的关键技术 源码地址: https://github.com/Jiayi-Pan/TinyZero

港科大近日宣布完成了 R1 模型的复现和开源。 源码地址: https://github.com/hkust-nlp/simpleRL-reason

huggingface构建 R1 管道的缺失部分,以便每个人都可以重现并在此基础上构建。 源码地址: https://github.com/huggingface/open-r1

Mini-R1: Reproduce Deepseek R1 „aha moment“ a RL tutorial 源码地址: https://github.com/philschmid/deep-learning-pytorch-huggingface/blob/main/training/mini-deepseek-r1-aha-grpo.ipynb

open-thoughts目标是策划一个推理数据集来训练最先进的小型推理模型 源码地址: https://github.com/open-thoughts/open-thoughts