训练这个迷你版ChatGPT的项目也开源了,名叫nanochat,它把训练一个大语言模型的所有环节,从头到尾,浓缩在了一个任何人都能跑起来的代码库里。卡帕西说,这是“一百美元能买到的最好的ChatGPT”。
特斯拉前AI团队负责人、 OpenAI 创始成员安德烈·卡帕西(Andrej Karpathy)发布重磅项目: nanochat —— 一个极简但完整的「从零构建 ChatGPT 」训练框架。只需要约100美元,就能在不到4小时内完成完整的类 ChatGPT 训练流程,包括预训练、微调(SFT)和强化学习(RL)。
特斯拉前AI总监Andrej Karpathy发布了其最新开源项目 nanochat ,引发了广泛关注。该项目是一个极简的、从零构建的全流程训练推理工具链,用于搭建简易版ChatGPT复现模型。nanochat仅包含约8000行代码,主要使用Python(PyTorch)和少量Rust,目前已在GitHub上获得了超过14.5k Star。
“这是我写过的最精神错乱的作品之一。 “这是我写过的最精神错乱的作品之一。”刚刚,特斯拉前 AI 总监、OpenAI 创始成员 Andrej Karpathy(安德烈·卡帕西)发布了自己最新的开源项目,一个名为 nanochat ...
整理 | 屠敏出品 | CSDN(ID:CSDNnews)今天,前 OpenAI 联合创始人、Eureka Labs 创始人 Andrej Karpathy(安德烈·卡帕西)带来了一个全新的开源项目——nanochat。用他自己的话说,这是他写过的最 ...
该项目以"极简主义"和"全流程整合"为核心特色,将构建类ChatGPT模型所需的完整技术链浓缩在8300行代码中。从数据预处理、模型预训练、微调优化,到最终的Web交互界面部署,所有环节均实现无缝衔接。开发者仅需配备云端GPU服务器,运行单一脚本即可 ...
与卡帕西此前开发的nanoGPT不同,nanochat构建了完整的全栈训练/推理流程。项目采用Rust语言实现分词器训练,在FineWeb数据集上进行Transformer模型预训练,并通过CORE指标体系评估模型的基础能力。开发者仅需启动云GPU实 ...
需要注意的是,由于目前对强化学习(RL)的支持还不太完善,在计算总耗时时把它排除了。到监督微调(SFT)阶段为止,整个过程运行了3小时51分钟, 总成本为(3+51/60)×24=92.4美元 (如果加上强化学习,现在总时间会更接近5小时)。
整体成本只需约100美元 (在8×H100上训练4小时),就能训练复刻出一个可进行基础对话、创作故事诗歌、回答简单问题的简易版ChatGPT模型。 举个具体的例子:一个深度为30的模型训练24小时后(相当于GPT-3 Small ...
访问显示的 URL(比如 Lambda 上是 http://209.20.xxx.xxx:8000/),就能像使用 ChatGPT 一样与你的模型聊天。