“这是我写过的最精神错乱的作品之一。”刚刚,特斯拉前 AI 总监、OpenAI 创始成员 Andrej Karpathy(安德烈·卡帕西)发布了自己最新的开源项目,一个名为 nanochat 的存储库。截止当前,该项目已在 GitHub 破了 ...
北京时间10月13日,AI大神、OpenAI创始成员之一Andrej Karpathy在GitHub上开源了他的nanochat项目,短短一天时间就收获了上万Star! 他称这是他写过最疯狂的作品之一,仅用100美元,8000行手搓代码即可训练出能进行基础对话、创作故事诗歌、回答简单问题的简易克隆ChatGPT。 nanochat是一个极简、从零开始的全栈训练/推理 pipeline,涵盖分词器训 ...
作者 | Daniel Dominguez译者 | 平川Thinking Machines 公司发布了 Tinker,这是一个用于开放权重语言模型微调的 API。这项服务旨在帮助开发者减少基础设施开销,并提供托管的调度、GPU 分配和检查点处理等功能 ...
卡帕西自豪地表示,使用nanochat可以在花费约100美元的情况下,快速训练出一个能够对话的简易版大语言模型(LLM)。只需启动云GPU服务器并运行一个脚本,用户便可在类ChatGPT的界面上与自己训练的模型进行互动。这一过程的效率令很多开发者和研究者感到惊喜。
需要注意的是,由于目前对强化学习(RL)的支持还不太完善,在计算总耗时时把它排除了。到监督微调(SFT)阶段为止,整个过程运行了3小时51分钟, 总成本为(3+51/60)×24=92.4美元 (如果加上强化学习,现在总时间会更接近5小时)。
同日,华为昇腾、 寒武纪 ( 1325.000, 1.50, 0.11%) 等国产芯片厂商宣布实现了对DeepSeek-V3.2-Exp的适配。针对特有的Tilelang编程语言, 昇腾已经实现TileLang的Sparse Flash ...
“这是我写过的最精神错乱的作品之一。 “这是我写过的最精神错乱的作品之一。”刚刚,特斯拉前 AI 总监、OpenAI 创始成员 Andrej Karpathy(安德烈·卡帕西)发布了自己最新的开源项目,一个名为 nanochat ...
1. 上周科创板上涨3.93%,整体交易活跃度有所上升。 2. 科创板整体PE为74.04,与科创50的估值差较上周扩大。 3. DeepSeek v3.2首次使用国产开源GPU语言TileLang,对标英伟达CUDA,国产AI生态闭环初现。
该项目以"极简主义"和"全流程整合"为核心特色,将构建类ChatGPT模型所需的完整技术链浓缩在8300行代码中。从数据预处理、模型预训练、微调优化,到最终的Web交互界面部署,所有环节均实现无缝衔接。开发者仅需配备云端GPU服务器,运行单一脚本即可 ...
智东西10月14日消息,昨夜,前特斯拉人工智能与自动驾驶视觉总监、OpenAI研究员安德烈卡帕西(Andrej Karpathy)开源 nanochat, 号称可以只用不到 100美元 (约合人民币711.5元)训练出“简易版ChatGPT”,一经发布在GitHub上就获得了5.6k星。
项目基于Rust语言开发,代码总量约8000行,涵盖了从分词器训练到模型预训练、中期训练、监督微调及强化学习的完整流程。用户只需启动云GPU服务器,运行脚本,最快4小时即可在网页界面与训练的大模型对话。 开发过程中,卡帕西摒弃了Hugging ...
本文的第一作者为斯坦福大学博士生 Jacky Kwok。共同通讯作者包括英伟达自动驾驶研究总监 Marco Pavone、斯坦福大学计算机系教授兼 DeepMind 科学家 Azalia Mirhoseini,以及 UC 伯克利教授 Ion ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果