DeepMind团队提出了一种全新的方法,通过多代智能体在不同环境中进行交互,成功实现了强化学习规则的自主发现。他们开发的DiscoRL系统在多个基准测试中展现出了惊人的实力。在经典的Atari游戏测试中,该系统训练出的Disco57规则以13.86的四分位数平均值(IQM)超越了目前主流的算法,如MuZero和Dreamer等。此外,DiscoRL在运算效率上也显著优于同类技术。 更值得一提的是 ...
在Alexandr Wang看来,AI大模型是一种全新的计算机,而「提示工程师」,就相当于给它编程的程序员。如果能通过提示工程找出合适的提示词,就会激发AI的最大潜力。
除了前述机构,跟投名单上还出现了硅谷最大牌的天使投资人:亚马逊创始人贝索斯、前谷歌CEO施密特、AI领域传奇人物杰夫·迪恩、硅谷投资人埃拉德·吉尔等等,连NVIDIA也透过旗下基金NVentures站台助威。
Google DeepMind 团队近期在《自然》杂志上发表了关于 DiscoRL 算法的突破性研究,该算法实现了 强化学习 (RL) 规则的自主发现,并在多项基准测试中展现出超越人工设计算法的卓越性能。这一进展预示着 AI 领域正经历着从人工设计向自动发现的范式转变,或将重塑未来高级 AI 系统的核心算法。
DeepMind宣布与伦敦大学学院(UCL)合作,共同推出了一套免费的 “AI研究基础”(AI Research Foundations) 课程 这套课程现已在Google ...
在效率维度,DiscoRL展现出显著优势。最优版本仅需在每个Atari游戏进行约6亿步训练(相当于57个游戏3轮实验),即可发现高性能规则。相比之下,传统人工设计方法需要数十倍实验次数和人力投入。这种效率提升源于算法对计算资源的智能利用——随着参与训练的环境数量增加,系统在未知测试场景中的表现呈指数级增长。
A:Torax是DeepMind专门为核聚变开发的软件程序,用于模拟Sparc反应堆内燃烧的等离子体,帮助找出如何正确控制等离子体的方法。该软件将与其他AI模型协同使用,以找出实现聚变的最佳方式。
人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化学习(RL),相关研究也已经持续了几十年,但 让智能体自主开发高效的 RL 算法的目标始终难以实现 。
谷歌 DeepMind 的最新研究试图打破这一现状,他们受到大型语言模型微调中强化学习阶段成功经验的启发,提出了一种面向机器人学的两阶段后训练方法,第一阶段是监督微调(Supervised Fine-Tuning, SFT),第二阶段是自我提升(Self-Improvement)。
近日,能源初创公司英联邦聚变系统(Commonwealth Fusion Systems, CFS)宣布与谷歌的 DeepMind 部门合作,利用人工智能技术优化其即将上线的 Sparc 核聚变反应堆的运行。这一合作将通过 DeepMind ...
DeepMind亏损仍在继续。 近日,这家世界顶级明星公司向英国公司注册局备案提交了最新财务报告,报告显示,DeepMind 2019亏损达4.77亿英镑(约合42亿人民币)。 相比于2018年的4.70亿英镑亏损,增长了1.5%。 DeepMind是一家人工智能初创公司,成立10年来研发了众多明星 ...
在此基础上,本文提出了一个通用自适应攻击框架(General Adaptive Attack Framework),并采用几种通用的优化方法(比如梯度下降、强化学习、随机搜索和人类辅助探索)进行系统化调整,结果成功绕过了 12 ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果
反馈