2 小时on MSN
DeepMind新突破:AI智能体自主发现RL算法,性能超主流算法
当人工智能(AI)开始具备自主“进化”能力,人类在技术发展中的角色或将被重新定义。近日,Google ...
15 小时on MSN
DeepMind新突破:AI智能体自主发现RL算法,性能超越人工设计
人工智能领域长期追求的目标之一,是构建能够在复杂动态环境中自主决策、实现目标的智能体。强化学习作为实现这一目标的核心技术,虽历经数十年研究,但让智能体自主设计高效强化学习算法的难题始终未解。近日,Google ...
DeepMind团队提出了一种全新的方法,通过多代智能体在不同环境中进行交互,成功实现了强化学习规则的自主发现。他们开发的DiscoRL系统在多个基准测试中展现出了惊人的实力。在经典的Atari游戏测试中,该系统训练出的Disco57规则以13.86的四分位数平均值(IQM)超越了目前主流的算法,如MuZero和Dreamer等。此外,DiscoRL在运算效率上也显著优于同类技术。 更值得一提的是 ...
在人工智能(AI)迅速发展的今天,技术的进步不断重新定义着人类在科技领域的角色。近日,Google ...
【新智元导读】当AI开始「自己学会学习」,人类的角色正在被重写。DeepMind最新研究DiscoRL,让智能体在多环境交互中自主发现强化学习规则——无需人类设计算法。它在Atari基准中击败MuZero,在从未见过的游戏中依旧稳定高效。
在Alexandr Wang看来,AI大模型是一种全新的计算机,而「提示工程师」,就相当于给它编程的程序员。如果能通过提示工程找出合适的提示词,就会激发AI的最大潜力。
除了前述机构,跟投名单上还出现了硅谷最大牌的天使投资人:亚马逊创始人贝索斯、前谷歌CEO施密特、AI领域传奇人物杰夫·迪恩、硅谷投资人埃拉德·吉尔等等,连NVIDIA也透过旗下基金NVentures站台助威。
A:Torax是DeepMind专门为核聚变开发的软件程序,用于模拟Sparc反应堆内燃烧的等离子体,帮助找出如何正确控制等离子体的方法。该软件将与其他AI模型协同使用,以找出实现聚变的最佳方式。
近日,谷歌 DeepMind 团队在 Nature 上发表的一篇论文探索了这一可能性。并且,他们得到了非常积极的结果:机器确实能够自主发现性能达到 SOTA 的强化学习规则,并且其表现优于人工设计的规则。 强化学习是近来 AI ...
DeepMind宣布与伦敦大学学院(UCL)合作,共同推出了一套免费的 “AI研究基础”(AI Research Foundations) 课程 这套课程现已在Google ...
IT之家援引博文介绍,核聚变是驱动太阳发光发热的物理过程,要在地球上复现它,就必须在超过一亿摄氏度的高温下,将被称为“等离子体”的电离气体稳定约束在聚变装置内。这是一个极其复杂的物理挑战,而 DeepMind 正尝试运用人工智能来破解这一难题。
谷歌 DeepMind 的最新研究试图打破这一现状,他们受到大型语言模型微调中强化学习阶段成功经验的启发,提出了一种面向机器人学的两阶段后训练方法,第一阶段是监督微调(Supervised Fine-Tuning, SFT),第二阶段是自我提升(Self-Improvement)。
当前正在显示可能无法访问的结果。
隐藏无法访问的结果
反馈