在 Transformer 架构的基础上,微云全息基于“Masked 预训练”策略。这种策略最初源于 BERT 模型在语言理解任务中的成功经验,被证明能够有效捕捉序列中元素间的深层次关系。微云全息研究团队将其迁移到红外光谱数据建模中,提出了一种自监督学习框架,用于从大规模无标签的红外光谱数据中自动学习鲁棒特征。
本文针对图Transformer(Graph Transformers)的理论表达能力尚不明确的问题,系统探讨了其与分布式计算中Congested Clique模型的关联,证明在特定条件下,仅需2层深度的Graph Transformer即可实现图灵通用性,且其表达能力超越传统消息传递图神经网络(MPNNs)。实验在 ...
往期,笔者基于LLava的数据对齐训练,搞了一个 Reyes 多模态大模型,并且看了些多模态大模型,相关开源的多模态大模型如:KimiVL、Internvl、QwenVL等,其视觉编码器的尺寸都比较大,如:MoonViT-SO-400M、InternViT-6B-448px-V2_5 等都非常大,对于特定的垂直场景 ...
计算机技术的高速发展极大地推动了计算流体力学(computational fluid dynamics, CFD),传统 CFD 方法对实际复杂流动问题开展高精度数值模拟需要耗费大量的计算资源。 为了解决CFD数值模拟计算精度和效率较难兼顾的问题,构造流场降阶模型 (reduced-ordermodel,ROM) 的方法 ...
当前图表示学习在识别癌症基因时存在可解释性和泛化性不足问题。研究人员开展基于 Transformer 的模型研究,利用多组学数据与生物网络拓扑结构预测癌症基因,性能优异且预测出新候选基因,有助于理解基因调控机制和发现新癌症基因。 图表示学习已被用于 ...
当Transformer模型发布时,它彻底革新了机器翻译领域。虽然最初是为特定任务设计的,但这种革命性的架构显示出它可以轻松适应不同的任务。随后成为了Transformer一个标准,甚至用于它最初设计之外的数据(如图像和其他序列数据)。 然后人们也开始优化和 ...
DiT架构很可能会成为文生图、生视频、生3D等多模态视觉生成的统一架构。 21世纪经济报道记者白杨 北京报道 5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源。去年10月,腾讯混元大模型对外开放了“文生图”功能。这次升级后,混元的“文生图 ...
Transformer —— 由 Google 的研究人员在 2017 年的《Attention Is All You Need》[1] 中提出。其首先在 NLP 领域中取得了 SOTA 的表现,之后也逐渐的被运用到 CV 及其他领域里,依旧展露出耀眼的锋芒!网络上已有很多乐于奉献的博主、大佬们通过文章、视频等方式详细解释 ...
在人工智能领域,Transformer架构、大模型是当下最激动人心的话题之一。它们不仅推动了技术的极限,还重新定义了我们与机器交互的方式。本文将带您从科普的视角了解这些开启智能新篇章的概念。 Transformer模型最初由Google的研究人员在2017年提出,它是一种 ...
Transformer 自 2017 年出世以来就在 AI 领域高举高打,ChatGPT 引发全球大型语言模型热潮后更是在 NLP 领域被赋予了神话般的地位。 但近日,一篇正在审核中的 ICLR 2023 投稿论文(如下)经研究后提出一个观点:单一 Transformer 并不具备图灵完备性,其计算能力存在 ...
视海芯图创始人、董事长许达文在2023松山湖论坛上介绍了公司全新的Transformer加速SoC SH1580。这款高性能智能视觉SoC集成4亿晶体管,采用12nm工艺,自主设计了多态神经网络处理器(Polymorphic Tensor Processing Unit,PTPU)和3D视觉ISP,配备了4核Arm CPU A53。 人工智能的 ...