首先,视觉和语言类的大模型肯定会是自动驾驶和机器人必不可少的,毕竟在人类的世界,人类需要的元素,他们都少不了。语言和文字是人类构建的,所以人类GPT等算法最快将其掌握和破解,那么如何将2D感知转化成3D是重点。