它以不到1GB的GPU RAM就能在单一图片上执行推论。 图片来源/Hugging Face 需要更高性能的组织可以选择SmolVLM-500M模型。500M在文件理解DocVQA和多模态推理 ...