轻巧架构的架构让它适合移动设备上应用,同时维持强大性能。它以不到1GB的GPU RAM就能在单一图片上执行推论。 图片来源/Hugging Face 需要更高性能的组织可以选择SmolVLM-500M模型。500M在文件理解DocVQA和多模态推理基准测试MMMU的表现不输之前的2B。这模型对提示 ...