上海宣告人工智能通用视觉开源平台OpenGVLab_视觉_模子
2月25日,上海人工智能实验室联合商汤科技发布通用视觉开源平台OpenGVLab,面向学术界和家当界开放其超高效预演习模型、超大规模公开数据集,以及业内首个针对通用视觉模型的评测基准。此举将为环球开拓者提升各种下贱视觉任务模型演习供应主要支持,推动AI技能的规模化运用落地,并促进人工智能根本研究及生态培植的快速发展。
继去年11月联合商汤科技、喷鼻香港中文大学和上海交通大学发布通用视觉技能体系“诗人”(INTERN),上海人工智能实验室在推动通用视觉智能技能的发展上持续发力。这次发布的通用视觉开源平台OpenGVLab不仅包含超高效预演习模型,同时包括千万级精标注、十万级标签量的公开数据集;同步公布的评测基准则将便于开拓者对不同通用视觉模型的性能进行横向评估和持续调优。
当前,人工智能技能正快速发展,然而很多AI模型还局限于完成单一任务,如识别单一物体,或识别风格较为统一的照片。如果要对多种类型、风格进行识别,则须要具备足够的通用性和泛化能力。通用视觉技能体系“诗人”(INTERN),很好地办理了这一问题。通用视觉开源平台OpenGVLab即是基于“诗人”打造而成。依托“诗人”在通用视觉技能上的支撑,OpenGVLab将大幅降落通用视觉模型的开拓门槛,帮助开拓者用更低的本钱快速开拓用于成百上千种视觉任务、视觉场景的算法模型,高效实现对长尾场景的覆盖,推动AI技能的规模化运用落地。
OpenGVLab充分继续了通用视觉技能体系“诗人”的技能上风,其开源的预演习模型具备极高性能。相较于此前公认的最强开源模型(OpenAI于2021年发布的CLIP),OpenGVLab的模型可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务,在准确率和数据利用效率上均取得大幅提升。基于同样的下贱场景数据,开源模型在分类、目标检测、语义分割及深度估计四大任务26个数据集上,均匀缺点率分别降落了40.2%、47.3%、34.8%和9.4%;同时,在分类、检测、分割和深度估计中,仅用10%的下贱演习数据就超过了现有其他开源模型。利用此模型,研究职员可以大幅降落下贱数据采集本钱,用极低的数据量即可快速知足多场景、多任务的AI模型演习。
伴随OpenGVLab的发布,上海人工智能实验室还开放了业内首个针对通用视觉模型的评测基准。当前,行业中已有的评测基准紧张针对单一任务、单一视觉维度而设,无法反响通用视觉模型的整体性能,难以用于横向比较。全新的通用视觉评测基准凭借在任务、数据等层面的创新设计,可供应威信的评测结果,推动统一标准上的公正和准确评测,加快通用视觉模型的家当化运用步伐。
本文系作者个人观点,不代表本站立场,转载请注明出处!