2024年1月,上海人工智能实验室正式发布大模型开源开放评测体系司南(OpenCompass2.0),旨在为大语言模型、多模态模型等各类模型提供一站式评测服务。OpenCompass2.0 全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现,客观中立地为大模型技术创新提供坚实的技术支撑。
OpenCompass 自诞生以来,在学术界和产业界引起了广泛关注,并迅速成为全球领先的大模型能力评测体系。截至 2024年1月,评测榜单涉及的大语言模型和多模态大模型超过 150 个,已有包括 Meta、阿里巴巴、腾讯、百度等30余家国内外企业和科研机构采用 OpenCompass 助力开展技术研发。
大模型评测“铁三角”
CompassRank:中立全面的性能榜单 作为OpenCompass2.0中各类榜单的承载平台,CompassRank不受任何商业利益干扰,保持中立性。同时,依托CompassKit工具链体系中的各类评测手段,保证了CompassRank的客观性。CompassRank不仅覆盖多领域、多任务下的模型性能,还将定期更新,提供动态的行业洞察。与此同时,OpenCompass团队将在榜单中提供专业解读,进一步帮助从业者理解技术深意,优化模型选择。
CompassHub:高质量评测基准社区 CompassHub是面向大模型能力评测开源开放的基准社区,提供海量的面向不同能力维度和行业场景的评测基准。OpenCompass2.0欢迎评测用户在CompassHub上传各自构建的高质量评测基准,发布相应的性能榜单,汇聚社区力量助力大模型社区整体快速发展。
CompassKit:大模型评测全栈工具链 OpenCompass2.0对广受欢迎的初代评测工具库进行了全面优化,推出大模型评测全栈工具链CompassKit,不仅提供完整的开源可复现评测代码,更提供了丰富的模型支持和高效的分布式评测策略。
司南大模型评测伙伴计划
基于 OpenCompass2.0 大模型评测体系,司南大模型评测伙伴计划正式启动。未来,司南将与各行业的头部企业机构一起,构建各类高质量的行业评测基准,致力于推进大模型在千行百业应用落地和实践。
司南能力体系合作伙伴:共同建立面向未来大模型技术演进的能力体系,构建通用大模型能力评价维度,参与大模型相关重要标准和规范的制定。
司南行业评测基准合作伙伴: 共同建立行业大模型评测集,共同发布行业榜单,为行业大模型能力发展提供方向指引。
司南工具链合作伙伴:诚邀各类大模型及应用相关企业,基于 OpenCompass 工具链体系共同研发高质量评测工具链,面向大语言模型、多模态大模型等方向,建设全面科学高效的自动化评测服务,共同提高模型和应用的研发效率。
OpenCompass2.0 已和合作伙伴共同推出了多个垂直领域的评测基准和数据集
法律领域:联合南京大学推出 LawBench 评测基准,全面评估大模型在法律任务中的应用能力。
金融领域:和东方财富等行业伙伴共同推出全场景金融开源测评数据集 OpenFinData。
医疗领域:与上海交通大学医学院附属瑞金医院、上海交通大学医学院附属新华医院、四川大学华西医院、广州实验室等医疗机构和企业共同推出面向中文医疗大语言模型的评测系统 MedBench,覆盖医学语言理解、生成、知识问答、推理及安全和伦理等方面。
网络安全领域:与腾讯朱雀实验室、腾讯安全科恩实验室、清华大学以及香港理工大学等研究团队共同打造首个网络安全大模型评测平台 SecBench,专注于评估大模型在网络安全领域的应用能力。
Refuel.ai是一个专注于数据标注和清洗的开源平台,其核心产品RefuelLLM-2是一款先进的语言模型,旨在提高数据处理的效率和准确性。