谷歌发布开源LMEval框架打破AI模型比较壁垒-AET-电子技术应用

谷歌发布开源LMEval框架打破AI模型比较壁垒

日期： 2025-05-28

来源：IT之家

关键词： 谷歌大语言模型多模态模型开源框架

5 月 27 日消息，科技媒体 The Decoder 昨日（5 月 26 日）发布博文，报道称谷歌推出开源框架 LMEval，为大语言模型和多模态模型提供标准化的评测工具。

评测新型 AI 模型一直是个难题。不同供应商使用各自的 API、数据格式和基准设置，导致跨模型比较耗时且复杂。

而谷歌最新推出的 LMEval 开源框架直击这一痛点，研究人员和开发者只需设置一次基准，就能展开标准化的评测流程，大幅简化了评测工作，节省了时间和资源。

LMEval 还通过 LiteLLM 框架抹平了 Google、OpenAI、Anthropic、Ollama 和 Hugging Face 等平台之间的接口差异，确保测试跨平台无缝运行。

LMEval 不仅支持文本评测，还涵盖图像和代码等领域的基准测试，且新输入格式可轻松扩展，框架支持是非题、多选题和自由文本生成等多种评估类型。同时，该框架能识别模型采用的“规避策略”，即故意给出模糊回答以避免生成有风险内容。

Google 还引入了 Giskard 安全评分，展示模型规避有害内容的表现，百分比越高代表安全性越强。测试结果存储在自加密的 SQLite 数据库中，确保数据本地化且不会被搜索引擎索引，兼顾了隐私与便捷。

LMEval 具备增量评估功能，无需在新增模型或问题时重新运行整个测试，仅执行必要的新增测试即可，并采用多线程引擎并行处理多项计算，有效降低了计算成本和时间消耗。

谷歌还开发了 LMEvalboard 可视化工具，通过雷达图展示模型在不同类别中的表现。用户可深入查看具体任务，精准定位模型错误，并直接比较多个模型在特定问题上的差异，图形化展示一目了然。

Magazine.Subscription.jpg

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

谷歌发布开源LMEval框架 打破AI模型比较壁垒

日期： 2025-05-28

来源：IT之家

相关内容

谷歌发布开源LMEval框架打破AI模型比较壁垒