资讯

为此,存在几个框架,例如DeepEval,它提供了超过 14 种评估指标来评估幻觉和忠实度等标准;MLflow LLM Evaluate,以其模块化和简单性而闻名,可以在自定义管道中进行评估;RAGAs,专注于定义 RAG 管道,提供忠实度和上下文相关性等指标来计算综合的 RAGA 质量得分。