
dingo 主要功能
1.支持多种输入数据源,数据类型,数据模态
Dingo 数据源支持本地文件,huggingface数据集,S3存储文件;数据类型支持预训练,微调和评测等多种数据集;数据模态支持文本和图片数据模态。
2.支持自定义规则,模型评估
Dingo 内置了20+通用的启发式规则评估,常用的LLMs(如OpenAI,kimi等)评估和启动本地指定模型(llama3等)评估。 内置启发式规则根据数据集类型内置了 pretrain, sft等多种规则集组合。 规则和模型评估均支持自定义或修改。 支持数据安全评估,如perspective API。
3.支持多种接口使用方式,扩展性好,方便集成
Dingo 支持多种接口使用方式,包括本地CLI和SDK,便于集成到各种评测平台,如OpenCompass等。
4.支持多种执行引擎
Dingo 支持本地和 SPARK 两种执行引擎,方便执行大小规模的数据评估任务。
5.支持多维指标报告,可追溯
Dingo 支持输出7个Quality Metrics概况报告和异常数据追溯详情报告。
dingo 如何使用
安装:快速启动安装仅包含必要包,特殊功能需按 “安装依赖” 指引安装对应包。
注册:可自定义规则、prompt 和模型,分别有不同的注册方式和要求。
配置:参考配置文档进行相关设置。
执行引擎:分本地和 Spark 模式,各有特点和使用限制,executor 都支持获取测试总结、好坏数据等公共方法。
评估报告:每次评测生成概况报告(含整体分数和 7 个 Quality Metrics 维度分数)和详细报告(含异常数据内容)
dingo 应用场景
应用于模型训练所需的数据质量评估,支持文本数据集和多模态数据集,包括预训练数据集、微调数据集和评测数据集
dingo 适用人群
大数据分析工程师、AI模型训练数据预处理等