dingo
好的AI评分:4.2 ★☆
直接访问 >>>
正常访问 免费试用 无需注册 有API 不支持中文 客户端操作

Dingo是一款数据质量评估工具,帮助你自动化检测数据集中的数据质量问题。Dingo提供了多种内置的规则和模型评估方法,同时也支持自定义评估方法。Dingo支持常用的文本数据集和多模态数据集,包括预训练数据集、微调数据集和评测数据集。此外,Dingo支持多种使用方式,包括本地CLI和SDK,便于集成到各种评测平台,如OpenCompass等。

dingo 主要功能

1.支持多种输入数据源,数据类型,数据模态
Dingo 数据源支持本地文件,huggingface数据集,S3存储文件;数据类型支持预训练,微调和评测等多种数据集;数据模态支持文本和图片数据模态。
2.支持自定义规则,模型评估
Dingo 内置了20+通用的启发式规则评估,常用的LLMs(如OpenAI,kimi等)评估和启动本地指定模型(llama3等)评估。 内置启发式规则根据数据集类型内置了 pretrain, sft等多种规则集组合。 规则和模型评估均支持自定义或修改。 支持数据安全评估,如perspective API。
3.支持多种接口使用方式,扩展性好,方便集成
Dingo 支持多种接口使用方式,包括本地CLI和SDK,便于集成到各种评测平台,如OpenCompass等。
4.支持多种执行引擎
Dingo 支持本地和 SPARK 两种执行引擎,方便执行大小规模的数据评估任务。
5.支持多维指标报告,可追溯
Dingo 支持输出7个Quality Metrics概况报告和异常数据追溯详情报告。

dingo 如何使用

安装:快速启动安装仅包含必要包,特殊功能需按 “安装依赖” 指引安装对应包。
注册:可自定义规则、prompt 和模型,分别有不同的注册方式和要求。
配置:参考配置文档进行相关设置。
执行引擎:分本地和 Spark 模式,各有特点和使用限制,executor 都支持获取测试总结、好坏数据等公共方法。
评估报告:每次评测生成概况报告(含整体分数和 7 个 Quality Metrics 维度分数)和详细报告(含异常数据内容)

dingo 应用场景

应用于模型训练所需的数据质量评估,支持文本数据集和多模态数据集,包括预训练数据集、微调数据集和评测数据集

dingo 适用人群

大数据分析工程师、AI模型训练数据预处理等