dingo适用于数据分析的好的AI工具

dingo

数据分析

好的AI评分：4.2 ★☆

正常访问免费试用无需注册有API 不支持中文客户端操作

Dingo是一款数据质量评估工具，帮助你自动化检测数据集中的数据质量问题。Dingo提供了多种内置的规则和模型评估方法，同时也支持自定义评估方法。Dingo支持常用的文本数据集和多模态数据集，包括预训练数据集、微调数据集和评测数据集。此外，Dingo支持多种使用方式，包括本地CLI和SDK，便于集成到各种评测平台，如OpenCompass等。

主要功能如何使用应用场景适用人群

dingo 主要功能

1.支持多种输入数据源，数据类型，数据模态
Dingo 数据源支持本地文件，huggingface数据集，S3存储文件；数据类型支持预训练，微调和评测等多种数据集；数据模态支持文本和图片数据模态。
2.支持自定义规则，模型评估
Dingo 内置了20+通用的启发式规则评估，常用的LLMs（如OpenAI，kimi等）评估和启动本地指定模型（llama3等）评估。内置启发式规则根据数据集类型内置了 pretrain， sft等多种规则集组合。规则和模型评估均支持自定义或修改。支持数据安全评估，如perspective API。
3.支持多种接口使用方式，扩展性好，方便集成
Dingo 支持多种接口使用方式，包括本地CLI和SDK，便于集成到各种评测平台，如OpenCompass等。
4.支持多种执行引擎
Dingo 支持本地和 SPARK 两种执行引擎，方便执行大小规模的数据评估任务。
5.支持多维指标报告，可追溯
Dingo 支持输出7个Quality Metrics概况报告和异常数据追溯详情报告。

dingo 如何使用

安装：快速启动安装仅包含必要包，特殊功能需按 “安装依赖” 指引安装对应包。
注册：可自定义规则、prompt 和模型，分别有不同的注册方式和要求。
配置：参考配置文档进行相关设置。
执行引擎：分本地和 Spark 模式，各有特点和使用限制，executor 都支持获取测试总结、好坏数据等公共方法。
评估报告：每次评测生成概况报告（含整体分数和 7 个 Quality Metrics 维度分数）和详细报告（含异常数据内容）

dingo 应用场景

应用于模型训练所需的数据质量评估，支持文本数据集和多模态数据集，包括预训练数据集、微调数据集和评测数据集

dingo 适用人群

大数据分析工程师、AI模型训练数据预处理等