bid.hao.work/docs
Document

05-data-pipeline-and-quality.md

最近提交:Initialize docs and viewer · bid-docs · 2026-01-21 11:08:50 +08:00 (540935e) · 文件更新时间:2026-01-21 10:50:07 +08:00

数据采集与质量治理 (Data Pipeline & Quality)

1. 数据流概览

  1. 采集层 (Ingestion):API 拉取 / Web 采集 / 文件下载
  2. 预处理 (Pre-processing):格式转换、OCR、编码统一
  3. 标准化 (Normalization):字段映射、分类对齐、时间与金额归一
  4. 实体消歧 (Entity Resolution):企业/项目/标段去重与合并
  5. 分析层 (Analytics):指标计算、聚合、标签画像
  6. 服务层 (Serving):搜索索引、分析 API、报表导出

2. 采集策略

3. 处理流水线 (Pipeline)

4. 数据清洗与标准化规则

5. 实体消歧 (ER) 规则

6. 数据质量指标

7. 数据治理与血缘