bid.hao.work/docs
Diff

05-data-pipeline-and-quality.md @ 540935e

commit 540935ed47637a324b35b0599e0a5d4a289e7aca Author: bid-docs <bid-docs@localhost> Date: 2026-01-21T11:08:50+08:00 Initialize docs and viewer diff --git a/docs/05-data-pipeline-and-quality.md b/docs/05-data-pipeline-and-quality.md new file mode 100644 index 0000000..ad23d19 --- /dev/null +++ b/docs/05-data-pipeline-and-quality.md @@ -0,0 +1,45 @@ +# 数据采集与质量治理 (Data Pipeline & Quality) + +## 1. 数据流概览 +1) **采集层 (Ingestion)**:API 拉取 / Web 采集 / 文件下载 +2) **预处理 (Pre-processing)**:格式转换、OCR、编码统一 +3) **标准化 (Normalization)**:字段映射、分类对齐、时间与金额归一 +4) **实体消歧 (Entity Resolution)**:企业/项目/标段去重与合并 +5) **分析层 (Analytics)**:指标计算、聚合、标签画像 +6) **服务层 (Serving)**:搜索索引、分析 API、报表导出 + +## 2. 采集策略 +- **增量采集**:按更新时间/公告编号/游标拉取 +- **全量补偿**:源数据更新异常时触发全量回补 +- **延迟控制**:核心数据源 10-30 分钟级更新 +- **频控**:为每个数据源配置 QPS/并发限制与退避策略 + +## 3. 处理流水线 (Pipeline) +- **Raw Layer**:存储原始 HTML/JSON/PDF +- **Clean Layer**:结构化字段抽取与清洗 +- **Normalized Layer**:映射到统一字段与分类 +- **Master Layer**:消歧合并后的主数据 + +## 4. 数据清洗与标准化规则 +- 金额:统一到 RMB,保留原币种与原始文本 +- 时间:统一 ISO-8601;公告/开标/中标/合同/履约时间分字段 +- 地区:统一到省/市/区三级码(行政区划码) +- 行业:映射到统一行业树(支持 2-4 级) +- 采购方式:统一枚举(公开招标/邀请招标/谈判/询价/单一来源) + +## 5. 实体消歧 (ER) 规则 +- 企业名称同义词库 + 工商统一社会信用代码 +- 地址与电话相似度匹配 +- 项目标识基于“标题 + 招标编号 + 时间 + 采购方” + +## 6. 数据质量指标 +- 覆盖率:按数据源与区域统计 +- 完整率:关键字段(项目名称、金额、地区、时间) +- 及时性:采集延迟指标 +- 准确性:抽样核对与人工复核 + +## 7. 数据治理与血缘 +- 每条数据记录 `source_id`、`source_url`、`crawl_time` +- 版本控制:保留原始记录与标准化记录 +- 变更记录:字段级变更审计 +