Diff
05-data-pipeline-and-quality.md @ 540935e
commit 540935ed47637a324b35b0599e0a5d4a289e7aca
Author: bid-docs <bid-docs@localhost>
Date: 2026-01-21T11:08:50+08:00
Initialize docs and viewer
diff --git a/docs/05-data-pipeline-and-quality.md b/docs/05-data-pipeline-and-quality.md
new file mode 100644
index 0000000..ad23d19
--- /dev/null
+++ b/docs/05-data-pipeline-and-quality.md
@@ -0,0 +1,45 @@
+# 数据采集与质量治理 (Data Pipeline & Quality)
+
+## 1. 数据流概览
+1) **采集层 (Ingestion)**:API 拉取 / Web 采集 / 文件下载
+2) **预处理 (Pre-processing)**:格式转换、OCR、编码统一
+3) **标准化 (Normalization)**:字段映射、分类对齐、时间与金额归一
+4) **实体消歧 (Entity Resolution)**:企业/项目/标段去重与合并
+5) **分析层 (Analytics)**:指标计算、聚合、标签画像
+6) **服务层 (Serving)**:搜索索引、分析 API、报表导出
+
+## 2. 采集策略
+- **增量采集**:按更新时间/公告编号/游标拉取
+- **全量补偿**:源数据更新异常时触发全量回补
+- **延迟控制**:核心数据源 10-30 分钟级更新
+- **频控**:为每个数据源配置 QPS/并发限制与退避策略
+
+## 3. 处理流水线 (Pipeline)
+- **Raw Layer**:存储原始 HTML/JSON/PDF
+- **Clean Layer**:结构化字段抽取与清洗
+- **Normalized Layer**:映射到统一字段与分类
+- **Master Layer**:消歧合并后的主数据
+
+## 4. 数据清洗与标准化规则
+- 金额:统一到 RMB,保留原币种与原始文本
+- 时间:统一 ISO-8601;公告/开标/中标/合同/履约时间分字段
+- 地区:统一到省/市/区三级码(行政区划码)
+- 行业:映射到统一行业树(支持 2-4 级)
+- 采购方式:统一枚举(公开招标/邀请招标/谈判/询价/单一来源)
+
+## 5. 实体消歧 (ER) 规则
+- 企业名称同义词库 + 工商统一社会信用代码
+- 地址与电话相似度匹配
+- 项目标识基于“标题 + 招标编号 + 时间 + 采购方”
+
+## 6. 数据质量指标
+- 覆盖率:按数据源与区域统计
+- 完整率:关键字段(项目名称、金额、地区、时间)
+- 及时性:采集延迟指标
+- 准确性:抽样核对与人工复核
+
+## 7. 数据治理与血缘
+- 每条数据记录 `source_id`、`source_url`、`crawl_time`
+- 版本控制:保留原始记录与标准化记录
+- 变更记录:字段级变更审计
+