Document

05-data-pipeline-and-quality.md

Raw History

最近提交：Initialize docs and viewer · bid-docs · 2026-01-21 11:08:50 +08:00 (540935e) · 文件更新时间：2026-01-21 10:50:07 +08:00

数据采集与质量治理 (Data Pipeline & Quality)

1. 数据流概览

采集层 (Ingestion)：API 拉取 / Web 采集 / 文件下载
预处理 (Pre-processing)：格式转换、OCR、编码统一
标准化 (Normalization)：字段映射、分类对齐、时间与金额归一
实体消歧 (Entity Resolution)：企业/项目/标段去重与合并
分析层 (Analytics)：指标计算、聚合、标签画像
服务层 (Serving)：搜索索引、分析 API、报表导出

2. 采集策略

增量采集：按更新时间/公告编号/游标拉取
全量补偿：源数据更新异常时触发全量回补
延迟控制：核心数据源 10-30 分钟级更新
频控：为每个数据源配置 QPS/并发限制与退避策略

3. 处理流水线 (Pipeline)

Raw Layer：存储原始 HTML/JSON/PDF
Clean Layer：结构化字段抽取与清洗
Normalized Layer：映射到统一字段与分类
Master Layer：消歧合并后的主数据

4. 数据清洗与标准化规则

金额：统一到 RMB，保留原币种与原始文本
时间：统一 ISO-8601；公告/开标/中标/合同/履约时间分字段
地区：统一到省/市/区三级码（行政区划码）
行业：映射到统一行业树（支持 2-4 级）
采购方式：统一枚举（公开招标/邀请招标/谈判/询价/单一来源）

5. 实体消歧 (ER) 规则

企业名称同义词库 + 工商统一社会信用代码
地址与电话相似度匹配
项目标识基于“标题 + 招标编号 + 时间 + 采购方”

6. 数据质量指标

覆盖率：按数据源与区域统计
完整率：关键字段（项目名称、金额、地区、时间）
及时性：采集延迟指标
准确性：抽样核对与人工复核

7. 数据治理与血缘

每条数据记录 source_id、source_url、crawl_time
版本控制：保留原始记录与标准化记录
变更记录：字段级变更审计