# 数据采集与质量治理 (Data Pipeline & Quality) ## 1. 数据流概览 1) **采集层 (Ingestion)**:API 拉取 / Web 采集 / 文件下载 2) **预处理 (Pre-processing)**:格式转换、OCR、编码统一 3) **标准化 (Normalization)**:字段映射、分类对齐、时间与金额归一 4) **实体消歧 (Entity Resolution)**:企业/项目/标段去重与合并 5) **分析层 (Analytics)**:指标计算、聚合、标签画像 6) **服务层 (Serving)**:搜索索引、分析 API、报表导出 ## 2. 采集策略 - **增量采集**:按更新时间/公告编号/游标拉取 - **全量补偿**:源数据更新异常时触发全量回补 - **延迟控制**:核心数据源 10-30 分钟级更新 - **频控**:为每个数据源配置 QPS/并发限制与退避策略 ## 3. 处理流水线 (Pipeline) - **Raw Layer**:存储原始 HTML/JSON/PDF - **Clean Layer**:结构化字段抽取与清洗 - **Normalized Layer**:映射到统一字段与分类 - **Master Layer**:消歧合并后的主数据 ## 4. 数据清洗与标准化规则 - 金额:统一到 RMB,保留原币种与原始文本 - 时间:统一 ISO-8601;公告/开标/中标/合同/履约时间分字段 - 地区:统一到省/市/区三级码(行政区划码) - 行业:映射到统一行业树(支持 2-4 级) - 采购方式:统一枚举(公开招标/邀请招标/谈判/询价/单一来源) ## 5. 实体消歧 (ER) 规则 - 企业名称同义词库 + 工商统一社会信用代码 - 地址与电话相似度匹配 - 项目标识基于“标题 + 招标编号 + 时间 + 采购方” ## 6. 数据质量指标 - 覆盖率:按数据源与区域统计 - 完整率:关键字段(项目名称、金额、地区、时间) - 及时性:采集延迟指标 - 准确性:抽样核对与人工复核 ## 7. 数据治理与血缘 - 每条数据记录 `source_id`、`source_url`、`crawl_time` - 版本控制:保留原始记录与标准化记录 - 变更记录:字段级变更审计