bid.hao.work/docs
站点首页 / Home
知识库 / Knowledge Base
创意笔记 / Notes
自动化监控 / Automation
Document
05-data-pipeline-and-quality.md
Raw
History
最近提交:Initialize docs and viewer · bid-docs · 2026-01-21 11:08:50 +08:00 (540935e) · 文件更新时间:2026-01-21 10:50:07 +08:00
数据采集与质量治理 (Data Pipeline & Quality)
1. 数据流概览
采集层 (Ingestion)
:API 拉取 / Web 采集 / 文件下载
预处理 (Pre-processing)
:格式转换、OCR、编码统一
标准化 (Normalization)
:字段映射、分类对齐、时间与金额归一
实体消歧 (Entity Resolution)
:企业/项目/标段去重与合并
分析层 (Analytics)
:指标计算、聚合、标签画像
服务层 (Serving)
:搜索索引、分析 API、报表导出
2. 采集策略
增量采集
:按更新时间/公告编号/游标拉取
全量补偿
:源数据更新异常时触发全量回补
延迟控制
:核心数据源 10-30 分钟级更新
频控
:为每个数据源配置 QPS/并发限制与退避策略
3. 处理流水线 (Pipeline)
Raw Layer
:存储原始 HTML/JSON/PDF
Clean Layer
:结构化字段抽取与清洗
Normalized Layer
:映射到统一字段与分类
Master Layer
:消歧合并后的主数据
4. 数据清洗与标准化规则
金额:统一到 RMB,保留原币种与原始文本
时间:统一 ISO-8601;公告/开标/中标/合同/履约时间分字段
地区:统一到省/市/区三级码(行政区划码)
行业:映射到统一行业树(支持 2-4 级)
采购方式:统一枚举(公开招标/邀请招标/谈判/询价/单一来源)
5. 实体消歧 (ER) 规则
企业名称同义词库 + 工商统一社会信用代码
地址与电话相似度匹配
项目标识基于“标题 + 招标编号 + 时间 + 采购方”
6. 数据质量指标
覆盖率:按数据源与区域统计
完整率:关键字段(项目名称、金额、地区、时间)
及时性:采集延迟指标
准确性:抽样核对与人工复核
7. 数据治理与血缘
每条数据记录
source_id
、
source_url
、
crawl_time
版本控制:保留原始记录与标准化记录
变更记录:字段级变更审计