总体架构 (System Architecture)
1. 架构分层
- 数据接入层:采集服务、API 适配器、文件下载器
- 数据处理层:清洗、标准化、OCR、实体消歧、标签
- 数据存储层:
- Raw 数据湖(对象存储)
- 结构化主库(PostgreSQL/MySQL)
- 搜索索引(Elasticsearch/OpenSearch)
- 分析仓库(ClickHouse/StarRocks)
- 服务层:API 网关、业务服务、分析服务、权限与审计
- 前端与应用层:Web 管理端、分析看板、移动端
2. 核心组件
- Ingestion Service:多源采集、调度、失败重试
- Normalization Service:字段映射、分类对齐
- Entity Resolution Service:去重消歧、主数据合并
- Search Service:统一检索与过滤
- Analytics Service:指标计算与聚合
- Notification Service:订阅与消息推送
- Auth & Audit:权限、日志、合规审计
3. 数据流 (High Level Flow)
Source -> Ingestion -> Raw Storage -> Clean/Normalize -> Entity Resolution -> Data Warehouse -> API/BI/Report
4. 关键存储设计
- Raw:保留原始 HTML/PDF,便于追溯
- ODS/主库:结构化字段与关系模型
- Index:面向检索的倒排索引
- OLAP:面向分析的聚合数据
5. 技术选型建议
- API:REST + OpenAPI
- 任务调度:Cron/Temporal/Argo Workflow
- 消息队列:Kafka/RabbitMQ
- 监控:Prometheus + Grafana
6. 关联文档
docs/05-data-pipeline-and-quality.md:数据处理与质量治理
docs/09-backend-go-services.md:服务拆分与模块设计
docs/13-ops-deployment.md:部署与监控基线
docs/25-ingestion-architecture.md:数据入口分层设计
docs/26-multi-db-spec.md:多库一致性与数据规范