总体架构 (System Architecture)
1. 架构分层
- 数据接入层:采集服务、API 适配器、文件下载器
- 数据处理层:清洗、标准化、OCR、实体消歧、标签
- 数据存储层:
- Raw 数据湖(对象存储)
- 结构化主库(PostgreSQL/MySQL)
- 搜索索引(Elasticsearch/OpenSearch)
- 分析仓库(ClickHouse/StarRocks)
- 服务层:API 网关、业务服务、分析服务、权限与审计
- 前端与应用层:Web 管理端、分析看板、移动端
2. 核心组件
- Ingestion Service:多源采集、调度、失败重试
- Normalization Service:字段映射、分类对齐
- Entity Resolution Service:去重消歧、主数据合并
- Search Service:统一检索与过滤
- Analytics Service:指标计算与聚合
- Notification Service:订阅与消息推送
- Auth & Audit:权限、日志、合规审计
3. 数据流 (High Level Flow)
Source -> Ingestion -> Raw Storage -> Clean/Normalize -> Entity Resolution -> Data Warehouse -> API/BI/Report
4. 关键存储设计
- Raw:保留原始 HTML/PDF,便于追溯
- ODS/主库:结构化字段与关系模型
- Index:面向检索的倒排索引
- OLAP:面向分析的聚合数据
5. 技术选型建议
- API:REST + OpenAPI
- 任务调度:Cron/Temporal/Argo Workflow
- 消息队列:Kafka/RabbitMQ
- 监控:Prometheus + Grafana