# 总体架构 (System Architecture) ## 1. 架构分层 1) **数据接入层**:采集服务、API 适配器、文件下载器 2) **数据处理层**:清洗、标准化、OCR、实体消歧、标签 3) **数据存储层**: - Raw 数据湖(对象存储) - 结构化主库(PostgreSQL/MySQL) - 搜索索引(Elasticsearch/OpenSearch) - 分析仓库(ClickHouse/StarRocks) 4) **服务层**:API 网关、业务服务、分析服务、权限与审计 5) **前端与应用层**:Web 管理端、分析看板、移动端 ## 2. 核心组件 - **Ingestion Service**:多源采集、调度、失败重试 - **Normalization Service**:字段映射、分类对齐 - **Entity Resolution Service**:去重消歧、主数据合并 - **Search Service**:统一检索与过滤 - **Analytics Service**:指标计算与聚合 - **Notification Service**:订阅与消息推送 - **Auth & Audit**:权限、日志、合规审计 ## 3. 数据流 (High Level Flow) Source -> Ingestion -> Raw Storage -> Clean/Normalize -> Entity Resolution -> Data Warehouse -> API/BI/Report ## 4. 关键存储设计 - **Raw**:保留原始 HTML/PDF,便于追溯 - **ODS/主库**:结构化字段与关系模型 - **Index**:面向检索的倒排索引 - **OLAP**:面向分析的聚合数据 ## 5. 技术选型建议 - **API**:REST + OpenAPI - **任务调度**:Cron/Temporal/Argo Workflow - **消息队列**:Kafka/RabbitMQ - **监控**:Prometheus + Grafana