bid.hao.work/docs
Diff

08-system-architecture.md @ 540935e

commit 540935ed47637a324b35b0599e0a5d4a289e7aca Author: bid-docs <bid-docs@localhost> Date: 2026-01-21T11:08:50+08:00 Initialize docs and viewer diff --git a/docs/08-system-architecture.md b/docs/08-system-architecture.md new file mode 100644 index 0000000..773db81 --- /dev/null +++ b/docs/08-system-architecture.md @@ -0,0 +1,37 @@ +# 总体架构 (System Architecture) + +## 1. 架构分层 +1) **数据接入层**:采集服务、API 适配器、文件下载器 +2) **数据处理层**:清洗、标准化、OCR、实体消歧、标签 +3) **数据存储层**: +- Raw 数据湖(对象存储) +- 结构化主库(PostgreSQL/MySQL) +- 搜索索引(Elasticsearch/OpenSearch) +- 分析仓库(ClickHouse/StarRocks) +4) **服务层**:API 网关、业务服务、分析服务、权限与审计 +5) **前端与应用层**:Web 管理端、分析看板、移动端 + +## 2. 核心组件 +- **Ingestion Service**:多源采集、调度、失败重试 +- **Normalization Service**:字段映射、分类对齐 +- **Entity Resolution Service**:去重消歧、主数据合并 +- **Search Service**:统一检索与过滤 +- **Analytics Service**:指标计算与聚合 +- **Notification Service**:订阅与消息推送 +- **Auth & Audit**:权限、日志、合规审计 + +## 3. 数据流 (High Level Flow) +Source -> Ingestion -> Raw Storage -> Clean/Normalize -> Entity Resolution -> Data Warehouse -> API/BI/Report + +## 4. 关键存储设计 +- **Raw**:保留原始 HTML/PDF,便于追溯 +- **ODS/主库**:结构化字段与关系模型 +- **Index**:面向检索的倒排索引 +- **OLAP**:面向分析的聚合数据 + +## 5. 技术选型建议 +- **API**:REST + OpenAPI +- **任务调度**:Cron/Temporal/Argo Workflow +- **消息队列**:Kafka/RabbitMQ +- **监控**:Prometheus + Grafana +