Diff
08-system-architecture.md @ 540935e
commit 540935ed47637a324b35b0599e0a5d4a289e7aca
Author: bid-docs <bid-docs@localhost>
Date: 2026-01-21T11:08:50+08:00
Initialize docs and viewer
diff --git a/docs/08-system-architecture.md b/docs/08-system-architecture.md
new file mode 100644
index 0000000..773db81
--- /dev/null
+++ b/docs/08-system-architecture.md
@@ -0,0 +1,37 @@
+# 总体架构 (System Architecture)
+
+## 1. 架构分层
+1) **数据接入层**:采集服务、API 适配器、文件下载器
+2) **数据处理层**:清洗、标准化、OCR、实体消歧、标签
+3) **数据存储层**:
+- Raw 数据湖(对象存储)
+- 结构化主库(PostgreSQL/MySQL)
+- 搜索索引(Elasticsearch/OpenSearch)
+- 分析仓库(ClickHouse/StarRocks)
+4) **服务层**:API 网关、业务服务、分析服务、权限与审计
+5) **前端与应用层**:Web 管理端、分析看板、移动端
+
+## 2. 核心组件
+- **Ingestion Service**:多源采集、调度、失败重试
+- **Normalization Service**:字段映射、分类对齐
+- **Entity Resolution Service**:去重消歧、主数据合并
+- **Search Service**:统一检索与过滤
+- **Analytics Service**:指标计算与聚合
+- **Notification Service**:订阅与消息推送
+- **Auth & Audit**:权限、日志、合规审计
+
+## 3. 数据流 (High Level Flow)
+Source -> Ingestion -> Raw Storage -> Clean/Normalize -> Entity Resolution -> Data Warehouse -> API/BI/Report
+
+## 4. 关键存储设计
+- **Raw**:保留原始 HTML/PDF,便于追溯
+- **ODS/主库**:结构化字段与关系模型
+- **Index**:面向检索的倒排索引
+- **OLAP**:面向分析的聚合数据
+
+## 5. 技术选型建议
+- **API**:REST + OpenAPI
+- **任务调度**:Cron/Temporal/Argo Workflow
+- **消息队列**:Kafka/RabbitMQ
+- **监控**:Prometheus + Grafana
+