为确保跨系统数据交互的稳定性与一致性,所有业务数据落库必须遵循 “Golden Record” 统一规范。本规范定义标准字段命名、类型约束及必填性校验逻辑,适用于 PostgreSQL、MySQL、MongoDB、Elasticsearch 与离线文件存储等场景。
| 字段名 | 数据类型 | 必填 | 说明与约束 |
|---|---|---|---|
| id | BigInt/String | 是 | 全局唯一标识。推荐使用雪花算法(Snowflake)生成的 64 位整数,或 UUID v4。 |
| biz_id | String | 是 | 业务主键(如订单号、用户 ID),支持幂等性校验。 |
| created_at | Timestamp | 是 | 创建时间,统一存储为 UTC+8,精度至少到秒。 |
| updated_at | Timestamp | 是 | 更新时间,随数据变更自动刷新。 |
| version | Integer | 是 | 乐观锁版本号,初始值为 1,每次更新自增。 |
| is_deleted | Boolean/Int | 是 | 软删除标识。0=正常,1=已删除。物理删除需经归档流程。 |
| source | String | 否 | 数据溯源字段,记录数据来源系统或采集点。 |
不同存储引擎在数据类型与索引机制上存在差异。下表列出核心字段在主流数据库及文件格式中的映射实践。
| 标准类型 | PostgreSQL | MySQL | MongoDB | Elasticsearch | Parquet |
|---|---|---|---|---|---|
| ID (Int64) | BIGINT | BIGINT | Long / ObjectId | long | INT64 |
| String | TEXT | VARCHAR(N) | String | keyword / text | BINARY (UTF8) |
| JSON | JSONB | JSON | Object | object / nested | STRUCT / MAP |
| Timestamp | TIMESTAMPTZ | DATETIME(6) | Date | date | INT96 / INT64 |
以下展示通用 “文档实体 (Doc Entity)” 标准 Schema 及实现示例。
CREATE TABLE docs (
id BIGINT PRIMARY KEY,
biz_id VARCHAR(64) NOT NULL UNIQUE,
title TEXT NOT NULL,
content JSONB DEFAULT '{}',
status SMALLINT DEFAULT 0,
tags TEXT[],
created_at TIMESTAMPTZ DEFAULT NOW(),
updated_at TIMESTAMPTZ DEFAULT NOW(),
version INT DEFAULT 1,
is_deleted BOOLEAN DEFAULT FALSE
);
CREATE INDEX idx_docs_biz_id ON docs(biz_id);
CREATE INDEX idx_docs_tags ON docs USING GIN(tags);
{
"mappings": {
"properties": {
"id": { "type": "long" },
"biz_id": { "type": "keyword" },
"title": { "type": "text", "analyzer": "ik_max_word" },
"content": { "type": "object" },
"status": { "type": "integer" },
"tags": { "type": "keyword" },
"created_at": { "type": "date" },
"version": { "type": "integer" }
}
}
}
建议与数据入口与同步架构统一设计,参见 docs/25-ingestion-architecture.md 与 docs/28-crawling-and-sync.md。
在分布式异构存储环境中,保证数据的一致性与完整性是首要挑战。采用 “事前防御 + 事后对账” 的双重保障策略。
一致性校验与对账策略详见 docs/28-crawling-and-sync.md。
本规范文档发布与版本管理统一走知识库文档系统接口:
docs/18-docs-rest-api.mddocs/21-iteration-template.mddocs/17-docs-management.mddocs/06-domain-model-and-data-dictionary.md:领域字段与口径对齐docs/05-data-pipeline-and-quality.md:清洗与标准化策略docs/25-ingestion-architecture.md:数据入口与治理架构