# 关于数据库的一切梗概 | AI WEB SAAS笔记（2）

- 状态 / Status: 已发布 / Published
- 时间 / Time: 2026-04-23T00:02:51+08:00
- 作者 / Author: -
- 主题 / Topics: AI / AI, 变现 / Monetization, 工具 / Tools
- 原文 / Source: https://mp.weixin.qq.com/s/5D_IMxzHI2N0gSk9pHLUgQ

---

TLDR

你现在不用一上来学会所有数据库细节，你真正要的是先建立一张地图，不然东学一点西学一点，最后最容易死在三件事上

第一，不知道数据该怎么设计，后面越做越乱 第二，不知道性能和成本怎么失控的，用户一多就炸 第三，不知道安全和备份怎么做，最后最贵的不是服务器，是出事

你主要做 AI 外部 API/SaaS 这一类东西的话，数据库不用按学院派那种啃到发霉。你要按创业者和产品工程的视角学。核心目标就一句话

你要知道数据从哪里来，存在哪里，怎么查出来，怎么不丢，怎么不乱，怎么不贵，怎么不泄露，怎么能支撑业务增长

我先给你一张完整学习地图，然后再告诉你哪些最优先，哪些只是知道就行，哪些最容易踩坑。

# 一 数据库到底是什么

别把数据库想得太玄乎，它本质上就是

帮你长期保存数据 帮你快速找到数据 帮你保证数据别乱 帮你支持多人同时读写 帮你在出错后还能恢复

你做 AI SaaS，本质上每天都在处理数据，只是很多人没意识到。比如

用户账号数据 订阅和支付数据 积分和额度数据 API 调用日志 生成任务记录 图片视频文件地址 prompt 和结果 失败重试记录 团队权限 营销线索 埋点和分析数据

这些都属于数据库范畴。

# 二 你要先知道的数据库历史脉络

这个很重要。不是为了装逼，是为了知道为什么今天数据库会分这么多门派。

## 1 最早期

最早不是数据库，就是文件

程序把数据写到 txt csv json excel 这种文件里 优点是简单 缺点是乱，难查，容易冲突，无法支撑多人和复杂业务

很多小白创业者第一步就死在这。项目早期用表格爽，后期一坨屎。

## 2 层级数据库和网状数据库

很早期有这种东西，像树状关系 今天你不用深入学，但要知道数据库不是一开始就长成现在这样

## 3 关系型数据库时代

这是最核心的革命

代表 MySQL PostgreSQL Oracle SQL Server

思想是 用表、行、列组织数据 通过关系连接不同表 用 SQL 查询 强调一致性和结构化

这套东西到今天仍然是绝对主力。 你做 SaaS，大多数核心业务都应该先从关系型数据库开始。

## 4 NoSQL 时代

后来互联网业务变复杂，数据量暴涨，关系型数据库不是所有场景都最优，于是有了 NoSQL

代表 MongoDB 文档型 Redis 键值型 Cassandra 宽列型 Neo4j 图数据库

思想是 不一定强制表结构 强调灵活性、扩展性、特定场景性能

## 5 大数据与分布式时代

数据太多，一台机器不够，开始搞分布式存储和计算

代表 Hadoop Spark ClickHouse BigQuery Snowflake

这更多偏分析，不是你最开始必须深学，但你得知道以后会遇到。

## 6 云数据库时代

不用自己买服务器装数据库了，云厂商帮你托管

代表 AWS RDS Cloud SQL Supabase PlanetScale Neon Firebase

这个对独立开发者极其重要，因为它降低了门槛。

## 7 AI 时代的新数据库需求

AI 出来后，新增了一堆数据需求

向量数据库 Embedding 检索 多模态元数据管理 长任务状态管理 对话历史 知识库切片 RAG 检索 日志与观测

代表 Pinecone Weaviate Milvus Qdrant pgvector

# 三 你必须理解的数据库核心模块

下面这些是完整地图。你不用一次学完，但你得知道山头在哪。

## 1 数据模型

这是根。很多人不学这个，后面全废。

你要学什么

什么是实体 什么是字段 什么是主键 什么是外键 什么是一对一、一对多、多对多 什么是规范化 什么是反规范化 什么是冗余字段 什么是派生字段 什么是枚举状态 什么是软删除

你要问自己的问题

一个用户能有几个项目 一个项目能有几次生成任务 一个任务有几种状态 支付记录和订阅记录怎么分开 日志要不要和主表分离

这部分最值钱。 数据库设计烂，后面所有代码、性能、统计、计费都会一起烂。

## 2 关系型数据库

这是必学中的必学

你要学什么

表 行 列 主键 唯一约束 非空约束 默认值 外键 索引 视图 事务 连接查询 聚合查询 分页 排序 分组

最重要的不是背概念，而是知道

什么数据适合放表里 怎么拆表 怎么连接 怎么避免重复数据

## 3 SQL

SQL 不是可选，是基本功

你至少要会

select where order by limit group by join insert update delete count sum avg distinct having subquery case when

再往上要知道

窗口函数 CTE upsert 事务控制 锁相关语句 explain 分析查询计划

不会 SQL，就像做电商不会看毛利。容易被工具骗。

## 4 NoSQL

你不一定先用，但得知道什么时候该上

### 文档数据库

像 MongoDB 适合结构变化大、JSON 很多的场景

### 键值数据库

像 Redis 适合缓存、会话、限流、排行榜、短期状态

### 列式数据库

像 ClickHouse 适合日志分析、行为分析、大规模聚合统计

### 图数据库

像 Neo4j 适合复杂关系网络，不是你前期重点

## 5 缓存

很多人以为缓存不是数据库，其实它和数据库紧密耦合

你要学

为什么要缓存 缓存和数据库怎么配合 缓存击穿 缓存穿透 缓存雪崩 缓存一致性 TTL 热点数据

Redis 是这里的主角。 你做 AI SaaS，配额、验证码、短会话、频繁读取的数据，都会用到它。

## 6 搜索系统

有些查询数据库很难高效做，要用搜索引擎

你要知道

全文搜索 分词 倒排索引 模糊搜索 相关性排序

代表 Elasticsearch OpenSearch Meilisearch

比如你做知识库、提示词库、素材库、工单系统，这个很常见。

## 7 向量数据库

AI 产品里必须知道，但不要把它神化

你要学

什么是 embedding 什么是向量相似度 什么是 top k 检索 什么是 metadata filter 什么是 RAG 什么是 chunk 什么是 rerank 什么是 recall 和 precision

注意 向量数据库不是万能数据库 它不能替代关系型数据库 用户、订单、余额、权限这些核心业务，还是老老实实用 Postgres/MySQL

很多新手傻乎乎地拿向量库存业务主数据，纯找死。

## 8 数据仓库和分析

当你开始看业务增长，就不只是存数据，还要分析数据

你要知道

OLTP 和 OLAP 的区别 线上交易库和分析库不要混 事件埋点 漏斗分析 留存分析 分群分析 归因 BI 报表

代表 BigQuery Snowflake ClickHouse Metabase Superset

## 9 文件存储

很多人把文件和数据库混为一谈

图片 视频 PDF 音频 模型输出文件 一般不直接存进关系数据库正文里

通常做法是

文件放对象存储 数据库里只存 URL、元数据、状态、权限信息

代表 S3 Cloudflare R2 Supabase Storage

## 10 事务与一致性

这是数据库里最容易让小白懵逼，但最能避免吃亏的地方

你要懂

什么是事务 什么是原子性 什么是一致性 什么是隔离性 什么是持久性 什么是并发冲突 什么是脏读 什么是不可重复读 什么是幻读

为什么这东西重要

比如用户充值了，余额加了，但订单没记成功 或者生成次数扣了两次 或者两个请求同时来，把同一份额度都扣了

这就是事务和并发控制没搞好。

## 11 索引

索引像书的目录，不是数据本身，但决定你查得快不快

你要学

单列索引 联合索引 唯一索引 覆盖索引 B 树 什么时候该建索引 什么时候别乱建索引

注意 索引不是越多越好 索引会拖慢写入 会占空间 联合索引顺序会影响效果

## 12 数据迁移和 schema 变更

产品会迭代，数据库结构一定会改

你要学

什么是 migration 怎么加字段 怎么改字段 怎么删字段 怎么做向后兼容 怎么避免线上改表把服务打挂

很多人本地改得飞起，线上一改全站炸。因为根本没学迁移。

## 13 备份与恢复

这是生死线

你要学

全量备份 增量备份 快照 恢复点 灾难恢复 误删恢复 跨区域备份

真正的高手不是从不出错，是出了错还能活下来。

## 14 权限与安全

这一块不学，等于埋雷

你要学

数据库账号权限分离 最小权限原则 生产库和测试库隔离 SQL 注入 字段脱敏 加密 审计日志 行级权限 Row Level Security

AI SaaS 很容易碰到敏感信息 邮箱 支付信息 用户上传内容 API key 企业文档

这些出一次事，辛苦几个月白干。

## 15 高可用与扩展

当用户多了，就会遇到

数据库顶不住 连接数爆了 CPU 爆了 磁盘打满 慢查询越来越多

你要知道

读写分离 主从复制 分库分表 分区 连接池 水平扩展 垂直扩展 多可用区部署

前期不用全做，但必须知道路线。

## 16 监控与运维

数据库不是装上就完了，要持续盯

你要知道

慢查询日志 QPS TPS 连接数 CPU 内存 磁盘 锁等待 缓存命中率 复制延迟 错误率

不会看监控的人，数据库炸了都不知道是为什么。

# 四 你做 AI SaaS 最该优先掌握的数据库知识

你不是去当 DBA，也不是去写数据库论文。你最应该掌握的是这套

## 第一层 必学

这个不学会，一定吃亏

关系型数据库基础 PostgreSQL 或 MySQL 选一个先学 SQL 基础 数据建模 索引 事务 备份恢复 权限安全 迁移

## 第二层 很重要

做到产品开始赚钱就要补上

Redis 日志表设计 埋点设计 搜索 对象存储 连接池 性能优化 监控告警

## 第三层 AI 相关

做 AI 产品时需要补

向量数据库 embedding 和 RAG 任务队列表设计 大模型调用日志 prompt/result 存储策略 成本统计 配额和额度扣减机制

## 第四层 增长后补

用户和数据量上来再学

数据仓库 BI ClickHouse 分布式架构 分库分表 复杂权限模型 多租户架构

# 五 你做 AI 外部 API/SaaS，数据库里最常见的业务模块

这个你最好直接记下来，因为以后你一做产品就会碰到。

## 1 用户系统

用户表 登录方式 邮箱验证 第三方登录 角色权限 团队成员

## 2 订阅计费

套餐表 订单表 支付记录 发票 退款 试用 续费 到期时间

## 3 积分额度

余额 额度包 消耗记录 赠送记录 冻结额度 失败返还 并发扣减

## 4 AI 调用记录

模型名 输入 token 输出 token 请求时间 响应时间 成本 状态码 错误信息 供应商

## 5 任务系统

任务创建 排队 处理中 完成 失败 取消 重试次数 回调结果

## 6 内容与结果

prompt system prompt 生成结果 文件 URL 缩略图 metadata 版本号 是否公开

## 7 埋点分析

访问来源 页面浏览 点击 注册转化 付费转化 留存 活跃度 功能使用频率

## 8 客服和风控

工单 反馈 举报 风控规则 黑名单 限流 异常行为日志

# 六 你最容易踩的数据库大坑

这部分很值钱，很多人就是死在这些坑里。

## 1 一开始不用主键和唯一约束

后面重复数据满天飞 一个用户能注册三次 一个订单能被插两次

## 2 状态字段设计混乱

任务状态没有标准 一会儿 pending 一会儿 processing 一会儿 doing 最后统计全错

## 3 把所有东西塞一个表

看起来省事，后面根本查不动，也改不动

## 4 把 JSON 当万能垃圾桶

JSON 不是不能用，但不能拿它掩盖你不会设计表

## 5 不做索引

前期数据少没感觉 数据一多查询慢成狗

## 6 索引乱建

每个字段都建索引 最后写入变慢，空间爆炸

## 7 不考虑并发

同一时间多个请求扣额度 余额扣错 重复下单 重复回调

## 8 不做幂等

支付回调来两次 任务重试来三次 数据重复生成

## 9 不做备份

这不是坑，这是自杀

## 10 生产环境直接手改数据

一时爽，后面没人知道你改了什么

## 11 日志和业务主表混在一起

日志量大得吓人 最后主业务查询都被拖死

## 12 大文件直接塞数据库

图像、音频、视频正文别乱塞 数据库不是仓库

## 13 数据库和业务代码强耦合

改个字段就全站报错

## 14 不区分测试数据和正式数据

分析结果全失真 自动化脚本误伤生产

## 15 没有数据删除策略

日志无限长 成本无限涨 合规也可能出问题

## 16 不懂合规和隐私

用户要求删数据 你删不干净 或者根本没法导出

# 七 你应该按什么顺序学

你是小白，就别学成百科全书。先把最有杠杆的东西吃透。

## 第一阶段 先建立认知

目标 知道数据库是干嘛的，知道几大类数据库分别解决什么问题

学这些 关系型数据库和 NoSQL 的区别 数据库、缓存、对象存储、搜索引擎、向量数据库分别是什么 为什么 AI SaaS 通常不能只靠一种库

## 第二阶段 学会最基本的实战

目标 自己能看懂一个 SaaS 的数据库设计

学这些 表 主键 外键 一对多、多对多 SQL 增删改查 索引 事务 唯一约束 时间字段 created_at updated_at

## 第三阶段 学会设计业务表

目标 能设计出用户、订单、任务、额度、日志这几种核心表

学这些 用户系统 支付系统 任务队列状态 API 调用日志 文件元数据 权限模型

## 第四阶段 学会避免线上事故

目标 别乱改库，别丢数据，别重复扣费

学这些 迁移 备份 恢复 幂等 并发 锁 审计 最小权限

## 第五阶段 学会 AI SaaS 特有的数据系统

目标 让 AI 产品能跑得稳，算得清，控得住

学这些 任务队列 异步处理 token 成本记录 供应商调用日志 配额控制 RAG 和向量检索 缓存 对象存储

## 第六阶段 学会增长和分析

目标 知道用户为什么来、为什么走、为什么付费

学这些 埋点 事件模型 分析数据库 漏斗 留存 LTV 转化率

# 八 你做 AI SaaS 最建议的数据库技术路线

别搞太花，先用最稳的。

## 最推荐的新手路线

PostgreSQL Redis 对象存储 S3 或 R2 可选 pgvector 可选 ClickHouse

为什么推荐这套

Postgres 足够强 既能做核心业务 又能做 JSON 还能扩展向量 生态成熟 教程多 Supabase/Neon 这种新手友好

Redis 负责缓存和短期状态 对象存储放大文件 pgvector 让你先低成本做向量检索 以后数据分析重了再加 ClickHouse

你别一上来 MongoDB + Pinecone + Kafka + Elasticsearch + Snowflake 全上 那不是创业，那是给自己挖坟。

# 九 你学习时每个模块要问的关键问题

这个特别重要。你以后看到任何数据库概念，都拿这几个问题拷打它。

这个东西解决什么问题 它和别的方案比，优势在哪 它的成本是什么 它在哪些场景下不适合 对我的产品现在是不是刚需 它会不会让系统更复杂 它出问题时怎么恢复 它会不会影响以后扩展

# 十 数据库学习全模块清单

下面我给你一个尽量完整的目录，你照着看就行。

## A 基础认知

数据库是什么 数据库管理系统是什么 数据模型是什么 结构化数据和非结构化数据 OLTP 和 OLAP CAP ACID BASE

## B 关系型数据库

表 字段 主键 外键 约束 事务 视图 触发器 存储过程 索引 分区 复制

## C SQL

增删改查 连接查询 聚合 子查询 窗口函数 CTE 事务控制 执行计划 优化

## D NoSQL

键值 文档 列族 图数据库 适用场景 一致性与扩展性取舍

## E 缓存

Redis 缓存策略 缓存一致性 热点问题 过期策略 队列和锁

## F 搜索

全文检索 倒排索引 分词 相关性排序 搜索建议 拼写纠错

## G 向量与 AI 数据库

embedding chunking metadata top k ANN RAG rerank 混合检索

## H 数据建模

实体关系 ER 图 规范化 反规范化 冗余 软删除 审计字段 状态机设计 多租户设计

## I 性能优化

索引设计 查询优化 分页优化 冷热数据分层 批量写入 连接池 慢查询

## J 一致性与并发

事务隔离级别 锁 乐观锁 悲观锁 幂等 去重 重复请求处理

## K 安全

认证 授权 SQL 注入 加密 脱敏 审计 备份权限 环境隔离

## L 运维

备份 恢复 迁移 监控 报警 扩容 高可用 容灾

## M 数据分析

埋点 事件表 漏斗 留存 分群 BI 数据仓库 ETL/ELT

## N 文件和对象存储

图片视频存储 元数据 CDN 签名 URL 权限控制 生命周期管理

## O AI SaaS 专项

模型调用日志 token 成本 配额 账单 任务队列 异步回调 失败重试 结果缓存 对话历史 知识库索引

## P 法律合规

用户数据删除 隐私政策 数据保留周期 跨境传输 敏感信息管理 日志保留边界

# 十一 你现在最该学的最小闭环

你现在别贪多，先把这 12 个点搞懂，已经能避开大多数坑了

什么是表、行、列 什么是主键、外键、唯一约束 一对多、多对多 SQL 基础增删改查 join 索引 事务 幂等 备份恢复 Redis 基础 对象存储 AI 任务和日志表设计

只要你把这套吃透，你做大多数 AI web SaaS 已经不会在数据层面被人吊打。

# 十二 给你一个最实用的学习心法

数据库学习最怕两种傻逼路线

一种是只学概念，不碰业务 最后张口 ACID 闭口 CAP，结果不会设计一个订单表

另一种是只会调工具，不懂原理 最后 Supabase 给你配好了你就会，一出问题就懵

正确路线是

先理解业务 再设计数据 再写 SQL 再看性能 再管安全 再做扩展

数据库不是独立学科，它是业务的骨架。 产品能不能赚钱，很多时候不是前端漂不漂亮，而是你的数据系统能不能把用户、额度、支付、任务、日志、增长这一整套给稳稳接住。

一句话送你

不会数据库的人，做产品像在沙滩上盖楼 懂数据库的人，才是在打地基
