已发布 / Published 2026-04-23T00:02:51+08:00

关于数据库的一切梗概 | AI WEB SAAS笔记(2)

TLDR


你现在不用一上来学会所有数据库细节,你真正要的是先建立一张地图,不然东学一点西学一点,最后最容易死在三件事上


第一,不知道数据该怎么设计,后面越做越乱

第二,不知道性能和成本怎么失控的,用户一多就炸

第三,不知道安全和备份怎么做,最后最贵的不是服务器,是出事


你主要做 AI 外部 API/SaaS 这一类东西的话,数据库不用按学院派那种啃到发霉。你要按创业者和产品工程的视角学。核心目标就一句话


你要知道数据从哪里来,存在哪里,怎么查出来,怎么不丢,怎么不乱,怎么不贵,怎么不泄露,怎么能支撑业务增长


我先给你一张完整学习地图,然后再告诉你哪些最优先,哪些只是知道就行,哪些最容易踩坑。




一 数据库到底是什么


别把数据库想得太玄乎,它本质上就是


帮你长期保存数据

帮你快速找到数据

帮你保证数据别乱

帮你支持多人同时读写

帮你在出错后还能恢复


你做 AI SaaS,本质上每天都在处理数据,只是很多人没意识到。比如


用户账号数据

订阅和支付数据

积分和额度数据

API 调用日志

生成任务记录

图片视频文件地址

prompt 和结果

失败重试记录

团队权限

营销线索

埋点和分析数据


这些都属于数据库范畴。




二 你要先知道的数据库历史脉络


这个很重要。不是为了装逼,是为了知道为什么今天数据库会分这么多门派。


1 最早期


最早不是数据库,就是文件


程序把数据写到 txt csv json excel 这种文件里

优点是简单

缺点是乱,难查,容易冲突,无法支撑多人和复杂业务


很多小白创业者第一步就死在这。项目早期用表格爽,后期一坨屎。


2 层级数据库和网状数据库


很早期有这种东西,像树状关系

今天你不用深入学,但要知道数据库不是一开始就长成现在这样


3 关系型数据库时代


这是最核心的革命


代表
MySQL
PostgreSQL
Oracle
SQL Server


思想是
用表、行、列组织数据

通过关系连接不同表

用 SQL 查询

强调一致性和结构化


这套东西到今天仍然是绝对主力。

你做 SaaS,大多数核心业务都应该先从关系型数据库开始。


4 NoSQL 时代


后来互联网业务变复杂,数据量暴涨,关系型数据库不是所有场景都最优,于是有了 NoSQL


代表
MongoDB 文档型

Redis 键值型

Cassandra 宽列型

Neo4j 图数据库


思想是
不一定强制表结构

强调灵活性、扩展性、特定场景性能


5 大数据与分布式时代


数据太多,一台机器不够,开始搞分布式存储和计算


代表
Hadoop
Spark
ClickHouse
BigQuery
Snowflake


这更多偏分析,不是你最开始必须深学,但你得知道以后会遇到。


6 云数据库时代


不用自己买服务器装数据库了,云厂商帮你托管


代表
AWS RDS
Cloud SQL
Supabase
PlanetScale
Neon
Firebase


这个对独立开发者极其重要,因为它降低了门槛。


7 AI 时代的新数据库需求


AI 出来后,新增了一堆数据需求


向量数据库

Embedding 检索

多模态元数据管理

长任务状态管理

对话历史

知识库切片

RAG 检索

日志与观测


代表
Pinecone
Weaviate
Milvus
Qdrant
pgvector




三 你必须理解的数据库核心模块


下面这些是完整地图。你不用一次学完,但你得知道山头在哪。


1 数据模型


这是根。很多人不学这个,后面全废。


你要学什么


什么是实体

什么是字段

什么是主键

什么是外键

什么是一对一、一对多、多对多

什么是规范化

什么是反规范化

什么是冗余字段

什么是派生字段

什么是枚举状态

什么是软删除


你要问自己的问题


一个用户能有几个项目

一个项目能有几次生成任务

一个任务有几种状态

支付记录和订阅记录怎么分开

日志要不要和主表分离


这部分最值钱。

数据库设计烂,后面所有代码、性能、统计、计费都会一起烂。


2 关系型数据库


这是必学中的必学


你要学什么








主键

唯一约束

非空约束

默认值

外键

索引

视图

事务

连接查询

聚合查询

分页

排序

分组


最重要的不是背概念,而是知道


什么数据适合放表里

怎么拆表

怎么连接

怎么避免重复数据


3 SQL


SQL 不是可选,是基本功


你至少要会


select

where

order by

limit

group by

join

insert

update

delete

count

sum

avg

distinct

having

subquery

case when


再往上要知道


窗口函数

CTE

upsert

事务控制

锁相关语句

explain 分析查询计划


不会 SQL,就像做电商不会看毛利。容易被工具骗。


4 NoSQL


你不一定先用,但得知道什么时候该上


文档数据库


像 MongoDB

适合结构变化大、JSON 很多的场景


键值数据库


像 Redis

适合缓存、会话、限流、排行榜、短期状态


列式数据库


像 ClickHouse

适合日志分析、行为分析、大规模聚合统计


图数据库


像 Neo4j

适合复杂关系网络,不是你前期重点


5 缓存


很多人以为缓存不是数据库,其实它和数据库紧密耦合


你要学


为什么要缓存

缓存和数据库怎么配合

缓存击穿

缓存穿透

缓存雪崩

缓存一致性

TTL

热点数据


Redis 是这里的主角。

你做 AI SaaS,配额、验证码、短会话、频繁读取的数据,都会用到它。


6 搜索系统


有些查询数据库很难高效做,要用搜索引擎


你要知道


全文搜索

分词

倒排索引

模糊搜索

相关性排序


代表
Elasticsearch
OpenSearch
Meilisearch


比如你做知识库、提示词库、素材库、工单系统,这个很常见。


7 向量数据库


AI 产品里必须知道,但不要把它神化


你要学


什么是 embedding

什么是向量相似度

什么是 top k 检索

什么是 metadata filter

什么是 RAG

什么是 chunk

什么是 rerank

什么是 recall 和 precision


注意
向量数据库不是万能数据库

它不能替代关系型数据库

用户、订单、余额、权限这些核心业务,还是老老实实用 Postgres/MySQL


很多新手傻乎乎地拿向量库存业务主数据,纯找死。


8 数据仓库和分析


当你开始看业务增长,就不只是存数据,还要分析数据


你要知道


OLTP 和 OLAP 的区别

线上交易库和分析库不要混

事件埋点

漏斗分析

留存分析

分群分析

归因

BI 报表


代表
BigQuery
Snowflake
ClickHouse
Metabase
Superset


9 文件存储


很多人把文件和数据库混为一谈


图片

视频

PDF

音频

模型输出文件

一般不直接存进关系数据库正文里


通常做法是


文件放对象存储

数据库里只存 URL、元数据、状态、权限信息


代表
S3
Cloudflare R2
Supabase Storage


10 事务与一致性


这是数据库里最容易让小白懵逼,但最能避免吃亏的地方


你要懂


什么是事务

什么是原子性

什么是一致性

什么是隔离性

什么是持久性

什么是并发冲突

什么是脏读

什么是不可重复读

什么是幻读


为什么这东西重要


比如用户充值了,余额加了,但订单没记成功

或者生成次数扣了两次

或者两个请求同时来,把同一份额度都扣了


这就是事务和并发控制没搞好。


11 索引


索引像书的目录,不是数据本身,但决定你查得快不快


你要学


单列索引

联合索引

唯一索引

覆盖索引

B 树

什么时候该建索引

什么时候别乱建索引


注意
索引不是越多越好

索引会拖慢写入

会占空间

联合索引顺序会影响效果


12 数据迁移和 schema 变更


产品会迭代,数据库结构一定会改


你要学


什么是 migration

怎么加字段

怎么改字段

怎么删字段

怎么做向后兼容

怎么避免线上改表把服务打挂


很多人本地改得飞起,线上一改全站炸。因为根本没学迁移。


13 备份与恢复


这是生死线


你要学


全量备份

增量备份

快照

恢复点

灾难恢复

误删恢复

跨区域备份


真正的高手不是从不出错,是出了错还能活下来。


14 权限与安全


这一块不学,等于埋雷


你要学


数据库账号权限分离

最小权限原则

生产库和测试库隔离

SQL 注入

字段脱敏

加密

审计日志

行级权限 Row Level Security


AI SaaS 很容易碰到敏感信息
邮箱

支付信息

用户上传内容

API key

企业文档


这些出一次事,辛苦几个月白干。


15 高可用与扩展


当用户多了,就会遇到


数据库顶不住

连接数爆了

CPU 爆了

磁盘打满

慢查询越来越多


你要知道


读写分离

主从复制

分库分表

分区

连接池

水平扩展

垂直扩展

多可用区部署


前期不用全做,但必须知道路线。


16 监控与运维


数据库不是装上就完了,要持续盯


你要知道


慢查询日志

QPS

TPS

连接数

CPU

内存

磁盘

锁等待

缓存命中率

复制延迟

错误率


不会看监控的人,数据库炸了都不知道是为什么。




四 你做 AI SaaS 最该优先掌握的数据库知识


你不是去当 DBA,也不是去写数据库论文。你最应该掌握的是这套


第一层 必学


这个不学会,一定吃亏


关系型数据库基础

PostgreSQL 或 MySQL 选一个先学

SQL 基础

数据建模

索引

事务

备份恢复

权限安全

迁移


第二层 很重要


做到产品开始赚钱就要补上


Redis

日志表设计

埋点设计

搜索

对象存储

连接池

性能优化

监控告警


第三层 AI 相关


做 AI 产品时需要补


向量数据库

embedding 和 RAG

任务队列表设计

大模型调用日志

prompt/result 存储策略

成本统计

配额和额度扣减机制


第四层 增长后补


用户和数据量上来再学


数据仓库

BI

ClickHouse

分布式架构

分库分表

复杂权限模型

多租户架构




五 你做 AI 外部 API/SaaS,数据库里最常见的业务模块


这个你最好直接记下来,因为以后你一做产品就会碰到。


1 用户系统


用户表

登录方式

邮箱验证

第三方登录

角色权限

团队成员


2 订阅计费


套餐表

订单表

支付记录

发票

退款

试用

续费

到期时间


3 积分额度


余额

额度包

消耗记录

赠送记录

冻结额度

失败返还

并发扣减


4 AI 调用记录


模型名

输入 token

输出 token

请求时间

响应时间

成本

状态码

错误信息

供应商


5 任务系统


任务创建

排队

处理中

完成

失败

取消

重试次数

回调结果


6 内容与结果


prompt

system prompt

生成结果

文件 URL

缩略图

metadata

版本号

是否公开


7 埋点分析


访问来源

页面浏览

点击

注册转化

付费转化

留存

活跃度

功能使用频率


8 客服和风控


工单

反馈

举报

风控规则

黑名单

限流

异常行为日志




六 你最容易踩的数据库大坑


这部分很值钱,很多人就是死在这些坑里。


1 一开始不用主键和唯一约束


后面重复数据满天飞

一个用户能注册三次

一个订单能被插两次


2 状态字段设计混乱


任务状态没有标准

一会儿 pending 一会儿 processing 一会儿 doing

最后统计全错


3 把所有东西塞一个表


看起来省事,后面根本查不动,也改不动


4 把 JSON 当万能垃圾桶


JSON 不是不能用,但不能拿它掩盖你不会设计表


5 不做索引


前期数据少没感觉

数据一多查询慢成狗


6 索引乱建


每个字段都建索引

最后写入变慢,空间爆炸


7 不考虑并发


同一时间多个请求扣额度

余额扣错

重复下单

重复回调


8 不做幂等


支付回调来两次

任务重试来三次

数据重复生成


9 不做备份


这不是坑,这是自杀


10 生产环境直接手改数据


一时爽,后面没人知道你改了什么


11 日志和业务主表混在一起


日志量大得吓人

最后主业务查询都被拖死


12 大文件直接塞数据库


图像、音频、视频正文别乱塞

数据库不是仓库


13 数据库和业务代码强耦合


改个字段就全站报错


14 不区分测试数据和正式数据


分析结果全失真

自动化脚本误伤生产


15 没有数据删除策略


日志无限长

成本无限涨

合规也可能出问题


16 不懂合规和隐私


用户要求删数据

你删不干净

或者根本没法导出




七 你应该按什么顺序学


你是小白,就别学成百科全书。先把最有杠杆的东西吃透。


第一阶段 先建立认知


目标
知道数据库是干嘛的,知道几大类数据库分别解决什么问题


学这些
关系型数据库和 NoSQL 的区别

数据库、缓存、对象存储、搜索引擎、向量数据库分别是什么

为什么 AI SaaS 通常不能只靠一种库


第二阶段 学会最基本的实战


目标
自己能看懂一个 SaaS 的数据库设计


学这些


主键

外键

一对多、多对多

SQL 增删改查

索引

事务

唯一约束

时间字段 created_at updated_at


第三阶段 学会设计业务表


目标
能设计出用户、订单、任务、额度、日志这几种核心表


学这些
用户系统

支付系统

任务队列状态

API 调用日志

文件元数据

权限模型


第四阶段 学会避免线上事故


目标
别乱改库,别丢数据,别重复扣费


学这些
迁移

备份

恢复

幂等

并发



审计

最小权限


第五阶段 学会 AI SaaS 特有的数据系统


目标
让 AI 产品能跑得稳,算得清,控得住


学这些
任务队列

异步处理

token 成本记录

供应商调用日志

配额控制

RAG 和向量检索

缓存

对象存储


第六阶段 学会增长和分析


目标
知道用户为什么来、为什么走、为什么付费


学这些
埋点

事件模型

分析数据库

漏斗

留存

LTV

转化率




八 你做 AI SaaS 最建议的数据库技术路线


别搞太花,先用最稳的。


最推荐的新手路线


PostgreSQL

Redis

对象存储 S3 或 R2

可选 pgvector

可选 ClickHouse


为什么推荐这套


Postgres 足够强

既能做核心业务

又能做 JSON

还能扩展向量

生态成熟

教程多

Supabase/Neon 这种新手友好


Redis 负责缓存和短期状态

对象存储放大文件

pgvector 让你先低成本做向量检索

以后数据分析重了再加 ClickHouse


你别一上来 MongoDB + Pinecone + Kafka + Elasticsearch + Snowflake 全上

那不是创业,那是给自己挖坟。




九 你学习时每个模块要问的关键问题


这个特别重要。你以后看到任何数据库概念,都拿这几个问题拷打它。


这个东西解决什么问题

它和别的方案比,优势在哪

它的成本是什么

它在哪些场景下不适合

对我的产品现在是不是刚需

它会不会让系统更复杂

它出问题时怎么恢复

它会不会影响以后扩展




十 数据库学习全模块清单


下面我给你一个尽量完整的目录,你照着看就行。


A 基础认知


数据库是什么

数据库管理系统是什么

数据模型是什么

结构化数据和非结构化数据

OLTP 和 OLAP

CAP

ACID

BASE


B 关系型数据库




字段

主键

外键

约束

事务

视图

触发器

存储过程

索引

分区

复制


C SQL


增删改查

连接查询

聚合

子查询

窗口函数

CTE

事务控制

执行计划

优化


D NoSQL


键值

文档

列族

图数据库

适用场景

一致性与扩展性取舍


E 缓存


Redis

缓存策略

缓存一致性

热点问题

过期策略

队列和锁


F 搜索


全文检索

倒排索引

分词

相关性排序

搜索建议

拼写纠错


G 向量与 AI 数据库


embedding

chunking

metadata

top k

ANN

RAG

rerank

混合检索


H 数据建模


实体关系

ER 图

规范化

反规范化

冗余

软删除

审计字段

状态机设计

多租户设计


I 性能优化


索引设计

查询优化

分页优化

冷热数据分层

批量写入

连接池

慢查询


J 一致性与并发


事务隔离级别



乐观锁

悲观锁

幂等

去重

重复请求处理


K 安全


认证

授权

SQL 注入

加密

脱敏

审计

备份权限

环境隔离


L 运维


备份

恢复

迁移

监控

报警

扩容

高可用

容灾


M 数据分析


埋点

事件表

漏斗

留存

分群

BI

数据仓库

ETL/ELT


N 文件和对象存储


图片视频存储

元数据

CDN

签名 URL

权限控制

生命周期管理


O AI SaaS 专项


模型调用日志

token 成本

配额

账单

任务队列

异步回调

失败重试

结果缓存

对话历史

知识库索引


P 法律合规


用户数据删除

隐私政策

数据保留周期

跨境传输

敏感信息管理

日志保留边界




十一 你现在最该学的最小闭环


你现在别贪多,先把这 12 个点搞懂,已经能避开大多数坑了


什么是表、行、列

什么是主键、外键、唯一约束

一对多、多对多

SQL 基础增删改查

join

索引

事务

幂等

备份恢复

Redis 基础

对象存储

AI 任务和日志表设计


只要你把这套吃透,你做大多数 AI web SaaS 已经不会在数据层面被人吊打。




十二 给你一个最实用的学习心法


数据库学习最怕两种傻逼路线


一种是只学概念,不碰业务

最后张口 ACID 闭口 CAP,结果不会设计一个订单表


另一种是只会调工具,不懂原理

最后 Supabase 给你配好了你就会,一出问题就懵


正确路线是


先理解业务

再设计数据

再写 SQL

再看性能

再管安全

再做扩展


数据库不是独立学科,它是业务的骨架。

产品能不能赚钱,很多时候不是前端漂不漂亮,而是你的数据系统能不能把用户、额度、支付、任务、日志、增长这一整套给稳稳接住。


一句话送你


不会数据库的人,做产品像在沙滩上盖楼

懂数据库的人,才是在打地基