研究领域

"专注是一种选择。我选择深入少数几个领域，而非浅尝所有领域。"

我的研究兴趣围绕一个核心主题：如何构建可靠、高效、安全的大规模系统。

这不是一个模糊的口号，而是一个贯穿我所有研究的明确主线。从分布式共识到AI训练系统，从零信任架构到性能优化，所有这些看似独立的领域，实际上都在回答同一个问题：

在复杂性、规模、不确定性不断增长的环境中，如何保持系统的可靠性和性能？

一、分布式系统：在混乱中寻求一致

为什么分布式系统如此困难？

因为它同时面对三个根本性挑战：网络不可靠、节点会失败、时钟不同步。你不能消除这些问题，只能学会与它们共存。

核心研究方向

1.1 共识算法：民主的代价

研究焦点：Raft、Paxos、ZAB及其变体

我对共识算法的研究不停留在"它是如何工作的"，而是深入探讨：

权衡分析

为什么Raft牺牲了leader平等换取可理解性？
Multi-Paxos的性能为何优于Basic Paxos 10倍？
Raft的日志压缩如何影响尾延迟？

真实案例

etcd在生产环境中遇到的split-brain问题
Consul如何通过WAN gossip实现跨数据中心
TiKV为何选择Raft而非Paxos？

关键问题：

共识算法的性能瓶颈在哪里？（通常是磁盘fsync，而非网络）
如何在不牺牲正确性的前提下优化延迟？
Leader election的频率如何影响系统可用性？

最近关注：

Flexible Paxos：放宽quorum交集约束后的性能提升
EPaxos（Egalitarian Paxos）：无leader的共识是否真的更好？
Raft扩展：如何支持membership change而不引入复杂性？

1.2 一致性模型：CAP之外的世界

研究焦点：线性一致性、因果一致性、最终一致性

很多人以为CAP定理是分布式系统的全部。事实上，CAP只是起点。

CAP的常见误解

误解1："CA系统"不存在 — 在分区必然存在的网络中，你只能选CP或AP

误解2：一致性是二元的 — 实际上有多种一致性强度

误解3：选择了AP就意味着"最终一致性" — 你可以在AP系统中实现因果一致性

我关注的真实问题：

一致性级别	性能成本	适用场景	典型系统
线性一致性	极高（跨机房延迟×2）	金融交易、库存扣减	Spanner、CockroachDB
顺序一致性	高（需要全局排序）	社交时间线	少见
因果一致性	中（仅需依赖追踪）	协作编辑、评论回复	Cassandra (with LWT)
最终一致性	低（无需协调）	计数器、点赞数	DynamoDB、Riak

深度研究方向：

Jepsen测试实践：如何系统性地验证分布式数据库的一致性声明？
混合一致性：如何在同一系统中为不同数据提供不同一致性保证？
一致性与延迟的量化权衡：线性一致性真的值得200ms的额外延迟吗？

1.3 存储引擎：数据如何在磁盘上存活

研究焦点：LSM-Tree、B-Tree、新型存储引擎

存储引擎是数据库的心脏。理解存储引擎，就理解了为什么不同数据库有不同的性能特征。

LSM-Tree 优势

顺序写入：吞吐量是随机写的100倍
高压缩率：可达B-Tree的50%
写放大可控：通过调整compaction策略

LSM-Tree 劣势

读放大：需要查询多层SSTable
空间放大：需要预留compaction空间
Compaction风暴：影响P99延迟

深度案例研究：

RocksDB的Leveled Compaction：如何通过分层减少写放大？
TiDB的Region分裂：大表如何拆分为小Region而不影响性能？
ScyllaDB的Per-CPU架构：如何利用现代多核CPU？

最前沿研究：

Persistent Memory（PMem）：Optane如何改变存储引擎设计？
Learned Index：机器学习能否替代B-Tree的二分查找？
Cloud-Native存储：S3作为持久层的可行性（如Neon、Aurora）

二、AI基础设施：规模的艺术

AI系统的本质挑战

AI训练不是计算密集型，而是通信密集型。GPU之间的数据传输瓶颈，而非计算本身。

核心研究方向

2.1 大规模训练系统：协调千卡GPU

研究焦点：数据并行、模型并行、混合并行策略

关键权衡矩阵：

并行策略	通信开销	内存效率	扩展性	适用模型
数据并行	O(model_size)	低（每卡完整模型）	好（<1024卡）	小模型（<10B参数）
模型并行	O(activations)	高（模型切分）	中（受限于层数）	大模型（>100B）
流水线并行	O(micro-batch)	中	好	深层模型（Transformer）
ZeRO优化	O(√model_size)	极高（接近理论极限）	优（>10K卡）	GPT-3级别模型

真实案例深度分析：

GPT-3训练：如何在10,000张V100上保持85%的GPU利用率？
Megatron-LM：Tensor并行如何将175B模型塞进单个节点？
DeepSpeed ZeRO-3：内存优化器状态分片的数学原理

2.2 推理优化：从秒级到毫秒级

研究焦点：模型压缩、量化、蒸馏、编译优化

优化技术对比：

真实性能数据（以BERT-Large为例）

技术	延迟	精度损失	内存
Baseline (FP32)	28ms	0%	1.3GB
INT8量化	9ms (3.1x)	0.5%	350MB (3.7x)
知识蒸馏（DistilBERT）	7ms (4x)	2%	260MB (5x)
ONNX Runtime优化	12ms (2.3x)	0%	1.3GB (1x)
TensorRT + INT8	4ms (7x)	0.8%	350MB (3.7x)

深度研究问题：

量化误差累积：为什么某些层对量化敏感？如何选择混合精度策略？
Kernel融合：如何在编译时自动识别可融合的算子？
动态Shape处理：变长序列如何影响推理性能？

2.3 分布式训练框架：抽象的层次

研究焦点：PyTorch DDP、Horovod、Ray、Megatron

框架对比维度：

🎯 易用性

Horovod > PyTorch DDP > DeepSpeed > Megatron

⚡ 性能

Megatron > DeepSpeed > PyTorch FSDP > Horovod

🔧 灵活性

PyTorch原生 > Ray > DeepSpeed > Megatron

📈 扩展性

DeepSpeed ZeRO > Megatron > PyTorch FSDP > Horovod

三、安全架构：信任的重新定义

安全不是功能，是架构

你不能在一个不安全的架构上"添加安全"，就像你不能在一座危楼上"添加稳定性"一样。

核心研究方向

3.1 零信任架构：我最近的深度研究

详见我的文章：零信任架构：重新思考安全边界

关键研究成果：

实施零信任的真实成本与ROI分析（基于Google、欧洲银行案例）
零信任的5大局限性（社会工程学、内部威胁、隐私困境等）
成熟度模型：从传统到最优的5级演进路径

3.2 供应链安全：被忽视的攻击面

研究焦点：SolarWinds教训、SBOM、签名验证

关键问题：

如何验证npm包的1000个传递依赖？
Docker镜像的layer是否被篡改？
开源贡献者身份如何验证？

技术方向：

SLSA（Supply chain Levels for Software Artifacts）框架
Sigstore：无密钥的代码签名
依赖混淆攻击防御

3.3 后量子密码学：为未来做准备

研究焦点：NIST PQC标准化、迁移策略

时间线预测：

2025：早期采用者试点
2030：主流企业迁移
2035：传统算法淘汰

挑战：

性能：CRYSTALS-Dilithium签名比RSA慢10倍
密钥大小：1.3KB vs 256B
兼容性：遗留系统无法升级

四、系统性能：从猜测到科学

我的性能优化哲学

先测量，再优化 — 没有profiling数据的优化是赌博
优化瓶颈，不是全部 — Amdahl定律告诉我们应该关注哪里
理解成本 — 性能优化通常以复杂性、可维护性为代价
定义"足够快" — P99 < 100ms还是P99.9 < 50ms？这决定了你的优化策略

核心研究方向

4.1 性能分析方法论

工具链：

CPU Profiling：perf、Flame Graphs、Intel VTune
内存分析：Valgrind、Massif、heaptrack
IO分析：iostat、iotop、blktrace
分布式追踪：Jaeger、Zipkin、OpenTelemetry

真实案例：

如何通过Flame Graph发现意外的锁竞争？
为什么某个微服务的P99延迟是P50的20倍？
内存泄漏如何在生产环境中系统性地追踪？

4.2 延迟优化：每一毫秒的价值

量化分析：

优化	延迟改善	实施成本	ROI
启用HTTP/2	-15%	低（配置）	极高
数据库连接池	-40%	低（代码）	极高
CDN缓存	-70%	中（费用）	高
从Python迁移Rust	-90%	极高（重写）	取决于规模

深度研究：

尾延迟的根源：为什么P99比P50高10倍？
Queueing Theory：Little's Law如何指导系统设计？
Load Balancing策略：Round-Robin vs Least-Connections vs Power-of-Two

4.3 成本效益分析：技术决策的经济学

研究焦点：优化的边际收益递减

真实问题：

将P99从100ms优化到50ms，需要增加50%服务器，值得吗？
迁移到Kubernetes的成本（学习曲线+运维）vs 收益（弹性+可移植性）
自建vs云服务：什么规模下自建更经济？

我的研究方法

从第一性原理到实践验证

📚

1. 理论研究

读论文、源码、技术报告

🔬

2. 实验验证

搭建环境、复现结果、测量数据

✍️

3. 深度写作

提炼洞察、批判思考、传播知识

我相信：

理论必须经过实践验证 — 没有实测数据的性能声明都是营销
案例比抽象更有说服力 — Google、Netflix的真实经验胜过100篇理论文章
批判性思考是必需的 — 质疑流行观点，承认技术局限

正在研究 & 计划研究

🔥 当前活跃研究

CRDTs（无冲突复制数据类型）：如何在最终一致性系统中实现强收敛？
Serverless冷启动优化：从3秒到300ms的技术路径
AI编译器（TVM/MLIR）：如何自动生成高效的Tensor计算Kernel？

📋 计划中的深度文章

「Raft共识算法深度剖析」：从论文到生产实践
「GPT训练的工程挑战」：10,000张GPU的协调艺术
「性能优化的ROI分析」：如何量化优化的价值
「Rust for Systems」：内存安全如何改变系统编程

这些研究方向不是我的"兴趣爱好"，而是我理解世界的方式。
通过深入研究技术系统，我在学习如何应对复杂性。

最后更新：2025年11月
返回关于页面