Chapter 02 · 解剖图

CPU 解剖

把硅片切开,里面长什么样? 这一章不放动画, 放一张可探索的静态解剖图: 点哪里就讲哪里, 还可以打开 "假装它不存在" 看看后果。

实验台 · CPU 的器件、连线、和"如果它不存在"

点图里任意器件, 右侧打开 做什么 / 物理实现 / 真实 CPU 区别 三段。上方反事实开关可以临时"关掉"一个器件 (Forwarding / x0 硬接地 / 哈佛分离), 看哪些连线变红、整体性能会差到哪里。

反事实 · 假装某个器件不存在

程序计数器

保存下一条要取的指令地址, 每周期更新一次。

PC 增量器

顺序执行时, 一个加 4 的小加法器把 PC 推到下一条指令。

指令存储器 (L1-I)

IMem

用 PC 当地址, 读出 32 位指令编码。

指令译码器

Decoder

把 32 位编码拆成操作码 / 寄存器号 / 立即数等字段。

控制单元

Control

根据 opcode 生成控制信号 (RegWrite / ALUOp / MemRead 等)。

寄存器堆 (x0..x31)

Reg File

32 个 32 位寄存器, 双读单写, 同周期组合读 + 时钟边沿写。

算术逻辑单元

ALU

做加减、与或异或、移位、比较, 顺便产生 zero / sign 标志。

数据存储器 (L1-D)

DMem

存程序数据, 由 ALU 算出的地址驱动, 支持读和写。

算术逻辑单元

ALU

做加减、与或异或、移位、比较, 顺便产生 zero / sign 标志。

做什么

·对两个 32 位输入做控制信号选定的运算 (add / sub / and / or / xor / sll / srl / sra / slt / sltu)。
·副产物 zero 信号供条件分支使用, sign / overflow / carry 在部分 ISA 里也会暴露。

物理实现

·几条并行电路 (整数加法器 / 逻辑单元 / 移位器) + 一个多路选择器, 控制信号选哪条电路的输出。
·整数加法器通常用 carry-lookahead / carry-select 减少延迟, 是 ALU 关键路径。

真实 CPU 区别

·高性能 CPU 有多个 ALU 端口并行执行 (Apple M2 ~ 6 个 INT execution port)。
·浮点 / SIMD / 整数乘除通常各有独立单元和独立延迟 (整数加法 1 cycle, 整数乘 3-5 cycle, 浮点除 ~20 cycle)。

数据通路地址 / 端口选择控制通路反事实场景受影响的边

工程细节

数据通路 vs 控制通路

CPU 内部信号分两类:数据信号(寄存器值、内存值、ALU 输出)和控制信号(告诉 ALU "做加法"、告诉 RegFile "写 a3")。图里它们的连线分别用绿与虚线琥珀。

为什么 x0 硬接 0 这条 ISA 决定如此重要

它不是"寄存器堆的小特性", 而是 RISC-V 整套调用规范的基石。汇编里add x5, x0, x6 表达"x5 = x6";bne x0, x6, label 表达"x6 != 0 则跳"; 写 x0 是"丢弃 ALU 结果"。打开 "假装 x0 不硬接 0" 反事实, 你能看到整个寄存器堆受影响, 整个生态会立刻崩。

哈佛 vs 冯诺依曼在现代不是二选一

L1 通常是哈佛(I-cache 和 D-cache 分开), L2 起统一为冯诺依曼; 这样取指和访存在 L1 不打架, 又能在 L2 / L3 / DRAM 保持"一切都是地址"的统一抽象。反事实开关 "假装 IMem 和 DMem 共用端口" 会把你拉回 1970 年代的单端口存储, load/store 密集型负载会直接腰斩。

ALU 物理上是几个并行电路

ALU 不是"一个加减器", 而是几条并行电路 (整数加 / 逻辑 / 移位) + 一个多路选择器, 控制信号选哪条电路输出。整数加法器通常用 carry-lookahead, 是 ALU 的关键路径之一。高性能 CPU 还会把 ALU 拆成多个端口并行执行 (Apple M2 ~ 6 个 INT execution port)。

下一步: 让这些器件按时钟动起来

到 Ch03 "流水线", 这张静态图会按 IF / ID / EX / MEM / WB 五拍并行; 到 Ch04 "现代 CPU 的魔法", 寄存器堆会膨胀到几百个物理寄存器, ALU 会从 1 个变成 6 个并行端口。