加载中...

04.Integer Arithmetic

发表于2025-01-19|计算机组织与结构

|总字数:1.4k|阅读时长:4分钟|浏览量:

ALU

算术逻辑单元 (Arithmetic and Logic Unit, ALU) 是计算机实际完成数据算术逻辑运算的部件
- 数据由寄存器 (Registers) 提交给ALU, 运算结果也存于寄存器
- ALU可能根据运算结果设置一些标志 (Flags), 标志值也保存在处理器内的寄存器中
- 控制器 (Control Unit) 提供控制ALU操作和数据传入送出ALU的信号

加法

全加器

注意: 异或门只能由2个输入端, 故需要6个门, 3个与门, 1个或门, 2个异或门
优化: 实际需要2个与门, 1个或门, 2个异或门, 但是延迟更高了
不足: 延迟高

串行进位 (行波进位) 加法器 RCA

实际就是将多个全加器连在一起
延迟:
- C_n = 2n
- F_n = C_n-1 + 3 = 2(n - 1) + 3 = 2n + 1 (n ≥ 3, 当n = 1 或 2 时, F = 6)
不足: 高位的运算必须等待低位的"进位输出信号"
思考: 能否提前计算出"进位输出信号"?

全先行进位加法器 CLA

设:
- C₀, X_i, Y_i 都是已知输入
- 生成 (Generate) 信号: G_i = X_i * Y_i
- 传播 (Propagate) 信号: P_i = X_i + Y_i

延迟:
- 1 (P和G同时计算) + 2 (C的与或门延迟依次计算) + 3 (F的第二个异或门延迟) = 6
优点: 延迟和加法器的位数无关
不足: 难以实现, 越到高位需要的与门越多

部分先行进位加法器

采用多个CLA并将其串联, 取得计算时间和硬件复杂度之间的权衡

延迟:
- 3 (第一个CLA算出C₈的总延迟) + 2 (第二个CLA算C₁₆的与或门延迟) + 2 (同前一个) + 5 (同前一个外还有F的第二个异或门延迟) = 12

溢出问题

减法

溢出判断与加法相同

乘法

特征: 乘数右移一位, 被乘数左移一位, 中间结果直接与部分积累加
需要: n位支持右移寄存器, 2n位支持左移寄存器, 2n位寄存器和2n位加法器

流程优化

加法和移位并行

乘法器优化

减少不必要的硬件

需要: 1个n位加法器, 1个n位寄存器 (存被乘数), 1个2n位支持右移的寄存器 (乘数和乘积共用)

问题1 : [X * Y]_c ≠ [X]_c * [Y]_c

原码一位乘法

将被乘数和乘数由补码表示改为原码表示
符号位和数值位分开运算
将乘积结果由原码表示改为补码表示

补码一位乘法 – 布斯算法

运算步骤:
1. 增加 y₀ = 0
2. 根据 y_i+1y_i 决定是否执行 [P_i]_c + [±X]_c
3. 右移部分积
4. 重复步骤2 和步骤3 共n次, 得到最终结果

补的第n位 = 原第n位
- 原来第n位为0, 右移后补0; 原来第n位为1, 右移后补1

问题2 : 溢出

对于带符号整数
- 当 -2^n-1 ≤ x * y ≤ 2^n-1 - 1 时不溢出
- 即: 当乘积的高n位全0或全1, 并等于低n位的最高位时, 不溢出
对于无符号整数
- 当 0 ≤ x * y ≤ 2ⁿ - 1 时不溢出
- 当乘积的高n位全0时, 不溢出

除法

在被除数的左侧补充符号位, 将除数的最高位与被除数的次高位对齐
从被除数中减去除数, 若够减, 则上商为1; 若不够减, 则上商为0
右移除数, 重复上述步骤

除法器

需要:
- 一个2n位的加法器
- 一个2n位的寄存器 : 被除数/余数
- 一个2n位支持右移的寄存器 : 除数
- 一个n位支持左移的寄存器 : 商

运算过程

流程图

除法器优化

余数和除数的减法运算中, 实际上只有n位参与了运算
余数和除数寄存器中, 至少有一个需要支持左移或右移
商寄存器必须支持左移, 且只需要n位

需要:
- 一个n位加法器
- 一个n位支持左移的寄存器 : 被除数/余数
- 一个n位支持左移的寄存器 : 余数/商
- 一个n位寄存器 : 除数

异号的除法

异号, 商需要取补码, 余数本身就是补码

比较余数和除数 (比较绕, 多理理)

如何判断 “够减” : 余数是否足够"大"
- 如果余数和除数的符号相同 : 减法
- 如果余数和除数的符号不同 : 加法
- 够 : 补1; 不够 : 补0恢复

余数减除数后
- 绝对值变小
- 符号不能变 (0视为不变)

运算过程

流程图

问题 : 恢复余数成本高

思路: 不恢复余数
- 只考虑减法
  - 如果余数R_i足够大 : R_i+1 = 2R_i - Y
  - 如果余数R_i不够大 : R_i+1 = 2(R_i + Y) - Y = 2R_i + Y

补码不恢复余数除法

最后还要判断余数和除数是否相同, 若相同要进行处理**(这是不恢复余数除法的固有bug)**

其他

只有一种情况发生溢出
- 当 -2^n-1 / -1 = 2^n-1 时
编译器处理一个变量与2ⁿ相除时, 一般采用右移运算实现
- 无符号: 逻辑右移
- 带符号: 算术右移
- 能整除时: 直接右移得到结果, 被移除的全为0
- 不能整除时: 被移出数存在非0, 采取朝零舍入
  - 无符号: 直接右移得到结果, 移出的低位直接舍弃
  - 带符号: 加偏移量2^k - 1, 然后再移k位, 低位截断

相关推荐

01.Introduction

组织与结构组织: 对编程人员不可见操作单元及其相互连接包括: 控制信号, 存储技术… 例如: 实现乘法是通过硬件单元还是重复加法? 结构: 对编程人员可见直接影响程序逻辑执行的属性包括: 指令集, 表示数据类型的位数… 例如: 是否有乘法指令? ISA Instruction Set Architecture(ISA), 指令集体系结构 ISA是一种规约, 它规定了如何使用硬件 ISA在通用计算机系统是必不可少的一个抽象层不同ISA规定的指令集不同计算机组成必须能够实现ISA规定的功能同一种ISA可以有不同的计算机组成计算机性能计算机的关键参数之一性能, 成本, 尺寸, 安全性, 可靠性, 能耗… 性能评价标准 CPU: 速度存储器: 速度, 容量 I/O: 速度, 容量 … 计算机设计的主要目标是: 提高CPU性能 CPU性能系统时钟时钟频率(单位: Hz): 计算机在单位时间内执行最基本操作的次数时钟周期(单位: s):...

02.A Top-Level View of Computer Function and Interconnection

哈佛结构与冯诺依曼模型哈佛结构将程序指令存储和数据存储分开程序指令和数据指令分开组织和存储的，执行时可以预先读取下一条指令成本高冯诺依曼模型最重要的思想 “存储程序” 使用同一个存储器同时存指令和数据，经由同一个总线传输这种指令和数据共享同一总线的结构，使得信息流的传输成为限制计算机性能的瓶颈，影响了数据处理速度的提高区别二者的区别就是程序空间和数据空间是否是一体的举一个最简单的对存储器进行读写操作的指令，指令1至指令3均为存、取数指令，对冯·诺依曼结构处理器，由于取指令和存取数据要从同一个存储空间存取，经由同一总线传输，因而它们无法重叠执行，只有一个完成后再进行下一个; 如果采用哈佛结构处理以上同样的3条存取数指令，由于取指令和存取数据分别经由不同的存储空间和不同的总线，使得各条指令可以重叠执行，这样，也就克服了数据流传输的瓶颈，提高了运算速度图灵机图灵机计算 4 + 3 例: 连续4个1代表数字 4, 连续3个1代表数字 3 1 R q1 1: 将数值改为 1 R:...

03.Integer, Floating-point and Decimal Representation

信息的二进制编码什么是信息? Infotmation is a message that is previously uncertain to receivers 怎么表示信息? Codebook (Dictionary) 怎么度量信息? 朴素的做法: 度量码长前提: 没有歧义表达 (如: A-0 B-1 C-10 若要表达10, 既有BA又有C,发生歧义) 累加上(每个字符出现的概率 * 该字符所拥有的比特数) 三个公设 Monotonicity in event probability: 事件所发生的概率作为度量的标准 Additivity: 两个独立事件发生概率可加 Continuity 自信息量: I(xi) = -log2p(xi) 一个系统的信息熵在冯诺依曼结构中, 所有信息 (代码和数据) 都采用二进制编码编码:...

05.Float Arithmetic

溢出阶值上溢正阶值超过可能的最大允许阶值 11111110 (127) 标记为 ±∞ 阶值下溢负阶值小于可能的最小允许阶值 00000001 (-126) 报告为0 有效值上溢 (右规) 同符号的两个有效值相加可能导致最高有效位的进位通过重新对齐来修补有效值下溢 (右规) 在有效值对齐过程中, 可能有数字被移出右端最低位而丢失需要某种形式的四舍五入 IEEE754标准规定的五种异常无效运算 (结果为NaN) 运算时有一个数是非有限数, 如 : ±∞, ±∞/±∞, 0*±∞等结果无效, 如 : 0/0, 源操作数为NaN, 一个数对0取余等有限数除以0 (结果为±∞) 数太大 (阶上溢, 结果为±∞) 如 : 对于单精度, 阶码 > 1111 1110 (127) 数太小 (阶下溢, 结果用非规格化数表示) 如 : 对于单精度, 阶码 < 0000 0001 (-126) IEEE754出现前阶下溢一般为0, 换言之, IEEE754解决了这一问题结果不精确 (舍入时引起) 如 :...

06.Decimal Representation

二进制编码的十进制数表示使用原因精度限制转换成本高编码方式 : 自然BCD码 (NBCD, 8421码) 0 ~ 9 : 0000 ~ 1001 符号正 : 1100 / 0 负 : 1101 /1 加法硬件实现 C4 判断是否要加6 (0110) 减法反转数字按位反转, 并添加 (1010) 添加 (0110), 并按位反转结果调整如果有进位, 舍弃进位如果没有进位, 对结果按位反转后加1, 并将结果符号设为负示例

07.Internal Memory

回顾 : 存储器存储器 : 由一定数量的单元构成, 每个单元可以被唯一标识, 每个单元都有存储一个数值的能力地址 : 单元的唯一标识符 (采用二进制) 地址空间 : 可唯一标识的单元总数寻址能力 : 存储在每个单元中的信息的位数, 即内存中能被单独识别并独立存放一个数据的最小内存空间大多数存储器是字节(8bit)寻址的, 32位计算机的最大寻址空间为4GB 如何存1bit 存储器层次结构半导体存储器用半导体芯片作主存储器是目前的主流做法位元半导体存储器的基本元件, 用于存储1位数据特性呈现两种稳态(或半稳态) : 分别表示二进制的0和1 它们能够至少被写入数据一次 : 用来设置状态它们能够被读取 : 来获得状态信息操作半导体存储器类型读写存储器随机存取存储器 (RAM) Random-Access Memory (RAM) 随机访问 : 对存储器中任意数据的访问所花费的时间与数据所在位置无关特性可以简单快速地进行读/写操作易失的类型静态RAM...

数据加载中