计算机系统结构(02325) 思维导图模板_ProcessOn思维导图、流程图

第1章绪论

计算机系统的层次结构

一台由软、硬组成的通用计算机系统可以被看成

按功能划分的多层机器级组成的层次结构

计算机系统的多级层次结构

0到5级，P25

翻译技术的定义

先用转换程序将高一级机器级上的程序整个地变换成低一级机器级上等效的程序，然后在低一级机器级上实现的技术

解释技术的定义

在低级机器上用它的一串语句或指令来仿真高级机器级上的一条语句或指令的功能，是通过对高级机器级语言程序中的每条语句或指令逐条解释来实现的技术

固件是什么

一种具有软件功能的硬件

计算机系统结构、计算机组成和计算机实现

计算机系统结构的定义和内涵

层次结构角度看系统结构

对计算机系统中各级界面的定义及其上下的功能分配，每级都有其自己的系统结构

透明的概念

客观存在的事物或属性从某个角度看不到，则称对它是透明的。

计算机组成与计算机实现的定义和内涵

计算机组成

定义

计算机系统结构的逻辑实现，包括机器级内部的数据流和控制流的组成以及逻辑设计等。

内涵

着眼于机器级内部各事件的排序方式与控制机构、各部件的功能以及各部件的联系。

主要是围绕提高速度，着重提高操作的并行度、重叠度，以及功能的分散和设置专用功能部件来进行的

要确定的方面

数据通路宽度

专用部件的设置

各种操作对部件的共享程度

功能部件的并行度

控制机构的组成方式

缓冲和排队技术

预估、预判技术

可靠性技术

计算机实现

定义

计算机组成的物理实现。包括处理机、主存等部件的物理结构，器件的集成度和速度，器件、模块、插件、底板的划分与连接，专用器件的设计，微组装技术，信号传输，电源、冷却及整机装配技术等。

计算机实现的设计着眼于_和_，_起着主导作用

器件技术

微组装技术

器件技术

计算机系统结构、组成和实现的相互关系和影响

联系和区别

相同结构计算机，可以因速度不同而采用不同的组成

一种组成可以有多种不同的实现方法

结构不同会使可能采用的组成技术不同

计算机系统的软、硬件取舍及定量设计原理

软硬件取舍的基本原则

软硬件取舍原理

在满足应用的前提下，软硬件功能分配比例主要看能否充分利用硬、器件技术的进展，使系统有高的性能价格比，对软件、硬件、固件取舍进行综合平衡

提高硬件功能的比例可提高解题速度，减少程序所需的存储空间，但会增加硬件成本，降低硬件利用率和计算机系统的灵活性和适应性

提高软件功能比例可以降低硬件成本，提高系统的灵活性、适应性，但解题速度会下降，软件设计费用和所需存储器用量增加

取舍的三大原则

考虑现有硬、器件条件下，系统要有高的性能价格比，主要从实现费用、速度和其他性能要求来综合考虑

考虑准备采用和可能采用的组成技术，尽可能不要过多或者不合理地限制各种组成、实现技术的采用

不能仅从硬的角度考虑如何便于应用组成技术的成果和便于发挥器件技术的发展，还应从软的角度把如何为编译和操作系统的实现以及为高级语言程序的设计提供更多、更好的硬件支持放在首位。

计算机系统的定量设计原理

哈夫曼压缩原理

加速处理高概率事件

Amdahl定律

改进效果好的高性能系统应是一个各部件性能均能平衡得到提高的系统

加速比

程序访问的两个局部性

时间局部性

空间局部性

计算机系统设计的主要任务和方法

主要任务

定义

主要任务包括系统结构、组成和实现的设计。

对功能的确定起主要作用是

应用软件

主要任务

要弄清其应用领域是专用还是通用

要弄清软件兼容是放在哪级层次

要弄清对操作系统有何种要求

要如何保证有高的标准化程度

设计方法

由上往下

适合环境要求比较稳定的专用机设计方法

由下往上

从中间开始，向两边设计

通用机一般采用的方法

克服软硬件设计分离和脱节的致命缺点

传统机器语言机器级与操作系统机器级之间进行合理的软硬件功能分配

软件和硬件并行设计，大大缩短了系统的设计周期

软件、应用、器件的发展对系统结构的影响

软件发展对系统结构的影响

软件移植的技术

统一高级语言

采用系列机

模拟和仿真

采用系列机

原理或者方法

使用从中间向两边设计，在软、硬件界面上设定好一种系统结构，软件设计者按此设计软件， 硬件设计者根据机器速度、性能、价格的不同，选择不同器件、硬件和组成、实现技术，研制并提供不同档次的机器

发展的意义或者说优点

较好解决地解决了软件环境要求相对稳定和硬、器件技术迅速发展的矛盾。

软件环境相对稳定就可不断积累、丰富、完善软件，使软件质量、产量不断提高。

软件同时又能不断采用新的器件和硬件技术，短期内便可提供新的、性能不断提高的机器

兼容要求

保证向后兼容，力争向前兼容

模拟和仿真

区别

仿真用微程序解释，存储在控制寄储器

模拟是用机器语言程序解释，存储在主存中

选择

频繁使用的易于仿真的机器指令宜用仿真，以提高速度

很少使用、难以仿真的指令及I/O操作宜用模拟

应用的发展对系统结构的影响

计算机应用归纳为哪4类

数据处理

信息处理

知识处理

智能处理

器件的发展对系统结构的影响

器件的发展对逻辑设计的影响是

逻辑化简

系统结构中的并行性开发及计算机系统的分类

并行性的概念与开发

并行性的含义与级别

_发展是促进计算机和系统性能迅速改进的关键和基础

器件技术

并行性的二重含义

同时性

并发性

计算机系统执行程序角度看，并行等级由低到高

指令内部

一条指令内部各个微操作之间的并行执行

指令之间

多条指令的并行执行

任务或进程之间

多个任务或程序段的并行执行

作业或程序之间

多个任务或多道程序的并行执行

计算机系统处理数据角度看，并行等级由低到高

位串字串

同时只对一个字一个位处理

位并字串

同时对一个字的所有位处理

位片串字并

同时对许多个字同一位进行处理

全并行

同时对许多字全部位或者部分位组进行处理

计算机系统信息加工角度看，并行等级由低到高

存储器操作并行——相联处理机

处理器操作步骤并行——流水线处理机

处理器操作并行——阵列处理机

指令、任务、作业并行

多处理机

并行性开发的途径

时间重叠

并行性概念中引入时间因素，让多个处理过程在时间上相互错开，轮流重叠地使用同一套硬件设备的各个部分，加快硬件周转来赢得速度。

资源重复

在并行概念中引入空间因素，通过重复设置硬件资源来提高可靠性或性能。

资源共享

用软件方法，让多个用户按一定时间顺序轮流使用同一套资源来提高资源利用率，相应地也就提高了系统的性能。

计算机系统的分类

按指令流和数据流的多倍性分类

单指令流单数据流（SISD）

指令部件每次只对一条指令译码，只对一个部件分配数据

单指令多数据流（SIMD）

由单一指令部件同时控制多个重复设置的处理单元，执行同一指令下不同数据的操作

多指令单数据流（MISD）

多个指令部件对同一数据的各个处理阶段进行操作

多指令多数据流（MIMD）

多个独立或相对独立的处理机分别执行各自的程序、作业或进程

第2章数据表示、寻址方式与指令系统

数据表示

数据表示与数据结构

数据表示指的是

能由计算机硬件识别和引用的数据类型，表现在它有对这种类型的数据进行操作的指令和运算部件

数据结构

数据结构是反应了应用中要用到的各种_或_之间的结构关系

数据元素

信息单元

数据结构是要通过_，变换成计算机中所具有的数据表示来实现的。

软件映像

_和_是软、硬件的交界面。

数据结构

数据表示

高级数据表示

自定义数据表示

包括了

标志符数据表示

数据描述符

为了缩短高级语言与机器语言的语义差距，每个数据都带有

类型标志位

标志符数据表示

优点

简化了指令系统和程序设计

简化了编译程序

便于实现一致性校验

能由硬件自动变换数据类型

支持数据库系统的实现与数据类型无关的要求，使程序不用修改即可处理多种不同类型的数据

为软件调试和应用软件开发提供了支持

缺点

增加程序所占的主存空间

会降低指令的执行速度

数据描述符

与标志符表示的区别

标志符是和每个数据相连的，合存在一个存储单元，描述单个数据的类型特征

数据描述符与数据分开存放，用于描述访问的数据是整块还是单个，该数据块或数据元素索要的地址以及其他信息

向量、数组数据表示

为向量、数组数据结构实现和快速运算的方法是

增设向量、数组数据表示

堆栈数据表示

堆计算机表现

引入数据表示的原则

看系统的效率是否有显著提高，包括实现时间和存储空间是否有显著减少。

看引入这种数据表示后，其通用性和利用率是否提高。

浮点数尾数基值大小和下溢处理方法的选择

浮点数尾基值选择

随着rm增大，可表示数最小值将

减少

随着rm增大，可表示数的个数将

增多

随着rm增大，数在数轴上的分布将

更稀

随着rm增大，数的表示精度将

下降

浮点数尾数的下溢处理方法

截断法

原理

将尾数超出计算机字长的部分截去

优点

实现最简单

不增加硬件

不需要处理时间

缺点

最大误差大

平均误差大

舍入法

原理

规定字长之外增设一个附加位，存放溢出最高位

优点

实现简单

增加硬件少

最大误差小，平均误差接近0

缺点

处理速度慢，在需要精度损失较小场景下使用

恒置1法

原理

规定字长最低位恒置为1

优点

实现最简单

不需要增加硬件

不需要处理时间

平均误差趋近于0

缺点

最大误差比截断法要大

查表舍入法

原理

用ROM或者PLA存放下溢处理表

优点

没有最大误差

平均误差可以调节到0

速度较快

缺点

需要硬件量大

实现较难

寻址方式

寻址方式指的是指令按是什么方式寻找所需的

操作数

信息

寻址方式的三种面向

面向主存

面向寄存器

面向堆栈

寻址方式在指令中指名

一种

占用操作码的某些位来指名

另一种

不占用操作码，而是在地址码部分专门设置寻址方式位字段指名

程序在主存中的定位技术

两种地址

程序员使用的地址是

逻辑地址

主存_是程序在主存空间中的实际地址

物理地址

静态在定位

动态在定位

在硬件上设置基址寄存器和地址加法器。

在程序不作变换直接装入主存的同时，装入主存的起始地址存入对应该道程序使用的基址寄存器中。

程序执行时，只要通过地址加法器将逻辑地址加上基址寄存器的程序基址形成物理（有效）地址后去访存即可。

虚实地址表映像表

指令系统设计和优化

指令系统设计的基本原则

指令类型分为两种

特权型，供系统程序员使用

非特权型，供应用程序员使用

指令系统的设计包括

指令的功能

指令的格式

编译程序设计者要求指令系统设计具有

规整性。对相似的操作做相同规定

对称性。便于编译

独立性和全能性，多种程序选择实现同一种功能，为减少编译时哪种选择好的分析，应限定操作只能有一种选择方式

正交性。指令各不同字段在编码时互不相关，相互独立

可组合性，所有操作对各种寻址方式和数据类型都适用

可扩充性，预留一定数量冗余操作码，以便以后扩充新指令

指令操作码的优化

指令是有哪两部分组成的

操作码

地址码

哈夫曼编码和扩展操作码编码

信息源熵公式

哈夫曼编码的平均码长

_编码是最优化的编码

哈夫曼编码

_是界与定长二进制编码和哈夫曼编码之间的

扩展操作码编码

指令系统编码格式有

变长编码

固定长编码

混合编码

指令字格式的优化

指令字优化措施

指令系统的发展和改进

两种途径和方向

复杂指令计算机（CICS）

增强原有指令功能以及设置更复杂指令取代原先子软件完成的功能，实现软件功能的完全硬化的计算机

从面向目标程序、面向高级语言、面向操作系统三个方面进行优化

精简指令计算机（RICS）

通过减少指令种数和简化指令功能来降低硬件设计复杂度，提高指令执行速度的计算机

按CICS方向发展和改进指令系统

面向目标程序的优化实现改进

面向高级语言的优化实现改进

面向操作系统的优化实现改进

按RICS方向发展和改进指令系统

CICS的问题

指令系统庞大，一般指令在200条以上

许多指令的操作繁杂，执行速度很低，甚至不如用几条简单、基本的指令组合实现

由于指令系统庞大，使高级语言编选择目标指令的范围太大，因此，难以优化生成高效机器语言程序，编译程序也太长、太复杂。

由于指令系统庞大，各种指令的使用频度都不会太高，差别很大，其中相当一部分指令的利用率很低。

设计RICS的原则

确定指令系统时只选择使用频度很高的指令，再增加少量能有效支持操作系统、高级语言实现及其他功能的指令，一般使之不超过 100 条。

减少指令系统所用寻址方式种类，一般不超过两种。简化指令的格式限制在两种之内，并让全部指令都是相同长度。

所有指令都在一个机器周期内完成。

扩大通用寄存器数，一般不少于 32 个，尽量减少访存，所有指令只有存、取指令访存，其他指令一律只对寄存器操作。

为提高指令执行速度，大多数指令都用硬联控制实现，少数指令才用微程序实现。

通过精简指令和优化设计编译程序，简单、有效地支持高级语言的实现。

设计RICS结构采用的基本技术

按设计 RISC 的一般原则来设计。

逻辑实现采用硬联和微程序相结合。

在 CPU 中设置大量工作寄存器并采用重叠寄存器窗口。

指令用流水和延迟转移。

采用高速缓冲存储器 Cache,设置指令 Cache 和数据 Cache 分别存放指令和数据。

优化设计编译系统。

RICS技术的好处

简化指令系统设计，适合 VLSI 实现。

提高计算机的执行速度和效率

降低设计成本，提高系统的可靠性

可直接支持高级语言的实现，简化编译程序的设计。

RICS的不足和问题

加重了汇编语言程序设计的负担，增加了机器语言程序的长度，占用存储空间多，加大了指令的信息流量。

对浮点运算的执行和虚拟存储器的支持不足。

RISC 计算机的编译程序比 CISC 的难写。

第3章存储、中断、总线与I/O系统

存储系统的基本要求和并行主存系统

存储系统的基本要求

基本要求是

大容量

高速度

低价格

并行主存系统

并行主存系统能并行读出多个CPU字的_和_、_的交叉访问主存系统

单体多字

多体单字

多体多字

中断系统

中断分类和分级

引起中断的各种事件称为

中断源

分类

访管中断

程序性中断

外部中断

输入、输出中断

分级

分级的原因及其方法

中断的响应次序与处理次序

中断响应次序用什么硬件实现，还设置了什么寄存器

排队器

中断屏蔽位

中断系统的软、硬件功能分配

中断系统的功能有

中断请求分析

中断断点

中断请求的保存和清除

中断返回

优先级的确定

现场保存

中断系统的软、硬件功能分配实质上是_和_的功能分配

中断软件处理程序

中断响应硬件

中断现场包括哪两种状态

软件状态

硬件状态

总线系统

总线的分类

按功能

电源总线

数据总线

地址总线

控制总线

按在系统中位置

芯片级

板级

系统级

按信息传送方向

单向传输

双向传输，双向又分半双向和全双向

按用法

专用

原理

只连接一对物理部件的总线称为专用总线

优点

多个部件可以同时收发信息

不用争用总线，系统流量高

通信时不用指名源和目的地，控制简单

任何总线的失效只会使连与该总线的两个部件不能直接通信，它们仍可以通过别的部件间接通信，系统可靠

缺点

总线数多

非专用

原理

可以被多种功能或多个部件分时共享，同一时间只有一对部件可使用总线进行通信

优点

总线少，造价低

总线接口标准化，模块性强

可以扩充能力强，部件的增加不会使电缆、接口和驱动电路激增

易用多重总线来提高总线的带宽和可靠性，估故障弱化

缺点

流量小，经常出现争用总线，未获得总线使用权的部件因为等待而降低效率

总线的控制方式

控制方式分集中式和分布式，本书只讲集中式

串行链接

原理

获得总线的优先次序是总线可用线所接部件物理位置来决定的，离控制总线器越近的部件优先级越高

优点

选择算法简单，能解决总线控制分配的控制线的线数少，只需3根，且不取决于部件的数量

部件增减容易，只需简单的连接到总线或者移除，可扩充性好

逻辑简单，通过重复设置提高可靠性

缺点

对总线可用线及其有关电路的失效敏感，如果部件i不能正确传送总线可用信号,则i部件后的所有部件失去总线使用权

定时查询

优点

因计数器初值、部件号均可由程序制定，优先次序可用程序控制，灵活性强，不会因为某个部件失效而影响其他部件对总线的使用

缺点

需要2+log2N向上整取根总线，可以共享总线的部件数受限于定时查询的线数，扩展性差

控制较为复杂

独立请求

优点

总线分配速度快，所有部件的总线请求同时送达总线控制器，不用查询

控制器可以使用程序可控的预订方式、自适应方式或者循环方式或者混着使用灵活确定下一个使用总线的部件

方便隔离失效的部件的请求

缺点

控制线数量大，需要2N+1个控制线

控制器复杂得多

小微行计算机适用

串行链接

巨大中心型计算机适用

定时查询、独立请求

总线通信技术

两种通信方式

异步

同步

数据宽度与总线线数

数据宽度

I/O设备取得I/O总线后所传送数据的总量是

数据宽度

适合磁盘等高速设备的是

定长块

适合输入机、打印机等低速设备的是

单字

适合高优先级的中高速磁带、磁盘等设备的是

可变长块

适合灵活有效却复杂、开销大的是

单字加可变长块

速度较低而优先级较高的适合

单字加定长块

单字

单字可变长快

单字加定长

可变长块

定长快

总线线数

总线标准包括

机械

功能

电气

过程

I/O系统

I/O系统概述

I/O系统包括

输入、输出设备

设备控制器

输入输出操作有关的软硬件

输入输出设备分为

外存

传输设备

输入输出系统发展3个阶段

程序控制I/O

全软件

程序查询

中断驱动

直接存储器访问DMA

I/O处理机

通道方式

外围处理机方式

I/O系统的设计主要是考虑好解决_、_和_在速度上巨大的差距

处理器

主存

I/O设备

通道处理机的工作原理和设计流量

通道处理机的工作原理

3类通道

字节多路

数组多路

选择

连接大量字符类低速设备

字节多路

优先级较高磁盘高速设备

选择

多台磁盘高速设备

数组多路

通道流量设计

字节多路的极限流量和实际最大流量

实际最大

所有设备相加

极限流量

数组多路的极限流量和实际最大流量

实际最大

流量最高设备

极限流量

选择通道的极限流量和实际最大流量

实际最大

流量最高设备

极限流量

第4章存储体系

基本概念

存储体系及其分支

_是因主存容量满足不了要求而提出来的， 在主存和辅存之间增设辅助的软件硬件构成一个整体，也被称为_

虚拟存储器

主存-辅存存储层次

因_满足不了要求而引出了cache存储器，称为_

主存速度

cache-主存存储层次

虚拟存储器

虚拟存储器的基本思想

虚拟存储器是以存储器访问的局部性为基础，建立在主存-辅存体系上的存储管理技术

它的基本思想是通过某种策略，把辅存中的信息一部分一部分地调入主存，以给用户提供一个比实际主存容量大得多的地址空间来访问主存。

虚拟存储器的管理方式

段氏管理

页式管理

页式存储是把_和_都机械地等分成固定大小的页

程序空间

主存空间

段页式管理

虚拟存储器通过增设_来实现程序在主存中的定位

地址映像表

页式虚拟存储器的构成

地址的映像和变化

页式虚拟存储器是采用_和管理的_存储层次

页式存储

主存-辅存

页面替换算法

先进先出(FIFO)

近期最少使用算法(LRU)

命中相关的结论

命中率与选用替换算法有关，也和页地址流有关

命中率与分配给程序的主存页数有关

页式虚拟存储器实现中的问题

页面失效的处理

设计好_是页面失效处理的关键之一

页式虚拟存储器

提高虚拟存储器等效访问速度的措施

硬伤增设

快表

页面失效

要访问的虚页不在实主存中时，就发生页面失效

页面争用

当页面调入主存中，主存中的页面位置已全部被其他虚页占用了，称发生页面争用

页面失效与页面争用同时发生

当分配给程序的内存区已被全部占用后，只要发生页面失效，就一定会发生页面争用。

页面失效与页面争用不同时发生

发生页面争用，并不会发生页面失效。

高速缓冲存储器

工作原理和基本结构

高速缓冲存储器是为了弥补_不足，在处理机和主存之间设置一个高速小容量的cache，构成_

主存速度不足

cache-主存存储层次

从CPU角度看，速度接近_，容量确是_

cache

主存

地址的映像与变换

全相连映像与变换

原理

主存中任意一块都可映像装入到cache中任意一块

优点

块冲突概率低，只有装满才出现块冲突

cache空间利用率高

缺点

要构成2^ncb项的相连存储器，代价大

cache容量很大时，查表速度很难提升

直接映像及其变换

原理

把主存空间按cahe大小等分成区，每区内的各块只能按位置一一对应到cache的相应块位置上

优点

节省所需硬件，只需容量小的按地址访问的区号标志表存储器的少量外比较电路，成本很低

缺点

块冲突概率很高

大量空间快也无法利用，空间利用率很低

组相连映像及其变换

原理

全相连映像和直接映像相结合

各组之间是直接映像，组内各块又是全相连映像

cache存储器的LRU替换算法的硬件实现

_算法最常用

LRU

比较对触发器数、门数、门的输入端数与块数的关系

块数 = P

对触发器数 

P(P-1) /2

门数

P

门的输入端数

P-1

cache存储器的透明性及性能分析

cache存储器的透明性分析及解决办法

写回法

原理

写回法也称为抵触修改法。它是在 CPU 执行写操作时,信息只写入Cache，仅当需要替换时，才将改写过的 Cache 块先写回主存，然后再调入新块。

优点

Cache的速度比较高，因为每次访问命中的写操作只写Cache，不写主存，只有在发生替换时才将修改过的块写入主存

缺点

写回法因为有一段时间Cache与主存内容不一致，所以可靠性比写直达法差，而且控制操作比较复杂

写直达法

原理

写直达法也称存直达法。它是利用 Cache 存储器在处理机和主存之间的直接通路,每当处理机写入 Cache 的同时,也通过此通路直接写入主存

优点

由于写直达法Cache及主存内容同时更新，所以一致性保持得比较好，可靠性比较高，操作过程比较简单

缺点

每次操作都要访问主存，所以写操作的速度得不到改善，仍然是访问主存的速度

cache的取算法

影响命中率的因素

cache的容量

块的大小

组相连的组数

组内块数

cache存储器的性能分析

cache存储器的等效存储周期公式

加速比公式

三级存储体系

虚地址cache

虚地址是_直接构成的三级存储层次

cache-主存-辅存

第5章标量处理机

重叠方式

重叠原理和一次重叠

解释一条机器指令的未操作可归并成

取指令

分析

执行

顺序解释

指的是各条指令之间顺序串行，每条指令内部的各个微操作也顺序串行地进行

重叠解释

是在解释第k条指令的操作完成之前，就可以开始解释第k+1条指令。

实现指令的重叠解释满足什么条件

要解决访主存的冲突

要解决分析与执行操作的并行

要解决分析与执行操作控制上的同步

要解决指令间各种相关的处理

相关处理

通用寄存器组相关处理

解决重叠和流水中的操作数相关，不外乎是_和_两种基本方法

推后法

设置相关通路

流水方式

如果一次重叠方式解释指令仍达不到速度要求，可以同时解释指令的流水方式

基本概念

工作原理

将分析子过程再细分成取指令、指令译码和取操作数三个子过程，让4个子过程分别由独立的子部件实现，让经过时间都等于δt2

流水分类

按处理级别

部件级

部件级流水是指构成部件内的各个子部件间的流水，如运算器内浮点加的流水、cache内和多体并行主存内的流水。

处理机级

处理机级流水是指构成处理机的各部件之间的流水，如“取指”、“分析”、“执行”间的流水。

系统级

系统级流水是指构成计算机系统的多个处理机之间的流水，也称为宏流水。

按功能

单功能流水线

多功能流水线

静态流水线

某一个时间内各段只能按一种功能连接流水，只有等流水线全部留空后，才能切换成按另一种功能连接流水。

动态流水线

各功能段在同一时间内可按不同运算或功能连接。

按所具有的数据表示

标量流水机

向量流水机

按反馈回路

线性流水机

非线性流水机

向下扩展

把子进程进一步地细分

向上扩展

在多个处理机之间流水

标量流水线的主要性能

吞吐率

效率

加速比

标量流水机的相关处理和控制机构

局部性相关的处理

全局性相关的处理

全局性相关指的是已进入流水线的_和其_之间相关。

转移指令

后续指令

处理办法

猜测法，猜选其中一个分支继续流入，待条件码形成后再决定是继续执行还是作废，按另一条重新流入

加快和提前形成转移所需的条件，包括指令内或程序段内条件码的提前生成。

采取延迟转移，这是用软件方法进行静态指令调度的技术。

加快短循环程序的处理。

流水处理机的中断处理

非线性流水线的调度

流水线中可能出现的三种相关

资源相关：指当有多条指令进入流水线后在同一机器周期内争用同一功能部件所发生的冲突。

数据相关：是在几条相近的指令间共用相同的操作数时发生的。

控制相关：是无条件转移和条件转移引起的，转移指令约占总指令的1/4左右

指令级高度并行的超级处理机

超标量处理机

超长指令处理机

超长指令处理机遵循的主要准则

单一的控制器，只有一个控制器，每个时钟周期启动一条长指令。

超长指令字被分成多个控制字段，每个字段直接独立地控制每个功能部件。

含有大量的数据通路和功能部件，由于编译在编译时已考查可能出现的数据相关，故控制硬件比较简单。

在编译阶段完成超长指令中多个可并行操作的调度。

超流水线处理机

超流水线处理机提高指令级并行的方法和特点

超流水线处理机着重开发时间并行性，在公共的硬件上采用较短的时钟周期，深度流水来提高速度，需使用多相时钟。

超标量超流水处理机

为了同时解释相邻两条或多条指令，常用的控制方式是_和_

流水

重叠

第6章向量处理机

向量的流水处理与向量处理流水机

向量的处理和向量的流水处理

_处理是向量的处理方式，不是向量的流水处理方式

向量横向

_处理和_处理既是向量的处理方式，也是向量的流水处理方式

向量纵向

分组纵横

向量流水处理机的结构举例

通过并行、链接提高性能

提高向量处理机的性能的方法

设置多个功能部件，使它们并行工作

采用链接技术，加快一串向量指令的执行

采用循环开采技术，加快循环的处理

采用多处理机系统，进一步提高性能

阵列处理机的原理

阵列处理机的构形的特点

阵列处理机的构形

分布式存储器阵列处理机

集中式共享存储器阵列处理机

阵列机与流水线处理机相比的特点

阵列处理机利用的是资源重复，而不是时间重叠

利用的是并行性中的同时性，而不是并发性

使用简单、规整的互连网络来确定处理单元间的连接；在机间互连上比固定结构的单功能流水线灵活，专用性强得多，结构是与采用的并行算法紧密联系在一起的。

SIMD计算机的互联网络

互联网络的设计目标与互连函数

互连网络概念

互连网络是一种由_按照一定的拓扑结构和控制方式构成的，用来实现计算机系统内部的多个_或者是多个_之间的相互连接。

开关元件

处理机

功能部件

SIMD 系统互连网络的设计目标

结构不要过分复杂，以降低成本

互连要灵活，以满足算法和应用的需要

处理单元间信息交换所需的传送步数要尽可能少，以提高速度性能

能用规整单一的基本构件组合而成，或者经多次通过或者经多级连接来实现复杂的互连，使模块性好，以便于用 VLSI 实现并满足系统的可扩充性

互连网络应抉择的几个问题

操作方式

同步

异步

同步与异步组合

交换方法

线路交换

适合大批量数据传输

包交换

短数据信息

线路与包交换组合

出端连接模式

静态

动态

基本的单级互连网络

立方体单级网络

函数形式

Cube_i(P_n-1,Pi,P1,P0) = P_n-1PiP1P0

共有多少个函数

n=log2N种互连函数

最大距离为

n

PM2I单级网络

函数形式

共有多少个函数

2n个互联函数

最大距离

N/2向上整取

混洗交换网络

函数形式

Shuffle(Pn-1P1P0) = P1P0Pn-1

最大距离为

2n-1

蝶形单级网络

函数形式

Butterfly(Pn-1Pn-2P1P0) = P0Pn-2P1Pn-1

基本的多级互联网络

控制方式

级控制

单元控制

部分级控制

多级立方体网络

采用交换单元是

二功能交换单元

STARAN采用什么网络

级控制

部分级控制

间接二进制n方体网络用

单元控制

多级混洗交换网络

全排列网络

定义

在多级互连网络中，能实现两对或多对入、出端之间的连接时，都不会发生数据传输路径的冲突，具有这类性质的互连网络称为全排列网络。

实现

在多级互连网络的输出端设置锁存器，使数据在时间上顺序通行两次

将两个多级互连网络，即一个正网络和一个逆网络串接起来，合并掉中间完全重复的一级，形成2log_2N-1级的多级网络。

共享主存构型的阵列处理机中并行存储器的无冲突访问

脉动阵列流水处理机

脉动阵列结构的原理

脉动阵列结构的特点

结构简单、规整，模块化强，可扩充性好。非常适合超大规模集成电路实现

PE 间数据通信距离短、规则，使数据流和控制流的设计、同步控制等均简单规整。

脉动阵列中所有 PE 能同时运算，具有极高的计算并行性，可通过流水获得很高的运算效率和吞吐率。输入数据能被多个处理单元重复使用，大大减轻了阵列与外界的 I/O 通信量，降低了对系统主存和 I/O 系统频宽的要求。

脉动阵列结构的构形与特定计算任务和算法密切相关，具有某种专用性。

第7章多处理机

多处理机的概念、问题和硬件结构

多处理机的基本概念和要解决的技术问题

定义

有两台以上的处理机，共享_、机间经_和_，在统一操作系统控制下，协同求解大而复杂问题的计算机系统

I/O系统

共享主存

高速通信网络通信

使用多处理机目的

通过多台处理机对多个任务、作业进行并行执行来提高解题速度，从而提高系统的整体性能

使用冗余的多个处理机通过重新组织来提高系统的可靠性、适应性和可用性

应用的目的和结构不同，因此，多处理机可以有同构型、异构型、分布型

多处理机和阵列机区别

阵列处理机是单指令流，多处理机是多指令流。

阵列处理机主要针对向量、数组处理，实现向量指令操作级的并行，是开发并行性的同时性； 多处理机实现的则是更高一级的作业或任务间的并行，是开发并行性中的并发性。

硬件结构上，多处理机要用多个指令部件分别控制，通过共享主存或机间互联网络实现异步通信

算法上，不限于向量、数组，还要挖掘和实现更多通用算法中隐含的并行性

系统管理上，更多地依靠操作系统等软件手段，有效地解决资源分析和管理，特别是任务分配，处理机调度，进程的同步和通信等问题

多处理机的硬件结构

紧耦合和松耦合

紧耦合

定义

处理机之间通过互连网络_的是紧耦合多处理机

共享主存

构型

同构对称性，常用于多处理机并行任务

异构非对称型

两种构型的差异是

自带专用cache

松耦合

各处理机间通过共享I/O子系统、通道或通信线路实现机器间通信，不共享主存的是松耦合多处理机

构型

层次型

非层次型

多处理机机间互连的形式

总线形式

环形互连形式

交叉开关形式

多端口存储器形式

开关枢纽结构形式

蠕虫穿洞寻径网络

存储器的组织

多处理器的主存一般采用多个模块构成的

并行存储器

地址交叉编制方式有

低位交叉

高位交叉

紧耦合多处理机多cache的一致性问题

多cache的一致性问题的解决办法

解决进程迁移引起的多cache不一致性

禁止进程迁移的办法予以解决

在进程挂起时，靠硬件方法将cache中该进程改写过的信息块强制写回主存相应位置的办法来解决

多处理机的并行性和性能

并行算法

并行算法的定义和分类

定义

可同时执行的多个进程的集合，各进程可_，_与_操作。

相互作用

协调

并发

分类

按运算基本对象

数值型

非数值型

并行进程间操作顺序

同步性

异步性

独立性

计算任务大小

细粒度

中粒度

粗粒度

多处理机并行算法的研究思路

霍纳法

加速比

设备利用率

程序并行性的分析

数据相关

如果Pi的左边变量在Pj的右部变量集内，且Pj必须去Pi的运算结果来作为操作数，就称Pj数据相关于Pi，相当于流水中的先写后读

并行

不能并行

交换串行

服从交换律时可以，其余情况不行

数据反相关

如果Pj的左边变量在Pi的右部变量集内，且当Pi未取用其变量值之前，是不允许被Pj所改变的，就称Pi数据反相关与Pj，相当于流水中的先读后写

并行

保证可以Pi先读出可以并行

交换串行

不能交换串行

数据输出相关

如果Pi的左部变量也是Pj的左部变量，且Pj存入其算的的值必须在Pi存入之后，则称Pj数据输出相关与Pi，也称为写写相关

并行

保证Pi先写入Pj再写入可以

交换串行

不能交换串行

无相关

没有任何相关或有仅有源数据相同时，可以并行，可以交换串行

并行语言与并行编译

多处理机性能

任务粒度的大小对多处理机性能和效率的影响

任务粒度的大小会显著影响多处理机的性能和效率。任务粒度过小，辅助开销大，系统效率低；

任务粒度过大，并行度低，性能不会很高。

合理选择任务粒度大小，并使其尽可能均匀，还要采取措施减少辅助开销，以保证系统性能随处理机数目的增大能有较大的提高。

多处理机的操作系统

主从型

优点

主从型操作系统的结构比较简单;

整个管理程序只在一个处理机上运行，除非某些需递归调用或多重调用的公用程序，一般都不必是可再入的

只有一个处理机访问执行表，不存在系统管理控制表格的访问冲突和阻塞，简化了管理控制的实现。

缺点

对主处理机的可靠性要求很高，一旦发生故障，很容易使整个系统瘫痪

如果主处理机不是设计成专用的，操作员可用其他处理机作为新的处理机来重新启动系统

整个系统不够灵活，同时要求主处理机必须能快速执行其他管理功能，提前等待请求，以便及时为从处理机分配任务，否则将使从处理机因长时间空闲而显著降低系统效率

如果负荷过重，也会影响整个系统

适用

适合于工作负荷固定，从处理机能力明显低于主处理机，或由功能差别很大的处理机组成的异构型多处理机。

各自独立型

优点

缺点

适用

松耦合多处理机系统

浮动型

优点

缺点

适用

紧耦合多处理机，特别是公共主存和I/O子系统的多个相同处理机组成的同构型多处理机。

多处理机发展

机群系统

群系统与传统的并行处理系统相比较所具有的优点

系统有高的性能价格比。

系统的开发周期短。

系统的可扩展性好。

系统的资源利用率高。

用户投资风险小。

用户编程方便。

第8章数据流计算机和归约机

数据流计算机

数据驱动的概念

传统诺依曼型计算机采用_驱动方式，_地执行指令

控制

顺序

数据流是基于_和_的一种计算模型

异步性

函数性

数据流计算机的结构

对数据令牌处理的方式不同，可以把数据流计算机的结构分成

静态

动态

数据流计算机存在的问题

如果题目数据相关性很强，并行成分不多，会使其效率比传统的诺依曼型机低

给数据建立、识别、处理标记，需要花费多的辅助开销和较大的存储空间

数据流计算机不保存数组

变量代表数值，程序员无法控制存储分配

互连网络设计困难，I/O系统不够完善

没有程序计数器，诊断和维护困难

归约机

归约机的特点

归约机应当是面向函数式语言，或以函数式语言为机器语言的非诺依曼型机器

具有大容量物理存储器并采用大虚存容量的虚拟存储器，具备高效的动态存储分配和管理的软、硬件支持

处理部分应当是一种有多个处理器或多个处理机并行的结构形式

采用适合于函数式程序运行的多处理器（机）互连的结构

为减少进程调度及进程空间的通信开销，尽量把运行进程的结点机紧靠该进程所需用的数据安排，让各处理机的负荷平衡

填空题和选择题一些补充

XX对XX程序员透明

应用程序员

程序状态字

系统程序员

cache存储器

数据通路宽度

指令缓冲存储器