Home - WYnnTheDays/Arvid GitHub Wiki
HPC Learning
Hardware
NVMe
- NVMe SSD
Hard disk driver performance
无论是分布式系统,操作系统还是数据库,最终都需要硬件设备的支持 磁盘是其中重要的一部分 一般从两方面进行评估
- access time
- data transfer time(or rate) 对于市面上不同的设备,不同的性能标准也逐渐进入考虑范围,比如
- power consumption
- shock resistance
- impoertant for mobile devices
- 即可用性与容错性
Interconnect
计算机之间的互联,服务器与存储之间的网络连接是构成存储系统,分布式系统的基础 计算机网络由几个部件构成
- 物理硬件设备
- 拓扑结构
- 通信标准,协议
- 协议以及标准往往意味着一套系统,因此会有相应的硬件单元,以及通信技术作为协议的部件
- 特定通信技术作为协议的一个组成部分或者部件
Architecture
InfiniBand
InfiniBand既是一种计算机间通信标准,也是一种架构 InfiniBand也是一种分层协议,类似于TCP/IP协议
Technique
Communication Technique
RDMA
remote direct memory access 是一种绕过远程主机操作系统内核访问其内存中数据的技术,与OpenSHM中的signle-side操作相似
Coordination
Fault-tolerance
- checkpointing
- 在程序执行期间将计算状态周期性地保存到可靠存储器上,存为一个checkpoint文件
- 如果某个进程失效,所有其它进程都必须立即终止执行,然后重新启动并通过读入最近保存的checkpoint文件将计算状态恢复到故障点之前地最近一个保存点处,最后计算从该保存点处继续执行
- messge-logging
Messaging
Parallel framework
pipeline
usage of function pointer
Concept&IDEA
Checkpoint
checkpoint是一种维护数据可靠性的手段(事件),在并行程序以及数据库中都有涉及到 无论对于哪种类型的应用,其本身也是一个开销比较大的事件,因此往往会用增量的思想 或者局部更新(只更新与当前行为相关)的思想来避免整体写入的开销