Home - WYnnTheDays/Arvid GitHub Wiki

HPC Learning

Hardware

NVMe

  • NVMe SSD

Hard disk driver performance

无论是分布式系统,操作系统还是数据库,最终都需要硬件设备的支持 磁盘是其中重要的一部分 一般从两方面进行评估

  1. access time
  2. data transfer time(or rate) 对于市面上不同的设备,不同的性能标准也逐渐进入考虑范围,比如
  3. power consumption
  4. shock resistance
    • impoertant for mobile devices
    • 即可用性与容错性

Interconnect

计算机之间的互联,服务器与存储之间的网络连接是构成存储系统,分布式系统的基础 计算机网络由几个部件构成

  1. 物理硬件设备
  2. 拓扑结构
  3. 通信标准,协议
    • 协议以及标准往往意味着一套系统,因此会有相应的硬件单元,以及通信技术作为协议的部件
    • 特定通信技术作为协议的一个组成部分或者部件

Architecture

InfiniBand

InfiniBand既是一种计算机间通信标准,也是一种架构 InfiniBand也是一种分层协议,类似于TCP/IP协议

Technique

Communication Technique

RDMA

remote direct memory access 是一种绕过远程主机操作系统内核访问其内存中数据的技术,与OpenSHM中的signle-side操作相似

Coordination

Fault-tolerance

  1. checkpointing
    • 在程序执行期间将计算状态周期性地保存到可靠存储器上,存为一个checkpoint文件
    • 如果某个进程失效,所有其它进程都必须立即终止执行,然后重新启动并通过读入最近保存的checkpoint文件将计算状态恢复到故障点之前地最近一个保存点处,最后计算从该保存点处继续执行
  2. messge-logging

Messaging

Parallel framework

pipeline

usage of function pointer

Concept&IDEA

Checkpoint

checkpoint是一种维护数据可靠性的手段(事件),在并行程序以及数据库中都有涉及到 无论对于哪种类型的应用,其本身也是一个开销比较大的事件,因此往往会用增量的思想 或者局部更新(只更新与当前行为相关)的思想来避免整体写入的开销