PaddlePaddle 3.0 正式版概述 - PaddlePaddle/Paddle GitHub Wiki

作为中国首个自主研发的产业级深度学习平台,飞桨一直坚持开源路线,支撑产业智能化升级。飞桨框架3.0版本不仅延续了飞桨框架2.0系列动静统一、训推一体的特性,更在自动并行、神经网络编译器、高阶自动微分等方面取得突破,为大模型时代的技术创新与产业应用提供了强大支撑,为开发者打造了一站式、高性能的深度学习开发体验。无论是前沿算法研究还是产业级大模型落地,飞桨框架3.0都将成为开发者的首选利器。重点特性说明如下:

  • 动静统一自动并行: 这一功能大幅度降低了产业开发和训练的成本。用户只需在单卡基础上进行少量的张量切分标记,飞桨框架便会自动完成分布式切分信息的推导,并添加通信算子以确保逻辑的正确性。同时,根据模型结构和集群信息,结合显存和调度层的优化,飞桨能自动寻找最高效的分布式并行策略,从而大幅降低混合并行训练的开发成本,使开发者能够更专注于模型和算法的创新。自动并行架构进行了深入的验证和打磨,以更好地支持纯文稠密模型、纯文稀疏模型(MoE)和多模态理解模型等常见大模型场景的预训练+精调流程;完善算子的切分推导规则,并支持将自动并行训练参数转化成手动并行参数进行下游推理,自动并行达到了全面可用的状态,帮助用户降低大模型并行程序的开发成本。同时,为了进一步简化用户的分布式开发流程,推出全新的paddle.distributed.parallel接口,基于对分布式张量标记语法的封装,支持用户在模型组网外不侵入地配置数据并行、模型并行、流水并行等常见的并行策略。此外,静态图自动并行架构基于PIR完成了全面的升级,底层的基础组件、核心模块、并行策略和性能优化策略均统一基于扩展的PIR DistDialect进行实现,进一步增强了自动并行的动静一致性,并在Llama系列模型上性能达到了持平甚至领先手动并行方式的水平。
  • 大模型训推一体: 自2.0版本起,飞桨便采用了“动静统一、训推一体”的设计理念,3.0版本也将继续秉持这一理念。得益于动静统一的架构和接口设计,飞桨能够完整支持动态图和静态图这两种不同的运行模式,并且具备出色的整图导出能力。飞桨的动转静整图导出成功率高达95%,高于PyTorch的62%。“训推一体”意味着能够在同一套框架下,尽可能复用训练和推理的代码,特别是复用模型组网代码。在完成模型的开发训练后,只需进行少量的开发工作,即可实现快速推理部署。这一特性为产业提供了极致的开发体验。它使训练和推理的能力能够相互复用,为大模型的全流程提供了统一的开发体验和极致的训练效率。通过动转静的工作,训练和推理的工作得以无缝衔接。支持多款主流大模型、DeepSeek-R1满血版实现单机部署,吞吐提升一倍。
  • 科学计算高阶微分: 飞桨框架3.0为科学计算提供了高阶自动微分、编译优化和分布式训练能力的支撑。英伟达Modulus的41个不同方程实验显示,飞桨的微分方程求解速度比PyTorch开启编译器优化后的版本平均快 115%。同时,飞桨还建设了面向通用数理问题求解的赛桨PaddleScience以及专注于生物计算的螺旋桨PaddleHelix工具包。此外,飞桨框架3.0还原生支持复数技术体系,这对于气象预报、汽车飞行器气动分析等场景下的数据特征分析具有重要意义。
  • 神经网络编译器: 这一功能显著降低了性能优化的成本。飞桨的编译器采用与框架一体化的设计,能够支持生成式模型、科学计算模型等多种模型的高效训练与可变形状推理,在计算灵活性与高性能之间提供了良好的平衡点。使用 CINN 编译器后超过 60%的 模型有显著性能提升,平均提升达 27.4%。CINN神经网络编译器在完备性、性能表现等方面效果全面提升。此版本中,我们对编译器前端、后端各个环节进行了全面优化:包括新增反向计算图自动Re-Compute机制、前端 Pass 性能优化、符号推导机制升级、算子融合策略优化、后端 Schedule 策略和下标表达式化简能力增强等,同时排查并修复了大量正确性和性能问题,系统化的提升了编译器的通用优化能力。
  • 异构多芯适配: 飞桨的重要特色之一是适配异构多芯并充分释放硬件潜能。在接入机制上,飞桨提供了简洁高效的抽象接口和基础算子体系,降低了适配成本。在运行机制上,它优化了调度编排和存储共享等机制,提升了调度效率。从算子内核角度,飞桨提供了编译器自动融合调优方案,以提升端到端的性能。同时,飞桨还为新硬件厂商建设了代码合入、持续集成、模型回归测试等研发基础设施。这些机制保障了新硬件被纳入飞桨的正常发版体系中,用户无需编译即可直接安装试用。飞桨这种功能完善、低成本接入的机制吸引了硬件厂商共同为飞桨贡献了4001个PR,共包含26584个commits。

除了上述核心特性外,高扩展中间表示为了提升飞桨框架的可扩展性,我们研发了高扩展中间表示PIR(Paddle Intermediate Representation)。这一表示系统性地抽象了底层核心概念,提供了灵活且高效的组件。PIR作为基础设施,支撑着动转静、自动微分、自动并行、组合算子、图优化等多项技术,并广泛应用于分布式训练、模型压缩、推理部署等场景。通过PIR提供的DRR(Declarative Rewrite Rule)机制,Pass的开发成本可以降低60%。同时PIR完成在全场景的验证,并默认开启,支持一键动转静,保证了框架卓越的性能表现和良好的拓展性。对框架2.0版已有功能的持续改进,同时新特性在使用体验、性能、二次开发便利度以及硬件适配能力等方面带来了显著提升。此版本在用户体验层面持续丰富并增强了满足更多场景的API功能,针对大模型场景优化完善了分布式并行策略优化和推理功能增强,在编译安装方面做了比较彻底的易用性改进,对依赖包的安装方式和版本进行了全新同步升级,对系统安全进行了全面加固,对产品文档也进行了全面的纠错检查,同时也对一些废弃代码做了大量的清理以保证架构的简洁性。

不兼容升级

飞桨API支持隐式类型提升。在加减乘除等最常用的计算中,如果两个输入的数据类型不一样,就需要确定输出的数据类型问题。飞桨历史上的现状是部分支持且实际规则并不清楚,客观上表现为动静不一致、API和运算符重载不一致 及 不符合交换率,特别是在大模型广泛使用 bf16/fp16 与 fp32 进行混合计算时容易出现非预期问题且难以定位。飞桨从3.0 beta版本开始,明确了隐式数据类型提升规则,其中详细定义了 Tensor与Tensor 和 Tensor与1个数(Scalar)计算结果的类型,保证了计算符合交换律,运算符重载与二元 API 结果一致,动态图与静态图结果一致。更符合用户理解和业界习惯。https://github.com/PaddlePaddle/Paddle/pull/60638, https://github.com/PaddlePaddle/Paddle/pull/63842, https://github.com/PaddlePaddle/Paddle/pull/60011

废弃功能

支持0维Tensor已经稳定了2个版本,本版本取消了在一些情况下将0维Tensor转成只含1个元素的1维Tensor的开关FLAGS_set_to_1d,这个开关是为了兼容一些套件中用1个元素的1维Tensor表示0维Tensor的不正确写法。即当前飞桨完全区分0维Tensor和只含1个元素的1维Tensor的语义,两者不等价。https://github.com/PaddlePaddle/Paddle/pull/61227

1. 用户体验升级

新特性

API功能增强

Bug 修复

文档优化

2. 基础执行架构

PIR 全面推全并默认开启,支持一键动转静,保证了框架卓越的性能表现和良好的拓展性。

Bug 修复

功能优化

新特性

普通用户无关改动

安全问题

  • 为IR(中间表示)的保存/加载操作引入了审批规则,以增强模型序列化过程中的安全性和治理。 #65737

其他

开发者

性能优化

废弃功能

3. 编译器架构

CINN 编译器在完备性、性能表现等方面效果全面提升。此版本中,我们对编译器前端、后端各个环节进行了全面优化:包括新增反向计算图自动Re-Compute机制、前端 Pass 性能优化、符号推导机制升级、算子融合策略优化、后端 Schedule 策略和下标表达式化简能力增强等,同时排查并修复了大量正确性和性能问题,系统化的提升了编译器的通用优化能力。在飞桨 PaddleX 系列模型开启 CINN 编译器后相比动态图模式有超 60% 模型有显著性能提升。

新功能

  1. 新硬件后端支持:新增 HIP 和 SYCL 两种后端的支持。(#65146#65329#69554#71204#65438#66476#66620#67813
  2. 新增支持了推理场景下符号维度的数值范围、相等约束等信息的手工设置。(#67628#67384

功能优化

  1. 优化报错信息打印,提升开发调试体验。(#67738#68769#71076
  2. 支持 welford 算法,可以同时保证 BatchNorm 相关算子 Kenrel 的性能和精度。(#71184#71057)

性能优化

  1. 新增了 GridReduce、Loop合并、Transpose调优、自动向量化等后端优化策略,显著提升了各种维度空间、不同硬件配置全场景下的 Kernel 性能。(#67236#68897#69409#65336#66419#68338#68364#71087#68019#68122#65187#66742#67083#68667#68750#69376#69350#69740#68918#70092#69607#69794#70258#70547#70581#70649#69732#70786#70942#71014#71263#71249#71340#71301#71380
  2. 优化算子融合策略,升级了包括水平融合、多下游融合、Reshape对齐融合等多种策略,进一步增强算子的融合能力,提升端到端优化性能。(#66034#67829#68171#69478#69691#70665#71103#70873
  3. 升级了后端下标表达式的化简能力,支持动静态维度的复杂表达式化简,显著降低后端生成 Kernel 的下标计算开销。(#68011#68617#68624#68685#68220#68720#68753#68986#68987#69071#69164#69282#69522#69857#70208#70355#70427#70450#68737#70500#70953#70933#71026#70456#70257#70461#70142#71018#71278
  4. 新增了反向计算图自动 Re-Compute 机制,可有效降低模型训练显存并提升性能。(#69342#70255#68241#69954#70832
  5. 优化后端 Host、Device 代码编译流程,降低编译耗时,同时提升 Broadcast 场景下分支的处理性能。(#65669#65916#66109#65611#65990#66088#66207#66537#66768#70685#71410#66062
  6. 完善升级了动态维度的符号推导、化简、缓存等机制,添加了所有常规算子(580+)的符号推导接口实现,为 Kernel 编译提供更多约束信息。(#65343#66582#65500#65591#66637#68208#68056#68015#68096#68236#68973#68967#69133#68550#68882#69005#69911#70376#71153#66644#66650#66642#66729#66838#66762#66580#66612#66625#66643#66837#66946#67018#67049#66956#67008#66930#66877#66896#67120#67117#67098#67136#67294#67327#66827#67201#66892#67377#66619#67037#67412#67394#67374#67418#67348#67337#67390#67407#67491#67422#67461#67458#67486#67490#67462#67364#67435#67665#67426#67507#67730#67776#67806#67803#67788#67705#67814#67858#67751#67875#67663#67434#67818#68180#68547#68548#68670#68964#68929#68907#68917#68984#68644#69167#68975#68947#68978#68980#68979#69329#69055#69331#69414#69335#69017#69344#69069#69698#69919#69964#70337#70282#70741#70818#71031#70541#66609#66889#66633#66735#66935#66627#66730#67210#67115#67275#67472#67577#67328#67566#67451#68098#68225#68177#68102#67951#67957#68235#68447#68446#68183#68318#68385#67635#65623#65956#66063#65992#65880#66343#65889#66606#66618#66737#66607#66579#66732#66849#66400#66952#66570#66967#66595#67121#67206#67444#67494#67499#67267#67567#67455#67161#67581#67539#67625#67690#67454#67731#67734#67735#67607#67413#67387#67882#67864#67503#67861#67888#67884#67826#68044#67851#68276#69888#70093#70436#70914#71222
  7. 优化了部分前端Pass,提高前端处理流程的鲁棒性,提升计算密集型的子图性能。 (#65142#67466#69228#70994#71226#71297#71443)
  8. 设计了新的后端 IR 基础组件和相关 Pass 接口,提供更加简洁高效的优化策略开发方式,通过自动剪枝策略同时可有效降低后端 IR 的遍历开销。(#70485#70765#71042#70952#69454#70361#70334#70406#70191#70462#70548#70592#70437#70619#70543#69611#70739#70533#70696#70498#70829#71111#70883

Bug修复

  1. 修复部分算子符号推导实现逻辑的Bug。(#65185#65231#65266#65951#67142#67286#65958#65955#66470#66764#66036#66662#66741#66745#66807#66791#66859#66880#66962
  2. 修复部分特殊算子 Lowering 到编译器时的 Bug。(#68698#68699#68691#68948#70144#70895
  3. 修复算子融合在部分场景报错的问题。(#67038#67400#67655#67723#68029#68042#68888#69250#69937#70924
  4. 修复后端在处理极端值时的正确性问题,提高编译器的鲁棒性。(#68327
  5. 修复后端 Schedule 和 后处理调优过程的实现逻辑Bug,解决部分case下的报错和性能问题。(#68605#68937#68587#69060#69608#71471#71068
  6. 解决了算子融合过程中的存在随机性的问题。(#69547#70931

4. 自动并行架构

在3.0正式版中,我们对自动并行架构进行了深入的验证和打磨,以更好地支持纯文稠密模型、纯文稀疏模型(MoE)和多模态理解模型等常见大模型场景的预训练+精调流程。具体而言,我们针对这些场景新增了20+算子的切分推导规则,并支持将自动并行训练参数转化成手动并行参数进行下游推理,使自动并行达到了全面可用的状态,帮助用户降低大模型并行程序的开发成本。同时,为了进一步简化用户的分布式开发流程,我们推出了一个新的paddle.distributed.parallel接口,基于对分布式张量标记语法的封装,支持用户在模型组网外不侵入地配置数据并行、模型并行、流水并行等常见的并行策略。此外,静态图自动并行架构基于PIR完成了全面的升级,底层的基础组件、核心模块、并行策略和性能优化策略均统一基于扩展的PIR DistDialect进行实现,进一步增强了自动并行的动静一致性,并在Llama系列模型上性能达到了持平甚至领先手动并行方式的水平。

新特性

  • 新增paddle.distributed.parallel接口,支持在模型组网外配置常见并行策略,简化分布式开发流程。#69004, #69033, #69077, #69136, #69169, #69212, #69217, #69283, #69288, #69326, #69365, #69384, #69426, #69443, #69462, #69492, #69628, #69677, #69697, #69776, #69896, #70138, #70182, #70539, #71116, #71210
  • 面向纯文稀疏场景支持MoE专家并行,实现专家并行变mesh切分转换机制并支持自动调用all2all通信。#66462, #66750, #68004, #68053, #68187, #68477, #69098, #69262, #69296, #70715, #71292, #71320
  • 为了满足极致手工优化场景下用户自行管理切分状态和通信操作的需求,同时解决部分非SPMD场景下无法使用张量切分语法的问题,我们新增了LocalLayer接口,支持自动并行和手动并行混合组网。#70519, #70525, #70600, #71232, #71264, #71373
  • 为了让用户可以使用国产硬件运行自动并行程序,完成了对昆仑芯片的适配,其它芯片的支持也在进行中。#70997, #71126, #71229, #71289, #71425, #71500
  • 针对数据维度无法整除设备维度的情况,支持了非均衡的切分推导和切分转换。#66103, #67756, #69265, #70072
  • 对shard_dataloader功能进行了升级,支持通过batch_sampler设置梯度累加步数,同时支持模型多输入的场景。#65325, #70659
  • 对参数保存和加载功能进行了升级,支持参数异步存储、支持动态图和静态图互相加载master_weight、同时支持参数版本控制和offload功能。#66858, #67427, #70105, #70639
  • 为了满足用户对含有PyLayer的组网进行动转静的需求,在静态图模式下对PyLayer进行了支持,允许在PyLayer内部运行分布式张量。#67326, #68190, #69089, #70831
  • 为了解决数据流输入格式与模型动转静实际需要的input_spec不一致导致无法正确动转静的问题,对动转静接口支持了用户自定义input_spec功能,允许用户自行传入需要的input_spec#69183
  • 针对混合并行场景,对梯度裁剪策略进行了适配和支持。#65259, #65928, #69287, #69760, #71421
  • 针对模型层数不整除设备数的场景,支持非均衡流水并行策略,允许用户在不同流水阶段切分数量不同的网络层。#69728, #70164, #70230
  • 新增set_meshget_mesh接口,支持用户方便地设置和获取全局mesh。#69999
  • 新增自动并行和手动并行精度对齐开关,方便将已有的手动并行模型改写成自动并行后验证精度正确性。#67681

功能改进

对于算子切分推导规则进行完善和优化

  • 新增add_nsplitsoftmax_grad算子切分推导规则。#65606, #69439
  • 新增assignembedding_grad算子切分推导规则。#67457
  • 新增clip算子切分推导规则。#70632
  • 新增dist_stackgather_nd算子切分推导规则。#65426
  • 新增dropout算子切分推导规则。#70216
  • 新增fused_dropout_add算子切分推导规则。#67722
  • 新增fast_ln自定义算子切分推导规则。#68148
  • 新增greater_equalless_equal算子切分推导规则。#68868
  • 新增greater_thanless_than算子切分推导规则。#68133
  • 新增if算子切分推导规则。#69357
  • 新增logical_andlogical_notlogical_orlogical_xor算子切分推导规则。#67840
  • 新增logsumexp算子切分推导规则。#67840
  • 新增non_zero算子切分推导规则。#67996
  • 新增pad算子切分推导规则。#68304
  • 新增p_norm算子切分推导规则。#68317
  • 新增scatter_nd算子切分推导规则。#67980
  • 新增sigmoid算子切分推导规则。#71092

静态图自动并行架构基于PIR升级

bug修复

5. 算子机制

算子相关PR,包括组合算子拆分、新硬件适配算子kernel、稀疏算子运算、旧IR算子退场等工作,为PIR适配编译器、多硬件并取得性能优势奠定了基础;规范了算子体系优化了代码结构,减少了技术债,并提升了可维护性。

新特性

Bug 修复

其他

废弃

开发者相关

改进

  • 支持了更多数据类型。 #69143
  • 更新xpu接口。 #69800
  • 改进了算子打印功能。 #69916
  • 升级了 normalize 操作以支持更多场景。 #70152
  • 扩展了group_norm以处理rank大于5的情况。 #68774
  • 改进了backward_blacklist的使用。 #69356

性能提升

  • 优化了where_double_grad算子的性能。 #70404
  • 将for range 改为 slice 加快 grad 执行速度。 #69938

6. 框架性能优化

性能优化相关PR,包括优化算子性能、优化kernel表现、优化内存、优化命名空间等,给使用者带来更好的开发体验。

新特性

功能改进

Bug 修复

性能优化

其他

废弃

7. 推理部署

重点围绕新一代中间表示(PIR)生态建设大模型推理优化两大核心方向, 主要突破包括:

  1. PIR-TensorRT深度融合

    • 完成核心执行机制重构与代码优化,开发50+算子转换器
    • 新增低精度支持(FP16/INT8)与Generic Plugin执行能力
    • 构建完整单测体系,支持模型加载/保存全流程
  2. 大模型推理性能飞跃

    • 新增混合专家系统(MoE)全流程支持,覆盖Hopper架构优化
    • 支持128K超长序列处理,提升长文本推理能力
    • 实现FP8/W8A8等前沿量化方案,降低显存占用
  3. 基础架构全面升级

    • OneDNN升级至3.6版本,CPU推理性能显著提升
    • 模型加载速度优化40%+,支持PIR模型快速加载
    • 完善分布式推理支持,修复allreduce数据类型问题

新增功能

功能完善

  • Inference在PIR下功能机制完善
    • 执行器支持加载.json模型#65223
    • 支持可控制开启PIR模式开关#65596
  • 大模型推理机制完善
    • 优化 gemm 算法搜索(cublaslt全局搜索/离线缓存)#65597, #66132
    • 增强类型系统兼容性(PD_VISIT_FLOATING_AND_HALF_TYPES)#71022
    • 优化注意力机制(多块MMHA/XPU支持)#67211, #68104

性能优化

  • OneDNN 升级到3.6版本(在GNR/EMR设备上模型推理性能获得普遍提升)#69386
  • 算子性能优化(layer_norm/top_p_sampling)#65711
  • 模型加载加速(常规/PIR模型)#69110, #70219

Bug修复

其他修改

  • 代码清理与维护(API弃用/编译警告修复)#68048, #70384
  • 第三方集成优化(OpenVINO子模块管理)#70313, #70425

8. 硬件适配

针对昆仑、海光等平台持续进行功能完善和升级,提升用户体验

新功能

昆仑芯XPU上进行OP的添加和功能的完善,涉及的ops包括:flash attention/flash_attn_unpadded、multinomial、matmul、repeat_interleave、logsumexp、index_put_grad、mean_grad、pow、pow_grad、rsqrt、full、rms_norm、rms_norm_grad、put_along_axis、Cumsum、argmin、masked_select/grad、expand_v2/grad、all2all、expand、reduce_sum、reduce_max、reduce_min、moe、fused_linear_param_grad_add、adamw、clip/clip_grad、tan、acos、blha_get_max_len、gather/gather_grad、scatter/scatter_grad、round、index_select/sindex_select_grad、isfinite、isinf、quantize_linear、dequantize_linear、conv3d_transpose、logsumexp_grad、index_add_grad、eye、gather_element、tril、triu、set_value_grad、argmax、take_along_axis等 #65413, #64846, #65656, #65963, #66143, #66482, #66585, #67077, #67173, #67551, #63989, #67919, #68052, #68176, #68408, #68454, #68478, #68473, #68453, #68770, #68933, #69042, #68713, #69368, #69723, #69767, #69898, #69970, #69771, #70176, #70428, #70573, #70576, #70633, #70114, #70627, #71038, #71132, #71228, #71274, #71364, #71375, #71431, #71451, #67585, #67637, #67914, #67641, #67913, #67955, #68411, #68560, #68423, #68894, #71053, #71047, #69056, #70843, #65653, #68023, #67780, #68622, #67215

海光DCU上添加rocsolver、warpctc的支持,并进行OP的添加和功能的完善,涉及的ops包括:flash_attention、hipblaslt、fastgelu、multiclass_nms3

#68066, #69457, #68603, #65599, #70587, #71337, #70173

Bug修复

昆仑芯XPU上进行OP的Bug修复 #65020, #65251, #65418, #65387, #65525, #65613, #65533, #65705, #65915, #66238, #66485, #67349, #67372, #67276, #67460, #67496, #67530, #67828, #68010, #68157, #68172, #68388, #68213, #68501, #68504, #68585, #69229, #69374, #69424, #69440, #69614, #68542, #69990, #70351, #70479, #70431, #70638, #70856, #70974, #70973, #71027, #71062, #71115, #71110, #70858, #71147, #71212, #71361, #71423, #70859, #71492, #71493, #69826, #67341, #68906, #71171

海光DCU上进行OP的Bug修复 #69617, #65716, #66630, #65399

性能优化

昆仑芯XPU对stream等基础组件功能升级、对部分op的性能进行优化。 #65102, #69727, #69899, #69942, #70025, #70640

硬件底层基础库升级

基础库的升级支持昆仑芯P800,以及基础组件的支持 #65494, #65924, #69752, #70835, #65554, #66998, #65278, #70614, #71012, #71178, #71168, #68740, #71100, #65221, #67983

其他

op test等相关模块修改 #65654, #66233, #66728, #67959, #68169, #68418, #68434, #68445, #68877, #68993, #69006, #70471, #70706, #67777, #65698, #68433, #65689

9. 环境更新

  • 优化了框架的稳定性和跨平台兼容性,修复了测试覆盖率及编译环境兼容性问题,并增强对Windows/XPU/DCU等多平台支持;同时精简了代码结构,移除废弃代码和无用依赖库以降低维护成本;升级CUDA等关键依赖,进一步优化CI/CD流程,提升构建速度并增强系统整体稳定性。

Bug 修复

改进升级

新特性

废弃

10. 其他

  • 与用户使用无关的改动,包括废弃代码清理、代码迁移、单测清理、调试或者监控机制升级等。

开发者相关内容

废弃

11. 贡献者名单

0x3878f, 0x45f, 2742195759, 86kkd, A-nnonymous, ADream-ki, Aganlengzi, Albresky, AndPuQing, AndSonder, Aoraki-Dream, ApricityXX, Asthestarsfalll, Aurelius84, BHmingyang, BeingGod, Betelgeu, BiynXu, CJ77Qi, Caogration, DDDivano, Dale1314, Deleter-D, DesmonDay, Difers, Dmovic, DongBaiYue, DrRyanHuang, DrownFish19, Eddie-Wang1120, EgoistSA, FeixLiu, ForFishes, Fripping, From00, Function-Samuel, GoldenStain, Guanhuachen2003, GuoxiaWang, Hanyonggong, HarperCy, Hongqing-work, HydrogenSulfate, JZ-LIANG, Jeff114514, JiaWenxuan, LLee233, LanCole, Lans1ot, Layssy, Leoforever123, LiYuRio, LielinJiang, LittleHeroZZZX, Liujie0926, Liyulingyue, Luohongzhige, Marcusryz, MarisaSparkL, Micalling, MikhayEeer, MrXnneHang, MufanColin, NKNaN, Neo-WY, NeroLoh, PolaKuma, Qin-sx, QingshuChen, RachelXu7, RichardWooSJTU, RuohengMa, SCUcookie, Sekiro-x, SigureMo, Sunny-bot1, SylarTiaNII, Sylence8, TBD1, TR666, TimeYWL, Tom-Zheng, Turingg, Victor-Bayim, Vvsmile, WAYKEN-TSE, Wanglongzhi2001, Wangzheee, Waynezee, Wennie396, Whsjrczr, Wizard-ZP, Wong4j, XavierZXY, XiaociZhang, XieYunshen, Xing-lil, Xreki, YKTian-x2b, YZW-explorer, YanhuiDua, YuanRisheng, ZHOU05030, ZhangHandi, ZhangX-21, ZibinGuo, a2064968462, anderson101866, aooxin, aquagull, baoqiwen, bapijun, blacksheep-Aristotle, bukejiyu, carryyu, ccsuzzh, chang-wenbin, changeyoung98, chen2016013, ckl117, cmcamdy, co63oc, continue-coding, cqulilujia, crazyxiaoxi, cszdrg, cubehan3, cyber-pioneer, danleifeng, decade-afk, deepllz, dynamicheart, eee4017, eggman-1024, enkilee, epiphanyer, ethan-sem, fangfangssj, feixi21, fightfat, fufu0615, fxfxfxfxfxfxfxfx, fxy1699, gitliuyf, gongel, gongshaotian, gongweibao, gouzil, gsq7474741, guixxiic, gzy19990617, hanyang2508, haoyu2022, heavyrain-lzy, houj04, huangjiyi, huangkr03, hxzd5568, icpcccpc, inaomIIsfarell, iosmers, jeff41404, jerrywgz, jiachengdai, jiahy0825, jinmingyi1998, jinyouzhi, joseflv, jychen21, jzhang533, kangguangli, kanze1, kineast, kircle888, l1cacheDell, leo0519, lifulll, linkk08, little1d, liufengwei0103, liuruyan, lixcli, liym27, liyongchao911, lizexu123, lizhenyun01, lj970926, lshpku, lszxb, ltd0924, luotao1, lwkhahaha, lxd-cumt, mayang002, megemini, mikemikimike, ming1753, monster1015, mori0umi, ndyysheep, nizne9, nobodynobody, ooooo-create, penPenf28, phlrain, pkuzyc, qili93, rich04lin, risemeup1, ronny1996, rsmallblue, runzhech, skywalker2012, smile2game, sneaxiy, successfulbarrier, sunzhongkai588, swgu98, tc20042008, tianhaodongbd, tianshuo78520a, tizhou86, tlxd, uanu2002, umiswing, vivienfanghuagood, waliwali777, walkalone20, wanghuancoder, wangna11BD, will-jl944, winffke, winter-wang, wwwuyan, xiaoguoguo626807, xiaoluomi, xiaoyao0115, xingmingyyj, xkkkkkk23, xu8117, xuxinyi389, xz-alex, yangrongxinuser, yeteye, yinfan98, yongqiangma, yuan20041218, yuanlehome, yuguo-Jack, yumin066, zbt78, zeroRains, zhangbo9674, zhanghonggeng, zhanglirong1999, zhangting2020, zhangyk0314, zhangyuqin1998, zhiminzhang0830, zhink, zhiqiu, zhouquan32, zhoutianzi666, zhwesky2010, zoooo0820, zrr1999, zty-king, zxcd, zyfncg