9 - decxjo/IK-deepseek-esperanto- GitHub Wiki

laŭ‐prefer‐ekzempl‐ara plibonigo

ekzemplo

Laŭ-Prefer-Ekzempl-Ara Plibonigo (PEPO)

Ĉina: 直接偏好优化 (zhíjiē piānhào yōuhuà) = 直接 (rekta) + 偏好 (prefero) + 优化 (optimumigo)

AKo-implemento:

  1. Komparas parojn de modelaj eligo
  2. Apliktas preferajn juĝojn
  3. Rekte optimizas la politikon

Avantaĝoj:

  • Pli rekta ol tradiciaj metodoj
  • Pli efika uzado de homaj taksadoj
  • Pli stabila trejnado

Diskut-temo: Kiel mezuri objektivecon en preferaj juĝoj?