9 - decxjo/IK-deepseek-esperanto- GitHub Wiki
laŭ‐prefer‐ekzempl‐ara plibonigo
ekzemplo
Laŭ-Prefer-Ekzempl-Ara Plibonigo (PEPO)
Ĉina: 直接偏好优化 (zhíjiē piānhào yōuhuà) = 直接 (rekta) + 偏好 (prefero) + 优化 (optimumigo)
AKo-implemento:
- Komparas parojn de modelaj eligo
- Apliktas preferajn juĝojn
- Rekte optimizas la politikon
Avantaĝoj:
- Pli rekta ol tradiciaj metodoj
- Pli efika uzado de homaj taksadoj
- Pli stabila trejnado
Diskut-temo: Kiel mezuri objektivecon en preferaj juĝoj?