9 - decxjo/IK-deepseek-esperanto- GitHub Wiki

laŭ‐prefer‐ekzempl‐ara plibonigo

ekzemplo

Laŭ-Prefer-Ekzempl-Ara Plibonigo (PEPO)

Ĉina: 直接偏好优化 (zhíjiē piānhào yōuhuà) = 直接 (rekta) + 偏好 (prefero) + 优化 (optimumigo)

AKo-implemento:

Avantaĝoj:

Diskut-temo: Kiel mezuri objektivecon en preferaj juĝoj?