parallel_request_limiter_v2가 동작하는 시점과 lowest_tpm_rpm_v2가 동작하는 시점 - dhs-shine/litellm GitHub Wiki

router.py의 get_available_deployment() 메서드

  • parallel_request_limiter_v2의 async_pre_call_hook이 먼저 호출됨 image

  • lowest_tpm_rpm_v2의async_get_available_deployments는 그보다 아래에서 routing_strategy에 의해 각각 동작. 현재 쓰고 있는건 usabe-based-routing-v2 image

  • config.yaml의 model_list아래 litellm_params의 rpm을 걸어두었을 때 실제 에러 발생시키는 부분은 image

  • lazy exception으로 동일하게 처리 가능할지?

lowest_tpm_rpm_v2 async_get_available_deployments에서 error catch 되는 시점

image

parallel_request_limiter_v2

image