parallel_request_limiter_v2가 동작하는 시점과 lowest_tpm_rpm_v2가 동작하는 시점 - dhs-shine/litellm GitHub Wiki
router.py의 get_available_deployment() 메서드
-
parallel_request_limiter_v2의 async_pre_call_hook이 먼저 호출됨
-
lowest_tpm_rpm_v2의async_get_available_deployments는 그보다 아래에서 routing_strategy에 의해 각각 동작. 현재 쓰고 있는건 usabe-based-routing-v2
-
config.yaml의 model_list아래 litellm_params의 rpm을 걸어두었을 때 실제 에러 발생시키는 부분은
-
lazy exception으로 동일하게 처리 가능할지?