当将两个组件组合在同一硬件上时,我们仍然可以实现 300TPS,p90 延迟为 35 毫秒——对大多数生产工作负载来说已足够。 编码器组件在 GPU 硬件上部署时(具体为 p3.2xlarge 实例),可以以每秒超过 1,000 个请求的速度处理,延迟仅为 10 毫秒。该配置允许对请求 ...