人工智能行业2024AI+研发数字峰会:大语言模型服务管理的实践分享
传统网络流量管理
请求/响应大小较小
许多查询可以并行处理
请求一到达就进行处理
处理时间以毫秒计算
相似请求可以从缓存中得到处理
请求成本由后端管理
传统的轮询或基于利用率的流量管理
GenAI/LLM流量管理
由于多模态流量,请求/响应大小较大
单个大语言模型查询经常占用100%的TPU/GPU计算时间请求等待可用的计算资源
处理时间从几秒到几分钟不等
每次请求通常生成唯一内容
根据请求将流量路由到更便宜或更昂贵的模型具备AI感知的负载均衡能力