人工智能行业2024AI+研发数字峰会:大语言模型服务管理的实践分享

类别:行业 机构:AI+软件研发数字峰会 研究员:王夕宁/马元元 日期:2025-03-24

  传统网络流量管理

      请求/响应大小较小

      许多查询可以并行处理

      请求一到达就进行处理

      处理时间以毫秒计算

      相似请求可以从缓存中得到处理

      请求成本由后端管理

      传统的轮询或基于利用率的流量管理

      GenAI/LLM流量管理

      由于多模态流量,请求/响应大小较大

      单个大语言模型查询经常占用100%的TPU/GPU计算时间请求等待可用的计算资源

      处理时间从几秒到几分钟不等

      每次请求通常生成唯一内容

      根据请求将流量路由到更便宜或更昂贵的模型具备AI感知的负载均衡能力