人工智能行业2024AI+研发数字峰会：大语言模型服务管理的实践分享

类别：行业机构：AI+软件研发数字峰会研究员：王夕宁/马元元日期：2025-03-24

　　传统网络流量管理

    　　请求/响应大小较小

    　　许多查询可以并行处理

    　　请求一到达就进行处理

    　　处理时间以毫秒计算

    　　相似请求可以从缓存中得到处理

    　　请求成本由后端管理

    　　传统的轮询或基于利用率的流量管理

    　　GenAI/LLM流量管理

    　　由于多模态流量，请求/响应大小较大

    　　单个大语言模型查询经常占用100%的TPU/GPU计算时间请求等待可用的计算资源

    　　处理时间从几秒到几分钟不等

    　　每次请求通常生成唯一内容

    　　根据请求将流量路由到更便宜或更昂贵的模型具备AI感知的负载均衡能力

数据推荐

最新投资评级
目标涨幅排名
上调投资评级
下调投资评级
机构关注度
行业关注度
股票综合评级
首次评级股票

日	一	二	三	四	五	六
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

日	一	二	三	四	五	六
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

日	一	二	三	四	五	六
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

日	一	二	三	四	五	六
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31