Inference workload 首先需要知道的是,inference和train的区别是train只需要执行一次,而模型部署之后,inference执行的次数会非常多。所以我们需要让inference变的高效,才能让模型更加“经济” 优化inference的一些应用点: 日常使用:chatbots, code completion 模型评估:llm as judge等 test-time compute,更多的thinking RL,做sample generation和打分 Metrics: TTFT,首t…