一个棘手的需求摆在了面前:我们需要一个能进行实时、动态决策的服务,并且这个服务必须在每次与环境交互后“在线学习”,不断优化其后续决策。典型的场景是动态定价、广告出价或简单的机器人导航。常规的机器学习模型部署是离线训练、在线推理的模式,无法满
2023-10-27