「糟糕」的策略梯度 人工智能

「糟糕」的策略梯度

艾伯特 AI 科技评论按:强化学习(reinforcement learning)是机器学习界近几年的一大研究热点,无需先验知识、在环境中反复摸索尝试获得高反馈(reward)进行学习的根本思维符合人...
阅读全文