Skip to content Skip to footer

了解人工智能中的强化学习

image-20231114172034805

强化学习 (RL) 是一种机器学习,在这种机器学习中,智能体通过在环境中采取行动来实现目标来学习做出决策。智能体从其行为的后果中学习,而不是从被明确教导中学习,它根据过去的经验(利用)和新的选择(探索)来选择自己的行动,这本质上是试错学习。探索和开发之间的这种平衡是强化学习的一个关键概念。

强化学习的基础知识

强化学习的基本组成部分是:

  1. 代理:从试错中学习的 AI 模型或算法。
  2. 环境:智能体移动以及与智能体交互的世界。
  3. 操作:代理可以执行的步骤。
  4. 奖励:来自环境的反馈,指导智能体的学习。

代理在环境中执行操作,环境响应这些操作并向代理提供新情况。环境也给予奖励;积极的奖励是一种强化形式,引导代理人朝着目标前进,而消极奖励则引导代理人远离不良结果。

代码中的强化学习

下面是使用 Q 学习技术在 Python 中实现的强化学习算法的简单示例。Q-learning是强化学习中一种基于值的算法。基于价值的算法根据学习和收到的奖励来更新状态-动作对的值。

import numpy as np
# Initialize the Q-table to a 500x6 matrix of zeros
Q = np.zeros([500, 6])# Hyperparameters
alpha = 0.5
gamma = 0.95
epsilon = 0.1for episode in range(1, 100001):
    state = env.reset()
    done = False

    while not done:
        if random.uniform(0, 1) < epsilon:
            action = env.action_space.sample() # Explore action space
        else:
            action = np.argmax(Q[state]) # Exploit learned values        next_state, reward, done, info = env.step(action)…