Anamaria
Admin

Aprendizado de Máquina

Aprendizado por reforço

No aprendizado por reforço (Reinforcement Learning), um agente observa um ambiente, seleciona e executa ações que são recompensadas ou penalizadas.

O processo funciona assim:

  1. O agente observa o estado do ambiente
  2. Seleciona uma ação usando uma estratégia (chamada política)
  3. Recebe uma recompensa (positiva ou negativa)
  4. Atualiza sua política para maximizar recompensas futuras
  5. Repete até encontrar a política ótima

O aprendizado por reforço é diferente dos outros tipos: não há dados rotulados nem descoberta de padrões — há tentativa e erro com feedback.

Aplicações: controle de robôs, automação de fábricas, agendamento, planejamento e jogos.

Exemplos para fixar

Exemplo 1: O AlphaGo (DeepMind) aprendeu a jogar Go por reforço: fez milhões de jogadas, recebeu recompensa (+1 por vitória, -1 por derrota) e ajustou sua política até descobrir estratégias que superaram o campeão mundial. Ninguém programou as estratégias — o agente as descobriu por tentativa e erro.

Exemplo 2: Um robô aprendendo a andar recebe recompensa positiva a cada passo sem cair e penalidade quando cai. Com milhares de tentativas, ele descobre a política ótima de movimentos para se manter em pé e andar — mesmo que nunca tenha sido programado com regras de equilíbrio.

Exemplo 3: Comparando os quatro tipos: supervisionado = professor diz a resposta certa; não supervisionado = aluno descobre padrões sozinho; semi-supervisionado = professor dá algumas respostas e o aluno generaliza; por reforço = aluno tenta, recebe nota (boa ou ruim) e ajusta sua estratégia.