Aprendizado por reforço
No aprendizado por reforço (Reinforcement Learning), um agente observa um ambiente, seleciona e executa ações que são recompensadas ou penalizadas.
O processo funciona assim:
- O agente observa o estado do ambiente
- Seleciona uma ação usando uma estratégia (chamada política)
- Recebe uma recompensa (positiva ou negativa)
- Atualiza sua política para maximizar recompensas futuras
- Repete até encontrar a política ótima
O aprendizado por reforço é diferente dos outros tipos: não há dados rotulados nem descoberta de padrões — há tentativa e erro com feedback.
Aplicações: controle de robôs, automação de fábricas, agendamento, planejamento e jogos.
Exemplos para fixar
Exemplo 1: O AlphaGo (DeepMind) aprendeu a jogar Go por reforço: fez milhões de jogadas, recebeu recompensa (+1 por vitória, -1 por derrota) e ajustou sua política até descobrir estratégias que superaram o campeão mundial. Ninguém programou as estratégias — o agente as descobriu por tentativa e erro.
Exemplo 2: Um robô aprendendo a andar recebe recompensa positiva a cada passo sem cair e penalidade quando cai. Com milhares de tentativas, ele descobre a política ótima de movimentos para se manter em pé e andar — mesmo que nunca tenha sido programado com regras de equilíbrio.
Exemplo 3: Comparando os quatro tipos: supervisionado = professor diz a resposta certa; não supervisionado = aluno descobre padrões sozinho; semi-supervisionado = professor dá algumas respostas e o aluno generaliza; por reforço = aluno tenta, recebe nota (boa ou ruim) e ajusta sua estratégia.