Aprendizado semi-supervisionado
O aprendizado semi-supervisionado combina elementos do supervisionado e do não supervisionado: começa com uma pequena quantidade de dados rotulados e depois introduz uma grande quantidade de dados não rotulados.
Essa abordagem é prática porque:
- Rotular dados é caro e demorado (requer trabalho humano especializado)
- Dados não rotulados são geralmente abundantes e baratos
- O modelo usa os poucos rótulos como "âncoras" e aprende a generalizar para os dados não rotulados
Exemplos para fixar
Exemplo 1: Uma empresa de saúde tem 100 radiografias rotuladas por médicos (caro e demorado) e 10.000 radiografias não rotuladas. O aprendizado semi-supervisionado usa as 100 rotuladas para aprender padrões iniciais e depois estende esse aprendizado para as 10.000 não rotuladas — obtendo resultados melhores do que usar apenas as 100.
Exemplo 2: O Google Photos usa semi-supervisionado: você rotula manualmente algumas fotos de amigos ("este é João"), e o sistema usa esse pequeno conjunto rotulado para aprender a reconhecer João em todas as suas outras fotos — mesmo sem rótulos.
Exemplo 3: A diferença prática: supervisionado = todos os dados têm rótulos; não supervisionado = nenhum dado tem rótulo; semi-supervisionado = poucos dados têm rótulos, e o modelo usa isso como ponto de partida para aprender com os muitos dados sem rótulos.