Treinamento de algoritmos: viés e variância
Ao treinar um algoritmo de ML, precisamos ajustar hiperparâmetros — configurações que controlam como o modelo aprende. Cada conjunto de hiperparâmetros pode gerar modelos diferentes.
Duas métricas estatísticas fundamentais para avaliar a qualidade do treinamento:
| Métrica | O que mede | Problema |
|---|---|---|
| Viés (Bias) | Quão longe as previsões estão do valor real | Viés alto = modelo muito simplificado, não captura os padrões (underfitting) |
| Variância (Variance) | Quão dispersas são as previsões | Variância alta = modelo se ajustou demais aos dados de treino, não generaliza (overfitting) |
O objetivo é encontrar o equilíbrio entre viés e variância — um modelo que captura os padrões reais sem se ajustar ao ruído dos dados.
Exemplos para fixar
Exemplo 1 (Viés): Um modelo prevê que a pontuação média do Reino Unido no Eurovision é 57, mas o valor real é 67. O viés é 10 pontos. O modelo está sistematicamente errado — simplificou demais a realidade.
Exemplo 2 (Variância): Um modelo prevê bem a média de 67 pontos no Eurovision, mas as previsões individuais variam de -250 a +1500. A variância é altíssima — o modelo se ajustou demais a padrões específicos dos dados de treino e não generaliza para dados novos.
Exemplo 3 (Equilíbrio): Pense em acertar um alvo. Viés alto é como sempre acertar o mesmo ponto, mas longe do centro (preciso mas não exato). Variância alta é como acertar perto do centro em média, mas com tiros espalhados (exato mas não preciso). O ideal é viés baixo e variância baixa — tiros consistentes no centro do alvo.