Im bestärkenden Lernen besteht die Herausforderung darin, zwischen Exploration und Exploitation abzuwägen. Erläutere dieses Dilemma und nenne zwei gängige Strategien, um es zu bewältigen.
Epsilon-greedy
Epsilon-first
Overlook minor misbehaviors
Impose harsh punishments for any infraction

Maschinelles Lernen Übungen werden geladen ...