Verstärkungslernen: Grundlagen und Algorithmen für optimales Lernen

Question 1

Was ist eine zutreffende Aussage zum Verstärkungslernen?

Accepted Answer

Die Belohnungsfunktion legt den numerischen Wert fest, den der Agent für bestimmte Aktionen erhält.

Answer

Es ist eine unüberwachte Lernmethode.

Answer

Der Zustandsraum enthält alle möglichen Aktionen, die der Agent ausführen kann, während der Aktionsraum alle möglichen Beobachtungen umfasst, die er machen kann.

Question 2

Welches ist das Hauptziel des Verstärkungslernens?

Accepted Answer

Einen Agenten zu entwickeln, der in sich verändernden Umgebungen die besten Entscheidungen trifft.

Answer

Einen Agenten dazu zu befähigen, expliziten Regeln zu befolgen.

Answer

Eine präzise Vorhersagefunktion für den Zustand einer Umgebung zu erstellen.

Answer

Ein Modell zu trainieren, das große Datenmengen effizient verarbeiten kann.

Question 3

Was beschreibt das Verstärkungslernen am besten?

Accepted Answer

Ein Agent lernt durch Belohnungen, die besten Aktionen in einer Umgebung auszuführen.

Answer

Die Belohnungsfunktion misst, wie schlecht ein Agent in einer Situation abschneidet.

Answer

Q-Learning und SARSA sind Algorithmen für unüberwachtes Lernen.

Answer

Verstärkungslernen ist eine Art unüberwachtes Lernen.

Question 4

Welches ist das Hauptziel des Verstärkungslernens?

Accepted Answer

Einen Agenten in die Lage zu versetzen, die optimalen Aktionen in einer Umgebung zu finden und auszuführen

Answer

Einen Agenten durch Bestrafung zu optimalen Aktionen zu trainieren

Answer

Einen Agenten in die Lage zu versetzen, die Zukunft vorherzusagen und entsprechend zu handeln

Question 5

Was ist die Hauptaufgabe einer Belohnungsfunktion im Verstärkungslernen?

Accepted Answer

Numerische Werte liefern, die die Qualität der Aktionen des Agenten bewerten.

Answer

Die zulässigen Aktionen des Agenten festlegen.

Answer

Die Wahrscheinlichkeit berechnen, mit der der Agent eine Aktion ausführt.

Answer

Die optimale Handlungsfolge für den Agenten berechnen.

Question 6

Wie bestimmt SARSA (State-Action-Reward-State-Action) in einer bestimmten Situation die nächste Aktion?

Accepted Answer

SARSA berücksichtigt den aktuellen Zustand und die aktuelle Aktion, um die nächste Aktion und den nächsten Zustand zu ermitteln.

Answer

SARSA wählt die Aktion mit dem höchsten sofortigen Nutzen.

Answer

SARSA verwendet eine Nachverfolgungsfunktion, um die Aktionen im Laufe der Zeit zu bewerten.

Question 7

Welche der folgenden Aussagen beschreibt die primäre Aufgabe eines Agenten im Verstärkungslernen?

Accepted Answer

Optimale Aktionen in einer Umgebung durch Belohnungen erlernen.

Answer

Aktionen durch Versuch und Irrtum erlernen.

Answer

Aktionen durch Überwachung erlernen.

Question 8

Was ist der Zweck einer Belohnungsfunktion im Verstärkungslernen?

Accepted Answer

Zu definieren, wie wertvoll eine bestimmte Aktion in einem bestimmten Zustand ist.

Answer

Zu bestimmen, wie kostspielig eine bestimmte Aktion ist.

Answer

Den Zustand einer Umgebung zu beschreiben.

Question 9

Was repräsentiert der Zustandsraum in einem Verstärkunglernsystem?

Accepted Answer

Alle möglichen Zustände, in denen sich das System befinden kann.

Answer

Alle möglichen Belohnungen, die das System erhalten kann.

Answer

Alle möglichen Aktionen, die das System ausführen kann.

Question 10

In welchem Anwendungsbereich ist Verstärkungslernen besonders gut geeignet?

Accepted Answer

Spielen von Spielen

Answer

Maschinelle Übersetzung

Answer

Spracherkennung

Answer

Bildklassifizierung

Question 11

Welche Strategie wird verwendet, um die Erkundung und Ausbeutung im Verstärkungslernen auszugleichen?

Accepted Answer

Epsilon-greedy-Ansatz

Answer

Rein zufälliger Ansatz

Question 12

Welche Einschränkung gilt für die Konvergenz von Verstärkungslernalgorithmen?

Accepted Answer

Sie konvergieren nicht immer zu einer optimalen Lösung.

Answer

Sie konvergieren immer zu einer lokalen optimalen Lösung.

Answer

Sie konvergieren immer zu einer optimalen Lösung.

Question 13

Welche Technik kann zur Verbesserung der Stabilität von Verstärkungslernalgorithmen eingesetzt werden?

Accepted Answer

Regularisierung

Answer

Überanpassung

Answer

Dimensionale Reduktion

Answer

Seltene Belohnungen

Question 14

Welche Aussage beschreibt das Ziel des Verstärkungslernens treffend?

Accepted Answer

Einen Agenten zu befähigen, in einer Umgebung optimale Aktionen auszuführen, um Belohnungen zu maximieren.

Answer

Einen Agenten zu trainieren, Vorhersagen aus Daten abzuleiten.

Question 15

Welche Aufgabe hat eine Belohnungsfunktion im Verstärkungslernen?

Accepted Answer

Die Qualität der Aktionen des Agenten zu bewerten.

Answer

Die möglichen Zustände der Umgebung zu definieren.

Answer

Die möglichen Aktionen des Agenten aufzuzählen.

Answer

Die optimalen Aktionen für den Agenten zu bestimmen.

Question 16

Was repräsentiert der Zustandsraum in einem Verstärkungslernen-Problem?

Accepted Answer

Die Menge aller möglichen Zustände, in denen sich die Umgebung befinden kann.

Answer

Die Aktionen, die der Agent ausführen kann.

Answer

Die Belohnungen, die der Agent erlangen kann.

Question 17

Welcher Verstärkungslernen-Algorithmus ist eine On-Policy-Methode?

Accepted Answer

SARSA

Answer

Akteur-Kritiker

Answer

Q-Learning

Answer

Monte-Carlo-Kontrolle

Question 18

Welcher Vorteil wird Off-Policy-Methoden im Verstärkungslernen zugeschrieben?

Accepted Answer

Sie können Daten von einer anderen Strategie als der aktuellen nutzen.

Answer

Sie sind stabiler als On-Policy-Methoden.

Answer

Sie erfordern geringere Berechnungen als On-Policy-Methoden.

Question 19

Was ist das Hauptanliegen der Q-Funktion im Q-Learning?

Accepted Answer

Den erwarteten zukünftigen Nutzen einer Aktion in einem gegebenen Zustand zu schätzen.

Answer

Die Belohnung für eine Aktion in einem bestimmten Zustand zu berechnen.

Answer

Die Wahrscheinlichkeit einer Aktion in einem bestimmten Zustand zu bestimmen.

Question 20

Welche der folgenden Aussagen beschreibt eine Herausforderung bei der praktischen Anwendung von Verstärkungslernen?

Accepted Answer

Die Abstimmung der Belohnungsfunktion kann komplex sein.

Answer

Verstärkungslernen eignet sich nur für komplexe Umgebungen.

Answer

Verstärkungslernen erfordert immer große Datenmengen.

Question 21

Welche Aussage beschreibt das zentrale Prinzip des Verstärkungslernens?

Accepted Answer

Ein Agent erlernt, in einer Umgebung durch Belohnungen optimale Aktionen auszuführen.

Answer

Ein Agent löst Probleme ausschließlich durch logische Deduktion.

Answer

Ein Agent lernt durch die Beobachtung eines menschlichen Mentors.

Question 22

Was beschreibt die Belohnungsfunktion im Verstärkungslernen?

Accepted Answer

Sie definiert das Feedback oder die Bewertung der Aktionen eines Agenten.

Answer

Sie charakterisiert den aktuellen Zustand der Umgebung.

Answer

Sie bestimmt die möglichen Aktionen, die ein Agent ausführen kann.

Question 23

Welche Datenstruktur repräsentiert typischerweise den Zustand einer Umgebung im Verstärkungslernen?

Accepted Answer

Zustandsraum

Answer

Aktionsraum

Answer

Q-Tabelle

Answer

Belohnungsmatrix

Question 24

Welcher Algorithmus des Verstärkungslernens verwendet eine Q-Tabelle, um die optimale Aktion für einen gegebenen Zustand zu berechnen?

Accepted Answer

Q-Learning

Answer

Policy Gradient

Answer

SARSA

Answer

Deep Q-Learning

Question 25

Was ist der Hauptunterschied zwischen Q-Learning und SARSA?

Accepted Answer

Q-Learning verwendet die maximal erwartete zukünftige Belohnung, während SARSA die tatsächliche nachfolgende Belohnung verwendet.

Answer

Q-Learning ist ein Offline-Algorithmus, während SARSA ein Online-Algorithmus ist.

Question 26

Welche Art von Problemstellung eignet sich am besten für Verstärkungslernen?

Accepted Answer

Sequentielle Entscheidungsprobleme mit verzögerter Belohnung

Answer

Regressionsprobleme

Answer

Klassifizierungsprobleme

Question 27

Welche Metrik dient häufig der Messung der Leistungsfähigkeit eines Verstärkungslerners?

Accepted Answer

Kumulative Belohnung

Answer

Genauigkeit

Answer

F1-Score

Answer

Mittlerer quadratischer Fehler

Question 28

Was ist die beste Beschreibung für Reinforcement Learning?

Accepted Answer

Ein Agent lernt durch Interaktion mit einer Umgebung und erhält Belohnungen für gewünschte Aktionen.

Answer

Ein Agent wird mit vorgegebenen Daten trainiert, um Muster zu erkennen.

Answer

Ein Agent lernt durch die Analyse von Daten, um Vorhersagen zu treffen.

Question 29

Welche Rolle spielt die Belohnungsfunktion im Reinforcement Learning?

Accepted Answer

Die Belohnungsfunktion weist dem Agenten für jede ausgeführte Aktion einen Wert zu, der die Güte der Aktion widerspiegelt.

Answer

Die Belohnungsfunktion berechnet die optimale Aktion in jedem Zustand.

Answer

Die Belohnungsfunktion speichert die Aktionen des Agenten.

Question 30

Welcher der folgenden Algorithmen ist ein typischer Reinforcement Learning-Algorithmus?

Accepted Answer

Q-Learning

Answer

K-Means Clustering

Answer

Logistische Regression

Answer

Entscheidungsbaum

Question 31

Was beschreibt der Zustand eines Agenten im Reinforcement Learning?

Accepted Answer

Der Zustand repräsentiert die aktuelle Situation, in der sich der Agent befindet.

Answer

Der Zustand repräsentiert die gewünschte Zielsituation.

Answer

Der Zustand ist ein Maß für die Leistung des Agenten.

Question 32

Was ist der Aktionsraum in Reinforcement Learning?

Accepted Answer

Die Menge aller möglichen Aktionen, die der Agent in einem bestimmten Zustand ausführen kann.

Answer

Die Menge aller möglichen Zustände, die der Agent erreichen kann.

Answer

Die Menge aller möglichen Belohnungen, die der Agent erhalten kann.

Question 33

Wie kann man das Exploration-Exploitation-Dilemma im Reinforcement Learning angehen?

Accepted Answer

Durch gezieltes Ausprobieren neuer Aktionen, um zusätzliche Informationen zu gewinnen, ohne die bisherige Leistung zu vernachlässigen.

Answer

Indem man dem Agenten immer die Aktion ausführen lässt, die bisher die beste Belohnung erzielt hat.

Question 34

Welches der folgenden Beispiele ist eine typische Anwendung von Reinforcement Learning?

Accepted Answer

Das Trainieren eines Schachcomputers.

Answer

Die Klassifizierung von Bildern.

Answer

Die Segmentierung von Textdaten.

Answer

Die Vorhersage von Aktienkursen.

Question 35

Was unterscheidet Reinforcement Learning grundlegend von anderen maschinellen Lernmethoden?

Accepted Answer

Die Interaktion des Agenten mit einer dynamischen Umgebung.

Answer

Der Einsatz von Neuronalen Netzen.

Answer

Die Verwendung von grossen Datensätzen.

Question 36

Was ist das primäre Ziel des Verstärkungslernens?

Accepted Answer

Einen Agenten zu trainieren, der optimale Aktionen in einer Umgebung ausführt, um maximale Belohnungen zu erhalten.

Answer

Die Vorhersage zukünftiger Ereignisse basierend auf historischen Daten.

Answer

Die Analyse großer Datenmengen, um versteckte Muster zu identifizieren.

Answer

Die Erstellung von Modellen, die komplexe Beziehungen in Daten darstellen.

Question 37

Was stellt der Zustandsraum im Kontext des Verstärkungslernens dar?

Accepted Answer

Die Menge aller möglichen Zustände, in denen sich die Umgebung befinden kann.

Answer

Die Funktion, die die Belohnung für eine Aktion in einem bestimmten Zustand definiert.

Answer

Die Wahrscheinlichkeit, dass der Agent eine bestimmte Aktion ausführt.

Answer

Die Menge aller möglichen Aktionen, die der Agent ausführen kann.

Question 38

Welche Funktion spielt die Belohnungsfunktion im Verstärkungslernen?

Accepted Answer

Sie bewertet die Aktionen des Agenten in einem gegebenen Zustand.

Answer

Sie definiert die Übergangswahrscheinlichkeiten zwischen Zuständen.

Answer

Sie bestimmt den optimalen Aktionsplan des Agenten.

Answer

Sie berechnet die kumulative Belohnung über einen bestimmten Zeitraum.

Question 39

Was ist der Unterschied zwischen Q-Learning und SARSA im Kontext des Verstärkungslernens?

Accepted Answer

Q-Learning ist off-policy, während SARSA on-policy ist.

Answer

Q-Learning verwendet eine Tabelle, um Q-Werte zu speichern, während SARSA ein neuronales Netzwerk verwendet.

Answer

Q-Learning optimiert die Q-Werte basierend auf der maximalen Belohnung, während SARSA die Q-Werte basierend auf der tatsächlich gewählten Aktion aktualisiert.

Answer

Q-Learning ist für diskrete Zustandsräume geeignet, während SARSA für kontinuierliche Zustandsräume geeignet ist.

Question 40

Was beschreibt das Exploration-Exploitation Dilemma im Verstärkungslernen?

Accepted Answer

Die Abwägung zwischen dem Erkunden neuer Aktionen und dem Ausnutzen bereits bekannter, erfolgreicher Aktionen.

Answer

Die Auswahl der optimalen Lernrate für den Agenten.

Answer

Die Entscheidung, ob ein modellbasierter oder ein modellfreier Lernalgorithmus verwendet werden soll.

Answer

Die Entscheidung, ob die Umgebung deterministisch oder stochastisch ist.

Question 41

Was ist ein Vorteil der Verwendung von Deep Reinforcement Learning?

Accepted Answer

Es ermöglicht das Lernen komplexer, hochdimensionaler Zustandsräume.

Answer

Es garantiert eine schnellere Konvergenz zu einer optimalen Lösung.

Answer

Es ist weniger anfällig für das Problem der Überanpassung an die Trainingsdaten.

Answer

Es erfordert weniger Rechenleistung als traditionelle Reinforcement Learning Algorithmen.

Question 42

In welchen Anwendungsbereichen kann Verstärkungslernen eingesetzt werden?

Accepted Answer

Robotik, Spiele, autonomes Fahren.

Answer

Datenanalyse, Predictive Modelling, Data Mining.

Answer

Bildklassifizierung, Spracherkennung, Textübersetzung.

Answer

Webentwicklung, Datenbankmanagement, Softwareentwicklung.

Question 43

Was ist der Unterschied zwischen einem Episodischen und einem Kontinuierlichen Aufgabensetting im Verstärkungslernen?

Accepted Answer

In episodischen Aufgaben hat der Agent ein klar definiertes Ende, während kontinuierliche Aufgaben kein definiertes Ende haben.

Answer

Episodische Aufgaben verwenden diskrete Zustandsräume, während kontinuierliche Aufgaben kontinuierliche Zustandsräume verwenden.

Answer

Episodische Aufgaben verwenden eine feste Anzahl von Schritten, während kontinuierliche Aufgaben eine variable Anzahl von Schritten verwenden können.

Answer

Episodische Aufgaben sind typischerweise einfacher zu lösen als kontinuierliche Aufgaben.

Question 44

Welche der folgenden Komponenten ist NICHT Bestandteil eines Verstärkungslernsystems?

Accepted Answer

Überwacher

Answer

Belohnungsfunktion

Answer

Agent

Answer

Umgebung

Question 45

Welche Art von Lernalgorithmus im Verstärkungslernen verwendet eine Wertfunktion, um die beste Aktion in jedem Zustand zu bestimmen?

Accepted Answer

Wertbasiertes Lernen

Answer

Modellbasiertes Lernen

Answer

Richtlinienbasiertes Lernen

Answer

Überwachtes Lernen

Question 46

Welcher der folgenden Algorithmen ist ein iterativer Schätzer für die Wertfunktion?

Accepted Answer

Q-Learning

Answer

Policy Gradient

Answer

SARSA

Answer

TD-Learning

Question 47

Was ist der Zweck einer Epsilon-Greedy-Erkundungsstrategie im Verstärkungslernen?

Accepted Answer

Balance zwischen Exploration und Exploitation

Answer

Varianzreduktion

Answer

Risikominimierung

Answer

Beschleunigung des Lernprozesses

Question 48

Welche der folgenden Anwendungen eignet sich besonders gut für Verstärkungslernen?

Accepted Answer

Robotik

Answer

Betrugserkennung

Answer

Bildklassifizierung

Answer

Natursprachenverarbeitung

Question 49

Welchen Hauptvorteil haben Off-Policy-Lernalgorithmen im Verstärkungslernen?

Accepted Answer

Sie können Daten aus anderen Richtlinien wiederverwenden.

Answer

Sie benötigen weniger Daten.

Answer

Sie sind schneller als On-Policy-Algorithmen.

Question 50

Was ist das Ziel der Umgebungsmodellierung im Verstärkungslernen?

Accepted Answer

Vorhersage des nächsten Zustands und der Belohnung

Answer

Gestaltung der Belohnungsfunktion

Answer

Optimierung der Wertfunktion

Answer

Auswahl der Erkundungsstrategie

Question 51

Welche der folgenden Techniken kann verwendet werden, um den Lernprozess in Verstärkungslernsystemen mit verzögerten Belohnungen zu beschleunigen?

Accepted Answer

Bootstrapping

Answer

Monte-Carlo-Bewertung

Answer

Dynamische Programmierung

Answer

Prioritized Q-Learning