Ответ на этот вопрос интересен, потому что принципы выбора награды являются одним из ключевых аспектов в обучении с подкреплением. Они ...
Подпишитесь на нашу социальную систему вопросов и ответов, чтобы задавать вопросы, отвечать на вопросы людей и общаться с другими людьми.
Войдите в нашу социальную систему вопросов и ответов, чтобы задавать вопросы, отвечать на вопросы людей и общаться с другими людьми.
Забыли пароль? Пожалуйста, введите Ваш адрес электронной почты. Вы получите ссылку с помощью которой создадите новый пароль по электронной почте.
Пожалуйста, кратко объясните, почему, по вашему мнению, следует сообщить об этом вопросе.
Пожалуйста, кратко объясните, почему, по вашему мнению, следует сообщить об этом ответе.
Пожалуйста, кратко объясните, почему, по вашему мнению, следует сообщить об этом пользователе.
1. Принцип максимального ожидания (Maximization of Expected Reward): выбирается действие, которое максимизирует ожидаемую суммарную награду в будущем. 2. Принцип максимального отклика (Maximization of Response): выбирается действие, которое максимизирует отклик среды на это действие. 3. Принцип максПодробнее
1. Принцип максимального ожидания (Maximization of Expected Reward): выбирается действие, которое максимизирует ожидаемую суммарную награду в будущем.
2. Принцип максимального отклика (Maximization of Response): выбирается действие, которое максимизирует отклик среды на это действие.
3. Принцип максимального приближения (Maximization of Approximation): выбирается действие, которое максимально приближает целевую функцию или целевое состояние.
4. Принцип максимальной энтропии (Maximization of Entropy): выбирается действие, которое максимизирует энтропию среды, то есть степень ее неопределенности.
5. Принцип максимального риска (Maximization of Risk): выбирается действие, которое максимизирует ожидаемый риск или минимизирует ожидаемые потери.
6. Принцип максимальной информации (Maximization of Information): выбирается действие, которое максимизирует информационный выигрыш, то есть уменьшает неопределенность в среде.
7. Принцип максимального удовлетворения (Maximization of Satisfaction): выбирается действие, которое максимизирует удовлетворение агента от полученной награды.
8. Принцип максимального доверия (Maximization of Trust): выбирается действие, которое максимизирует доверие агента к среде и ее реакции на его действия.
Видеть меньше