TL; DR Разработайте базовые знания о средах OpenAI Gym. Следует отметить, что а также , Поймите, что Q-Learning - это марковский процесс принятия решений. У вас есть состояния, и это сложно для вещей с непрерывными входными пробелами. На самом деле,...