TMDP: Teleport Markov Decision Process

"""

TMDP: Teleport Markov Decision Process

Curriculum Learning through Teleportation: The Teleport MDP

Introduction

Deep Reinforcement Learning (DRL) has revolutionized complex decision-making tasks, but still faces challenges in environments with sparse rewards, high-dimensional spaces, and long-term credit assignment issues. This project introduces the Teleport Markov Decision Processes (TMDPs) framework, which enhances the exploration capabilities of RL agents through a teleportation mechanism, contributing to more effective curriculum learning.

The Teleport MDP Framework

What is a Teleport MDP?

A Teleport MDP extends the traditional Markov Decision Process (MDP) by adding a teleportation mechanism. It allows an agent to be relocated to any state during an episode, controlled by:

Teleport rate (τ): Determines the frequency of teleportation
State teleport probability distribution (ξ): Dictates the possible states for teleportation

How It Works

TMDPs start with a high teleport rate for wide exploration, gradually reducing it to increase task complexity and converge towards the original problem formulation.

Mathematical Formulation

A TMDP is defined by the tuple M=⟨S,A,P,R,γ,μ,τ,ξ⟩, where:

S: State space
A: Action space
P(s′∣s,a): Transition probability model
R(s,a): Reward function
γ: Discount factor
μ: Initial state distribution
τ: Teleport rate
ξ: Teleport probability distribution

The transition model in TMDP is defined as:

Pτ(s′∣s,a)=(1−τ)P(s′∣s,a)+τξ(s′)

Practical Algorithms

We developed several algorithms integrating teleport-based curricula:

Teleport Model Policy Iteration (TMPI)
Static Teleport (S-T)
Dynamic Teleport (D-T)

Experimental Evaluation

We conducted experiments using two RL environments:

Frozen Lake
River Swim

Results demonstrated that TMDP-based algorithms consistently outperformed their vanilla counterparts in both environments.

Conclusion

The Teleport MDP framework offers a flexible and effective approach to curriculum design in reinforcement learning, reducing reliance on domain-specific expertise and improving learning efficiency.

Co-Authors

This research was conducted in collaboration with:

Prof. Marcello Restelli
Dr. Alberto Maria Metelli
Dr. Luca Sabbioni

References

Andrychowicz, M., et al. (2017). Hindsight experience replay.
Florensa, C., et al. (2017). Reverse curriculum generation for reinforcement learning.
Kakade, S. M., & Langford, J. (2002). Approximately optimal approximate reinforcement learning.
Metelli, A. M., et al. (2018). Configurable Markov decision processes.
Schulman, J., et al. (2017). Proximal policy optimization algorithms.
Bengio, Y., et al. (2009). Curriculum learning.

Name		Name	Last commit message	Last commit date
Latest commit History 111 Commits
.vscode		.vscode
__pycache__		__pycache__
.gitattributes		.gitattributes
.gitignore		.gitignore
CurriculumMPI.py		CurriculumMPI.py
CurriculumPMPO.py		CurriculumPMPO.py
CurriculumPPO.py		CurriculumPPO.py
CurriculumQ.py		CurriculumQ.py
CurriculumResultFrozenLakeCMPI.ipynb		CurriculumResultFrozenLakeCMPI.ipynb
CurriculumResultFrozenLakeCPMPO.ipynb		CurriculumResultFrozenLakeCPMPO.ipynb
CurriculumResultFrozenLakeCPPO.ipynb		CurriculumResultFrozenLakeCPPO.ipynb
CurriculumResultFrozenLakeCQ.ipynb		CurriculumResultFrozenLakeCQ.ipynb
CurriculumResultFrozenLakePPO.ipynb		CurriculumResultFrozenLakePPO.ipynb
CurriculumResultFrozenLakeQ.ipynb		CurriculumResultFrozenLakeQ.ipynb
CurriculumResultRiverSwimCMPI.ipynb		CurriculumResultRiverSwimCMPI.ipynb
CurriculumResultRiverSwimCPMPO.ipynb		CurriculumResultRiverSwimCPMPO.ipynb
CurriculumResultRiverSwimCPPO.ipynb		CurriculumResultRiverSwimCPPO.ipynb
CurriculumResultRiverSwimCQ.ipynb		CurriculumResultRiverSwimCQ.ipynb
CurriculumResultRiverSwimPPO.ipynb		CurriculumResultRiverSwimPPO.ipynb
CurriculumResultRiverSwimQ.ipynb		CurriculumResultRiverSwimQ.ipynb
Curriculum_MPI_test_FrozenLake.ipynb		Curriculum_MPI_test_FrozenLake.ipynb
DiscreteEnv.py		DiscreteEnv.py
FrozenLake.py		FrozenLake.py
MLflow_CMPI_Frozen.ipynb		MLflow_CMPI_Frozen.ipynb
MLflow_CMPI_RiverSwim.ipynb		MLflow_CMPI_RiverSwim.ipynb
MLflow_CMPOFrozen.ipynb		MLflow_CMPOFrozen.ipynb
MLflow_CPPOFrozen.ipynb		MLflow_CPPOFrozen.ipynb
MLflow_CPPOFrozen_tau_optimizer.ipynb		MLflow_CPPOFrozen_tau_optimizer.ipynb
MLflow_CPPO_RiverSwim.ipynb		MLflow_CPPO_RiverSwim.ipynb
PPO_stable_baseline_test.ipynb		PPO_stable_baseline_test.ipynb
PlotsFrozenLake.ipynb		PlotsFrozenLake.ipynb
PlotsRiverSwim.ipynb		PlotsRiverSwim.ipynb
README.md		README.md
ReplayBuffer.py		ReplayBuffer.py
RewardShape.ipynb		RewardShape.ipynb
RewardShape.py		RewardShape.py
RiverSwim.py		RiverSwim.py
TMDP.py		TMDP.py
TMDP_v1.py		TMDP_v1.py
TeleportPPO.py		TeleportPPO.py
TeleportRolloutBuffer.py		TeleportRolloutBuffer.py
algorithms.py		algorithms.py
bound.py		bound.py
constants.py		constants.py
env_register.py		env_register.py
experiment_result_utils.py		experiment_result_utils.py
legend_only.png		legend_only.png
model_functions.py		model_functions.py
policy_utils.py		policy_utils.py
requirement_mac.txt		requirement_mac.txt
requirements.txt		requirements.txt
strip_notebooks.py		strip_notebooks.py
teleport_demo.gif		teleport_demo.gif
tmdp.yml		tmdp.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TMDP: Teleport Markov Decision Process

Curriculum Learning through Teleportation: The Teleport MDP

Introduction

The Teleport MDP Framework

What is a Teleport MDP?

How It Works

Mathematical Formulation

Practical Algorithms

Experimental Evaluation

Conclusion

Co-Authors

References

About

Releases

Packages

Languages

cris96spa/TMDP

Folders and files

Latest commit

History

Repository files navigation

TMDP: Teleport Markov Decision Process

Curriculum Learning through Teleportation: The Teleport MDP

Introduction

The Teleport MDP Framework

What is a Teleport MDP?

How It Works

Mathematical Formulation

Practical Algorithms

Experimental Evaluation

Conclusion

Co-Authors

References

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages