ConQUR: Mitigating Delusional Bias in Deep Q-Learning

Abstract: Delusional bias is a fundamental source of error in approximate Q-learning. To date, the only techniques that explicitly address delusion require comprehensive search using tabular value estimates. In this paper, we develop efficient methods to mitigate delusional bias by training Q-approximators with labels that are "consistent" with the underlying greedy policy class. We introduce a simple penalization scheme that encourages Q-labels used across training batches to remain (jointly) consistent with the expressible policy class. We also propose a search framework that allows multiple Q-approximators to be generated and tracked, thus mitigating the effect of premature (implicit) policy commitments. Experimental results demonstrate that these methods can improve the performance of Q-learning in a variety of Atari games, sometimes dramatically.

12/07/2020

Łukasz Kaiser, Mohammad Babaeizadeh, Piotr Miłos and
Błażej Osiński, Roy H Campbell, Konrad Czechowski, Dumitru Erhan, Chelsea Finn, Piotr Kozakowski, Sergey Levine, Afroz Mohiuddin, Ryan Sepassi, George Tucker, Henryk Michalewski

ConQUR: Mitigating Delusional Bias in Deep Q-Learning

DiJia Su, Jayden Ooi, Tyler Lu, Dale Schuurmans, Craig Boutilier

Comments

Similar Papers

Safe Imitation Learning via Fast Bayesian Reward Inference from Preferences

Daniel Brown, Scott Niekum, Russell Coleman, Ravi Srinivasan

Keywords Abstract Paper

Reinforcement Learning - Deep RL

Non-Crossing Quantile Regression for Distributional Reinforcement Learning

Fan Zhou, Jianing Wang, Xingdong Feng

Keywords Abstract Paper

On the Estimation Bias in Double Q-Learning

Zhizhou Ren, Guangxiang Zhu, Hao Hu and Beining Han, Jianglun Chen, Chongjie Zhang

Keywords Abstract Paper

Disagreement-Regularized Imitation Learning

Kiante Brantley, Wen Sun, Mikael Henaff

Keywords Abstract Paper

imitation learning, reinforcement learning, uncertainty

Munchausen Reinforcement Learning

Nino Vieillard, Olivier Pietquin, Matthieu Geist

Keywords Abstract Paper

Emphatic Algorithms for Deep Reinforcement Learning

Ray Jiang, Tom Zahavy, Zhongwen Xu and Adam White, Matteo Hessel, Charles Blundell, Hado van Hasselt

Keywords Abstract Paper

Reinforcement Learning and Planning, Deep RL

Model Based Reinforcement Learning for Atari

Łukasz Kaiser, Mohammad Babaeizadeh, Piotr Miłos and Błażej Osiński, Roy H Campbell, Konrad Czechowski, Dumitru Erhan, Chelsea Finn, Piotr Kozakowski, Sergey Levine, Afroz Mohiuddin, Ryan Sepassi, George Tucker, Henryk Michalewski

Keywords Abstract Paper

reinforcement learning, model based rl, video prediction model, atari

Fast Task Inference with Variational Intrinsic Successor Features

Steven Hansen, Will Dabney, Andre Barreto and David Warde-Farley, Tom Van de Wiele, Volodymyr Mnih

Keywords Abstract Paper

Reinforcement Learning, Variational Intrinsic Control, Successor Features

Deep Reinforcement Learning at the Edge of the Statistical Precipice

Rishabh Agarwal, Max Schwarzer, Pablo Samuel Castro and Aaron Courville, Marc Bellemare

Keywords Abstract Paper

reinforcement learning and planning

DeepSynth: Automata Synthesis for Automatic Task Segmentation in Deep Reinforcement Learning

Mohammadhosein Hasanbeig, Natasha Yogananda Jeppu, Alessandro Abate and Tom Melham, Daniel Kroening

Keywords Abstract Paper

Augmenting Policy Learning with Routines Discovered from a Single Demonstration

Zelin Zhao, Chuang Gan, Jiajun Wu and Xiaoxiao Guo, Joshua B. Tenenbaum

Keywords Abstract Paper

Cross-Domain Few-Shot Classification via Adversarial Task Augmentation

Haoqing Wang, Zhi-Hong Deng

Keywords Abstract Paper

Computer Vision, Recognition, Adversarial Machine Learning, Deep Learning

Object-Aware Regularization for Addressing Causal Confusion in Imitation Learning

Jongjin Park, Younggyo Seo, Chang Liu and Li Zhao, Tao Qin, Jinwoo Shin, Tie-Yan Liu

Keywords Abstract Paper

reinforcement learning and planning, causality

Generalizable Episodic Memory for Deep Reinforcement Learning

Hao Hu, Jianing Ye, Guangxiang Zhu and Zhizhou Ren, Chongjie Zhang

Keywords Abstract Paper

Reinforcement Learning and Planning

Improve Agents without Retraining: Parallel Tree Search with Off-Policy Correction

Gal Dalal, Assaf Hallak, Steven Dalton and iuri frosio, Shie Mannor, Gal Chechik

Keywords Abstract Paper

theory, reinforcement learning and planning

DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

Aviral Kumar, Abhishek Gupta, Sergey Levine

Keywords Abstract Paper

Identifying and Correcting Label Bias in Machine Learning

Heinrich Jiang, Ofir Nachum

Keywords Abstract Paper

Learning Dexterous Manipulation from Suboptimal Experts

Rae Jeong, Jost Tobias Springenberg, Jackie Kay and Dan Zheng, Alexandre Galashov, Nicolas Heess, Francesco Nori

Keywords Abstract Paper

Hindsight Trust Region Policy Optimization

Hanbo Zhang, Site Bai, Xuguang Lan and David Hsu, Nanning Zheng

Keywords Abstract Paper

Machine Learning, Deep Reinforcement Learning, Reinforcement Learning

Ensemble Bootstrapping for Q-Learning

Oren Peer, Chen Tessler, Nadav Merlis, Ron Meir

Keywords Abstract Paper

Reinforcement Learning and Planning

Return-Based Contrastive Representation Learning for Reinforcement Learning

Guoqing Liu, Chuheng Zhang, Li Zhao and Tao Qin, Jinhua Zhu, Li Jian, Nenghai Yu, Tie-Yan Liu

Keywords Abstract Paper

reinforcement learning, auxiliary task, contrastive learning, representation learning

Keywords Paper

Keywords Paper

Zhizhou Ren, Guangxiang Zhu, Hao Hu and
Beining Han, Jianglun Chen, Chongjie Zhang

Keywords Paper

Keywords Paper

Keywords Paper

Ray Jiang, Tom Zahavy, Zhongwen Xu and
Adam White, Matteo Hessel, Charles Blundell, Hado van Hasselt

Keywords Paper

Łukasz Kaiser, Mohammad Babaeizadeh, Piotr Miłos and
Błażej Osiński, Roy H Campbell, Konrad Czechowski, Dumitru Erhan, Chelsea Finn, Piotr Kozakowski, Sergey Levine, Afroz Mohiuddin, Ryan Sepassi, George Tucker, Henryk Michalewski

Keywords Paper

Steven Hansen, Will Dabney, Andre Barreto and
David Warde-Farley, Tom Van de Wiele, Volodymyr Mnih

Keywords Paper

Rishabh Agarwal, Max Schwarzer, Pablo Samuel Castro and
Aaron Courville, Marc Bellemare

Keywords Paper

Mohammadhosein Hasanbeig, Natasha Yogananda Jeppu, Alessandro Abate and
Tom Melham, Daniel Kroening

Keywords Paper

Zelin Zhao, Chuang Gan, Jiajun Wu and
Xiaoxiao Guo, Joshua B. Tenenbaum

Keywords Paper

Keywords Paper

Jongjin Park, Younggyo Seo, Chang Liu and
Li Zhao, Tao Qin, Jinwoo Shin, Tie-Yan Liu

Keywords Paper

Hao Hu, Jianing Ye, Guangxiang Zhu and
Zhizhou Ren, Chongjie Zhang

Keywords Paper

Gal Dalal, Assaf Hallak, Steven Dalton and
iuri frosio, Shie Mannor, Gal Chechik

Keywords Paper

Keywords Paper

Keywords Paper

Rae Jeong, Jost Tobias Springenberg, Jackie Kay and
Dan Zheng, Alexandre Galashov, Nicolas Heess, Francesco Nori

Keywords Paper

Hanbo Zhang, Site Bai, Xuguang Lan and
David Hsu, Nanning Zheng

Keywords Paper

Keywords Paper

Guoqing Liu, Chuheng Zhang, Li Zhao and
Tao Qin, Jinhua Zhu, Li Jian, Nenghai Yu, Tie-Yan Liu

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Shangshu Qian, Viet Hung Pham, Thibaud Lutellier and
Zeou Hu, Jungwon Kim, Lin Tan, Yaoliang Yu, Jiahao Chen, Sameena Shah

Keywords Paper

Guangyu Shen, Yingqi Liu, Guanhong Tao and
Shengwei An, Qiuling Xu, Siyuan Cheng, Shiqing Ma, Xiangyu Zhang

Keywords Paper

Suna (Sihang) Guo, Ruohan Zhang, Bo Liu and
Yifeng Zhu, Dana Ballard, Mary Hayhoe, Peter Stone

Keywords Paper

Max Schwarzer, Ankesh Anand, Rishab Goel and
R Devon Hjelm, Aaron Courville, Philip Bachman

Keywords Paper

Keywords Paper

Keywords Paper

Corentin Kervadec, Christian Wolf, Grigory Antipov and
Moez Baccouche, Madiha Nadri

Keywords Paper

Keywords Paper

Xiao Ma, Peter Karkus, David Hsu and
Wee Sun Lee, Nan Ye

Keywords Paper

Mayee Chen, Benjamin Cohen-Wang, Stephen Mussmann and
Frederic Sala, Christopher Re

Keywords Paper

Keywords Paper

Keywords Paper