Label Noise SGD Provably Prefers Flat Global Minimizers

Abstract: In overparametrized models, the noise in stochastic gradient descent (SGD) implicitly regularizes the optimization trajectory and determines which local minimum SGD converges to. Motivated by empirical studies that demonstrate that training with noisy labels improves generalization, we study the implicit regularization effect of SGD with label noise. We show that SGD with label noise converges to a stationary point of a regularized loss $L(\theta) +\lambda R(\theta)$, where $L(\theta)$ is the training loss, $\lambda$ is an effective regularization parameter depending on the step size, strength of the label noise, and the batch size, and $R(\theta)$ is an explicit regularizer that penalizes sharp minimizers. Our analysis uncovers an additional regularization effect of large learning rates beyond the linear scaling rule that penalizes large eigenvalues of the Hessian more than small ones. We also prove extensions to classification with general loss functions, significantly strengthening the prior work of Blanc et al. to global convergence and large learning rates and of HaoChen et al. to general models.

06/12/2020

Label Noise SGD Provably Prefers Flat Global Minimizers

Alex Damian, Tengyu Ma, Jason Lee

Comments

Similar Papers

Robustness Analysis of Non-Convex Stochastic Gradient Descent using Biased Expectations

Kevin Scaman, Cedric Malherbe

Keywords Abstract Paper

On the Noisy Gradient Descent that Generalizes as SGD

Jingfeng Wu, Wenqing Hu, Haoyi Xiong and Jun Huan, Vladimir Braverman, Zhanxing Zhu

Keywords Abstract Paper

Deep Learning - General

An Empirical Study of Stochastic Gradient Descent with Structured Covariance Noise

Yeming Wen, Kevin Luk, Maxime Gazeau and Guodong Zhang, Harris Chan, Jimmy Ba

Keywords Abstract Paper

Sharper Generalization Bounds for Pairwise Learning

Yunwen Lei, Antoine Ledent, Marius Kloft

Keywords Abstract Paper

Noise against noise: stochastic label noise helps combat inherent label noise

Pengfei Chen, Guangyong Chen, Junjie Ye and jingwei zhao, Pheng-Ann Heng

Keywords Abstract Paper

Regularization, SGD noise, Robust Learning, Noisy Labels

Distributionally Robust Federated Averaging

Yuyang Deng, Mohammad Mahdi Kamani, Mehrdad Mahdavi

Keywords Abstract Paper

Distributionally Robust Parametric Maximum Likelihood Estimation

Viet Anh Nguyen, Xuhui Zhang, Jose Blanchet, Angelos Georghiou

Keywords Abstract Paper

Beyond Tikhonov: faster learning with self-concordant losses, via iterative regularization

Gaspard Beugnot, Julien Mairal, Alessandro Rudi

Keywords Abstract Paper

theory, optimization, kernel methods

Fast Stochastic Bregman Gradient Methods: Sharp Analysis and Variance Reduction

Radu Alexandru Dragomir, Mathieu Even, Hadrien Hendrikx

Keywords Abstract Paper

Optimization, Convex Optimization

On information gain and regret bounds in gaussian process bandits

Sattar Vakili, Kia Khezeli, Victor Picheny

Keywords Abstract Paper

Gradient Descent Maximizes the Margin of Homogeneous Neural Networks

Kaifeng Lyu, Jian Li

Keywords Abstract Paper

margin, homogeneous, gradient descent

Boundary thickness and robustness in learning models

Yaoqing Yang, Rajiv Khanna, Yaodong Yu and Amir Gholami, Kurt Keutzer, Joseph Gonzalez, Kannan Ramchandran, Michael W Mahoney

Keywords Abstract Paper

On Generalization Error Bounds of Noisy Gradient Methods for Non-Convex Learning

Jian Li, Xuanyuan Luo, Mingda Qiao

Keywords Abstract Paper

learning theory, generalization, nonconvex learning, stochastic gradient descent, Langevin dynamics

Implicit Regularization and Convergence for Weight Normalization

Xiaoxia (Shirley) Wu, Edgar Dobriban, Tongzheng Ren and Shanshan Wu, Zhiyuan Li, Suriya Gunasekar, Rachel Ward, Qiang Liu

Keywords Abstract Paper

Non-convex Distributionally Robust Optimization: Non-asymptotic Analysis

Jikai Jin, Bohang Zhang, Haiyang Wang, Liwei Wang

Keywords Abstract Paper

optimization

Extrapolation for Large-batch Training in Deep Learning

Tao LIN, Lingjing Kong, Sebastian Stich, Martin Jaggi

Keywords Abstract Paper

Deep Learning - Algorithms

The Performance Analysis of Generalized Margin Maximizers on Separable Data

Fariborz Salehi, Ehsan Abbasi, Babak Hassibi

Keywords Abstract Paper

Learning Theory

When does preconditioning help or hurt generalization?

Shun-ichi Amari, Jimmy Ba, Roger Grosse and Chen Li, Atsushi Nitanda, Taiji Suzuki, Denny Wu, Ji Xu

Keywords Abstract Paper

high-dimensional asymptotics, generalization, second-order optimization, natural gradient descent

Direct Policy Gradients: Direct Optimization of Policies in Discrete Action Spaces

Guy Lorberbom, Chris J. Maddison, Nicolas Heess and Tamir Hazan, Daniel Tarlow

Keywords Abstract Paper

The Heavy-Tail Phenomenon in SGD

Mert Gurbuzbalaban, Umut Simsekli, Lingjiong Zhu

Keywords Abstract Paper

Optimization, Stochastic Optimization

On multilevel monte carlo unbiased gradient estimation for deep latent variable models

Yuyang Shi, Rob Cornish

Keywords Abstract Paper

A Wasserstein Minimax Framework for Mixed Linear Regression

Theo Diamandis, Yonina Eldar, Alireza Fallah and Farzan Farnia, Asuman Ozdaglar

Keywords Paper

Jingfeng Wu, Wenqing Hu, Haoyi Xiong and
Jun Huan, Vladimir Braverman, Zhanxing Zhu

Keywords Paper

Yeming Wen, Kevin Luk, Maxime Gazeau and
Guodong Zhang, Harris Chan, Jimmy Ba

Keywords Paper

Keywords Paper

Pengfei Chen, Guangyong Chen, Junjie Ye and
jingwei zhao, Pheng-Ann Heng

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Yaoqing Yang, Rajiv Khanna, Yaodong Yu and
Amir Gholami, Kurt Keutzer, Joseph Gonzalez, Kannan Ramchandran, Michael W Mahoney

Keywords Paper

Keywords Paper

Xiaoxia (Shirley) Wu, Edgar Dobriban, Tongzheng Ren and
Shanshan Wu, Zhiyuan Li, Suriya Gunasekar, Rachel Ward, Qiang Liu

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Shun-ichi Amari, Jimmy Ba, Roger Grosse and
Chen Li, Atsushi Nitanda, Taiji Suzuki, Denny Wu, Ji Xu

Keywords Paper

Guy Lorberbom, Chris J. Maddison, Nicolas Heess and
Tamir Hazan, Daniel Tarlow

Keywords Paper

Keywords Paper

Keywords Paper

Theo Diamandis, Yonina Eldar, Alireza Fallah and
Farzan Farnia, Asuman Ozdaglar

Keywords Paper

Difan Zou, Jingfeng Wu, Vladimir Braverman and
Quanquan Gu, Dean Foster, Sham Kakade

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Difan Zou, Jingfeng Wu, Vladimir Braverman and
Quanquan Gu, Sham Kakade

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Wenlong Mou, Chris Junchi Li, Martin Wainwright and
Peter Bartlett, Michael Jordan

Keywords Paper

Keywords Paper

Keywords Paper