Stochastic Gradient and Langevin Processes

Abstract: We prove quantitative convergence rates at which discrete Langevin-like processes converge to the invariant distribution of a related stochastic differential equation. We study the setup where the additive noise can be non-Gaussian and state-dependent and the potential function can be non-convex. We show that the key properties of these processes depend on the potential function and the second moment of the additive noise. We apply our theoretical findings to studying the convergence of Stochastic Gradient Descent (SGD) for non-convex problems and corroborate them with experiments using SGD to train deep neural networks on the CIFAR-10 dataset.

26/04/2020

Stochastic Gradient and Langevin Processes

Xiang Cheng, Dong Yin, Peter Bartlett, Michael Jordan

Comments

Similar Papers

Gradient Descent Maximizes the Margin of Homogeneous Neural Networks

Kaifeng Lyu, Jian Li

Keywords Abstract Paper

margin, homogeneous, gradient descent

On Convergence of Gradient Expected Sarsa(λ)

Long Yang, Gang Zheng, Yu Zhang and Qian Zheng, Pengfei Li, Gang Pan

Keywords Abstract Paper

Quantitative Propagation of Chaos for SGD in Wide Neural Networks

Valentin De Bortoli, Alain Durmus, Xavier Fontaine, Umut Simsekli

Keywords Abstract Paper

A Contour Stochastic Gradient Langevin Dynamics Algorithm for Simulations of Multi-modal Distributions

Wei Deng, Guang Lin, Faming Liang

Keywords Abstract Paper

Improved Mutual Information Estimation

Youssef Mroueh, Igor Melnyk, Pierre Dognin and Jarret Ross, Tom Sercu

Keywords Abstract Paper

Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime

Atsushi Nitanda, Taiji Suzuki

Keywords Abstract Paper

stochastic gradient descent, neural tangent kernel, over-parameterization, two-layer neural network

Non-asymptotic approximations of neural networks by Gaussian processes

Ronen Eldan, Dan Mikulincer, Tselil Schramm

Keywords Abstract Paper

Frequency Bias in Neural Networks for Input of Non-Uniform Density

Ronen Basri, Meirav Galun, Amnon Geifman and David Jacobs, Yoni Kasten, Shira Kritchman

Keywords Abstract Paper

Deep Learning - Theory

A Distributional Analysis of Sampling-Based Reinforcement Learning Algorithms

Philip Amortila, Doina Precup, Prakash Panangaden, Marc G. Bellemare

Keywords Abstract Paper

Convergence rates and approximation results for SGD and its continuous-time counterpart

Xavier Fontaine, Valentin De Bortoli, Alain Durmus

Keywords Abstract Paper

Spectra of the Conjugate Kernel and Neural Tangent Kernel for linear-width neural networks

Zhou Fan, Zhichao Wang

Keywords Abstract Paper

On the convergence of gradient descent in GANs: MMD GAN as a gradient flow

Youssef Mroueh, Truyen Nguyen

Keywords Abstract Paper

Time-independent Generalization Bounds for SGLD in Non-convex Settings

Tyler Farghly, Patrick Rebeschini

Keywords Abstract Paper

optimization

Faster Directional Convergence of Linear Neural Networks under Spherically Symmetric Data

Dachao Lin, Ruoyu Sun, Zhihua Zhang

Keywords Abstract Paper

deep learning, optimization

Calibration of Neural Networks using Splines

Kartik Gupta, Amir Rahimi, Thalaiyasingam Ajanthan and Thomas Mensink, Cristian Sminchisescu, Richard Hartley

Keywords Abstract Paper

uncertainty, calibration measure, neural network calibration

A Dynamical Central Limit Theorem for Shallow Neural Networks

Zhengdao Chen, Grant Rotskoff, Joan Bruna, Eric Vanden-Eijnden

Keywords Abstract Paper

Global optimality of softmax policy gradient with single hidden layer neural networks in the mean-field regime

Andrea Agazzi, Jianfeng Lu

Keywords Abstract Paper

policy gradient, mean-field dynamics, entropy regularization, neural networks

A Maximum-Entropy Approach to Off-Policy Evaluation in Average-Reward MDPs

Nevena Lazic, Dong Yin, Mehrdad Farajtabar and Nir Levine, DILAN Gorur, Chris Harris, Dale Schuurmans

Keywords Abstract Paper

Deep Learning -> Supervised Deep Networks, Algorithms -> Semi-Supervised Learning

Last iterate convergence of SGD for Least-Squares in the Interpolation regime.

Aditya Vardhan Varre, Loucas Pillaud-Vivien, Nicolas Flammarion

Keywords Abstract Paper

deep learning, optimization

Interpolation Technique to Speed Up Gradients Propagation in Neural ODEs

Talgat Daulbaev, Alexandr Katrutsa, Larisa Markeeva and Julia Gusak, Andrzej Cichocki, Ivan Oseledets

Keywords Abstract Paper

Particle Dual Averaging: Optimization of Mean Field Neural Network with Global Convergence Rate Analysis

Atsushi Nitanda, Denny Wu, Taiji Suzuki

Keywords Abstract Paper

theory, deep learning, optimization

Sinkhorn Barycenter via Functional Gradient Descent

Zebang Shen, Zhenfu Wang, Alejandro Ribeiro, Hamed Hassani

Keywords Abstract Paper

Keywords Paper

Long Yang, Gang Zheng, Yu Zhang and
Qian Zheng, Pengfei Li, Gang Pan

Keywords Paper

Keywords Paper

Keywords Paper

Youssef Mroueh, Igor Melnyk, Pierre Dognin and
Jarret Ross, Tom Sercu

Keywords Paper

Keywords Paper

Keywords Paper

Ronen Basri, Meirav Galun, Amnon Geifman and
David Jacobs, Yoni Kasten, Shira Kritchman

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Kartik Gupta, Amir Rahimi, Thalaiyasingam Ajanthan and
Thomas Mensink, Cristian Sminchisescu, Richard Hartley

Keywords Paper

Keywords Paper

Keywords Paper

Nevena Lazic, Dong Yin, Mehrdad Farajtabar and
Nir Levine, DILAN Gorur, Chris Harris, Dale Schuurmans

Keywords Paper

Keywords Paper

Talgat Daulbaev, Alexandr Katrutsa, Larisa Markeeva and
Julia Gusak, Andrzej Cichocki, Ivan Oseledets

Keywords Paper

Keywords Paper

Keywords Paper

Alain Durmus, Eric Moulines, Alexey Naumov and
Sergey Samsonov, Hoi-To Wai

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Bohan Wang, Huishuai Zhang, Jieyu Zhang and
Qi Meng, Wei Chen, Tie-Yan Liu

Keywords Paper

Keywords Paper

Ramin Hasani, Mathias Lechner, Alexander Amini and
Daniela Rus, Radu Grosu

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper