On the Sparsity of Neural Machine Translation Models

Abstract: Modern neural machine translation (NMT) models employ a large number of parameters, which leads to serious over-parameterization and typically causes the underutilization of computational resources. In response to this problem, we empirically investigate whether the redundant parameters can be reused to achieve better performance. Experiments and analyses are systematically conducted on different datasets and NMT architectures. We show that: 1) the pruned parameters can be rejuvenated to improve the baseline model by up to +0.8 BLEU points; 2) the rejuvenated parameters are reallocated to enhance the ability of modeling low-level lexical information.

02/02/2021

On the Sparsity of Neural Machine Translation Models

Yong Wang, Longyue Wang, Victor Li, Zhaopeng Tu

Comments

Similar Papers

High Dimensional Level Set Estimation with Bayesian Neural Network

Huong Ha, Sunil Gupta, Santu Rana, Svetha Venkatesh

Keywords Abstract Paper

F-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation

Konstantin Sofiiuk, Ilia Petrov, Olga Barinova, Anton Konushin

Keywords Abstract Paper

interactive segmentation, interactive, instance segmentation, segmentation, backpropagating refinement, refinement

TRQ: Ternary Neural Networks With Residual Quantization

Yue Li, Wenrui Ding, Chunlei Liu and Baochang Zhang, Guodong Guo

Keywords Abstract Paper

More or Less: When and How to Build Convolutional Neural Network Ensembles

Abdul Wasay, Stratos Idreos

Keywords Abstract Paper

empirical study, ensemble learning, computer vision, machine learning systems

Provable Benefits of Overparameterization in Model Compression: From Double Descent to Pruning Neural Networks

Xiangyu Chang, Yingcong Li, Samet Oymak, Christos Thrampoulidis

Keywords Abstract Paper

DIBS: Diversity Inducing Information Bottleneck in Model Ensembles

Samarth Sinha, Homanga Bharadhwaj, Anirudh Goyal and Hugo Larochelle, Animesh Garg, Florian Shkurti

Keywords Abstract Paper

Redesigning the Transformer Architecture with Insights from Multi-particle Dynamical Systems

Subhabrata Dutta, Tanya Gautam, Soumen Chakrabarti, Tanmoy Chakraborty

Keywords Abstract Paper

deep learning, transformers

Meta-Transfer Learning for Low-Resource Abstractive Summarization

Yi-Syuan Chen, Hong-Han Shuai

Keywords Abstract Paper

Reproducible and Efficient Benchmarks for Hyperparameter Optimization of Neural Machine Translation Systems

Xuan Zhang, Kevin Duh

Keywords Abstract Paper

hyperparameter selection, neural systems, automatic optimization, nmt

Faster & more reliable tuning of neural networks: Bayesian optimization with importance sampling

Setareh Ariafar, Zelda Mariet, Dana Brooks and Jennifer Dy, Jasper Snoek

Keywords Abstract Paper

Improving Maximum Likelihood Training for Text Generation with Density Ratio Estimation

Yuxuan Song, Ning Miao, Hao Zhou and Lantao Yu, Mingxuan Wang, Lei Li

Keywords Abstract Paper

Efficient Algorithms for Device Placement of DNN Graph Operators

Jakub Tarnawski, Amar Phanishayee, Nikhil Devanur and Divya Mahajan, Fanny Nina Paravecino

Keywords Abstract Paper

Training Spiking Neural Networks with Accumulated Spiking Flow

Hao Wu, Yueyi Zhang, Wenming Weng and Yongting Zhang, Zhiwei Xiong, Zheng-Jun Zha, Xiaoyan Sun, Feng Wu

Keywords Abstract Paper

ActNN: Reducing Training Memory Footprint via 2-Bit Activation Compressed Training

Jianfei Chen, Lianmin Zheng, Zhewei Yao and Dequan Wang, Ion Stoica, Michael Mahoney, Joseph E Gonzalez

Keywords Abstract Paper

Algorithms, Large Scale Learning

Improving Neural Network Training in Low Dimensional Random Bases

Frithjof Gressmann, Zach Eaton-Rosen, Carlo Luschi

Keywords Abstract Paper

GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training

Chen Zhu, Renkun Ni, Zheng Xu and Kezhi Kong, W. Ronny Huang, Tom Goldstein

Keywords Abstract Paper

deep learning, transformers, vision

Squeezing Correlated Neurons for Resource-Efficient Deep Neural Networks

Elbruz Ozen, Alex Orailoglu

Keywords Abstract Paper

deep learning, information redundancy, pruning

Multiplicative Interactions and Where to Find Them

Siddhant M. Jayakumar, Wojciech M. Czarnecki, Jacob Menick and Jonathan Schwarz, Jack Rae, Simon Osindero, Yee Whye Teh, Tim Harley, Razvan Pascanu

Keywords Abstract Paper

multiplicative interactions, hypernetworks, attention

NxMTransformer: Semi-Structured Sparsification for Natural Language Understanding via ADMM

Connor Holmes, Minjia Zhang, Yuxiong He, Bo Wu

Keywords Abstract Paper

optimization, transformers, language

Evolutionary Approach for AutoAugment Using the Thermodynamical Genetic Algorithm

Akira Terauchi, Naoki Mori

Keywords Abstract Paper

Learn-to-Share: A Hardware-friendly Transfer Learning Framework Exploiting Computation and Parameter Sharing

Cheng Fu, Hanxian Huang, Xinyun Chen and Yuandong Tian, Jishen Zhao

Keywords Abstract Paper

Applications, Natural Language Processing

Reducing the Computational Cost of Deep Generative Models with Binary Neural Networks

Thomas Bird, Friso Kingma, David Barber

Keywords Abstract Paper

Keywords Paper

Keywords Paper

Yue Li, Wenrui Ding, Chunlei Liu and
Baochang Zhang, Guodong Guo

Keywords Paper

Keywords Paper

Keywords Paper

Samarth Sinha, Homanga Bharadhwaj, Anirudh Goyal and
Hugo Larochelle, Animesh Garg, Florian Shkurti

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Setareh Ariafar, Zelda Mariet, Dana Brooks and
Jennifer Dy, Jasper Snoek

Keywords Paper

Yuxuan Song, Ning Miao, Hao Zhou and
Lantao Yu, Mingxuan Wang, Lei Li

Keywords Paper

Jakub Tarnawski, Amar Phanishayee, Nikhil Devanur and
Divya Mahajan, Fanny Nina Paravecino

Keywords Paper

Hao Wu, Yueyi Zhang, Wenming Weng and
Yongting Zhang, Zhiwei Xiong, Zheng-Jun Zha, Xiaoyan Sun, Feng Wu

Keywords Paper

Jianfei Chen, Lianmin Zheng, Zhewei Yao and
Dequan Wang, Ion Stoica, Michael Mahoney, Joseph E Gonzalez

Keywords Paper

Keywords Paper

Chen Zhu, Renkun Ni, Zheng Xu and
Kezhi Kong, W. Ronny Huang, Tom Goldstein

Keywords Paper

Keywords Paper

Siddhant M. Jayakumar, Wojciech M. Czarnecki, Jacob Menick and
Jonathan Schwarz, Jack Rae, Simon Osindero, Yee Whye Teh, Tim Harley, Razvan Pascanu

Keywords Paper

Keywords Paper

Keywords Paper

Cheng Fu, Hanxian Huang, Xinyun Chen and
Yuandong Tian, Jishen Zhao

Keywords Paper

Keywords Paper

Keywords Paper

Haichen Shen, Jared Roesch, Zhi Chen and
wweic Chen, Yong Wu, Mu Li, Vin Sharma, Zachary Tatlock, Yida Wang

Keywords Paper

Haichen Shen, Jared Roesch, Zhi Chen and
wweic Chen, Yong Wu, Mu Li, Vin Sharma, Zachary Tatlock, Yida Wang

Keywords Paper

Keywords Paper

Elad Hoffer, Tal Ben-Nun, Itay Hubara and
Niv Giladi, Torsten Hoefler, Daniel Soudry

Keywords Paper

Dimitris Tsipras, Shibani Santurkar, Logan Engstrom and
Andrew Ilyas, Aleksander Madry

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Etai Littwin, Ben Myara, Sima Sabah and
Joshua Susskind, Shuangfei Zhai, Oren Golan

Keywords Paper