UnihanLM: Coarse-to-fine Chinese-Japanese language model pretraining with the unihan database

Abstract: Chinese and Japanese share many characters with similar surface morphology. To better utilize the shared knowledge across the languages, we propose UnihanLM, a self-supervised Chinese-Japanese pretrained masked language model (MLM) with a novel two-stage coarse-to-fine training approach. We exploit Unihan, a ready-made database constructed by linguistic experts to first merge morphologically similar characters into clusters. The resulting clusters are used to replace the original characters in sentences for the coarse-grained pretraining of the MLM. Then, we restore the clusters back to the original characters in sentences for the fine-grained pretraining to learn the representation of the specific characters. We conduct extensive experiments on a variety of Chinese and Japanese NLP benchmarks, showing that our proposed UnihanLM is effective on both mono- and cross-lingual Chinese and Japanese tasks, shedding light on a new path to exploit the homology of languages.

04/07/2020

UnihanLM: Coarse-to-fine Chinese-Japanese language model pretraining with the unihan database

Canwen Xu, Tao Ge, Chenliang Li, Furu Wei

Comments

Similar Papers

Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge

Yuanhe Tian, Yan Song, Xiang Ao and Fei Xia, Xiaojun Quan, Tong Zhang, Yonggang Wang

Keywords Abstract Paper

Chinese Segmentation, Part-of-speech Tagging, Chinese processing, joint tagging

Synonym Knowledge Enhanced Reader for Chinese Idiom Reading Comprehension

Siyu Long, Ran Wang, Kun Tao and Jiali Zeng, Xinyu Dai

Keywords Abstract Paper

SpellGCN: Incorporating Phonological and Visual Similarities into Language Models for Chinese Spelling Check

Xingyi Cheng, Weidi Xu, Kunlong Chen and Shaohua Jiang, Feng Wang, Taifeng Wang, Wei Chu, Yuan Qi

Keywords Abstract Paper

Chinese Check, spelling errors, spelling language, CSC

A Complete Shift-Reduce Chinese Discourse Parser with Robust Dynamic Oracle

Shyh-Shiun Hung, Hen-Hsen Huang, Hsin-Hsi Chen

Keywords Abstract Paper

Chinese parsing, rhetorical recognition, Shift-Reduce Parser, Robust Oracle

Pre-training via Leveraging Assisting Languages for Neural Machine Translation

Haiyue Song, Raj Dabre, Zhuoyuan Mao and Fei Cheng, Sadao Kurohashi, Eiichiro Sumita

Keywords Abstract Paper

Neural Translation, S2S tasks, LOI, low-resource translation

Character-Level Translation with Self-attention

Yingqiang Gao, Nikola I. Nikolov, Yuhuang Hu, Richard H.R. Hahnloser

Keywords Abstract Paper

Character-Level Translation, bilingual translation, self-attention models, transformer model

LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short Text Matching

Boer Lyu, Lu Chen, Su Zhu, Kai Yu

Keywords Abstract Paper

FontRL: Chinese Font Synthesis via Deep Reinforcement Learning

Yitian Liu, Zhouhui Lian

Keywords Abstract Paper

Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition

Jingye Chen, Bin Li, Xiangyang Xue

Keywords Abstract Paper

Computer Vision, Recognition

Handwritten Chinese Font Generation With Collaborative Stroke Refinement

Chuan Wen, Yujie Pan, Jie Chang and Ya Zhang, Siheng Chen, Yanfeng Wang, Mei Han, Qi Tian

Keywords Abstract Paper

Don’t change me! User-controllable selective paraphrase generation

Mohan Zhang, Luchen Tan, Zihang Fu and Kun Xiong, Jimmy Lin, Ming Li, Zhengkai Tu

Keywords Abstract Paper

Traceability support for multi-lingual software projects

Yalin Liu, Jinfeng Lin, Jane Cleland-Huang

Keywords Abstract Paper

Traceability, Cross-lingual information retrieval, Generalized Vector Space Model

Camouflaged Chinese Spam Content Detection with Semi-supervised Generative Active Learning

Zhuoren Jiang, Zhe Gao, Yu Duan and Yangyang Kang, Changlong Sun, Qiong Zhang, Xiaozhong Liu

Keywords Abstract Paper

Camouflaged Detection, text problems, Chinese task, annotation

Entity Enhanced BERT Pre-training for Chinese NER

Chen Jia, Yuefeng Shi, Qinrong Yang, Yue Zhang

Keywords Abstract Paper

chinese ner, pre-training, ner fine-tuning, ner

English-to-Chinese transliteration with phonetic auxiliary task

Yuan He, Shay B. Cohen

Keywords Abstract Paper

Language Models as an Alternative Evaluator of Word Order Hypotheses: A Case Study in Japanese

Tatsuki Kuribayashi, Takumi Ito, Jun Suzuki, Kentaro Inui

Keywords Abstract Paper

Evaluator Hypotheses, analyzing order, Language Models, neural models

Monolingual and Multilingual Reduction of Gender Bias in Contextualized Representations

Sheng Liang, Philipp Dufter, Hinrich Schütze

Keywords Abstract Paper

Robust Neural Machine Translation with ASR Errors

Haiyang Xue, Yang Feng, Shuhao Gu, Wei Chen

Keywords Abstract Paper

Enhancing Pre-trained Chinese Character Representation with Word-aligned Attention

Yanzeng Li, Bowen Yu, Xue Mengge, Tingwen Liu

Keywords Abstract Paper

segmentation propagation, Pre-trained Representation, Chinese models, word-aligned attention

Synchronous Bidirectional Learning for Multilingual Lip Reading

Mingshuang Luo, Shuang Yang, Xilin Chen and Zitao Liu, Shiguang Shan

Keywords Abstract Paper

lip reading, multilingual, synchronous bidirectional learning, transformer

A Joint Multiple Criteria Model in Transfer Learning for Cross-domain Chinese Word Segmentation

Kaiyu Huang, Degen Huang, Zhuang Liu, Fengran Mo

Keywords Abstract Paper

natural, chinese segmentation, chinese, chinese tasks

Yuanhe Tian, Yan Song, Xiang Ao and
Fei Xia, Xiaojun Quan, Tong Zhang, Yonggang Wang

Keywords Paper

Siyu Long, Ran Wang, Kun Tao and
Jiali Zeng, Xinyu Dai

Keywords Paper

Xingyi Cheng, Weidi Xu, Kunlong Chen and
Shaohua Jiang, Feng Wang, Taifeng Wang, Wei Chu, Yuan Qi

Keywords Paper

Keywords Paper

Haiyue Song, Raj Dabre, Zhuoyuan Mao and
Fei Cheng, Sadao Kurohashi, Eiichiro Sumita

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Chuan Wen, Yujie Pan, Jie Chang and
Ya Zhang, Siheng Chen, Yanfeng Wang, Mei Han, Qi Tian

Keywords Paper

Mohan Zhang, Luchen Tan, Zihang Fu and
Kun Xiong, Jimmy Lin, Ming Li, Zhengkai Tu

Keywords Paper

Keywords Paper

Zhuoren Jiang, Zhe Gao, Yu Duan and
Yangyang Kang, Changlong Sun, Qiong Zhang, Xiaozhong Liu

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Mingshuang Luo, Shuang Yang, Xilin Chen and
Zitao Liu, Shiguang Shan

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Hongyi Cui, Yizhen Wei, Shohei Iida and
Takehito Utsuro, Masaaki Nagata

Keywords Paper

Keywords Paper

Keywords Paper

Ruotian Ma, Minlong Peng, Qi Zhang and
Zhongyu Wei, Xuanjing Huang

Keywords Paper

Hanqing Tao, Shiwei Tong, Kun Zhang and
Tong Xu, Qi Liu, Enhong Chen, Min Hou

Keywords Paper

Keywords Paper

Wentao Ma, Yiming Cui, Chenglei Si and
Ting Liu, Shijin Wang, Guoping Hu

Keywords Paper

Wenhui Han, Xinlin Ren, Hangyu Lin and
Yanwei Fu, Xiangyang Xue

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper

Keywords Paper