当前位置: X-MOL 学术ACM Trans. Asian Low Resour. Lang. Inf. Process. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
基于 BERT 的中文成语推荐两阶段模型
ACM Transactions on Asian and Low-Resource Language Information Processing ( IF 1.8 ) Pub Date : 2021-08-12 , DOI: 10.1145/3453185
Minghuan Tan 1 , Jing Jiang 1 , Bing Tian Dai 1
Affiliation  

在汉语中,成语是由四个字组成的固定短语。作为一种习语,它们的意义通常不能从其组成字中推导出来。在本文中,我们研究了在给定文本上下文的情况下推荐成语的任务。观察现有工作的一些局限性,我们提出了一个两阶段模型,在第一阶段,我们通过从覆盖广泛的成语的大型中文语料库中屏蔽成语来重新训练中文 BERT 模型。在第二阶段,我们在特定的成语推荐数据集上对重新训练的、面向成语的 BERT 进行微调。我们在 ChID 和 CCT 数据集上评估了这种方法,发现它可以在两个数据集上达到最先进的水平。消融研究表明,训练的两个阶段对于性能提升都至关重要。



"点击查看英文标题和摘要"

更新日期:2021-08-12
down
wechat
bug