已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Loanword identification based on web resources: A case study on wikipedia

计算机科学 外来词 鉴定(生物学) 自然语言处理 人工智能 文字嵌入 相似性(几何) 词(群论) 嵌入 情报检索 语言学 哲学 植物 图像(数学) 生物
作者
Chenggang Mi
出处
期刊:Computer Speech & Language [Elsevier]
卷期号:81: 101517-101517
标识
DOI:10.1016/j.csl.2023.101517
摘要

To alleviate the resource scarcity and improve the robustness in loanword identification, the current study proposes a novel loanword identification method based on Wikipedia. In this paper, we first present how to obtain loanword candidate datasets and comparable corpora from Wikipedia. On the basis of these corpora, we develop a pseudo-data generation model for loanword identification tasks. And then we put forward a loanword identification model, i.e. the PK-SM-Bi-LSTM-CRF framework, which is based on a bidirectional LSTM-CRF framework and further enhanced by prior knowledge and self-matching attention. The advantages of the proposed method mainly lie in two aspects. For one thing, besides the commonly used word embedding and character embedding features, several other features, including subword embedding, lexical similarity, word alignment and semantic similarity, are incorporated into our method. For another, geographic distance is set as a primary principle in the selection of the best matched donor word from several candidates. Moreover, in order to evaluate the effectiveness of the proposed method, we have conducted a series of experiments in different languages. Experimental results show that the proposed method achieves the best performance among all baseline systems.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
彭于晏应助贾靖涵采纳,获得30
2秒前
2秒前
徐嘎嘎发布了新的文献求助10
2秒前
zhaoqing发布了新的文献求助10
3秒前
咕噜发布了新的文献求助10
4秒前
相金鹏完成签到,获得积分10
4秒前
狗十七完成签到 ,获得积分10
5秒前
白英完成签到,获得积分10
6秒前
wsw111发布了新的文献求助30
7秒前
chenllxx完成签到 ,获得积分10
8秒前
左江夜渔人完成签到 ,获得积分10
9秒前
9秒前
哈哈完成签到,获得积分10
9秒前
相金鹏发布了新的文献求助10
10秒前
xie完成签到 ,获得积分0
11秒前
一只眠羊完成签到 ,获得积分10
12秒前
13秒前
bajiu完成签到 ,获得积分10
13秒前
TiAmo完成签到,获得积分10
14秒前
哈哈发布了新的文献求助10
14秒前
灶灶完成签到 ,获得积分10
14秒前
LXL完成签到,获得积分10
17秒前
刘振坤完成签到,获得积分10
17秒前
LFYL发布了新的文献求助10
17秒前
英姑应助Alan采纳,获得10
17秒前
感性的俊驰完成签到 ,获得积分10
18秒前
will完成签到,获得积分10
20秒前
2R完成签到,获得积分10
22秒前
华仔应助科研通管家采纳,获得10
23秒前
SciGPT应助科研通管家采纳,获得10
23秒前
华仔应助科研通管家采纳,获得10
23秒前
23秒前
SciGPT应助科研通管家采纳,获得10
23秒前
大个应助科研通管家采纳,获得10
23秒前
23秒前
大个应助科研通管家采纳,获得10
23秒前
23秒前
23秒前
23秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Introduction to strong mixing conditions volume 1-3 5000
Agyptische Geschichte der 21.30. Dynastie 3000
Aerospace Engineering Education During the First Century of Flight 2000
„Semitische Wissenschaften“? 1510
从k到英国情人 1500
sQUIZ your knowledge: Multiple progressive erythematous plaques and nodules in an elderly man 1000
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5771975
求助须知:如何正确求助?哪些是违规求助? 5594820
关于积分的说明 15428720
捐赠科研通 4905144
什么是DOI,文献DOI怎么找? 2639238
邀请新用户注册赠送积分活动 1587134
关于科研通互助平台的介绍 1542004