清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Byte Pair Encoding for Symbolic Music

计算机科学 安全性令牌 嵌入 序列(生物学) 杠杆(统计) 字节 哈夫曼编码 编码(内存) 推论 词汇 源代码 语言模型 理论计算机科学 人工智能 自然语言处理 数据压缩 程序设计语言 计算机安全 语言学 哲学 遗传学 生物
作者
Nathan Fradet,Jean-Pierre Briot,Fabien Chhel,Amal El Fallah Seghrouchni,Nicolas Gutowski
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2301.11975
摘要

When used with deep learning, the symbolic music modality is often coupled with language model architectures. To do so, the music needs to be tokenized, i.e. converted into a sequence of discrete tokens. This can be achieved by different approaches, as music can be composed of simultaneous tracks, of simultaneous notes with several attributes. Until now, the proposed tokenizations rely on small vocabularies of tokens describing the note attributes and time events, resulting in fairly long token sequences, and a sub-optimal use of the embedding space of language models. Recent research has put efforts on reducing the overall sequence length by merging embeddings or combining tokens. In this paper, we show that Byte Pair Encoding, a compression technique widely used for natural language, significantly decreases the sequence length while increasing the vocabulary size. By doing so, we leverage the embedding capabilities of such models with more expressive tokens, resulting in both better results and faster inference in generation and classification tasks. The source code is shared on Github, along with a companion website. Finally, BPE is directly implemented in MidiTok, allowing the reader to easily benefit from this method.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
12秒前
科研狗完成签到 ,获得积分10
13秒前
安安完成签到 ,获得积分10
16秒前
ding应助难过天思采纳,获得10
34秒前
研友_8Y26PL完成签到 ,获得积分10
39秒前
充电宝应助懵懂的怜南采纳,获得10
52秒前
搬砖的化学男完成签到 ,获得积分0
58秒前
龙飞凤舞完成签到,获得积分10
59秒前
vbnn完成签到 ,获得积分10
1分钟前
1分钟前
Antonio完成签到 ,获得积分10
1分钟前
1分钟前
GGBond完成签到 ,获得积分10
1分钟前
Lucas应助懵懂的怜南采纳,获得10
1分钟前
1分钟前
Jenny完成签到,获得积分10
1分钟前
归尘应助科研通管家采纳,获得10
1分钟前
归尘应助科研通管家采纳,获得10
1分钟前
归尘应助科研通管家采纳,获得10
1分钟前
归尘应助科研通管家采纳,获得10
1分钟前
归尘应助科研通管家采纳,获得30
1分钟前
香蕉觅云应助科研通管家采纳,获得10
1分钟前
难过天思给难过天思的求助进行了留言
1分钟前
1分钟前
2分钟前
DocChen发布了新的文献求助10
2分钟前
DocChen完成签到,获得积分10
2分钟前
思源应助DocChen采纳,获得10
2分钟前
digger2023完成签到 ,获得积分10
2分钟前
lmy完成签到 ,获得积分10
2分钟前
命运的X号完成签到,获得积分10
3分钟前
3分钟前
煜琪完成签到 ,获得积分10
3分钟前
虞不斜完成签到 ,获得积分10
5分钟前
yufan应助雪山飞龙采纳,获得10
5分钟前
herpes完成签到 ,获得积分0
5分钟前
归尘应助科研通管家采纳,获得10
5分钟前
归尘应助科研通管家采纳,获得10
5分钟前
归尘应助科研通管家采纳,获得10
5分钟前
归尘应助科研通管家采纳,获得10
5分钟前
高分求助中
Востребованный временем 2500
Hopemont Capacity Assessment Interview manual and scoring guide 1000
Injection and Compression Molding Fundamentals 1000
Classics in Total Synthesis IV: New Targets, Strategies, Methods 1000
Mantids of the euro-mediterranean area 600
The Oxford Handbook of Educational Psychology 600
Mantodea of the World: Species Catalog Andrew M 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 内科学 物理 纳米技术 计算机科学 基因 遗传学 化学工程 复合材料 免疫学 物理化学 细胞生物学 催化作用 病理
热门帖子
关注 科研通微信公众号,转发送积分 3422912
求助须知:如何正确求助?哪些是违规求助? 3023294
关于积分的说明 8904041
捐赠科研通 2710724
什么是DOI,文献DOI怎么找? 1486669
科研通“疑难数据库(出版商)”最低求助积分说明 687143
邀请新用户注册赠送积分活动 682341