已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias

计算机科学 发电机(电路理论) 多样性(政治) 班级(哲学) 编码(集合论) 语言模型 基数(数据建模) 对比度(视觉) 简单(哲学) 自然语言生成 机器学习 人工智能 自然语言处理 数据挖掘 自然语言 集合(抽象数据类型) 功率(物理) 程序设计语言 哲学 物理 认识论 量子力学 社会学 人类学
作者
Yue Yu,Yuchen Zhuang,Jieyu Zhang,Meng Yu,Alexander Ratner,Ranjay Krishna,Jiaming Shen,Chao Zhang
出处
期刊:Cornell University - arXiv 被引量:28
标识
DOI:10.48550/arxiv.2306.15895
摘要

Large language models (LLMs) have been recently leveraged as training data generators for various natural language processing (NLP) tasks. While previous research has explored different approaches to training models using generated data, they generally rely on simple class-conditional prompts, which may limit the diversity of the generated data and inherit systematic biases of LLM. Thus, we investigate training data generation with diversely attributed prompts (e.g., specifying attributes like length and style), which have the potential to yield diverse and attributed generated data. Our investigation focuses on datasets with high cardinality and diverse domains, wherein we demonstrate that attributed prompts outperform simple class-conditional prompts in terms of the resulting model's performance. Additionally, we present a comprehensive empirical study on data generation encompassing vital aspects like bias, diversity, and efficiency, and highlight three key observations: firstly, synthetic datasets generated by simple prompts exhibit significant biases, such as regional bias; secondly, attribute diversity plays a pivotal role in enhancing model performance; lastly, attributed prompts achieve the performance of simple class-conditional prompts while utilizing only 5\% of the querying cost of ChatGPT associated with the latter. The data and code are available on \url{https://github.com/yueyu1030/AttrPrompt}.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
2秒前
大气亦巧发布了新的文献求助10
2秒前
窝恁蝶完成签到,获得积分10
2秒前
科研通AI5应助TTTTTT采纳,获得10
7秒前
Sophiaple发布了新的文献求助10
8秒前
希望天下0贩的0应助LIN采纳,获得10
12秒前
14秒前
14秒前
15秒前
young完成签到,获得积分10
17秒前
Jemma完成签到 ,获得积分10
17秒前
里里完成签到,获得积分10
19秒前
星辰大海应助大气亦巧采纳,获得10
19秒前
young发布了新的文献求助10
20秒前
nlix发布了新的文献求助10
20秒前
W_H发布了新的文献求助10
20秒前
辞轲完成签到,获得积分10
22秒前
ya完成签到,获得积分20
24秒前
Hasee完成签到 ,获得积分0
25秒前
27秒前
LIN完成签到,获得积分10
30秒前
turui完成签到 ,获得积分10
31秒前
31秒前
qianqian发布了新的文献求助10
31秒前
科研浩完成签到 ,获得积分10
40秒前
40秒前
fantasy263完成签到,获得积分10
41秒前
斯文败类应助qianqian采纳,获得10
42秒前
失眠成危完成签到,获得积分10
42秒前
滑稽剑客发布了新的文献求助10
45秒前
46秒前
Bonnienuit完成签到,获得积分10
47秒前
wenhao完成签到 ,获得积分10
47秒前
务实的犀牛完成签到,获得积分20
49秒前
Ray羽曦~完成签到,获得积分10
49秒前
小炮仗完成签到 ,获得积分10
50秒前
51秒前
52秒前
枣树先生完成签到 ,获得积分10
52秒前
Sophiaple完成签到,获得积分10
53秒前
高分求助中
Continuum thermodynamics and material modelling 3000
Production Logging: Theoretical and Interpretive Elements 2700
Healthcare Finance: Modern Financial Analysis for Accelerating Biomedical Innovation 2000
Applications of Emerging Nanomaterials and Nanotechnology 1111
Unseen Mendieta: The Unpublished Works of Ana Mendieta 1000
Les Mantodea de Guyane Insecta, Polyneoptera 1000
工业结晶技术 880
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 纳米技术 内科学 物理 化学工程 计算机科学 复合材料 基因 遗传学 物理化学 催化作用 细胞生物学 免疫学 电极
热门帖子
关注 科研通微信公众号,转发送积分 3491275
求助须知:如何正确求助?哪些是违规求助? 3077870
关于积分的说明 9150909
捐赠科研通 2770412
什么是DOI,文献DOI怎么找? 1520311
邀请新用户注册赠送积分活动 704570
科研通“疑难数据库(出版商)”最低求助积分说明 702262