AVForensics: Audio-driven Deepfake Video Detection with Masking Strategy in Self-supervision

计算机科学 模式 人工智能 面子(社会学概念) 利用 机器学习 语音识别 社会学 社会科学 计算机安全
作者
Yizhe Zhu,Jialin Gao,Xi Zhou
标识
DOI:10.1145/3591106.3592218
摘要

Existing cross-dataset deepfake detection approaches exploit mouth-related mismatches between the auditory and visual modalities in fake videos to enhance generalisation to unseen forgeries. However, such methods inevitably suffer performance degradation with limited or unaltered mouth motions, we argue that face forgery detection consistently benefits from using high-level cues across the whole face region. In this paper, we propose a two-phase audio-driven multi-modal transformer-based framework, termed AVForensics, to perform deepfake video content detection from an audio-visual matching view related to full face. In the first pre-training phase, we apply the novel uniform masking strategy to model global facial features and learn temporally dense video representations in a self-supervised cross-modal manner, by capturing the natural correspondence between the visual and auditory modalities regardless of large-scaled labelled data and heavy memory usage. Then we use these learned representations to fine-tune for the down-stream deepfake detection task in the second phase, which encourages the model to offer accurate predictions based on captured global facial movement features. Extensive experiments and visualizations on various public datasets demonstrate the superiority of our self-supervised pre-trained method for achieving generalisable and robust deepfake video detection.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
刚刚
chen完成签到,获得积分10
1秒前
2秒前
shinn发布了新的文献求助10
5秒前
5秒前
awen发布了新的文献求助10
7秒前
orixero应助清修采纳,获得10
10秒前
李健的小迷弟应助麻师长采纳,获得10
12秒前
13秒前
科研通AI2S应助美满棉花糖采纳,获得10
15秒前
SMHILU完成签到,获得积分20
16秒前
辉辉完成签到,获得积分10
16秒前
乔达摩完成签到 ,获得积分10
17秒前
thalia发布了新的文献求助10
18秒前
SMHILU发布了新的文献求助10
19秒前
awen完成签到,获得积分10
21秒前
xzyin完成签到,获得积分10
21秒前
24秒前
25秒前
有魅力敏完成签到,获得积分10
28秒前
elle发布了新的文献求助10
28秒前
29秒前
30秒前
YamDaamCaa应助松谦采纳,获得30
30秒前
乔达摩悉达多完成签到 ,获得积分10
31秒前
32秒前
33秒前
34秒前
有魅力的香芦完成签到,获得积分10
34秒前
俭朴的采波完成签到 ,获得积分10
35秒前
LaTeXer应助keyandog采纳,获得30
35秒前
幽灵发布了新的文献求助10
36秒前
太上老君发布了新的文献求助10
36秒前
今后应助dd采纳,获得10
37秒前
38秒前
38秒前
Owen应助葉要加油采纳,获得10
38秒前
42秒前
hehehe完成签到,获得积分10
44秒前
高分求助中
A new approach to the extrapolation of accelerated life test data 1000
Cognitive Neuroscience: The Biology of the Mind 1000
Technical Brochure TB 814: LPIT applications in HV gas insulated switchgear 1000
Immigrant Incorporation in East Asian Democracies 600
Nucleophilic substitution in azasydnone-modified dinitroanisoles 500
不知道标题是什么 500
A Preliminary Study on Correlation Between Independent Components of Facial Thermal Images and Subjective Assessment of Chronic Stress 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 3967974
求助须知:如何正确求助?哪些是违规求助? 3513037
关于积分的说明 11166022
捐赠科研通 3248121
什么是DOI,文献DOI怎么找? 1794108
邀请新用户注册赠送积分活动 874854
科研通“疑难数据库(出版商)”最低求助积分说明 804602