博客地址:https://www.cnblogs.com/LXP-Never/p/15474948.html(转载请注明出处)
博客作者:凌逆战
语音数据集
TIMIT
官方提供的下载地址:https://catalog.ldc.upenn.edu/LDC93S1
免费下载地址:https://goo.gl/l0sPwz(420M)
TIMIT 共包含 6300 个句子,10 个句子由来自美国 8 个主要方言区的 630 位说话人。
Timit原始数据虽然是以wav结尾的但是格式却不是wav,而是sphere格式,用python中的sphfile库把他转换成wav:
![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
from sphfile import SPHFile import glob import os if __name__ == "__main__": path = 'D:/pycharm_proj/corpus/data/lisa/data/timit/raw/TIMIT/TRAIN/*/*/*.WAV' sph_files = glob.glob(path) print(len(sph_files),"train utterences") for i in sph_files: sph = SPHFile(i) sph.write_wav(filename=i.replace(".WAV","_.wav")) os.remove(i) path = 'D:/pycharm_proj/corpus/data/lisa/data/timit/raw/TIMIT/TEST/*/*/*.WAV' sph_files_test = glob.glob(path) print(len(sph_files_test),"test utterences") for i in sph_files_test: sph = SPHFile(i) sph.write_wav(filename=i.replace(".WAV","_.wav")) os.remove(i) print("Completed")
View Code
VCTK
下载地址:传送门(10.94Gb)
CSTR VCTK 语料库包括 110 位具有各种口音的英语使用者的语音数据。每个发言者读出大约 400 个句子,所有语音数据都是使用相同的录音设置录制的:全向麦克风 (DPA 4035)和一个小振膜电容麦克风,具有非常宽的带宽(Sennheiser MKH 800),96kHz 采样频率,24 位,在爱丁堡大学的半消声室中。所有录音都转换为 16 位,下采样到 48 kHz,并手动设置终点。
AISHELL-ASR0009-OS1 开源中文语音数据库
下载地址:传送门(14.51Gb)
时长178小时,录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。高保真麦克风录制的音频降采样为16kHz。400名来自中国不同口音区域的发言人参与录制。
AISHELL-2 中文语音数据库
时长为1000小时,其中718小时来自AISHELL-ASR0009,282小时来自AISHELL-ASR0010。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16bit);Android系统手机(16kHz,16bit);iOS系统手机(16kHz,16bit)。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。
AISHELL-3 高保真中文语音数据库
时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。
AISHELL-WakeUp-1 中英文唤醒词语音数据库
AISHELL-DMASH 中文普通话麦克风阵列家居场景语音数据库
AISHELL-4 多通道中文会议语音数据库
Mozilla Common Voice
下载地址:https://commonvoice.mozilla.org/zh-CN
时长:1965小时(目前为止)
最早2017年发布,持续更新,该基金会表示,通过 Common Voice 网站和移动应用,他们正在积极开展 70 种语言的数据收集工作。
Mozilla 宣称其拥有可供使用的最大的人类语音数据集,当前数据集有包括 29 种不同的语言,其中包括汉语,从 4万多名贡献者那里收集了近 2454 小时(其中1965小时已验证)的录音语音数据。并且做出了开放的承诺:向初创公司、研究人员以及对语音技术感兴趣的任何人公开我们收集到的高质量语音数据。
不能保证每个语音都是在消声室内录制,所以语音可能包含噪声
Tatoeba
下载地址:传送门
项目始于2006年tatoeba是一个用于语言学习的句子、翻译和口语音频的大型数据库。收集面向外语学习者的例句的网站,用户无须注册便可以搜索任何单词的例句。如果例句含有对应的真人发音,也可以点击收听。注册用户可以添加、翻译、接管、改进、讨论句子。还可以在留言板上和其他注册用户讨论。在留言板上,所有的语言都是平等的,注册用户可以使用自己喜欢的语言与其他用户交流。
日语数据集
这个网站收集了很多和日语相关的数据集:语音资源联盟
JSUT
下载地址:传送门
该语料库由日语文本和阅读语音组成。音频数据以48 kHz采样并记录在消声室中。录制了一位说日语的女性的声音。该语料库包含10 小时的语音,由以下数据组成。
- basic5000 ... 涵盖所有常用汉字的读音和读音
- utparaphrase512 ... 替换了句子的一部分
- onomatopoe300 ... 日语拟声词
- countersuffix26 ... 助数詞
- loanword128 ... 衍生自外来词的动词和名词(例如,Google)
- voiceactress100 ...配音演员统计语料库(专业女配音演员免费语料库)
- travel1000 ... 旅游领域的短语
- precedent130 ... 判例文
- repeat500 ...重复演讲(100句* 5次)
JVS (Japanese versatile speech) corpus
下载地址:传送门
该语料库由日语文本(成绩单)和多说话者语音数据组成。
- 100位专业演讲者,每个演讲者都说:
- "parallel100" ... 100 种在说话者中常见的阅读风格话语
- "nonpara30" ... 30 种在说话者之间完全不同的阅读风格话语
- "whisper10" ... 10 个耳语
- "falsetto10" ... 10 次假声
高质量(录音室录音)、高采样率(24 kHz)和大尺寸(30小时)的音频文件,包括有用的标签(例如,性别、F0 范围、说话者相似度、持续时间和音素对齐(自动生成))
japanese scripted speech corpus - daily use sentence
下载地址:传送门
这个开源数据集包含 18 小时的转录日文脚本语音,专注于日常使用的句子,其中包含 37 位发言者贡献的 17,372 条话语。
噪声数据集
noise-92
下载地址:传送门(250M)
音频参数:19980Hz;单通道,16位深
以mat格式存储,可以通过下面的脚本转换到wav格式,所有噪声的持续时间为 235 秒,19.98 KHz 的采样率、具有 16 位的模数转换器 (A/D)、抗混叠滤波器和无预加重级获得。包含15种噪声类型:
- White noise:白噪声
- pink noise:粉红噪声
- volvo:车内噪声
- babble:餐厅内嘈杂噪声
- Military vehicle noise:军用车辆噪音
- Tank noise:坦克内部噪
- HF channel noise:高频信道噪声
- Machine gun noise:机枪噪声
- Factory floor noise:工厂车间噪音
- F-16 cockpit noise:F16座舱噪声
- Destroyer engine room noise:驱逐舰机舱噪声
- Buccaneer: 驾驶舱噪声1
将mat格式的音频转成wav
![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
mat_file=dir('./*.mat'); sr=19980; for n=1:length(mat_file) disp(mat_file(n).name); load(mat_file(n).name); name = eval(mat_file(n).name(1:end-4)); % 为了避免写入被截断,需要归一化到(-1,1) % 方法1 % max_val = max(name); % min_val = min(name); % name = ((name-min_val)./(max_val-min_val) - 0.5 ) *2; % 方法2 name = rescale(name, -1, 1); audiowrite(strrep(mat_file(n).name,'mat','wav'),name,sr); end
View Code
NOIZEUS数据集
下载地址:NOIZEUS:用于评估语音增强算法的嘈杂语音语料库(噪声和纯净语音对)
包含30个IEEE 句子(由三名男性和三名女性发言者产生),被不同 SNR 下的八种不同的真实世界噪声破坏。噪音包括郊区火车噪音、杂音、汽车、展览厅、餐厅、街道、机场和火车站噪音。
DEMAND
下载地址:传送门(7.4Gb)
音频参数:48 kHz 和 16 kHz 采样率在一个目录中以 16 个单通道 WAV 文件的形式提供
16 通道环境噪声记录数据库
麦克风阵列是几个麦克风的(通常规则的)排列,允许使用许多有趣的信号处理技术。例如,来自彼此相距很近的麦克风的音频信号的相关性可以用于确定声源相对于阵列的空间位置,或基于声音到达阵列的方向隔离或增强信号。
通常,考虑声学背景噪声的麦克风阵列实验使用受控环境或模拟环境。这种人工设置在噪声源方面通常是稀疏的。其他已经存在的真实世界噪声数据库(例如AURORA-2语料库、CHiME背景噪声数据或NOISEX-92数据库)往往只提供非常有限的环境多样性,最多只能提供2个通道。
这里介绍的DEMAND(多元环境多通道声学噪声数据库)提供了一组录音,允许在各种设置下使用真实环境的噪声测试算法。这个版本提供了15个录音。所有录音都使用16通道阵列,麦克风之间的最小距离为5厘米,最大距离为21.8厘米。
PNL 100 Nonspeech Sounds
下载地址:传送门(~10M)
音频格式:20kHz采样率,单声道,16位深
这些非语音、环境声音可以用作评估语音分离系统等的非语音噪声
Crowd 人群噪音:N1-N17 Machine 机器噪音:N18-N29 Alarms 警报和警报器:N30-N43 Traffic 交通和汽车噪音: N44-N46 Animal 动物声音:N47-N55 water 水声:N56-N69 Wind 风:N70-N78 Bell 铃:N79-N82 Cough 咳嗽:N83-N85 clap hands 拍手:N86 Snoring 打鼾:N87 Click 点击:N88 lol 笑:N88-N90 Yawn 打哈欠:N91-N92 cry 哭:N93 Shower 淋浴:N94 Brush your teeth 刷牙:N95 Footsteps 脚步声:N96-N97 Door Movement 门移动:N98 Telephone dialing 电话拨号:N99-N100
rnnoise_ontributions
RNNoise提供的捐赠数据集,大部分是一些办公室噪声,下载地址:传送门(6.41G)。
COUGHVID 众包数据集
音频格式:
COUGHVID 用于研究大规模咳嗽分析算法的语料库,咳嗽音频信号分类已成功用于诊断各种呼吸系统疾病,并且人们对利用机器学习 (ML) 提供广泛的 COVID-19 筛查产生了浓厚的兴趣。COUGHVID 数据集提供了超过 30,000 个众包咳嗽记录,代表了广泛的受试者年龄、性别、地理位置和 COVID-19 状态。此外,经验丰富的肺科医生标记了 2,000 多条记录以诊断咳嗽中存在的医学异常,从而贡献了现有最大的专家标记咳嗽数据集之一,可用于大量咳嗽音频分类任务。因此,COUGHVID 数据集为训练 ML 模型以解决世界上最紧迫的健康危机提供了大量的咳嗽记录。
ESC-50:环境声音分类数据集
下载地址:https://github.com/karolpiczak/ESC-50(~600MB)
国内镜像:https://www.heywhale.com/mw/dataset/5ea9337c366f4d002d731d83
音频参数:44.1kHz;单通道,16位深
ESC-50数据集是从Freesound.org中剪辑得到的2000份环境音频的标记集合,适用于环境声音分类。该数据集由5秒长的录音组成,组织成5大类,每个大类有10小类(每个小·类有40个示例),
- 动物:狗、公鸡、猪、奶牛、青蛙、猫、母鸡、昆虫(飞行)、羊、乌鸦
- 自然声音和水声:雨、海浪、噼啪作响的火、蟋蟀、鸟鸣、水滴、风、倒水、冲水马桶、雷雨
- 人类的非语音声音:婴儿啼哭、打喷嚏、鼓掌、呼吸、咳嗽、脚步声、笑、刷牙、打鼾、喝酒,啜饮
- 室内/家庭声音:敲门声、鼠标点击、键盘打字、门,木头吱吱作响、开罐头、洗衣机、吸尘器、时钟闹钟、时钟滴答声、玻璃破碎
- 外部/城市噪声:直升机、电锯、警笛、汽车喇叭、引擎、火车、教堂的钟声、飞机、烟花、手锯
![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
# -*- coding:utf-8 -*- # Author:凌逆战 | Never.Ling # Date: 2022/8/8 """ 对ESC-50数据集,根据噪声类别分类 """ import os import librosa import pandas as pd import soundfile csv_path = "./esc50.csv" dataset_path = "G:/dataset/noise_dataset/ESC-50" class_basepath = "G:/dataset/noise_dataset/ESC-50/class" sr = 16000 trainData = pd.read_csv(csv_path) for filename, category in zip(trainData["filename"], trainData["category"]): noise_path = os.path.join(dataset_path, "audio", filename) class_path = os.path.join(class_basepath, category) if not os.path.exists(class_path): os.makedirs(class_path) new_path = os.path.join(class_path, "ESC50_" + filename) print("new_path", new_path) y = librosa.load(noise_path, sr, mono=True)[0] soundfile.write(new_path, data=y, samplerate=sr)
分类脚本
ESC环境噪音分类数据集
下载地址:传送门(26.8GB)
音频参数:44.1kHz,单通道,5 秒长剪辑
ESC 数据集是一组以统一格式提供的短期环境记录。所有剪辑都从通过项目项目获得的公共Freesound.org中提取。
数据集由三部分组成:
- ESC-50:一组有 2000 个环境记录(50 个类,每类 40 个剪辑),
- ESC-10:一组有 400 个环境记录(每类 10 个类,40 个剪辑)(这是 ESC-50 的子集 - 创建初始化,作为概念验证/简单录制的标准化选择),
- ESC-US:一个未标记的数据集,包含 25 万个环境记录(5 秒长的剪辑),适合无监督的预培训。
DESED dataset
主页:Domestic Environment Sound Event Detection Dataset
下载地址:DESED_synthetic、DESED_public_eval
音频参数:
DESED 数据集是一个旨在识别家庭环境中的声音事件类别的数据集。 该数据集旨在用于声音事件检测(SED,识别具有时间边界的事件),但它也可用于音频标记(AT,指示音频文件中存在事件)。
该数据集由 10 个事件类组成,可在 10 秒的音频文件中进行识别。
闹钟/铃声/铃声,搅拌机,猫,狗,餐具,电动剃须刀/牙刷,油炸,自来水,演讲,吸尘器
婴儿啼哭数据集
https://github.com/giulbia/baby_cry_detection(310M)
https://github.com/gveres/donateacry-corpus(48.2M)
科大讯飞婴儿啼哭声识别挑战赛(810M)
- 链接:https://pan.baidu.com/s/1qP-9sd0v31zKnpD5w2kvwQ
- 提取码:wh47
风噪数据集
IKS 风噪数据集:人工产生气流的室内设置和具有真实风噪声的室外场景。
Wind Noise Dataset:包括人工产生和手机记录的样本。
YouTube--ASMR noise
风机噪声合集 (同一wav数据相似度很高)
割草机噪声:soundjay
酒吧babble:https://www.youtube.com/watch?v=ZSrVznkaMEM
FSD50K
下载地址:传送门
音频格式:
FSD50K 是一个人类标记声音事件的开放数据集,包含 51,197 个 Freesound 剪辑,总计 108.3 小时的多标签音频,这些剪辑不均等地分布在来自 AudioSet Ontology的 200 个类中。该数据集包含 200 个声音类(144 个叶节点和 56 个中间节点),由AudioSet Ontology的子集分层组织。音频内容主要由物理声源和产生机制产生的声音事件组成,包括人声、物声、动物声、自然声、乐器声等。可以在中检查词汇表 vocabulary.csv (请参阅下面的文件部分)。
MS-SNSD
下载地址:传送门
音频格式:16kHz,单声道,16位深
冷气机、机场公告、Babble、复印机、咀嚼、邻居、关门、打字、吸尘器
QUT-NOISE
下载地址:传送门(7.70Gb)
音频格式:采样率48kHz;双声道;16位深
噪声类型:街道、咖啡厅、汽车、家庭、混响、
freesound-datasets
下载地址:传送门
STARSS22:Sony-TAu Realistic Spatial Soundscapes 2022
下载地址:传送门
VOICe Dataset
下载地址:传送门(3.23GB)
音频格式:44.1kHz;单声道;32位(浮点)位深
用于开发和评估通用声音事件检测域适应方法的新数据集!
婴儿哭声
玻璃破碎
枪声
VOICe 由三种不同声音事件的 1449 种不同混合组成:
-
1242 个混合了三种不同类别的声学场景(“车辆”、“户外”和“室内”)的背景噪声,在 2 个 SNR 值(-3,-9 dB)下混合,即 207 个混合 x 3 个声学场景 x 2 个信噪比 = 1242
-
207 种没有任何背景噪音的混合物。
In-Vehicle Noise Dataset
下载地址:传送门(~2.47GB)
音频参数:44.1 kHz,16 位,2通道
这个开源数据集包含来自多个来源的 5.08 小时车内噪声,其中包含 7 条噪声。噪声源可能包括
轮胎噪声
发动机噪声
收音机
人声
Vehicle Interior Sound Dataset
下载地址:传送门VISC Dataset SON(1.2GB)
音频参数:44.1kHz;双声道;16位深
使用的数据集是从 YouTube 的不同车辆类型的驾驶视点 (PoV) 收集的。这些只是车内声音。没有司机,也没有人声。5980个声音被记录了8个类。这些车辆在露天的柏油路上行驶。我们不喜欢在雨天在未铺砌的道路上收集车内声音。
这些数据的文件格式是 wav。使用声音的长度在 3-5 秒的范围内,频率为 48 kHz。选择的车辆类型是公共汽车、小巴、皮卡、跑车、吉普车、卡车、跨界车和轿车(汽车)。收集的车辆内部声音 (VIS) 数据集的属性总结在表中。
Bus(公交车):850个样本
Minibus(面包车):850个样本
Pickup(小卡车):850个样本
Sports Car(跑车):850个样本
Jeep(吉普车):850个样本
Truck(卡车):850个样本
Crossover(转线路):850个样本
Car (C级 – 4K):850个样本
total:5980
MAVD交通数据集
下载地址:传送门(~1.3G)
音频参数:44.1kHz,单声道,32位浮点
MAVD:城市环境中声音事件检测的数据集,该版本主要关注马路边收集交通噪声,因此得名MAVD-traffic,除了音频记录,它还包括同步视频文件。声音事件注释遵循一个交通声音本体,该本体是一组两种分类的组合:车辆类型(如汽车、公共汽车)和车辆组件(如发动机、刹车),以及一组与之相关的动作(如空转、加速)。
Dataset-AOB:城市声音事件分类
下载地址:https://zenodo.org/record/4319802#.YY4s8PlBxjU(~2G)
音频参数:采样率:22KHz - 44KHz,< 4 秒
数据集 Dataset-AOB 是使用卷积神经网络为硕士论文收集和手动编辑的城市声音事件分类的音频数据集:
警报器
儿童玩耍
狗吠
引擎
脚步声
玻璃破碎
枪声
地铁列车
下雨和尖叫声
CHiME-Home
任务描述:DCASE 2016 Domestic audio tagging
下载地址:传送门(3.9GB)
音频格式:音频数据以两个采样率(48kHz 和 16kHz)的 4 秒块提供,其中 48kHz 数据为立体声,16kHz 数据为单声道。16kHz 录音是通过对 48kHz 录音的右手通道进行下采样获得的。
声学环境中的主要声源是两个成人和两个儿童、电视和电子产品、厨房用具、人类活动产生的脚步声和敲击声,以及来自屋外的声音[Christensen2010]。音频数据以两个采样率(48kHz 和 16kHz)的 4 秒块提供,其中 48kHz 数据为立体声,16kHz 数据为单声道。16kHz 录音是通过对 48kHz 录音的右手通道进行下采样获得的。每个音频文件对应一个块。
所有可用的音频数据都可用于系统开发,但将使用以 16kHz 采样的单声道音频数据进行评估,目的是接近商用硬件的典型录音能力。
UrbanSound
下载地址:传送门(17.9 GB)
音频格式:44.1kHz;双声道;16位深
该数据集包含 1302 条带标签的录音。每个录音都标有 10 个类别的声音事件的开始和结束时间。每个录音可能包含多个声音事件,但对于每个文件,仅标记来自单个类的事件。这些类来自城市声音分类。
空调设备 air_conditioner
汽车喇叭 car_horn
小孩玩耍 children_playing
狗吠 dog_bark
钻孔 drilling
发动机 enginge_idling
枪射击 gun_shot
手提 jackhammer
汽笛,警报器 siren
街头音乐 street_music
UrbanSound8K
下载地址:传送门(6.60GB)
音频格式:44.1kHz;双声道;16位深
该数据集包含来自 10 个类别的城市声音的 8732 个标记声音摘录 (<=4s)。这些类来自城市声音分类。
空调设备 air_conditioner
汽车喇叭 car_horn
小孩玩耍 children_playing
狗吠 dog_bark
钻孔 drilling
发动机 enginge_idling
枪射击 gun_shot
手提 jackhammer
汽笛,警报器 siren
街头音乐 street_music
SONYC Urban Sound Tagging
下载地址:传送门 (13.3 GB)
音频格式:
SONYC Urban Sound Tagging (SONYC-UST) 是一个数据集,用于开发和评估用于现实城市噪声监测的机器监听系统。城市声音多标签数据集,标签分类如下:
引擎 1:小型引擎 2:中型引擎 3:大型引擎 X:引擎大小不确定 机械冲击 1:凿岩机 2:手提钻 3:锄头 4:打桩机 X:其他未知冲击机械 非机械影响 1:非机械影响 电动锯 1:电锯 2:中小型旋转锯 3:大型旋转锯 X:其他未知电动锯 警报信号 1:汽车喇叭 2:汽车警报 3:警报器 4:反向蜂鸣器 X:其他未知警报信号 音乐 1:固定音乐 2:移动音乐 3:冰淇淋车 X:来自不确定来源的音乐 人声 1:人或小组谈话 2:人或小组喊叫 3:大人群 4:放大语音 X:其他未知人声 狗 1:狗吠叫
Isolated urban sound database
下载地址:传送门(2.3G)
音频格式:44.1kHz;background: 双声道;event: 单声道;16位深
数据集包含两个文件夹:
- 事件:包括 231 个被视为突出的简短声音样本,持续时间为 1 到 20 秒,分为 21 个声音类别(铃声(bell)、鸟鸣(bird)、扫帚(broom)、汽车喇叭(carHorn)、过往汽车(cityCar、roadCar)、建筑工地(constructionSite)、咳嗽(coughing)、吠狗(dog)、警笛(siren)、脚步声(citystep, stepCity, stepPark)、停车发动机空挡噪声(stopCar)、金属噪音(doorbell)、飞机(plane)、关汽车的门(doorCar)、关家里的门(doorHouse)、暴风雨(storm)、街道噪声(streetNoise)、手提箱(suitcase)、火车(train)、电轨(tram)、卡车(truck)、人声(voice)……)
- 背景:鸟鸣(bird)、建筑工地(construction Site)、人群噪音(crowd)、下雨(rain)、在公园、校园\里玩耍的孩子(park\schoolyard)、持续的交通噪音(traffic)、通风机(ventilation)、风吹树(wind_tree)
Acoustic Event Dataset
下载地址:传送门(1.2GB)
acoustic guitar:原声吉他
airplane:飞机
applause:掌声
bird:鸟
car:车
cat:猫
child:小孩
church bell:教堂钟声
crowd:人群
dog_barking:狗吠
engine:发送机
fireworks:烟火
footstep:脚步
glass_breaking:玻璃破碎
hammer:敲击
helicopter:直升机
knock:敲,击;碰撞
laughter:笑
mouse click:鼠标点击
ocean surf:海浪
rustle:沙沙声
scream:尖叫
speech:演说,发言,谈话
squeak:吱吱叫,嘎吱作响
tone:声调,音调
violin:小提琴
water tap:水龙头
whistle:口哨声
BBC音效
下载地址:https://sound-effects.bbcrewind.co.uk/
可能需要爬虫才能把数据下载下来
飞机、动物、掌声、气氛、钟声、鸟类、时钟、喜剧、人群、日常生活、破坏、电子产品、活动、火、脚步声、工业、机器、医疗、军事、自然、运动、玩具、交通、
NAR 数据集
下载地址:传送门(35MB)
在 多个真实的家庭环境中录制
厨房:吃东西、窒息、餐具、装满杯子、打开水龙头、打开/关闭抽屉、移动椅子、打开微波炉、关闭微波炉、微波炉、冰箱、烤面包机
办公室:关门、开门、钥匙、敲门、撕纸、拉链、(另一个)拉链
非语言:拍手、拍手、拍舌
语音:1,2,3,4,5,6,7,8,9,10, Hello, Left, Right, Turn, Move, Stop, Nao, Yes, No, What
asr-noises
下载地址:传送门(4.7GB)
这个数据集下载不来了,不知道咋回事
DCASE
dataset、mobile dataset、openset 的区别:
使用四个同时捕获音频的设备进行录音。
主要录音设备包括Soundman OKM II Klassik/studio A3、驻极体双耳麦克风和使用 48kHz 采样率和 24 位分辨率的Zoom F8录音机。麦克风经过专门设计,看起来像耳机,戴在耳朵里。因此,录制的音频与到达佩戴设备的人的人类听觉系统的声音非常相似。该设备进一步称为设备 A。
其他设备是常见的客户设备:设备 B 是三星 Galaxy S7,设备 C 是 iPhone SE,设备 D 是 GoPro Hero5 Session。所有同时录制的内容都是时间同步的。
TAU Urban Acoustic Scenes 2019 开发数据集:仅包含使用设备 A 录制的材料,包含 40 小时的音频,在课程之间保持平衡。数据来自12个城市中的10个。TAU Urban Acoustic Scenes 2019 评估数据集包含来自所有 12 个城市的数据。
TAU Urban Acoustic Scenes 2019 移动开发数据集:包含使用设备 A、B 和 C 录制的材料。它由使用设备 A 录制的 TAU Urban Acoustic Scenes 2019 数据和使用设备 B 和 C 录制的一些并行音频组成。来自设备的数据A 被重新采样并平均到单个通道中,以与设备 B 和 C 记录的数据的属性保持一致。数据集总共包含 46 小时的音频(40h + 3h + 3h)。TAU Urban Acoustic Scenes 2019 移动评估数据集还包含来自设备 D 的数据。
TAU Urban Acoustic Scenes 2019 开放集开发数据集:仅包含使用设备 A 记录的材料,由 TAU Urban Acoustic Scenes 2019 和开放分类问题的其他音频示例组成。“开放”数据由TUT Acoustic Scenes 2017 数据集的“海滩”和“办公室”类以及 2019 年记录的其他材料组成。数据集总共包含 46 小时的音频(40 小时 + 6 小时)。TAU Urban Acoustic Scenes 2019 开放集评估数据集包含来自 10 个已知类别和其他未知类别的数据。
TUT Sound events 2016
下载地址:
- Development dataset(1.0GB)
- Evaluation dataset(471.2MB)
音频参数:44.1kHz,双声道,24位深
包含来自两个声学场景的 22 段录音:
家庭(室内),10 个录音,共 36:16
住宅区(室外),12个录音,共42:00
TUT Acoustic scenes 2016
下载地址:
- Development dataset (8.0 GB)
- Evaluation dataset (2.7 GB)
音频参数:44.1kHz,双声道,24位深
由来自 15 个声学场景的 30 秒音频片段组成,每个声学场景有 78 个片段,总共 39 分钟的音频。
Bus 公共汽车-在城市乘坐公共汽车(车辆) Cafe / Restaurant 咖啡厅/餐厅 - 小咖啡厅/餐厅(室内) Car 汽车 - 在城市中驾驶或作为乘客旅行(车辆) City center 市中心(室外) Forest path 林间小径(室外) Grocery store 杂货店 - 中型杂货店(室内) Home 家(室内) Lakeside beach 湖滨海滩(室外) Library 图书馆(室内) Metro station 地铁站(室内) Office 办公室 - 多人,典型工作日(室内) Residential area 住宅区(室外) Train 火车里面(旅行,车辆) Tram 有轨电车(旅行,车辆) Urban park 城市公园(室外)
smart cars 2017 test4
任务描述:DCASE 2017 Large-scale weakly supervised sound event detection for smart cars
Development: Training (Psswd Training file: DCASE_2017_training_set)
Development: Testing (Psswd Testing file: DCASE_2017_testing_set)
Evaluation dataset (863 MB) password "DCASE_2017_evaluation_set"
音频参数:44.1kHz,单声道,16位深
鸣笛: - 火车喇叭 (441) - 气喇叭、卡车喇叭 (407) - 汽车防盗器 (273) - 倒车提示音 (337) - 救护车(警笛) (624) - 警车(警笛) (2,399) - 消防车、消防车(警笛) (2,399) - 民防警报器 (1,506) - 尖叫 (744) 车辆声音: - 自行车 (2,020) - 滑板 (1,617) - 汽车 (25,744) - 路过的汽车 (3,724) - 公共汽车 (3,745) - 卡车 (7,090) - 摩托车 (3,291) - 火车 (2,301)
TUT Rare sound events 2017
下载地址:开发数据集 (17.5 GB) | 评估数据集 (7.4 GB)
音频参数:44.1kHz,单声道,16位深
包含用于创建稀有声音事件(婴儿哭声、枪声、玻璃破碎等)与背景音频的混合的源文件,以及一组易于生成的mixtures 和用于生成它们的配方。
数据集的“source”部分由两个子集组成:
-
来自 15 个不同声学场景的背景录音
- Bus 公共汽车-在城市乘坐公共汽车(车辆vehicle) - Cafe / Restaurant 咖啡厅/餐厅 - 小咖啡厅/餐厅(室内indoor) - Car 汽车 - 在城市中驾驶或作为乘客旅行(车辆vehicle) - City center 市中心(室外outdoor) - Forest path 林间小径(室外outdoor) - Grocery store 杂货店 - 中型杂货店(室内indoor) - Home 家(室内) - Lakeside beach 湖滨海滩(室外outdoor) - Library 图书馆(室内indoor) - Metro station 地铁站(室内indoor) - Office 办公室 - 多人,典型工作日(室内indoor) - Residential area住宅区(室外outdoor) - Train 火车(旅行,车辆) - Tram 有轨电车(旅行,车辆) - Urban park 城市公园(室外outdoor)
-
来自三类目标罕见声音事件的录音,并附有它们的时间发生的注释,
-
一组提供交叉验证设置的元文件:背景和目标事件记录列表分为训练和测试子集(分别称为“devtrain”和“devtest”,表示它们作为开发数据集提供,而不是评估数据集单独发布)。
mixture set 由两个子集(训练和测试)组成,每个子集包含约 1500 个混合(每个子集中每个目标类约 500 个,其中一半的混合不包含任何目标类事件)。
TUT Acoustic Scenes 2017
下载地址:
音频参数:44.1kHz,双声道,24位深
TUT Acoustic Scenes 2017,开发数据集由来自 15 个声学场景的 10 秒音频片段组成:
- Bus 公共汽车-在城市乘坐公共汽车(车辆vehicle) - Cafe / Restaurant 咖啡厅/餐厅 - 小咖啡厅/餐厅(室内indoor) - Car 汽车 - 在城市中驾驶或作为乘客旅行(车辆vehicle) - City center 市中心(室外outdoor) - Forest path 林间小径(室外outdoor) - Grocery store 杂货店 - 中型杂货店(室内indoor) - Home 家(室内) - Lakeside beach 湖滨海滩(室外outdoor) - Library 图书馆(室内indoor) - Metro station 地铁站(室内indoor) - Office 办公室 - 多人,典型工作日(室内indoor) - Residential area住宅区(室外outdoor) - Train 火车(旅行,车辆) - Tram 有轨电车(旅行,车辆) - Urban park 城市公园(室外outdoor)
TUT Sound events 2017
下载地址:
- Development dataset (1.3 GB)
- Evaluation dataset (388.2 MB)
音频参数:44.1kHz,双声道,24位深
这些录音是在不同的街道上拍摄的。对于每个录制位置,都会捕获 3-5 分钟长的录音。用于录音的设备包括双耳Soundman OKM II Klassik/studio A3驻极体入耳式麦克风和使用 44.1 kHz 采样率和 24 位分辨率的Roland Edirol R-09波形记录器。
街道包含了(刹车吱吱作响、车、孩子们、大型车辆、说话的人、行走的人)
没有纯净噪声,只有噪声起止点。
TUT Urban Acoustic Scenes 2018
挑战赛地址:DCASE 声学场景分类
下载地址:
- Development dataset (21.4 GB)
- Evaluation dataset (8.9 GB)
- Leaderboard dataset (3.0 GB)
音频参数:48kHz,双声道,24位深
仅为开发数据集提供参考标签。评估数据集或排行榜数据集的参考标签将不会发布。数据集由来自 10 个声学场景的 10 秒音频片段组成:
机场 - airport 室内购物中心-shopping_mall 地铁站 - metro_station 步行街 - street_pedestrian 公共广场 - public_square 街道交通 - street_traffic 乘坐有轨电车 - tram 公交车上- bus 乘地铁旅行 - metro 城市公园- park
TAU Urban Acoustic Scenes 2019
挑战赛地址:DCASE 声学场景分类
下载地址:
- Development dataset (35.6 GB)
- Evaluation dataset (17.9 GB)
- Leaderboard dataset (3.0 GB)
音频参数:48kHz,双声道,24位深
仅为开发数据集提供参考标签。评估数据集或排行榜数据集的参考标签将不会发布。包含来自 10 个声学场景的 10 秒音频片段,每个声学场景有 1440 个片段(240 分钟的音频)。该数据集总共包含 40 小时的音频。
- 机场 -airport - 室内购物中心 - shopping_mall - 地铁站 - metro_station - 步行街 - street_pedestrian - 公共广场 - public_square - 街道交通 - street_traffic - 乘坐有轨电车 - tram - 公交车上- bus - 乘地铁旅行 - metro - 城市公园- park
DCASE 2019 Task4
挑战赛地址:家庭环境中的声音事件检测
下载地址:
- Development dataset 真实录音(23.4 GB)
- Development dataset 合成剪辑(1.8 GB)
- public evaluation dataset--DESED_public_eval (888 MB)
- synthetic soundscapes evaluation dataset--DESED_synthetic (2.5G)
音频参数:
该任务的数据集由在家庭环境中录制或合成以模拟家庭环境的 10 秒音频片段组成。该任务侧重于代表Audioset子集的 10 类声音事件(并非所有类都存在于 Audioset 中,一些声音事件类包括来自 Audioset 的几个类):
演讲 Speech 狗 Dog 猫 Cat 闹铃/响铃/响铃 Alarm_bell_ringing 菜肴 Dishes 油炸 Frying 搅拌机 Blender 自来水 Running_water 吸尘器 Vacuum_cleaner 电动剃须刀/牙刷 Electric_shaver_toothbrush
TAU Urban Acoustic Scenes 2020 Mobile
下载地址:
- Development dataset (27.4 GB)
- Evaluation dataset (13.1 GB)
音频参数:48kHz,双声道,24位深
仅为开发数据集提供参考标签。评估数据集的参考标签将不会发布。TUT城市声学场景2020移动开发数据集由10个声学场景中的10秒音频片段组成
机场 - airport 室内购物中心-shopping_mall 地铁站 - metro_station 步行街 - street_pedestrian 公共广场 - public_square 街道交通 - street_traffic 乘坐有轨电车 - tram 公交车上 - bus 乘地铁旅行 - metro 城市公园- park
TAU Urban Acoustic Scenes 2020 3Class
下载地址:
- Development dataset (35.5 GB)
- Evaluation dataset (20.9 GB)
音频参数:48kHz,双声道,24位深
TAU Urban Acoustic Scenes 2020 3Class 数据集由来自 10 个声学场景的 10 秒音频片段组成,分为以下三大类 :
- 室内场景——*室内*: 机场(airport):airport 室内商场(shopping_mall):indoor shopping mall 地铁站(metro_station):metro station - 户外场景-*户外*: 步行街(street_pedestrian):pedestrian street 公共广场(public_square):public square 中等交通街道(street_traffic,):street with medium level of traffic 城市公园(park):urban park - 交通相关场景-*交通*: 乘坐公共汽车(bus):travelling by a bus 乘坐电车(tram):travelling by a tram 乘坐地铁(metro):travelling by an underground metro
TAU Urban Audio-Visual Scenes 2021
挑战赛地址:DCASE 2022 Task1
下载地址:
- Development dataset (107.7 GB)
- Evaluation dataset (61.2 GB)
音频参数:1秒;44.1kHz;24位深,
机场 - airport 室内购物中心-shopping_mall 地铁站 - metro_station 步行街 - street_pedestrian 公共广场 - public_square 街道交通 - street_traffic 乘坐有轨电车 -tram 公交上 -bus 乘地铁旅行 -metro 城市公园-park
TAU Urban Acoustic Scenes 2021 Mobile
挑战赛地址:DCASE城市声学场景分类
下载地址:Evaluation dataset (8.8 GB)
音频参数:44.1kHz;单声道;24位深
机场 - airport 室内购物中心-shopping_mall 地铁站 - metro_station 步行街 - street_pedestrian 公共广场 - public_square 街道交通 - street_traffic 乘坐有轨电车 -tram 公交车上 -bus 乘地铁旅行 -metro 城市公园-park
TAU Urban Acoustic Scenes 2022 Mobile
下载地址:
- Development dataset (27.5 GB)
- Evaluation dataset (13.2 GB)
音频参数:44.1kHz;单声道;24位深
使用四个同时捕获音频的设备进行录音。主要录音设备包括 Soundman OKM II Klassik/studio A3、驻极体双耳麦克风和使用 48kHz 采样率和 24 位分辨率的 Zoom F8 录音机,称为设备 A。其他设备是常用的客户设备:设备B 是三星 Galaxy S7,设备 C 是 iPhone SE,设备 D 是 GoPro Hero5 Session。
使用设备 A 录制的音频、真实设备录制的脉冲响应和额外的动态范围压缩来模拟 11 台移动设备 S1-S11,以模拟真实的录音。来自设备 A 的录音通过与选定脉冲响应的卷积进行处理,然后使用一组选定的参数进行处理以进行动态范围压缩(特定于设备)。脉冲响应是专有数据,不会公布。
数据集包含来自 10 个城市和 9 个设备的数据:3 个真实设备(A、B、C)和 6 个模拟设备(S1-S6)。来自设备 B、C 和 S1-S6 的数据由从同时记录中随机选择的片段组成,因此它们都与来自设备 A 的数据重叠,但不一定彼此重叠。开发集中的音频总量为 64 小时。
机场 - airport 室内购物中心 - shopping_mall 地铁站 - metro_station 步行街 - street_pedestrian 公共广场 - public_square 街道交通 - street_traffic 乘坐有轨电车 - tram 公交车上- bus 地铁 - metro 城市公园- park
综合数据集
综合数据集是 既有语音又有噪声的数据集
MUSAN
地址:传送门(11G)
音乐、语音和噪音的语料库
FSDnoisy18k
下载地址:传送门 (9.5 GB)
FSDnoisy18k 是一个音频数据集,旨在促进对声音事件分类中标签噪声的调查。它包含 20 个声音类别的 42.5 小时音频,包括少量手动标记的数据和大量真实世界的嘈杂数据。
DS_10283_2791
干净和嘈杂的并行语音数据库。该数据库旨在训练和测试以 48kHz 运行的语音增强方法。更详细的描述可以在与数据库相关的论文中找到。对于 28 个说话人数据集,详细信息可参见:C. Valentini-Botinhao、X. Wang、S. Takaki 和 J. Yamagishi,“使用深度循环神经网络的噪声鲁棒文本到语音合成系统的语音增强” “,在过程中。Interspeech 2016。对于 56 位说话者数据集:C. Valentini-Botinhao、X. Wang、S. Takaki 和 J. Yamagishi,“研究基于 RNN 的语音增强方法以实现抗噪文本到语音”,In Proc. SSW 2016. 用于创建嘈杂语音的一些噪音来自需求数据库,可在此处获得:http://parole.loria.fr/DEMAND/。语音数据库来自 CSTR VCTK 语料库,可在此处获取:https://doi.org/10.7488/ds/1994。用于创建此数据集的语音和 babble 噪声文件可在此处获得:http://homepages.inf.ed.ac.uk/cvbotinh/se/noises/。
CSTR NAM TIMIT Plus
下载地址:传送门(1.342G)
综合数据集就是啥也有
DNS-Challenge:https://github.com/microsoft/DNS-Challenge/tree/master/datasets
Noisy speech database for training speech enhancement algorithms and TTS models
OpenSLR:https://openslr.org/
- 12:LibriSpeech ASR 语料库
- 17:A corpus of music, speech, and noise
- 18:THCHS-30清华大学发布的免费中文语音语料库
- 28:OpenSLR 房间脉冲响应和噪声数据库
- 38:冲浪科技的免费中文普通话语料库,包含855个说话者的话语,102600个话语;
- 60:LibriTTS语料库,自LibriSpeech语料库原始资料的大规模英语语音语料库
- 62:aidatatang_200zh,北京数据堂科技有限公司的中文普通话语音语料库,包含来自600位说话者的200小时语音数据。每个句子的转录准确率大于 98%
- 68:MAGICDATA 汉语普通话朗读语料库,魔数据科技有限公司的语料库,包含 755 小时的脚本阅读语音数据,来自中国大陆的 1080 位母语为普通话的人。句子转录准确率高于98%。
参考
【知乎】语音数据集整理
【github】open-speech-corpora