内容字号:默认大号超大号

段落设置:段首缩进取消段首缩进

字体设置:切换到微软雅黑切换到宋体

Python音频数据扩充的技巧

2018-04-16 16:33 出处:清屏网 人气: 评论(0

经典的深度学习网络AlexNet使用 数据扩充(Data Augmentation) 的方式扩大数据集,取得较好的分类效果。在深度学习的图像领域中,通过平移、 翻转、加噪等方法进行数据扩充。但是,在 音频(Audio) 领域中,如何进行数据扩充呢?

Audio

音频的数据扩充主要有以下四种方式:

  • 音频剪裁(Clip)
  • 音频旋转(Roll)
  • 音频调音(Tune)
  • 音频加噪(Noise)

音频处理基于librosa音频库;矩阵操作基于scipy和numpy科学计算库。

以下是Python的实现方式:

音频剪裁

import librosa
from scipy.io import wavfile

y, sr = librosa.load("../data/love_illusion.mp3")  # 读取音频
print y.shape, sr
wavfile.write("../data/love_illusion_20s.mp3", sr, y[20 * sr:40 * sr])  # 写入音频

音频旋转

import librosa
import numpy as np
from scipy.io import wavfile

y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")  # 读取音频
y = np.roll(y, sr*10)
print y.shape, sr
wavfile.write("../data/raw/xxx_roll.mp3", sr, y)  # 写入音频

音频调音

import cv2
import librosa
from scipy.io import wavfile

y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")  # 读取音频
ly = len(y)
y_tune = cv2.resize(y, (1, int(len(y) * 1.2))).squeeze()
lc = len(y_tune) - ly
y_tune = y_tune[int(lc / 2):int(lc / 2) + ly]
print y.shape, sr
wavfile.write("../data/raw/xxx_tune.mp3", sr, y)  # 写入音频

音频加噪,注意:在添加随机噪声时,保留0值,否则刺耳难忍!

import librosa
from scipy.io import wavfile
import numpy as np

y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")  # 读取音频
wn = np.random.randn(len(y))
y = np.where(y != 0.0, y + 0.02 * wn, 0.0)  # 噪声不要添加到0上!
print y.shape, sr
wavfile.write("../data/raw/love_illusion_20s_w.mp3", sr, y)  # 写入音频

OK, that's all! Enjoy it!

分享给小伙伴们:
本文标签: Python

相关文章

发表评论愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。

CopyRight © 2015-2016 QingPingShan.com , All Rights Reserved.

清屏网 版权所有 豫ICP备15026204号