speaker recognition from raw waveform with SincNet Mirco Ravanelli, Yoshua Bengio 作为一种可行的替代i-vector的说话人识别方法,深度学习正日益受到欢迎.利用卷积神经网络(CNNs)直接对原始语音样本进行处理,取得了良好的效果.而不是使用标准的手工制作的功能,后一种CNNs从波形中学习低电平的语音表示,潜在地允许网络更好地捕获重要的窄带扬声器特性,如音高和共振峰.合理设计神经网络是实现这一目标的关键. 本文提出…