短时距傅立叶变换

短时距傅立叶变换(Short-time Fourier Transform, STFT)是傅立叶变换的一种变形,也称作加窗傅里叶变换(Windowed Fourier transform)或Time-dependent Fourier transform,用于决定随时间变化的信号局部部分的正弦频率和相位。实际上,计算短时距傅立叶变换的过程是将长时间信号分成数个较短的等长信号,然后再分别计算每个较短段的傅立叶转换。通常拿来描绘频域与时域上的变化,为时频分析中其中一个重要的工具。

傅立叶转换在概念上的区别

将讯号做傅立叶变换后得到的结果,并不能给予关于信号频率随时间改变的任何资讯。以下的例子作为说明:

 

傅立叶变换后的频谱和短时距傅立叶转换后的结果如下:

 
傅立叶转换后, 横轴为频率(赫兹)
 
短时距傅立叶转换, 横轴为时间(秒),纵轴为频率(赫兹)

由上图可发现,傅立叶转换只提供了有哪些频率成份的资讯,却没有提供时间资讯;而短时傅立叶转换则清楚的提供这两种资讯。这种时频分析的方法有利于频率会随著时间改变的信号,如音乐信号和语音信号等分析。

定义

连续短时傅立叶转换

简单来说,在连续时间的例子,一个函数可以先乘上仅在一段时间不为零的窗函数再进行一维的傅立叶变换。再将这个窗函数沿著时间轴挪移,所得到一系列的傅立叶变换结果排开则成为二维表象。数学上,这样的操作可写为:

 

另外也可用角频率来表示:

 

其中 窗函数,窗函数种类有很多种,会在稍后再做仔细讨论。 是待变换的讯号。  的傅立叶变换。 随著 的改变,窗函数在时间轴上会有位移。经 后,信号只留下了窗函数截取的部分做最后的傅立叶转换,所得到的结果为一复数函数,代表著信号随时间与频率变化的大小与相位。

离散短时傅立叶转换

在离散时间的例子,资料会被切割成数个大量的帧,而每组帧通常会互相重叠,避免因切割方式造成边界的误差。而每组帧在各自进行傅立叶转换后所得的复数结果会再进行相加,可得到每个点时间与频率变化的大小与相位。数学上,这样的操作可写为:

 

相同地,其中 窗函数 是待变换的讯号。在这个例子里,m是离散的且ω是连续的,但大部分实际的应用当中,短时距傅立叶转换在电脑中都是以快速傅立叶转换进行计算(见实现方法的快速傅立叶变换),而此时这两个参数都是离散且被量化的。

Sliding 离散傅立叶转换

当只想要得知特定少数的ω,或是短时距傅立叶转换每次窗函数移动m的值,则短时距傅立叶转换可以利用sliding DFT演算法更有效地计算出来。

反短时距傅立叶转换

短时距傅立叶转换是可逆的,也就是说原本的信号可以借由反短时距傅立叶转换将短时距傅立叶转换后的信号还原。

其中最广为接受的反短时距傅立叶转换方法是重叠-相加之折积法,此方法也促成了更多样的信号处理方法。

反短时距傅立叶转换,其数学类似傅立叶转换,但须消除窗函数的作用,首先必须先将窗函数的总面积规模化使得

 

而从上也可轻易地得出

 

 

连续傅立叶转换公式如下:

 

 进行上述的替换:

 
 

将积分顺序进行交换:

 
 
 

因此傅立叶转换可以视为某种将 所有的短时距傅立叶转换的相位同调部分进行相加。

而反傅立叶转换公式如下:

 

因此  可以从 被复原

 

 

与上面所列的窗函数的式子进行比较,可得

 

对反傅立叶转换公式中的 来说 是不变的

 
另外用角频率来表示:
 

窗函数

窗函数通常满足下列特性:

  1.  ,即为偶函数。
  2.  ,即窗函数的中央通常是最大值的位置。
  3.  ,即窗函数的值由中央开始向两侧单调递减。
  4.  ,即窗函数的值向两侧递减为零。

常见的窗函数有:方形、三角形、高斯函数等,而短时距傅立叶转换也因窗函数的不同而有不同的名称。而加伯转换,即为窗函数是高斯函数的短时距傅立叶转换,通常没有特别说明的短时距傅立叶转换,即为加伯转换

非对称窗函数

当在特殊应用时,窗函数特性的第一点可以不满足,如下图的非对称窗函数 ,其中 。左图为窗函数原本的图形,而在计算短时距傅立叶变换时,需将窗函数转到 轴上得出 ,换言之,欲得到的短时距傅立叶变换的结果需在 的时间点才能算出,因此若 愈小,即可愈快得结果,此种非对称窗函数可应用在地震波、碰撞侦测...等,需要即时处理的应用。 

优缺点

  • 优点:比起傅立叶转换更能观察出信号瞬时频率的资讯。
  • 缺点:计算复杂度高

方形窗函数的短时距傅立叶转换

概念

 
方形窗函数,B = 50,横轴为时间(秒)

右图即为方形窗函数的一个例子,其数学定义:  

可以随要分析的信号,来调整B的大小(即调整方形窗函数的宽度)。至于B的选择,将会在下面探讨。

短时傅立叶转换可以简化为

 

反短时傅立叶转换可简化为

 

特性

其大部分的特性都与傅立叶转换的特性相对应

  • 积分特性
 
  • 位移特性(时间轴方向的移动)
 
  • 调变特性(频率轴方向的移动)
 
  • 线性特性
若有一信号  分别为 做方形窗函数短时 距傅立叶转换的结果,则 
  • 能量积分特性
 
 
  • 特殊信号
1. 当 
 
2. 当 
 

方形窗函数宽度 的选取

 
方形窗函数短时距傅立叶转换用不同窗函数宽度(B)的比较,横轴为时间(秒),纵轴为频率(赫兹)
  • 由上述特性中的特殊信号 来分析,信号只有在 的时候有值;若短时距傅立叶转换是理想的话, 应该只有在 的时候有能量。但由上面的特性可发现,能量会出现在 中间。因此,若我们取较小的 ,则可使结果趋近理想。
  • 接著我们来分析 ,信号因为没有改变,应该为DC。若短时距傅立叶转换是理想的话, 应该只有在 的时候有能量。但由上面的特性可发现,能量会沿著频率轴呈现sinc函数。若我们取较大的 ,可使sinc函数沿著频率轴变窄,使得结果趋近理想。
  • 综合以上说明,若我们使用较大的方形窗函数宽度 ,则 时间轴的解析度会下降;频率轴的解析度上升。若使用较小的 ,则 时间轴的解析度会上升;频率轴的解析度下降。我们以下面做为例子说明:
 

结果如右图所示,B越大则在频率变化处(t = 10, 20)附近的频率越不准确,即可能会有多个频率成分出现。但同时,其他时间点的能量则较集中;没有如B较小时,频率散开或模糊的情形。

上述也是其中一个小波转换及多解析度分析作为改进的方向,其中多解析度分析能在高频时有较好的时间轴解析,而在低频时能有较好的频率轴解析,此种组合较契合许多实际的应用。

时间轴与频率轴的解析度无法同时提升也与海森堡不确定性原理有关,即时间与频率的标准差乘积有所限制,而高斯函数恰好能符合不确定性原理的极值,也就是两者同时达到最好的解析度,而应用高斯函数的时频分析方法即为加伯转换,而在经过修改及多解析度分析后,成为了莫莱小波

优缺点

  • 优点:方形窗函数的短时距傅立叶转换有许多可应用的数学特性,在数位的应用上所需的计算时间较少。
  • 缺点:时频分析的表现较差

其他窗函数

高斯窗函数

概念

高斯窗函数的短时距傅立叶转换又称为加伯转换。以下是高斯函数的数学定义,

 

据此,短时傅立叶转换可以写为

 

优缺点

  • 优点:可以在时间跟频率上有更好的平衡,得到较清楚的时频图。
  • 缺点:因窗函数跟信号本身的乘法,计算时间跟复杂度都比较高。
 
三角形函数,横轴为时间,B=1/2

概念

三角形窗函数如右图所示,数学定义如下,

 

 

可使用在震幅改变的情况下,相对于方形窗函数,可更好的滤除杂讯。

海宁(Hanning/ Hann)窗函数

 
海宁函数

概念

海宁函数如右图所示,数学定义如下,

 

相较于三角形窗函数,海宁窗函数更为贴近现实讯号的趋势,可进一步滤除杂讯。

汉明(Hamming)窗函数

 
汉明函数

概念

汉明窗函如右图所示,数学定义如下,

 

跟海宁窗函数类似,但两端不为零。

海宁与汉明窗的区别[1]

窗函数有四个指标,分别为

  • 泄露指数 (Leakage Factor)
  • 主办宽度 (Mainlobe width)
  • 旁办衰减 (Sidelobe attenuation)
  • 旁办滚降率 (Sidelobe roll-off rate)
     
    方形窗函数宽度(B)与STFT清晰率的取舍,横轴为时间(秒),纵轴为频率(赫兹)

因为汉明窗两端不能到零,而海宁窗两端为零。从以上频率响应来看,汉明窗可以有效减少靠近的旁办,但在较远的旁办泄漏比海宁窗严重。

如何决定窗函数

可根据以下条件来选取窗函数,

  • 复杂度,方形复杂度较低
  • 解析率,以方形为例,越宽的主办可以得到更清楚的时频图,却会把杂讯也一同显示,反之则得到不清晰的时频图

在决定复杂度跟解析率后,可利用不同的窗函数达到更好的滤杂讯效果。

瑞利频率

当Nyquist频率是能被有意义分析的频率最大值的限制,而瑞利频率则是能被有限频宽频的窗函数解析的频率最小值的限制。若给定一窗函数的长度是T秒,最低能被解析的频率即为1/T Hz。

瑞利频率在短时距傅立叶变化的应用中扮演重要的角色,像是在分析神经信号时。

频谱(Spectrogram)

Spectrogram即短时傅立叶转换后结果的绝对值平方,两者本质上是相同的,在文献上也常出现spectrogram这个名词。

 

应用[2][3]

 
应用短时距傅立叶变换分析声音讯号

短时距傅立叶变换及其他工具经常用于分析音乐。

如右图所示,

  1. 水平轴为频率,左侧为最低频率,右侧为最高频率
  2. 条形高度(混和颜色表示)表示该频带内的频率幅度
  3. 深度表示时间

音频工程师使用这种视觉来获取有关音频样本的信息。

此外,因频率会随时间而改变,短时距也可使用在以下情境,

  • 讯号取样 (signal sampling),
  • 调变 (modulation),
  • 生物讯号 (biomedical signals),等等

若与时间无关,如卷积,照片等则不能使用短时距傅立叶变换来进行分析。而影片属于3D讯号,其短时距傅立叶产物为6D讯号,故也不适用。

短时距傅立叶变换实现方法

从连续短时距傅立叶变化的定义出发

 

  ,则上述式子时域可从连续转为离散

 

若当 

上式可改写为

 

直接运算

限制条件

(1)要满足Nyquist criterion

 
 的频宽为 。而 的频宽则为  的频宽也为 
因为在时域相乘相当于在频域做折积,因此 的频宽为 (通常 会远大于 ,所以主要影响频宽的是 )

推导

 
转换到离散形式( ),其中 
 ,由于无限大的上下限实务上做不到,所以尝试变成有限大的上下限。
假设  for  
 
  • 对于缩放的加伯转换 

时间复杂度

 
假设t-axis有T个取样点,f-axis有F个取样点,则我们总共要对TF个点做 次的运算,因此可得复杂度为 

优缺点

优点:简单及有弹性(因为限制少)
缺点:复杂度较高



快速傅立叶变换

限制条件

(1)要满足Nyquist criterion

 

(2)  (N可为任意整数)

(3)   (做N点傅立叶转换,输入必要<=N)


推导

标准的离散傅立叶转换式子为

 

由直接运算得知如下公式

 

因此为了让上式符合离散傅立叶转换的上下界,令 代入上式即可得

 

其中  

运算步骤

假设 

 

步骤一:计算 

步骤二: 

步骤三:决定 

步骤四: 

步骤五:转换  

步骤六:设 ,并回到步骤三,直到 

  • 范例

 

借由取样定理可得知 

假设  ,则经由 可得 

  ,则经由 可得 

步骤一: 

步骤二: 

步骤三:计算 

步骤四:利用求得的 计算快速傅立叶转换  

步骤五:转换  

 
  • 注:若是于程式中执行,要注意m可能为负数,所以需要利用到周期性性质 
 
因此可将上式改为 ,其中 代表取m除以N的馀数

步骤六:设定 ,回到步骤三直到 

时间复杂度

利用FFT计算 ,其中每次FFT的时间复杂度为  

总时间复杂度为 

优缺点

优点:与直接运算相比,复杂度较低

缺点:较多限制,包括  


使用快速傅立叶变换加上递回关系式

限制条件

(1)要满足Nyquist criterion

 

(2) 

(3) 

(4)需为方形窗函数的短时距傅立叶转换


推导

因为是方形窗函数  ,因此原式可由此关系变成以下式子

 

而由此可看出n和n-1有递回关系,如下

 


(1)以FFT计算 

其中 


(2)利用递回关系式计算算 

 

时间复杂度

(1)FFT计算一次  

  • 时间复杂度: 

(2)利用递回关系,计算 时的数值,因此共会执行T-1次递回,如下式

 
每次递回都要计算  两个乘法(相当于2F的复杂度)
  • 时间复杂度: 


总时间复杂度  

优缺点

优点:四种运算中,最低的复杂度 

缺点:

  1. 只适用于方形窗函数的短时傅立叶转换
  2. 由于递回的关系,会有累加误差。所以只要当中有小错误,误差会累积到最后,造成无可预期的错误
  3. 不能用在不平衡的取样点

使用Chirp-Z 转换

限制条件

(1)要满足Nyquist criterion

 

推导

 

即可由直接运算的式子导出Chirp_Z变换的式子,如下所示

 

运算步骤

Step1:   

Step2: 

Step3: 

时间复杂度

当n为定值时

(1)假设  相乘时间复杂度为2Q+1

(2)令 ,则  convolution时间复杂度为  

(3) 相乘时间复杂度为 F

因此,总时间复杂度为 

虽然此实现方法和使用FFT计算的时间复杂度相同,但因为convolution相当于做三次FFT,因此实际操作时运算时间约为使用FFT计算的2~3倍

优缺点

优点:只有一项限制: 

缺点:与前四种相比,复杂度是中间的。


Unbalanced Sampling for STFT and WDF

将直接法和快速傅立叶转换方法做修正

1.直接法

 

修正后 : 

其中,   , 

假设  for  ,则上下限可借由以下推导而修正

  则上限可以写成 ,下限则以此类推

注: (输入讯号的取样间隔)

 (在t轴上的输出讯号的取样间隔)

然而, 是整数会是比较好的。

  • 假设一声音讯号:

  则经由上述公式可求得S=441,代表经由unbalanced sampling,我们跟原本 相比可减少441倍的取样点。

时间复杂度

由于t轴的取样点少了S倍,因此跟原本的直接运算复杂度相比,只要把 即可,如下:

复杂度: 


2.快速傅立叶转换

限制条件

(1)  

(2)   : ( 只要是整数的倒数即可)

(3)   的频宽是  

i.e.   ,当  

过程

 

 

  for  

 for  

修正后: 

运算步骤

假设 

 

 

步骤一:计算 

步骤二: 

步骤三:决定 

步骤四: 

步骤五:转换 

步骤六:设定 及返回步骤三,直到 

复杂度

 

Non-Uniform  

(1) 先用比较大的 

(2) 如果发现   之间有很大的差异,则在   之间选用比较小的取样区间 

(   皆为整数)

再用Unbalanced Sampling for STFT and WDF 中修正后的快速傅立叶转换方法算出    

(3) 以此类推,如果  的差距还是太大,则再选用更小的取样间隔 

(   皆为整数)

  • 比较

若有一音乐信号总共有1.6秒, 

  1. 选择 ,则共有 
  2. 选择 ,则共有 
  3. t随时间不同有不同的选择,如下
 ,共29点
可以这样做的原因为:有些音乐讯号在和弦与和弦中间几乎没有变化,因此可以挑选较大的 取样;和弦在变换时,频率会变化的较剧烈,因此变换和弦是需要用较多的取样点。借由此种non-uniform的取样,可以让我们大幅减少运算量,从最一开始的 可看出我们的运算量大幅降低。

参见

参考书目、资料来源

  1. Jian-Jiun Ding, Time frequency analysis and wavelet transform class notes, the Department of Electrical Engineering, National Taiwan University (NTU), Taipei, Taiwan, 2011.
  2. Alan V. Oppenheim, Ronald W. Schafer, John R. Buck : Discrete-Time Signal Processing, Prentice Hall, ISBN 0-13-754920-2
  3. Jian-Jiun Ding, Time frequency analysis and wavelet transform class notes, Graduate Institute of Communication Engineering, National Taiwan University (NTU), Taipei, Taiwan, 2017.
  4. Jian-Jiun Ding, Time frequency analysis and wavelet transform class notes, Graduate Institute of Communication Engineering, National Taiwan University (NTU), Taipei, Taiwan, 2020.
  5. Jian-Jiun Ding, Time frequency analysis and wavelet transform class notes, Graduate Institute of Communication Engineering, National Taiwan University (NTU), Taipei, Taiwan, 2022.
  1. ^ Kang, Li. 一文讀懂FFT,海寧窗(hann)和漢明窗(hamming)的區別,如何選擇窗函數. 2020-06-20 [2022-12-15]. (原始内容存档于2022-12-15). 
  2. ^ Short-time Fourier transform. [2022-12-15]. (原始内容存档于2023-08-09) (英语). 
  3. ^ Ding, Jian-Jiun. Time frequency analysis and wavelet transform class notes. Taipei, Taiwan: Graduate Institute of Communication Engineering, National Taiwan University (NTU). 2022.