×
微计算机信息

实现数字声图仪的原理和方法

实现数字声图仪的原理和方法何国建李昌立孙金城(中国科学院声学研究所北京loooso)1992年5月26日收到本文介绍一种利用高速数字信号处理板(TMS320C25一E)与微型计算机实现全数字化声图仪的新方法,就如何提高声谱图的显示质量和采用伪中间灰度在普通打印机或激光打印机上输出声图作进一步探讨,并获得完美实现.一、引言自四十年代起声图仪(SoundSpectrogra— vh)便成为语音实验室的重要研究工具.声图至今仍是世界各国语音学者分析语音的主要依据.早期的声图仪都是模拟型,声图只能烧灼在特殊的纸上,这种声图仪不仅分析处理周期长,而且在制作声图时产生大量有毒烟尘.80年代初,随着DSP(digital signal processing)的迅速发展,全数字化声图仪逐步取代了旧的传统模式,声图的显示和声图的作图都得到很大改进,但由于全系统技术复杂,研制成本很高,声图仪的普及使用受到价格的限制.根据微计算机的普及程度,用一台普通微型计算机加上附属部件实现声图仪的全部功能是人们的愿望,这也代表当今智能化分析仪器的发展趋势.利用微计算机和高速处理板实现声图的硬件结构如图1所示.通常微计算机无法承担大批信号的频谱分析运算,因此数字声图仪中繁重的谱分析工作由高速数字信号处理板(TMS320C25一E)完成.该板同时还配备~路14bitA/D和D/A转换器(采样频率可达19.2kHz)和可编程抗混叠输入滤波器和重构模拟信号的输出滤波器.TMS320C25处理器完成16位补码乘法运算并同时累加和变址(MACD指令),可在一个时钟周期内完成.所需的处理时间为100ns.图1DSG-1型数字声图仪系统结构图12卷1期为提高数据的传输速度,板上设计了4K字节韵双端口RAM,从而使得微计算机CPU和TMS320C25处理器相互配合,实时完成短时频谱分析和数据传输.由话筒接收到的声信号(或录音机线性输入的电信号)经低噪声前置放大、抗混叠滤波、A/D采样处理,再对信号进行高速短时频谱分析,实时地把分析的频谱值转换为灰度级在计算机屏幕上显示出,而且还可根据需要不断增_力Ⅱ新的分析功能,因此该系统具有很强的生命力.声图显示与灰度调制要把声信号转换为声频谱图显示在计算机屏幕上,必须做时间域到频率域的变化处理.由于语言信号具有时变性,反映发声器官运动特性的声道传输函数和激励源参量都是随时间而变化的,但在短时间内可以认为它们的特性基本上不变或变化相对缓慢.标准的傅里叶变化不能直接用来表示语音信号,采用短时傅里叶分析是一个有效的解决途径.在连续语音信号(或离散的时间序列)中截取某个区域矗(f),再对截取部分进行傅里叶变换,它的表达式为:X,(eio。)一∑五(f—m)x(m)e嘞一…(1)设09—2,rK/N,则又。(£胁K脚)一∑x(m)h(t—m)e—j2“Kra/N…P(f,卵)一短时傅里叶变换是时间序列;和角频率∞(或K)的函数,当f固定时,(1)、(2)式就是序列[五(≯一m)并(辨)](一∞≤m<。。)标准的傅里叶变换,当03或K值固定时,它表示为一个信号序列与h(t一优)序列的卷积过程.我们把时域截取区域J|l(f)称为窗函数,由此可见窗函数五(≯)的选择直接影响短时FFT分析结果,良好的时间窗函数应同时满足主辨宽度窄、旁辨能量小的要求,但这两个条件很难同时满足,在实际应用中只能在两个标准之间作一权衡.比较常用的窗函数有HammingHarming和Blackman窗.(2)式可写为离散傅里叶变换形式:^r一1X,(em舢)一∑茸(m)矗(1一m)e-j2lxs/Ⅳ,"=0一x露十Xf(3)其中:xR——表示频谱的实部,墨——表示频谱的虚部,Ⅳ——FFT变换点数,某瞬时的一帧功率谱表示为:P(丁,,1)一20log(~/x墨(z,露)+x;(z,仃))一10log(x§(_r,体)+搿(T,竹))(4)其中:筇值的范围是0≤筇≤N/2—1丁——表示某一时间,随着时间窗口的推移,求出逐帧短时傅里叶谱值,形成一个数字谱值矩阵P(f,释).t值的表示范围是:信号起始时间Ts≤l≤信号结束时间丁暑(2)由(4)式形成的功率谱矩阵为:P(Ts,o),P(Ts,1),……………,e(Ts,N/2一1).P(Ts十AT,o),P(Ts十AT,1),……,P(Ts+AT,N/2一1)lP(Ts+2AT,o),P(Ts+2AT,1),…,P(T5+2AT,N/2—1){:::{尸(r?,o),P(r嚣,1),………….。…..,P(丁占,Ⅳ/2一’1) v(t,孵)矩阵反应出不同时间和频率的能量强度.声图显示就是将此矩阵映射为不同的颜色或不同的灰度级,按照一特定的方式显示在微计算机屏幕上.这种从数值到颜色或灰度级的应用声学映射关系直接影响声图显示质量.对于单色显示器主要采用伪中间灰度(单位面积调灰)来反映频谱能量的强弱关系,能量强的谱值映射到显示器上亮点多,反之则显示亮点就少.这种牺·7·B一黑颜色16个灰度级分布区域监色i深红色……一}…………一一;:圈2RGB颜色模型牲显示器分辨率获得的灰度级显示声图的质量受限制,而且声图的分辨率较差.从目前微计算机显示设备发展趋势出发,我们采用VGA(VideoGraphicsArray)卡和高分辨率显示器,通过对属性控制器寄存器的软件编程,可把指定的某种颜色调制成16个灰度级,使得每个象素点都具有16个灰度级别,某时亥Ⅱ的谱能量映射到显示器上峨0表现为某象素点的颜色浓淡.这种方法显示的声图不仅质量好,而且声图的分辨率也很高.VGA显示器的RGB(Red,Green,Blue)颜色模型如图2所示.图2中三个轴分别表示为红,(R)、绿(G)和兰(B)三种颜色.通过对调色板R、G、B值调配可得到不同的颜色.例如立方体的原点为黑色,此时R、G、B三种颜色值均为零值.如果R、G、B三种颜色值达到一定数值时,产生的颜色变为白色.因此R—G—B的数值按照一定的间隔改变,可得到黑色的不同灰度级.它的灰度级分布在图二中黑色和白色的对角线线上.灰度级设置与VGA卡的配置有关,这里不详细介绍.考虑到显示器的显示速度(灰度级设置越高,VGA显示卡的存储器配置要多,相应占用微计算机的资源也多,而且显示图像的速度降低)和VGA卡之间的兼容性,选用最低配置的VGA显示卡比较适当.扩展的VGA卡本身具备有256种颜色(16色×16级灰度),用这种卡作声图显示,显示速度较侵.在声图显示时还可对显示器进行特殊编程,动画处理等技巧,使得声图实时地在微计算机屏幕上滚动出现.总之,采用灰度调制显示的声图能较准确地反映这种从数字矩阵到图像的映射关系,可直接从显示屏幕上准确地获得时间、频率、能量的数值,而且可对声图进行任意的编辑处理.三、用微计算机输出设备产生声图声音作图是为语音学者、耳鼻喉医生或其它领域的研究人员提供一个可测量、评价的输出结果.在语音合成中,为了鉴别合成语音的质量,除了由人测听作主观评价外,最重要的手段是用声图客观地描述语音特征量的变化情况,因此声音作图质量的好坏直接影响分析结论.通常图像输出都采用各象素点具有多级灰度的模拟设备来直接表现原图像的浓淡差别.这类设备输出的图像具有清晰度高、灰变变化连续性好等优点,它的美中不足之处是价格昂贵,而且记录声图的纸张需特制,这类设备目前很难普及.国内微计算机配置的输出设备有针式打印机、喷墨打印机和激光打印机.普通24针打印机的分辨率有72dots/inch、120dots/inch、180 dots/inch,这类设备用于声音作图,图形质量受到打印机打印针之间间距的限制,声图质量不十分理想.激光打印机采用激光扫描技术和电子照相技术结合,它的最高分辨率可达到300一400 dots,Cinch以上记录密度,最高可达2000dots/inch.用激光打印机作出的声图质量可与国外声图仪相媲美.’不管是针式打印机还是激光打印机都只能输出黑/白两种灰度,直接使用这二值灰度无法表现原图像的中间灰度,因而导致人们对伪中间灰度的研究,这种研究在相当程度上取决于12卷1期高分辨率点阵式输出设备的发展.伪中间灰度表示获度象素点的基零思想是单位蕊积调灰,即把灰度级映射为单位面积申黑色的断积分布率表示,从而达到近似表现中间获赛的目的.伪中间灰嚏最具有代表性的是浓度参数法,根据单位{刚爽:和点阵的分布结构叉可分为集中趟浓度参数法牺分散型浓度参数法两种.箭者的蓑现形式为单位面积内的黑点分布由点阵的中心向外逐渐扩段,后者则相反.鳗声图作图的效果观察,集中型浓度参数法略优于分散型浓度为:当输人象素点灰良级为6时,劂矩降中6以F的点阵为黑点,其它点菊空白点,输趣的伪中阳j灰度为图4表示.这种转换荧系同榉i’.r以用于从谱值到约巾闯灰度的转换.罔耳版鹾缀为6朐点阵脚‘这种作阁方法在打印机或激光打印机f:实现比羧搴殇,颓巨图像输出遮鏖快,遴梢激光打印机或喷墨打印机输出雕L’一,I。IT阁都具行很好盼质量.本文选用淘声图均由H雕1l激光打印机输应用奔掌.参数法.浓度参数法最大特点是对应一个输久秉豢点酞譬,y),输出一个嚣×栉煮象素强.8×栉点象索块中黑点的分布率大小石j砭映翰k秉素的葳赛级.因此髂×拧点象素块‘可产毫拧二十1个点阵分布结构。侧如移一4.薯·:!‘产生l?个伪中间蒇度级别。见图墨所示(甾3是罨HPIII型激党打印机黎墙集中型浓囊参装法声,1三的获囊图).当稚一4,集中型浓耋参效法的矩尊1影j弋}H.四,DSG-1型数字声图仪的主要性能特点使粥㈡瓤的’疑越和方法.经过了:翁≮多努力,我们呔功地研制了DsG—l型数字蔷图仪.义经过多家粥户试用,在软件上,幕断觉f匕玫逛.性慧已经逐赛完善.本离图议包括图形处嚣、蜘 j;g特征参最提取翻数据分析管理三赶韶t卜t1)图形处理部分的功能宵:黪色和黑自寄,到显示(声图的分祈带宽琦10Hz,45Hz.150Hz.300Hz,500Hz),双带宽声图(45HZ,300Hz)显示,以及三维透视和三维动态功率谱圈显示等.各种图形郗具角’显示动态范围大,分浆宰蔼等特点,而且可对显示的图形菹接进i?:袋援判读和拷贝输出功能.(2)物理特征量提取包括:块振峰提取、共摄峰频率跟踪、基氟测它、谱包络提取,过零率统计,LPC线性预测匍FFT分析等.(3)数据分析管遐部分包括:合婿‘主量的设定、长信号采集翻编辑处:警I、l‘迂却毳特征参量编辑和存盘.该系绕滤程亭用c语言翻TMS320C25}7-窗口管理方式,信号的分析、图形显示和图形输出等处理过程都是以交互式工作方式完成.即首先由操作人员设置各种分析参量,再由计算机作相应的分析处理.分析参量包括:信号起始时间、声图的类型、声图黑白对比度、采样频率、时间窗口函数,分析滤波器带宽、高频提升和频率标志线设定等.编语言编写,图形显示和分析功能选择均采用图5系一句汉语语音试验旬“我到黑龙江” l2卷l期的声图.信号采样频率为10kHz,采用HPIII型激光打印机制作.图5的上半部分为时间波形图和过零率统计图,下半部分为45Hz和300Hz声图.图6为“我”音节的三维动态功率谱图.参考文献 gital signal processing n978)by prentice—Hall—Inc..Englewood cliffs,N,J,0一l”.[2]Mermelstein.P.,IEEEAU一19(197t),44—47.[3]藤文善,声学学报,ll一1(1986),56.[{]李昌立、莫福源、王天祥,数字信号处理,4-4(1988),

上一篇:粮食微机通讯致读者
下一篇:没有了

Top