嵌入式设备中片上存储器的有效使用方法
电子元件,电子元器件深圳市创唯电子有限公司
您现在的位置: 首页 > 电子技术
嵌入式设备中片上存储器的有效使用方法  2012/3/1
引言随着CPU速度的迅速提高,CPU与片外存储器的速度差异越来越大,匹配CPU与外部存储器的方法通常是采用Cache或者片上存储器。微处理器中的片上存储器结构通常包含指令Cache、数据Cache或者片上存储器。对于嵌入式设备上数据密集的应用,数据Cache与片上存储器相比存在以下缺陷:①片上存储器是固定的单周期访问,可在设计时(不是运行时)研究数据访问模式;而Cache还要考虑不命中的情况,因而有可变的数据访问时间,执行时间的预测
引 言
    
随着CPU速度的迅速提高,CPU与片外存储器的速度差异越来越大,匹配CPU与外部存储器的方法通常是采用Cache或者片上存储器。微处理器中的片上存储器结构通常包含指令Cache、数据Cache或者片上存储器。
       
对于嵌入式设备上数据密集的应用,数据Cache与片上存储器相比存在以下缺陷:
        
①片上存储器是固定的单周期访问,可在设计时(不是运行时)研究数据访问模式;而Cache还要考虑不命中的情况,因而有可变的数据访问时间,执行时间的预测更加困难。
②使用Cache执行时间的不可预测性影响编译器的优化。
③细颗粒的Cache对于图像编码等的规则数据访问并不合适,因而使用Cache对于嵌入式设备可能不是最优的。对于大多数应用,使用片上存储器比使用数据Cache能耗平均节省约40%,芯片面积与时间的乘积仅为Cache的46%,因而对于嵌入式多媒体处理器,片上RAM作为数据Cache的替代,功耗更低。片上存储器的有效使用对于提高嵌入式应用的速度、降低功耗具有重要的意义。
    
TMS320C55x(简称为“C55x”)具有极低的功耗(0.05 mW/MIPS),非常适合手持设备,现在已经集成至TT公司专门针对3G手机的高性能多媒体处理器上。C55x片上除了24KB的指令Cache外,还有64 KB的双端口存储器(DARAM)和96 KB的单端口存储器(SARAM)。DARAM和SARAM总共160 KB,分成20个块,每个块8 KB。本文以C55x上的视频编码器为例,讨论片上存储器的有效使用。
        
1 数据的片外、片上动态分配
    
因为片上存储器比片外存储器具有更强的数据访问能力和更低的访问功耗,所以尽可能分配数据到片上存储器;未能分配到片上的数据可在CPU处理前转移到片上;已经转移到片上的数据,应尽可能在片上保存,直到其生命期结束,以便尽可能减少数据从片外存储器到片上存储器的数据转移。在视频编码等应用中,标量、常数相对矩阵而言,通常数量较少,可以分配到片上。若分配到片外,则在运算时直接存取片外数据,CPU流水线将会停滞。直接存储器存取(DMA)可以在存储器之间、存储器与外设之间转移数据,除了DMA通道参数初始化以外,DMA转移数据和CPU处理数据可以并行进行。
        
设置DMA通道参数需要一定的时间,用DMA来转移单个变量或常数的开销可能比直接存取更大,因此DMA适合转移具有较多数据的矩阵,并不适合片外标量的转移。包含大量元素的矩阵可以分配到片外,处理前使用DMA转移到片上存储器。
    
局部变量由编译器分配到软件栈上,C55x具有两个软件栈——数据栈和系统栈。C55x的栈有3种工作模式,可设置成双16比特快返回模式,以减小栈所占的存储器空间,并提高其运行速度。数据栈和系统栈在函数调用及返回时同时访问,可将这两个栈分配到DARAM块或者不同的SARAM块内。
    
本文中数据存储器的分配,强调从实际多媒体应用处理的基本数据块出发,分析简单、直观。多媒体算法总是将原始输入数据分成一定大小的块来处理,并产生对应该输入的最后输出。如果片上没有足够的存储器,则大量的输入数据和最后结果仅能存储在片外。对于元素较多的矩阵,可以根据算法特征,将矩阵分成若干数据子块,如H.263编码器中的宏块和搜索窗等,或者单纯根据可得到的片上存储器数最
与《嵌入式设备中片上存储器的有效使用方法》相关列表
电话:400-900-3095
QQ:800152669
库存查询
Copyright(C) 2011-2021 Szcwdz.com 创唯电子 版权所有 备案号:粤ICP备11103613号
专注电子元件代理销售  QQ:800152669  电子邮件:sales@szcwdz.com  电话:400-900-3095