利用BEE2 处理太空信号 - Xilinx

技术长廊 

利用BEE2处理太空信号 

加州大学伯克利分校的天文学家通过利用由Linux、Xilinx System Generator 

for DSP以及XilinxEDK搭建的编程环境开发了BEE2平台 

作者:Chen Chang 

BEEcube CTO 

chen@beecube.com 

Bob Brodersen 

加州大学伯克利分校名誉教授 

rb@eecs.berkeley.edu 

John Wawrzynek 

加州大学伯克利分校教授 

johnw@eecs.berkeley.edu 

Dan Werthimer 

加州大学伯克利分校太空信号处理中心主管 

SETI@home 首席科学家 

danw@ssl.berkeley.edu 

Kees Vissers 

Xilinx公司 

高级工程师 

kees.vissers@xilinx.com 

现代射电望远镜观测宇宙的频带范围介于 

零到11GHz之间。经过处理,这些望远镜可 

以提供诸如黑洞碰撞等令人感兴趣的现象的相 

关信息,如图1所示。 

这类望远镜原来需要建造极其巨大的单碟 

天线,比如Arecibo望远镜。然而,由于建造 

费用太高,Arecibo至今仍是收集面积最大的 

望远镜,这一纪录已经保持了50多年。 

数字信号处理发明之后,大收集面积的射 

电望远镜设计转而采用小口径(6-12m)天 

线阵列(数百到数千根天线)。这种设计 

可以均衡建造费用和电子设备费用。这类天线 

可以分布在极广的地理范围内,提供极长但长 

度各异的基线以及更好的角度分辨率。加利福 

尼亚州北部Hat Creek附近的Allen望远镜阵列 

赛灵思中国通讯 27 期 © 2007 Xilinx Inc. 版权所有。XILINX、Xilinx 标志以及本文件中包括的其他品牌名称,是 Xilinx, Inc. 的商标。所有其他商标都是其各自所有者的财产。

图1 - 通过射电望远镜图像收集的 

黑洞方面的信息 

就是这类望远镜的代表。本文将关 

注利用被加州大学伯克利分校SETI研究 

所和射电天文学实验室应用于这类望 

远镜上的FPGA进行的信号处理。 

大数目小口径天线阵列相关器 

天线阵列给信号处理带来了很大的 

挑战。为了形成正确的图像,来自天线 

的所有信号必须彼此相关,因此要求计 

算复杂性为O ( N 2 )。为了得到1 平方 

公里的收集面积,需要8,000多根直径 

为12m的天线。 

为了使整个11GHz带宽内的信号相 

关,则每秒需要完成的运算数量为 

10 18 ,超过目前最快的超级计算机性能 

的3,000倍。显然,为了以适当的代价 

实现该计算吞吐量,需要一种新的计算 

方法。 

此外,射电望远镜设计的使用寿命 

一般超过30年,因此,没有必要一开始 

就对电子设备进行高额投资以满足带宽 

要求;更合适的方法是每隔几年进行一 

次电子设备升级,逐步增加总的可观测 

带宽。借助于半导体技术成本的大幅下 

降,这种方法可以实现最佳的性价比。 

在如今的实际操作中,经常采用包 

含特殊软件的专用电子设备。本文中, 

我们将研究如何利用BEE2系统以及由可 

靠硬件以及商用路由器组成的编程环 

境。后端计算机以及系统显示设备可以 

采用商用计算机。当今基于FPGA的系 

统能够完成千兆赫模数转换器(ADC) 

与后端计算机之间的信号处理。这类 

FPGA系统会非常经济,而且极为可靠 

。 

BEE2系统 

在BEE2系统中,每个计算模块包含 

五个Xilinx VirtexTM-ⅡPro 70 FPGA芯 

片,每个FPGA都与四个DDR2 240引 

脚DRAM DIMM直接相连,每片FPGA 

的最大容量为4GB。在本设计中,四个 

DIMM被布置在四路独立的DRAM通道 

中,每个DIMM都包含一个72位数据接 

口,工作频率为200MHz( 400 

DDR)。因此,每个FPGA的峰值总存 

储带宽可达12.8Gbps。每个模块包含 

4个用于实现计算功能的FPGA以及1个 

用于实现控制功能的 FPGA。控制 

FPGA在嵌入式PowerPC405上行 

Linux操作系统,管理每个用户 FPGA 

的计算进程,同时监视整个模块的操 

作。 

如图2所示,4个用户FPGA在2D栅 

格上直接相连,每条链路的数据吞吐量 

高达40Gbps。从控制FPGA到各个计算 

FPGA有四条下行链路,每条链路的数 

据吞吐量高达20Gbps。所有模块外连 

接均采用FPGA片上MGT,将四个通道 

与10Gb Base-CX4 以太网接口绑定到 

一起。控制FPGA包含两个CX4接口, 

各个计算FPGA均包含四个CX4接口, 

因此每个BEE2模块包含 18个 CX4接 

口,全双工带宽可达180Gbps。对于需 

要高对分带宽以便在多个计算模块间进 

行随机通信的应用,BEE2系统可以与商 

用 10Gb以太网交换机直接相连。此 

外,控制FPGA上的10/100 Base-T以 

太网接口能为用户接口、低速系统控 

制、监控以及数据存档提供带外通信 

网络。 

IB4X/CX4 

40 Gbps 

Five FPGAs 

XC2VP70FF1704 

IB4X/CX4 

40 Gbps 

MGT 

MGT 

DRAM 

DRAM 

DRAM 

DRAM 

Memory 

Controller 

FPGA 

Fabric 

FPGA 

Fabric 

Memory 

Controller 

DRAM 

DRAM 

DRAM 

DRAM 

100BT 

Ethernet 

DRAM 

BEE2 DSP编程环境 

在过去十年中,基于框图的算法描 

述方法十分流行,尤其在DSP领域。软 

件仿真环境,比如MathWorks 

Simulink,可以提供并行数据流执行 

模型, 与 DSP数据流处理特性十分匹 

配。利用丰富的高级专用模块库,算法 

设计者能够迅速构建复杂的DSP和通 

信系统。Xilinx ® System Generator for 

DSP扩展了 Simulink建模以及仿真能 

力,可以实现核心DSP算法到FPGA实现 

的直接映射。 

然而,大多数实际的DSP设计并不 

仅仅需要核心算法。在最新一代的 

Xilinx FPGA中,许多系统级元件可以 

直接集成到单个FPGA上,比如网络接 

口、嵌入式微处理器、存储器和 I/O设 

备等。随着这些硬件子系统的出现,FP 

GA设计不再仅仅是硬件设计,而是包 

含了硬件与软件的设计。其中,软件包 

括复杂的OS和应用软件。 

BEE2 DSP 编程环境,被称为BEE 

Platform Studio(BPS),如图3所 

示。在Simulink中,BPS提供了一个集 

成编程环境,可以降低FPGA软/硬件协 

同设计的复杂性。该环境是为BEE2平台 

特别设计的。这样,算法设计者就只需 

要关注核心DSP算法,而系统将自动生 

成复杂硬件及软件子系统的代 

码和比特文件。该环境建立在 

Xilinx现有的工具流程上。Xilinx 

System Generator 为实现 DSP 算 

法映射提供了卓越的模块集,Xilinx 

嵌入式开发套件(EDK)可以提 

供微处理器和系统集成功能,而ISE TM 

IB4X/CX4 

20 Gbps 

MGT 

FPGA 

Fabric 

Memory 

Controller 

DRAM 

DRAM 

DRAM 

64 bits 300 at DD R 

138 bits 300 MHz DDR Gbps41.4 

图2 - 计算节点连接功能 

技术长廊 

4 GB DDR2 DRAM 

12.8 GB/s (400 DDR) 

DRAM 

DRAM 

DRAM 

DRAM 

Memory 

Controller 

FPGA 

Fabric 

FPGA 

Fabric 

Memory 

Controller 

DRAM 

DRAM 

DRAM 

DRAM 

MGT MGT 

IB4X/CX4 

40 Gbps 

IB4X/CX4 

40 Gbps 

2007 年冬季刊

技术长廊 

软件可以提供用于实现逻辑综合的 

后端 ,布局和布线、以及生成 

硬件比特文件等功能。 

在 BPS设计环境中,完成一 

个典型的设计通常是从使用 Xilinx 

System Generator for DSP 在 

Simulink中设计核心算法开始 

的。从终端用户的观点看 , 

Simulink设计仅仅是一个同步数 

据流执行模型的理想化沙盒, 

通过BPS接口模块集对核心算法 

外的所有连接进行虚拟映射。典型设 

计如图4所示。BPS模块集是由FPGA专 

家创建的,用以代替充当Simulink中 

核心算法设计与系统级器件之间的接 

口的通用XSG“网关”。 

处理器核以硬核( PowerPC 

405)或软核(MicroBlaze TM 处理器) 

的形式隐含于所有BPS设计中。处理 

器核可以通过软件寄存器、 FIFO或共 

享存储器与用户 XSG设计通信。通过 

在 Simulink中选择相应的BPS模块, 

用户就可以指定通信方式。通过一个 

简单的FIFO抽取,所有的外部网络、I/ 

O以及存储器件即可被抽取成 Simulink 

数据源或数据宿。 

对于支持的FPGA电路板平台,BPS 

架构提供一个基础系统软件包(作为完 

整的Xilinx Platform Studio(XPS)项 

目 ),以及用于所有外部器件的 

Simulink BPS 模块集。基础系统软件 

包包含基本的系统器件IP核、初始的硬 

件系统配置以及可用的软件包。利用 

基于基础软件包的BPS工具,不断生成 

用户选择的外部器件的后端执行文件。 

接着,将这些文件与所有必要的硬件 

连接以及软件驱动整合和连接起来。 

算法简介 

射电天文学主要观测遥远的、发生 

于很久之前的现象,因此,到达地球的 

无线电波本质上是平行波。当采用彼此 

物理分离的两个或多个射电望远镜观测 

同一现象时,由于各个天线位置的切割 

角度的不同,每个天线接受到相同波 

阵面的时间不同。基于相关性的射电天 

文学成像的基本思路是通过将在不同位 

置接收到的无线电信号进行相关处理, 

重构感兴趣的波阵面图像。由于接收位 

置的不同,信号的延迟也不同。 

由于FX相关器方案的计算效率,对 

赛灵思中国通讯 27 期 

FPGA 

Experts 

HDL 

Algorithm 

Designer 

Simulink 

XSG 

BPS 

EDK 

ISE Software 

Linux 

BEE2 Hardware 

图3 - BEE2 Platform Studio设计抽取图 

图4 - BPS设计实例 

于大数目的天线,一般采用这种方案。 

首先,每个天线信号通过FFT(快速傅 

立叶变换)转换到频域内。接着,针对 

各个频道对几个天线的信号进行乘累 

加处理(MAC)。基本的相关 

器系统如图5 所示。每个输入采样进行 

一次 MAC计算,这与频道的总数无 

关。相对于天线的总数目 , FX相关 

器中 FFT 计算增加量为N log 2 (N),而 

MAC 计算增加量为1/2 N (N-1)。 

相关算法的第一步是将从天 

线接收到的模拟信号数字化 , 

接着通过频率转换将数字信号 

转换到频域内,这个过程亦称为F - 

引擎(F- engine)。在1 GSPS 下进行 

I/Q数字化后,采用数字下变频 

( DDC) 模块将数字信号输入调谐 

为感兴趣的频带,然后利用多 

相滤波器组( PFB)进行预滤波和 

FFT。由于输入信号的信噪比(SNR) 

低于 1 ,因此将PFB的输出量化为精度 

较低的定点数(这里为4 位实数和4 位 

虚数),这样总体相关计算和网络带 

宽利用都更有效。最后,数据包格式程 

序(packet formatter)从每个通道收 

集大量的频率数据 ,形成单个数据包 

。这个带有时间戳的数据包通过 

10Gb以太网接口传输出去。 

如图6 所示,利用分块结构对来自 

于线性延迟链上各个天线的数据包进 

行交叉相关处理,这是一种最为有效 

的 X-引擎 ( X-engine)实现方案。 

对于 N - 天线系统,每个X-引擎 ( Xengine)均正好包含 

N 个延迟部 

件,数据采样深度为m ,其中m 对应 

着每个数据包中采样数据的数目。N /2 

个MAC单元用于计算交叉相关性,同时 

一个专用 MAC单元用于计算自相关 

性。每个MAC单元均包含一个多路复 

用器 ,用于从延迟链上的第一个到最 

后一个数据包中选择一个作为输入数 

据包。 

接收缓冲器中的数据包按照天线顺 

序有序移出 , 沿着延迟链移动 , 并在 

MAC单元中进行相关处理。计算结果左 

移至DRAM控制器,以便进行长时累加 

运算。 

对于数据包中的特定频道,所有的 

1/2 N (N-1)个相关的计算步骤都刚好 

是N 时间步(每时间步均为m个时钟周 

期)。基于分块结构的 X-引擎 ( Xengine)设计使得在多个FPGA芯 

片上划分单个X-引擎 ( X-engine) 变 

得相当轻松。多个相邻的分块可以配 

置到每个FPGA中,数据流可以轻松地 

在 FPGA间传输。相关双极化天线时 , 

每个MAC单元并行计算所有的Stokes 

参数,因此每个时钟周期需要4 次复数 

乘法运算,或16次实数乘法运算和8次 

加法运算。最后,四个复数项(八个实 

数项)进行m次累加,然后移出到DRA 

M 中以便进行长时累加计算。 

可扩展性 

传统的FX相关器设计采用直连式背

Antenna #1 

FFT 

Antenna #2 FFT 

Antenna #N FFT 

板和电缆构建从 F-引擎 ( F-engine) 

到 E-引擎 ( E-engine)的交叉连 

接。这种方法要求整个硬件系统全局同 

步,限制了系统的扩展性。新的实现方 

法中,每个频率数据包上的时间戳能够 

有效地分离绝对采样时间和计算硬件时 

钟。当相应的数据包到达时,所有的X- 

引擎 ( X-engine)计算均可进行。因 

此,具有不同数据包延迟的商用网络交 

换机可以作为虚拟交叉开关,而不是硬连 

线背板。 

LTX实现可以将256-天线X-引 

擎 ( X-engine)设计置入运行频率为 

250MHz的BEE2 FPGA中。为了保证高 

时钟速率路由所需的充足余量,包括全 

局控制以及存储接口在内的逻辑slice利 

用率应该保持在最大slice数的80%左 

右。通过连接4个用户FPGA芯片可以在 

单个BEE2电路板上实现1024-天线X- 

引擎 ( X-engine)。其中每个用户 

FPGA芯片可以实现四分之一LTX分 

块。需要利用外部 DRAM在中心控制 

FPGA上实现输入缓冲。1GB DRAM可 

以包含 4096个频道 ,每个频道存储 

256K数据包,从而通过10Gb以太网 

交换机实现了最大超过2 秒的延迟偏差 

(跟F-引擎(F-engine)相比)。 

10Gb以太网交换机带宽跟系统中 

的天线数目线性相关。由于X-引擎(Xengine)与F-引擎(F-engine)数目相 

同,所以交叉交换机基本上是将输出数 

据包逐一从 F-引擎 ( F-engine) 

重新分配到相应的X-引擎 ( Xengine)。在给定 

的时间步中,F- 

引擎 ( F-engine) 输出数据包能够以 

“ 一对一 ” 的方式单独传输到特定的 

X-引擎(X-engine)上。每个天线频 

道的循环旋转,阻止了交叉交换机的长 

Crossbar 

图5 - N-天线频分FX相关器示意图 

XMAC (f=0) 

XMAC (f=1) 

XMAC (f=2) 

XMAC (f=3) 

XMAC (f=k) 

Back-End Computer Servers 

期阻塞。由于所有的F-引擎 ( Fengine)都与 

ADC板上的采样时钟同 

步,因此即使是暂时的信息包阻塞也很 

少发生。 

结论 

到目前为止,我们已经利用该解决 

方案实现了几个相关器,包括采用四个 

BEE2模块的Allan望远镜阵列中的200M 

Hz带宽、32-天线相关器。在弗吉 

尼亚西部的Green Bank以及世界其他 

射电天文工程中,几位科学家已经采 

用过16-天线版相关器。 

因为整个相关器采用BEE Platform 

Studio环境设计而成,在Simulink设计 

中,只需要重新编译新的硬件平台即可 

将设计移植到新的FPGA硬件中,如即将 

推出的使用Xilinx Virtex-5 FPGA的 

BEE3系统, 从而减少了用户移植工作 

量。Virtex-5 FPGA能够以一半的价格 

实现高达四倍的计算吞吐量,因此, 

对于实现采用8,000多根天线达到 1 平 

方公里收集面积的目标而言,快速的设 

计移植是关键。 

Packet 

Receive 

Buffer 

DRAM 

Accumulator 

Z -m 

MAC 

经过加州大学伯克利分校长达六年 

的研究,一家新成立的公司BEECube 

Inc.已经实现了BEE2相关软件和硬件的 

商用化,可以进一步支持更为广泛的应 

用,从高性能DSP到其他新兴生物信息 

学应用。了解编程环境以及未来硬件 

系统开发方面的更多信息,敬请联系 

chen@beecube. com。 

致谢: 

BEE2项目的射电天文学应用开发是 

与加州大学伯克利分校空间科学实验室 

(Dan Werthimer, Aaron Parsons, 

Henry Chen)和加州大学伯克利分校 

射电天文学实验室(Melvyn Wright, 

Dave MacMahon, Matt Dexter, Don 

Backer)的SETI@Home和 Serendip 

项目(寻找外太空高智慧生物无线电信 

号)合作完成。Xilinx公司慷慨捐赠了 

FPGA和软件工具,并且提供了工程支 

持。 

非常感谢辛勤工作的BEE2团队的所 

有同学和员工:Pierre-Yves 

Droz,Greg Gibeling,Nan Zhou, 

Yury Markovskiy,Zohair Hyder, 

Adam Megacz,Alexander Krasnov, 

Hayden So,Kevin Camera,Brian 

Richards,Dan Burke,Ken Lutz和 

Susan Mellers。BEE2项目受到GSRC和 

C2S2科技中心(半导体研究公司计划 

PCRP的一部分,国家科学基金编号为 

CNS-0551739和CNS- 0403427)以及 

BWRC 及其赞助公司的资助。 

X-tile #0 X-tile #1 X-tile #2 X-tile #3 X-tile #N/2 

MAC 

Z -m 

Z -m 

Z -m 

技术长廊 

Z -m 

Z -m 

Z -m 

Z -m 

sel sel 

sel sel 

MAC MAC MAC 

Reg Reg Reg Reg Reg 

图6 - 线性分块的X-引擎(X-engine)(简化示意图) 

2007 年冬季刊

利用BEE2 处理太空信号 - Xilinx

Create successful ePaper yourself

Delete template?

Save as template?