撰稿 | 成骏伟(华中科技大学)
近年来,随着人工智能和第五代通信对数据处理需求的不断增长,数据计算容量和计算功耗快速增加。传统电子方法的时钟频率一般限于几个GHz,已不能满足超高速、低延迟的海量数据处理需求。另一方面,随着摩尔定律的失效,使得依靠半导体电子技术来提高它们的性能和能量效率变得越来越困难。
由于信息容量的持续大幅度增加,在可预见的未来,一般的电子处理器难以胜任高复杂度的人工智能以及信号处理任务。而矩阵计算是科学与工程领域中应用最广泛、必不可少的信息处理工具之一。
大多数信号处理,如离散傅里叶变换和卷积运算,可以归因于矩阵计算。特别以深度学习为代表的神经网络算法,其主要特征就是包含了繁重的矩阵计算,以卷积神经网络为例,其矩阵计算的开销可以占据总开销的80%,甚至90%以上。加速和优化矩阵计算,可以大幅地改善信号处理和人工智能的计算效率和功耗。
光子器件具有超大带宽和超低功耗,光的频率可达100 THz,具有多个自由物理维度,这使得光子计算成为“后摩尔时代”中高容量、低延迟矩阵信息处理中最有竞争力的候选者之一。最近几年,光子矩阵乘法得到了迅速的发展,并被广泛应用于光信号处理、人工智能和光子神经网络等光子加速度领域。基于矩阵乘法计算的大量应用展示了光子加速器领域巨大的潜能和机会。
图1 矩阵乘法光子加速器概念图
近期,来自华中科技大学的科研团队,与香港中文大学、上海理工大学、浙江大学以及曦智科技的多位研究学者合作,以“Photonic matrix multiplication lights up photonic accelerator and beyond”为题,在 Light: Science & Applications 上发表了矩阵乘法光子加速器主题的综述文章。
光子矩阵-矢量乘法分类
目前主流的光子矩阵-矢量乘法(MVM)主要包含三类,即基于(单/多)平面光转换(PLC)的矩阵计算,基于马赫泽德干涉仪(MZI)网络的矩阵计算,和基于波分复用(WDM)的矩阵计算。其中平面转换的矩阵计算又分为单平面矩阵计算(SPLC)和多平面矩阵计算(MPLC),它们都属于相干计算,已报道的输入向量长度分别可以达到357和490000的量级。MZI和WDM方法的输出向量长度一般在100以下,主要用于集成光子矩阵计算芯片。这些方法主要基于光子的空间维度或者波长维度进行矩阵计算,还可以结合光子多个维度构建超高容量的光子张量核心。
加速器图2 光子矩阵乘法分类
光子矩阵-矢量乘法加速应用
光子矩阵乘法网络本身可以用作光子信号处理的通用线性光子回路。近年来,MVM已成为多种光子信号处理方法的有力工具。MPLC-MVM得益于其大规模矩阵计算的能力,可以管理大量模式,可以用作通用的模式分类器,其操作的模式规模可以达到几百个,还可以进一步扩展实现光子多个经典物理维度的同时控制,以及用于空间成像加密等应用。MZI-MVM易于集成,并且由于移相器工作速度快,可以实现MZI网格功能的自动配置,用作自适应的模式处理器件,实现多个模式的自由上传、下载、复用解复用以及信道解扰等。WDM-MVM占用空间更小,更容易配置传输矩阵,已经应用于可编程脉冲整形、微环权重库以及信号分量分析等。
图3 光子矩阵乘法应用
人工智能技术已广泛应用于各种电子行业,如基于深度学习的语音识别和图像处理。 矩阵计算作为神经网络的基本构件,占据了大部分的计算任务,例如GoogleNet和OverFeat模型的计算量超过80%。提高矩阵的性能是神经网络加速的最有效手段之一。与电计算相比,光计算在数据存储和流量控制方面较差,而光学非线性的低效率限制了激活函数等非线性计算的应用。然后,通过波长、模式和偏振等复用技术,光学方法在大规模并行计算方面具有显著优势,同时具有极高的数据调制速度和低的延时。因此,光子网络非常适合于矩阵计算。 光计算和人工智能的结合有望实现智能光子处理器和光子加速器。近年来,人工智能技术在光学领域也得到了快速发展澳门玄武精准资料网。各种光子矩阵计算都被验证可用于替代神经网络算法的线性部分,其单核已经验证计算容量可以超过11TOPS,光子矩阵计算的延时普遍在皮秒量级,单次乘加操作的能耗在飞焦量级,信号调制速率可以高达100 GHz。相比电子计算,其在速率、延时、功耗等方面具有明显的优势。
挑战与展望
目前,光子矩阵计算和电子计算相比,两者之间仍然存在着巨大的差距,为了解决这个问题,直接而有效的解决方案之一是制造大规模光子集成回路。与集成电路类似,制造技术的改进为实现更大规模和更高集成密度的光子集成回路芯片提供了机会。此外,通过使用光子的多个自由维度,例如模式、波长等,光学器件可以进行大量的并行计算,这些并行操作可以在一个物理光子计算核心中执行。同时还可以通过优化光子器件,例如光谱再利用策略、更高调制速度和更低功耗的调制器、低损耗波导、混合集成等手段扩展网络规模。
矩阵计算和激活函数是神经网络模型的两个基本操作元素。光子矩阵计算在信号速率、延时、计算密度和功耗等方面都比电子方法具有显著优势,但光子激活功能仍不成熟,目前主要分为光-电-光转换方法和全光方法,未来如何实现低功耗、高响应速率的激活函数仍然是一个难题。
在全光人工神经网络成熟之前,特别是在光学非线性效应和全光级联成熟前,光电混合人工智能计算仍是一种更实用、更有竞争力的深层人工神经网络的候选架构。 因此,开发高效、专用的光电混合人工智能硬件芯片系统是光子人工智能的核心研究路径之一。未来可基于光子矩阵计算和电子控制实现加速器底层硬件,并开发适用于该硬件的各种算法,最后在用户层可以灵活地调用这些算法实现各种加速应用,例如信道解扰器、图像识别等。
图4 光电混合AI计算芯片架构
论文信息
Zhou, H., Dong, J., Cheng, J. et al. Photonic matrix multiplication lights up photonic accelerator and beyond. Light Sci Appl 11, 30 (2022).
https://doi.org/10.1038/s41377-022-00717-8
来自华中科技大学的董建绩教授为论文的通讯作者,周海龙副教授为论文的第一作者。论文的合作作者还包括香港中文大学的黄超然博士、曦智科技的沈亦晨博士,上海理工大学的张启明教授和顾敏院士,浙江大学的钱超博士,陈红胜教授和阮志超教授,以及华中科技大学的成骏伟博士、董文婵博士和张新亮教授。
阅读原文
澳门精准破成语资料