摘要: 这项技术依托BGP等互联网路由协议,能够智能地将用户请求路由至网络拓扑或地理位置上"最近"的服务节点,从而为关键互联网基础设施提供了三大核心优势:提升全球服务响应速度、增强系统弹性容错能力、优化攻击流量稀释效率。郑嘉琦的学术突破始于对数据中心网络路由更新机制的创新性重构。面对这些挑战,一位年轻的学者带领团队展开攻关——他就是南京大学计算机学院副教授郑嘉琦,作为国内最早深耕数据中心网络的研究者之一,他以十年磨一剑的科研韧劲,在软件定义数据中心领域开辟出了一条创新之路。
——记南京大学计算机学院副教授郑嘉琦
在数字经济浪潮奔涌的当下,数据中心作为支撑人工智能、云计算等新兴技术的核心基础设施,其广域网性能直接决定了数据交互的效率与可靠性。数据中心如同数字文明的心脏,搏动着每一条信息、每一次交互、每一轮智能的血液。数据中心是支撑大数据与人工智能应用服务的新型信息基础设施,在推动行业数字化转型与智能化升级中扮演着核心角色。它不仅是“互联网+”“人工智能+”等国家战略落地的关键保障,更是引领新一轮科技创新与经济发展的核心引擎。
然而,跨越千里的数据传输面临诸多挑战:如何让数据包以最低延迟抵达目的地?如何在异构网络中实现最大吞吐?如何保障多样化服务的高可用性?面对这些挑战,一位年轻的学者带领团队展开攻关——他就是南京大学计算机学院副教授郑嘉琦,作为国内最早深耕数据中心网络的研究者之一,他以十年磨一剑的科研韧劲,在软件定义数据中心领域开辟出了一条创新之路。他提出的低延迟路由配置框架、大吞吐协同传输模型及高可用服务优化策略,得到国内外学术界和工业界的广泛认可。
十年磨剑:软件定义重构数据中心效能
2013年,全球互联网正经历一场深刻变革。在谷歌、微软等科技巨头加速全球数据中心部署的背景下,传统网络架构在海量数据洪流冲击下已显露瓶颈。这一年,计算机网络领域旗舰会议ACM SIGCOMM同期收录了微软SWAN与谷歌B4两大数据中心广域网架构研究论文,标志着新一代网络技术的崛起。值此技术变革之际,南京大学陈贵海教授主持国家重大科研项目,带领郑嘉琦深耕数据中心网络前沿,为其奠定了坚实的学术基础。2015年,郑嘉琦赴香港城市大学担任助理研究员,在徐宏教授指导下,与香港华为诺亚方舟实验室深度合作,聚焦软件定义数据中心网络关键技术研发。次年,他获得国家留学基金委资助,赴美国天普大学开展联合培养,在欧洲科学院院士吴杰教授团队中参与国际前沿研究。这一系列跨地域、跨机构的科研经历,不仅拓展了他的全球学术视野,更构建起贯穿中美学术体系的数据中心网络研究脉络,为其后续创新突破奠定了国际化基础。
郑嘉琦的学术突破始于对数据中心网络路由更新机制的创新性重构。传统数据中心在路由配置更新时,由于节点异步操作,常导致流量拥塞甚至路由环路问题。他提出了多阶段平滑更新路由配置框架,并严格证明了更新序列算法的性能下界。这一成果荣获计算机网络领域旗舰会议IEEE ICNP 2015最佳论文奖,成为该会议创办32年来首篇完全由中国学者独立完成并获此殊荣的论文(郑嘉琦为第一作者)。颁奖嘉宾是美国威斯康星大学Aditya Akella教授和哥伦比亚大学Vishal Misra教授(时任程序委员会共同主席),并由加利福尼亚大学河滨分校K.K. Ramakrishnan教授(SIGCOMM终身成就奖得主)担任论文报告主持人。值得一提的是,当时国内一位资深计算机网络学者评价道:“在主要由国际学者组成的评审委员会中,能够将最佳论文奖授予中国学者,实属不易。”
郑嘉琦的学术创新之路持续拓展。凭借ICNP最佳论文奖的学术影响力,他获得了德国柏林工业大学著名网络专家Stefan Schmid教授的青睐,双方开展深度科研合作,共同研究实现了以精确时间点为触发条件的分布式路由配置机制,通过OpenFlow协议扩展在路由器硬件层面获得支持。与此同时,通过与微软研究院顶尖学者的深入探讨,郑嘉琦还创新性地提出了数据中心网络单链路故障的轻量级备份路由方案。该方案存储开销小,完全兼容现有网络设备,无需硬件升级即可部署。这些研究成果共同推动了数据中心网络在可靠性和可编程性方面的技术进步。
这些成果汇集于他的博士学位论文——国内首批研究数据中心广域网性能优化的学位论文,相继获得中国计算机学会优秀博士学位论文奖、江苏省优秀博士学位论文奖等荣誉。迄今为止,郑嘉琦已经主持国家自然科学基金优青、面上、青年项目,科技部重点研发计划项目子课题,对数据中心广域网性能优化关键技术进行了系统深入的研究,做出了一系列创新性工作,在华为、阿里巴巴等企业落地应用。
产研共舞:技术落地驱动数字生态革新
郑嘉琦的产学研地图上,标注着华为、阿里、腾讯、字节、蚂蚁等科技巨头的创新足迹。在他看来,“学术创新问题可以来源于产业需求,但必须超越产业需求。真正的技术突破在于从实际应用中提炼普适性规律,形成理论范式,从而反哺学科发展并引领产业变革。这种需求牵引-理论升华-范式创新的螺旋上升模式,才是学术研究创造持久价值的核心路径”。
郑嘉琦团队在任播优化领域的成果应用于阿里云广域网的任播调优系统。任播技术的核心价值在于其独特的“单IP-多节点”映射机制。这项技术依托BGP等互联网路由协议,能够智能地将用户请求路由至网络拓扑或地理位置上"最近"的服务节点,从而为关键互联网基础设施提供了三大核心优势:提升全球服务响应速度、增强系统弹性容错能力、优化攻击流量稀释效率。正因如此,任播技术已成为现代互联网架构的关键支柱——从内容分发网络的全球加速、DNS根服务器的可靠解析,到区块链网络的去中心化运维,乃至DDoS攻击的全球协同防御,都深度依赖这一技术范式。然而,任播技术在实际部署中面临着一个根本性矛盾:理想的最短路径路由与现实的商业路由策略之间的鸿沟。互联网复杂的自治域关系、运营商间的对等协议,以及BGP协议自身的局限性,常常导致用户流量被迫绕行至次优节点。这种“路径膨胀”现象不仅造成额外的网络延迟,更直接削弱了任播技术的核心价值主张。针对这一业界难题,郑嘉琦团队通过系统性研究发现:通过智能化的任播前缀区域化宣告,可以显著改善路由效率。团队创新性地提出了基于实测延迟的服务区域动态划分方法——不同于传统依赖静态地理边界的部署方式,该方法通过全球分布式探测节点持续测量真实网络状况,设计算法动态优化用户到节点的映射关系。这项发表于ACM SIGCOMM 2023的成果为任播技术的演进开辟了新方向。
当前,微信视频号已发展成为用户规模近十亿的超级内容平台,其内容分发网络(CDN)面临着前所未有的技术挑战。具体表现为:高热内容呈现显著的时空局部性特征,导致边缘缓存命中率急剧下降;用户访问模式具有极强动态性,传统CDN调度策略难以应对。这些挑战集中反映了社交视频平台在超大规模用户、极端动态内容、严苛延迟要求、严重缓存污染以及高昂带宽成本等多维约束下的系统优化困境。在此背景下,郑嘉琦团队与腾讯深度合作,共同推进了十亿级微信社交视频平台CDN调度优化项目。团队提出的优化方案具有三大技术创新:首先,建立“延迟-成本”双目标优化模型,通过联合优化通信延迟和缓存未命中带来的额外带宽流量成本,实现了服务质量与运营成本的完美平衡。这一创新在带宽支出占比高达90%的视频行业具有显著经济价值。其次,针对超大规模用户场景下的调度延迟问题,设计了高效调度策略生效机制,有效解决了传统方案在用户规模激增时的性能退化问题。最后,提出最小化用户调度迁移算法,在保证用户体验连续性的同时,最大限度挖掘现有系统的优化潜力。该方案不仅显著提升了缓存命中率,更通过智能流量调度将带宽成本降低,为行业树立了新的技术标杆。
郑嘉琦始终站在网络研究前沿,现已在计算机网络领域积累了丰富的科研经验,取得了一系列创新性成果,他也因此屡屡获得荣誉,包括:获得江苏省科学技术一等奖,华为“难题揭榜”火花奖,小米青年学者科技创新奖等等。
智算燎原:高速互联赋能全球算力跃迁
郑嘉琦的科研探索仍在不断深入。在AI大模型进入万亿参数的新纪元之际,多GPU系统的算力整合与高效互联已成为制约AI训练与推理效能的核心挑战。当前GPU高速互联技术正经历革命性演进:在扩展性维度,系统规模正从传统8卡向百卡乃至千卡级集群跨越;在性能维度,业界正向900GB/s级带宽(对标NVLink 4.0)与纳秒级延迟发起冲击;在开放性维度,突破现有封闭协议的技术垄断已成为当务之急。这一技术跃迁对互联协议设计与先进封装工艺提出了前所未有的极限要求。值此产业变革的战略机遇期,郑嘉琦团队正重点布局三大前沿互联技术方向:基于以太网的开放互联方案、符合国际UALink标准的互联架构,以及华为UB高速互联协议。这些研究不仅旨在突破现有技术性能边界,更致力于构建自主可控的国产GPU互联技术标准体系,为打造下一代高性能计算基础设施提供关键性技术支撑。当被问及未来愿景时,他的回答简洁有力:“让源自中国的高性能互联架构,定义全球AI计算的新范式”。
这位青年学者的理想,正随着每一行代码的优化、每一次协议的突破、每一套系统的升级,逐渐镌刻进数字中国的发展基因。在算力决定国力的数字时代,郑嘉琦的互联技术创新之路,恰是一条通往数字文明未来的高速通道。供稿单位:南京大学计算机学院作者;李杰