本文共 1207 字,大约阅读时间需要 4 分钟。
近日,全球领先的体系结构顶级会议ASPLOS首次在中国举办,阿里巴巴副总裁、阿里云首席科学家周靖人在会上发表了主旨演讲。周靖人详细介绍了阿里云的大数据和AI计算平台的技术成果,以及平台支持的多样化产品和服务。他还透露,阿里将在图计算和大规模机器学习领域进一步加大研发力度。
随着物联网传感器、移动应用和在线服务的普及,海量数据以流的形式不断产生。基于数据流的实时分析已成为企业运营的核心能力,例如商业决策依赖高时效性的数据报表,服务优化需要实时捕捉用户行为等。在支撑这些应用的流计算平台面前,系统架构设计面临着巨大的挑战:如何在大规模集群中确保7x24小时连续运行,既满足高吞吐和低延时要求,又能应对软硬件故障、网络异常以及输入流量的动态波动。
阿里大数据平台在2016年双十一期间展现了强大的实力,支持每秒近1亿日志事件的计算峰值,在6小时内成功处理了100PB的数据。这些经验为阿里在流计算领域的突破奠定了基础。
在演讲中,周靖人以容错技术为例,分享了阿里系统设计中的关键创新。他指出,流计算系统的容错能力是至关重要的,尤其是在大规模集群环境下,如何在输入流故障或计算节点崩溃时,自动恢复流计算过程并维护数据一致性。传统的流计算系统往往采用单一的容错策略,如输入重算、全局快照或mini-batch,但真实场景下的复杂应用往往需要多种策略协同工作。
阿里在这一领域做出了许多创新尝试。例如,他们通过虚拟管道抽象技术,将容错设计与系统实现解耦,使系统能够灵活组合不同容错策略,应对各种复杂场景。这种设计不仅降低了系统复杂性,还提高了容错能力的灵活性和适应性。
图计算是阿里技术团队关注的重要方向。周靖人指出,通过将电商平台数据、用户产品信息、支付宝账户等建模处理,图计算已经在搜索推荐、反作弊、知识图谱等领域实现了大规模应用。然而,实时并发更新图数据并进行复杂分析仍然面临着三个主要挑战:
此外,阿里正在探索如何将图计算与机器学习结合,利用用户行为模式优化推荐和搜索效果。这一方向的研究也得到了学术界的高度关注。
周靖人强调,阿里在机器学习领域的优势源于对海量数据样本和特征的高效利用。阿里自主研发的服务器架构尤其针对深度学习模型和大规模参数的处理进行了优化。目前,阿里的大规模机器学习平台支持深度学习模型训练和在线更新,并配备了CPU、GPU、FPGA异构计算平台,为不同业务需求提供定制化计算支持。
阿里正在与知名高校建立合作平台,共同推动图计算和大规模机器学习领域的研究进展。这也是“NASA”计划中重要的技术布局之一,预示着阿里在这些前沿技术领域的深耕与发展将持续加强。
转载地址:http://jgqfk.baihongyu.com/