首页 / 专业学位 / 新闻动态 / 正文

实务课程丨安承昊:大数据基础设施与智能计算平台建设

  发布日期:2026-04-20  浏览次数:

2026年3月30日下午,复旦大学经济学院数字经济专硕课程《数字科技前沿概论》,特邀哔哩哔哩基础架构部高级开发工程师安承昊先生,带来主题为《大数据基础设施与智能计算平台建设》的实务课程。本次实务课从底层原理出发,层层递进为同学们系统拆解了数字经济时代大数据基础设施的核心架构与智能计算平台的建设逻辑。课程由经济学院金融研究院助理教授王妍主持。

安承昊先生长期从事大数据平台与计算架构工作,曾获2024年度哔哩哔哩技术突出贡献奖。长期深耕大数据平台与计算架构领域,先后参与并负责OLAP查询引擎Trino、数据湖Iceberg、离线计算引擎Spark、YARN资源调度,以及Ranger安全管控和KMS存储加密等核心系统的开发与维护。在大数据存储、计算、安全合规和数据治理等方面积累了系统且丰富的一线实践经验。

从无到有:大数据技术的演进与生态框架

课程伊始,安老师从计算与存储能力的演进切入,结合经济学视角阐释了大数据发展的底层逻辑。他指出,存储与计算能力的指数级提升,推动了数据采集与处理边界的持续拓展,而只有当计算、存储能力增长的边际收益递增时,大数据技术的商业价值才能真正释放。

围绕大数据基础设施的核心架构,他系统梳理了大数据技术体系的演进路径:以HDFS分布式文件系统解决海量数据的分布式存储难题,以Mapreduce框架实现分布式计算能力的突破,以YARN完成计算资源的统一调度管理,三大核心组件共同构成了Hadoop大数据处理的基础框架。

安老师梳理大数据基础设施生态架构

在此基础上,他进一步讲解了Hive如何作为SQL与Mapreduce的中间层,降低大数据查询的使用门槛;Spark如何通过内存计算实现性能的大幅优化,成为主流的离线计算引擎;以及Hbase如何适配海量数据高并发读写的业务场景,完整呈现了大数据基础设施从底层存储到上层应用的核心技术链路。

价值变现:大数据在互联网商业场景的深度应用

随后,安老师结合业务实践,深入讲解了大数据技术在互联网场景的落地应用与价值实现路径。他详细讲解了互联网企业如何通过“埋点”系统,海量采集“谁、什么时间、什么地点、如何操作”等高维用户行为数据。在推荐系统中,平台会将离线计算的历史数据与Flink实时流数据相融合,提取特征后输入深度学习模型,从而进行精准的点击率预估(CTR)与内容分发。针对自动热搜榜单功能,安老师还特别科普了Elasticsearch(ES)及其背后的倒排索引原理,展示了如何在百亿级别的海量文本中实现毫秒级的极速检索,大幅提升了平台的流量转化效率与商业收益。

降本增效:智能计算平台的精细化管理与云原生实践

面对EB级别的海量存储、上万台节点以及每日近30万个并发作业,单纯依靠人工运维已显得捉襟见肘。安老师指出,借助Kubernetes(K8s)等云原生技术实现计算平台的自动化部署、弹性伸缩与故障隔离,已成为大型互联网企业的基础设施共识。在行业追求降本增效的大背景下,他分享了精妙的混合部署与弹性资源借还策略:利用在线服务在凌晨空闲时的算力余量,去处理大数据离线批处理任务,通过错峰调配极大地提升了整个集群的CPU利用率。此外,平台还通过基于历史任务画像的智能调优以及列式存储压缩等手段,大幅降低了内存占用与硬件开销,并正在稳步推进“湖仓一体”的现代数据架构演进。

安老师深入浅出地讲解大数据安全与密码学

坚守底线:数据安全合规与密码学实践

讲座最后,安老师结合自身负责的安全管控系统建设经验,系统讲解了大数据平台的数据安全合规与全链路数据治理体系。在安全合规层面,他梳理了大数据平台的三层安全防护体系:底层存储加密层面,详解了基于信封加密原理的密钥管理体系(KMS)以及ORC列式存储的指定列加密方案,平衡了数据安全与读写性能;中间层API加密实现区域级数据的全量加密防护;应用层通过Ranger权限管控与基于非对称加密技术的认证体系,实现用户数据访问的精细化管控。

同时他强调,加密算法的安全强度并非一成不变,需持续跟踪技术前沿与破解方法的迭代,做好多算法备份与应急方案。大数据基础设施与智能计算平台的建设,始终围绕“释放数据价值”这一核心,技术架构的迭代既要适配业务发展的真实需求,也要兼顾安全合规与成本效率的平衡。

课后师生合影

本次实务课内容详实、逻辑清晰,从底层技术原理到一线产业实践,为同学们搭建起了大数据技术与数字经济应用之间的桥梁。不仅拓宽了同学们对数字经济底层技术体系的认知边界,也为其后续开展数字经济领域的交叉实践提供了宝贵的参考框架与启发。



撰稿人:史高乐

审核人:王妍

返回顶部