Wolfgang Karl Härdle教授1982年获得德国海德堡大学数学博士学位,现任德国柏林洪堡大学统计学教授及应用统计和经济学中心(CASE)主任。Härdle教授已出版、编辑或翻译专著四十余部,并在包括Journal of Royal Statistical Society, Journal of Econometrics等顶级的统计学和经济学期刊上发表过近百篇论文。Härdle教授的主要研究方向为计算统计学、非参和半参方法、部分线性模型,同时他还在保险、风险衡量等应用领域有诸多贡献。我院多次邀请Härdle教授来为我们的学生讲授蒋学模经济学讲座,与我们的师生进行了多次深入的交流和访谈,以下是对Härdle教授的访谈内容整理。
总策划:寇宗来
本期记者:徐小荷、王冰菱、孙沁竹、梁恩东
审核:韦潇
执行:季米
摄影、视频:新闻信息中心
出品:学科与人才办公室
01关于机器学习
Q1:首先,非常荣幸能够邀请Härdle教授再次来到复旦。回顾您之前关于机器学习以及金融科技的课程,您希望学生从中学到的最核心内容是什么?
Härdle:非常感谢。事实上,金融科技在本质上是超高维度且包括大量特征的数据问题,需要相关研究者投入精力开展密集的数据分析工作。正因此,我们需要借助机器学习或者更宽泛地说需要借助一种对超高维对象进行非参数逼近的定量方法,对金融科技问题开展讨论。我们课程的核心内容就是传达这种统计技术的适用性,尤其是明确现代数据科学中的哪些领域更适合研究人员做应用。
Q2:作为半参数和非参数估计方法的专家,您对机器学习和深度学习的算法持什么看法?为什么这些方法在80到90年代的应用中没有取得像今天一样的成功?
Härdle:机器学习和深度学习的研究方法其实很早就出现了,只是在过去大家并未这样称呼。就像现在每个人都在谈论电动汽车,但电动汽车早在约100年前已经在德国柏林生产了。机器学习、深度学习技术也是如此。举例而言,机器学习中的神经网络方法应用了逻辑回归和梯度下降法,其中的逻辑回归作为指数族的一员在很早就已经引入到了相应的研究中。正如你所提及的,机器学习和深度学习在80到90年代不能说没有取得成功。在那时候的统计技术同样有很好的发展,只不过现在相比于过去有了更多数据,得到了比之前更好一些的结果。
Q3:您在课堂上强调机器学习方法应该被描述为“算法”而不是“模型”。那您认为“机器学习算法”和“统计模型”之间的区别是什么?
Härdle:算法和模型是不同的,模型是基于一定假设前提的理论。在模型里,需要考虑到方程两侧变量如何交互作用、模型中是否存在混淆变量或需要工具变量等;相比之下,机器学习算法则是利用数学方法来校准研究者的备选模型,或者从数据中创建模型。
至于机器学习适合解决什么样的问题,我认为那些问题具有很高的复杂性和灵活性。比如说,牛顿定理解释了苹果坠落,背后是万有引力,这样的方程是相对容易校准的。但是当我们谈论社会制度时就要复杂得多,如政府关于税收或房地产方面的政策设计。这可能是机器学习方法能成功发挥作用的地方。
Q4:机器学习在经济研究中有哪些应用前景,能够帮助经济学家更好地解决问题?
Härdle:机器学习在经济学中的应用有无数种可能性。如果能有效应用机器学习方法,就有机会为政府经济决策提供关键的统计参考。然而,经济学家的首要问题是创建模型。我们需要进行深入的数据分析来创建模型。机器学习作为模型创建工具,可以对此提供帮助。
Q5:随着以机器学习为代表的数据分析技术发展,很多学科的研究范式也发生了变化。除了与传统科学以及工程学的融合,将大数据技术与传统社会科学相结合的计算社会科学也逐渐兴起。您对此有何看法?
Härdle:这个问题与之前的问题高度相关。我重申一下,机器学习是一种非参或半参数化的数学工具,只是取了特定的名称。学者关注的基本问题仍然没有改变,但机器学习为我们提供了更多数据分析方法上的洞察,例如哪个特征变量负载最好、哪个特征变量承载了最多的解释性信息等。现在的热门话题诸如夏普利值(Shapley Value)、可解释人工智能(Explainable AI)等,都需要进一步的研究。
02关于大数据时代
Q6:您关于《智慧数据分析》(Smart Data Analytics)的课程,您希望学生从中学到的最核心的内容是什么?
Härdle:这门课程之所以称为《智慧数据分析》,是因为我希望学生们利用自己的判断力,结合掌握的统计方法,通过解析性思维进行分析。我想让同学们熟悉数据代码、经济现实问题(比如评分,或时间序列的预测等)以及两者之间的关联。基于这些知识,同学们能在未来的职业生涯中独立开展数据分析。
Q7:有些人可能认为所有的经济现象都可以用数据来描述。您如何看待大数据对计量经济学的影响?以及在大数据时代,您如何看待统计与计量经济学之间的关系?
Härdle:在我看来,经济学面临的最大挑战实际上是我们人类在时间和空间上的异质性。与物理学中牛顿的苹果、或其他自然科学实验不同,经济学的观测数据永远不会在时间和空间上保持独立同分布。我无法想象我的祖母每天在购买面包、牛奶和黄油时都有相同的偏好。因此,由于无法观测独立同分布的世界,微观经济理论无法通过数据分析技术得到本质的证明。当然,如果我们转而关心群体性的行为偏好等,有些大众现象(mass phenomenon)可以通过例如社交网络中表达出的情感或语调等信息来识别。在关于新闻造假、以及分析新闻流中的文本情绪问题上,使用的都是相同的数学技术。像这些大众现象可以通过如马尔科夫链等机器学习技术进行创建和识别。而我在复旦开设课程中,也介绍了使用机器学习方法来分析假新闻的案例。比如之前关于美国前总统特朗普推特流的分析,我们就是利用马尔科夫链去检验的。
Q8:随着大数据在金融领域的广泛应用,金融科技时代会发生哪些变革?传统金融统计存在哪些不足?大数据时代风控需要做出哪些应对?
Härdle:这是未来实践中的一个非常重要的问题。随着金融科技的数据池不断扩大,首先出现的问题就是滞后性。如果仅考虑收集数据的过程,滞后性的问题并不严重;但比较重要的问题是,在可接受(较短)的时间内处理数据。获取数据并且在短时间内处理完毕,目前变成了IT从业者和客户之间的交互问题。今天的移动端客户中有很大的青少年群体,他们的耐心不高,想在按下按键后立刻得到答案。中国金融科技的发展程度能够有效提供即时反馈,这令人钦佩。因此,我们需要有受过良好教育的数据工程师,能够有效地将计算机科学、统计学、经济学和现代数据科学等融会贯通。事实上,这也正是我们在复旦的这门课程中希望做到的:培养未来的数据工程师。
Q9:正如您说的,金融科技正在改变我们的世界。在您看来,它将给社会信用体系建设、生态发展、城市创新带来哪些机遇和挑战?以及我们该如何应对?
Härdle:我完全同意金融科技对世界的变革之大。事实上,金融科技也正在挑战我们的道德体系。每个国家或地区都有自己的数据保护规则,也可能会有数据保护理念和技术解决方案等。本质上说,金融科技在全球各地的发展模式各不相同。因此,金融科技对时代的改变的确是全球性的挑战。但尽管各国情况不一,我们需要更长远看待这个问题。也许某类“社会团体”能够控制甚至扩大数据池,不仅有助于本国的成员,同时有利于邻国成员的利益。所以金融科技确实会改变我们未来金融服务的方式,但它更会挑战我们的道德体系。金融科技未来的发展前景还有很广泛的可能性。
Q10:您如何看待中国的金融科技发展?
Härdle:中国在这一点很先进。更详细一点来说,几年前我们参观了深圳的微众银行技术中心。我们对微众银行的技术水平、客户了解水平、技术工具应用等方面的印象都非常深刻。如果其他国家愿意复制中国在这一方面的成功经验,对世界各国来说都会有美好的未来。例如基于社交网络的评分或数字支付工具的使用,在中国可以在移动端轻松搞定,但是在其他国家这是非常复杂的。我欣赏中国这样出色的系统。
Q11:2021年的诺贝尔经济学奖颁给了“基于因果推断方法的实证研究”,您能在这里解释一下什么是因果推断以及有何贡献吗?另外,这一实证研究方法对于我们考察当今全球复杂的经济现象有何影响呢?
Härdle:谢谢,这是一个紧跟时代的问题。对于经济学中的因果推断问题,包括我在内的很多学者在八九十年代已经对此有所研究。我和英国剑桥大学的Oliver Linton、以及清华大学的杨立坚教授,在90年代写了很多关于局部线性模型的论文。经济学科中有很多大量这种奇妙方法的研究,结合了模型复杂的非参数部分与低参数表象。所以从技术上讲,因果推断大约在上世纪30、40年代就存在了。但正如几何数学家Peter Scholze所说,每隔30或40年,一些旧理论都会被重新阐述并延伸下去。那些19世纪的数学家和统计学家们的基本思想,仍在推动21世纪的科学发展。
03个人研究和未来建议
Q12:您如何界定与认知自己的身份,是主要作为统计学家,还是数学家、经济学家?是什么促使您从理论统计学转向金融统计研究,现在又成为机器学习领域的专家?对您而言,职业领域转型中最大的挑战是什么?您对我们学生以及刚起步的年轻学者有什么建议吗?
Härdle:我的学术身份当然取决于自己身处什么场合,但也取决于我所处的职业阶段或职业平台。在我学术生涯的起步阶段,我的学术身份其实是一名成熟的理论数学家。我希望撰写有关数论或代数理论领域的博士论文,但我的第一份工作实际上是研究生物统计。我需要对幼童的脑电图进行统计分析,并用谱分析等频率分析技术对儿童的行为进行分类。通过这种方式,我熟练掌握了一些统计软件,了解了快速傅立叶变换等数学工具……这些都是我以前从未听说过的。我的下一份工作是在一家数理经济学研究所上班。这家研究所希望开展数理经济学领域的系列研究,但缺乏熟悉数据分析的学者。于是,我被聘为该研究所的数据科学家,我也了解到生物统计学里的逻辑回归或二元响应模型等在经济学术语中有对应的名称(离散选择模型)。二者采用相同的极大似然法进行估计,背后的核心都是数学。有句名言说:“数学既是科学领域的王后,同时也是科学领域的仆人。”(该名言出自Eric Temple Bell于1951年出版的书)我认为你应该这样看待这个问题。对于数据科学家来说,从一个研究领域转移到另一个领域其实不难。当我在柏林洪堡大学的经济风险研究中心就职时,我们正研究神经相关数据用于经济分析,用所谓的磁共振功能成像(FMRI)处理风险感知投资决策(RPID)任务。这里的问题是:投资者的大脑如何处理信号?比如,当你在浏览器上看到雅虎财务曲线时,你会不会购买雅虎的股票?你会去承担投资风险吗?对我来说,我的研究方向其实并没有转换。有一位柏林的银行从业者向我寻求咨询,希望我们分析动态隐含波动率等。这也许这就是我成为金融科技研究者的契机。我经常受邀来谈论金融中的数据科学。其实我只是在寻找真相:寻找数据的结构特性,使我成为了一名数据科学家。
Q13:您使用的课件来源于由您的团队创办的网站Quantinar。该网站拥有丰富学习资源,您能否介绍下这个网站创办的经过、为什么要创办这个公开课程知识平台以及平台上知识点的学科领域等。
Härdle:我们与施普林格出版社(Springer)的合作已有二三十年。20年来,我们与该出版社合作出版的所有书籍上都有一个代表Quantlet的logo。如果你每次遇到Black-Scholes方程或积分方程求解都要重新编写一次代码,这不仅麻烦、也容易出错。而我们开设的网站Quantlet(quantlet.com)目的正在于:提供一个透明的、垂直化的知识空间,其中不仅包含课件讲义,也包含了我们团队与施普林格出版社合作的书籍资料。书中提供了一个网页链接,网页中托管了相应程序代码,这就是Quantlet的网站结构。20多年前,我们把这个网站称作Explore(“探索”),希望表达的是“探索性回归分析”的含义。而你所提到的Quantinar一词,是数量分析研讨会(Quantitative Seminar)的缩写。Quantinar网站是在新冠疫情期间开发出来的,但该网站的基本思想早已存在于早先的Explore网站中。这一思想被称为“自动导航支持系统”(Autopilot Support System,APSS)。事实上,我们与施普林格合作的所有书籍都被转换进入了我们的网页上。在那里,用户可以通过Java客户端浏览代码并复现代码实例。Quantinar网站是由我的博士生Raul Bâg以及格拉斯哥大学的陈怡璇(Cathy Yi-Huan Chen)教授共同推出的,我们团队在网站上开发了一些核心课程,其中一门课程与我本次在复旦大学讲授的课程近似,名为《数量经济决策分析》(Digital Economy Decision Analytics,DEDA)。利用Quantinar网站,用户可以非常灵活地组合短课程,从而建立自己的课程体系。目前,该网站还处于推广阶段,因此我们不会对知识进行收费、而是无偿提供给学习者。但我们计划在未来将该网站放在区块链上。用户如果上传了学习资料或编写了代码,就可以获得一些代币,而下载知识资料则需要支付代币。对于未来的区块链部署而言,我们的网站已经完全成熟。我们还可以基于该网站创建其他一些课程,如聚类分析(clustering)、金融市场统计、金融计量经济学等,Quantinar内部的短课程和知识代币可以涵盖现代数字金融和金融科技中所有有趣的内容。
Q14:您如何看待经济学中理论与实证分析之间的关联?很少有研究能将理论分析与实证检验结合得很好,您认为什么样的研究是好的研究?
Härdle:在我学术生涯启航的时候,有一个重要的研究主题叫做“从数据中学习”。也即,你必须利用数据本身的特性做判断,从数据特征中推断合适的模型。同时,模型也能告诉研究者应该采集哪些数据、数据分析的局限性在哪里。当然我们无法指明:好的研究究竟是偏重理论还是偏重实践。在我看来,研究是一项日新月异的工作,因为数据一直在发生变化。不仅数据本身存在不平稳性,模型本身也会有改进。因此,研究的深层理念是“所见之物”与“如何解读”之间的互动平衡,也可称为“数据”与“模型”之间的“竞争”。在研究中,我们必须始终在这两个研究要素之间保持非常好的平衡,这两种要素都将推动我们的学术研究与社会向前发展。
Q15:您在教学生涯中培养了数十名优秀的博士生,也与许多来自中国的青年才俊建立了稳定的学术合作关系。请问您最欣赏学生哪方面的科研品质,更愿意与什么风格的同行开展合作?
Härdle:好的,让我先简要回顾一下我的学术道路和研究思路。我很幸运能涉足非参数平滑或非参数回归这个研究主题,这一领域的研究在模型分析和数据使用上都有发展潜力。在35岁时,我十分幸运地在比利时获聘全职教授,然后又前往柏林洪堡大学任教。我也曾受聘在斯坦福大学和北卡罗来纳大学教堂山分校担任教授,所有这些职位的工作内容都在于聚焦数据与模型之间的相互作用。我与中国学者邂逅的第一个研究场合是“经济过程量化与模拟合作研究中心”(Collaborative Research Center of Quantification and Simulation of Economic Processes)。这个研究中心旨在研究东西德之间的经济协同性和趋同性,以及数十年来欧洲的发展变迁。我有幸在其中领导团队研究“经济风险”问题。对中国学生来说,接触大量来自美国的英语学者无疑是很有帮助的。以下是我仅向年轻的中国学者、特别是向教导这些后辈的中国教师们提出的建议:要多采用英文教学与讨论方式。只有这样才能创造出一种与国内本土教学完全不同的学术氛围,才会有更充分的互动精神。
Q16:对于那些有志于从事计量与机器学习研究的同学来说,是否具有数学或计算机专业背景的同学相较于经济学专业背景的同学更能取得进步?那么,对于经济学专业背景的同学而言,如果有志于从事计量与机器学习研究,应当怎么做才能提高更快?
Härdle:这是个有趣的问题,但有必要根据不同国家的不同培养项目和培养方案分开讨论。以荷兰为例,他们有很棒的应用计量经济学项目,那里的每个计量经济学家几乎都称得上是计算机科学家或数学家。美国也有这样的项目,这取决于你在哪所大学。但我相信你对中国的情况更感兴趣。未来的发展难以预测,但一个学院总会有更偏重理论或更偏重实践的趋势。我们需要反思与把控这样的问题:我们究竟希望培养什么样的学生?他们的职业生涯是否成功?在对你的问题提出明确建议和答案之前,教学机构必须对学生们的职业生涯稍作跟踪。就我开设的课程来讲,我可以说大家都很喜欢这个课程(至少就我在午餐时听到的而言),因为它在某种程度上填补了知识领域的某个空白,至于这个空白是什么,就留给你们自己来总结吧。
Q17:您很看重课堂上与同学们的互动交流,一直在努力用生动有趣的授课风格使同学们保持专注、跟上您的节奏。您觉得同学们在课堂上的互动是否重要?大部分课堂教学是不是都应该要求同学们积极参与讨论?
Härdle:我认为,学习必须充满乐趣,而正如你所言,乐趣可以来自于玩笑等。通过乐趣,你可以跨越某些难关,同时又不必太枯燥地执着于钻这些难题的牛角尖。你可以随时回到正题上来。这意味着我所做的不仅仅是互动式教学。我有点像是先向前跳跃了一大步,然后又跳回来,之后反复跳跃,这样你就不会只看到课程讲义和编程中的线性结构,而是能看到事情的全貌。你不仅能对知识有“深”入的理解,还能对我们正在讲授的主题有更“广”阔的视野。这就是为什么我喜欢有这样的互动,这是为了确保每个人都在同一水平线上。我非常相信,在工作中团队合作、产生协作成果是实现卓越的途径。
04彩蛋部分
Q18:您曾多次来访中国,也对中国的文化、饮食等充满了好奇与热爱。请问您曾在中国经历过哪些有趣的事?对中国的热爱源于什么?
Härdle:这个问题问得好。我也说不清自己是从什么时候开始喜欢上中国文化和中餐的。我来自德国黑森林地区的一个小城市,那里并没有中餐馆。我第一次去中餐馆大概是在19岁。从那时起,我越来越喜欢中国菜。我和我的中国朋友会一起做中餐,在家里我也会做北京烤鸭等中餐。我有所有必要的厨具餐具,包括中式的碗筷等。我们时不时就换换口味,做一些中国菜。我喜欢中国的一点是,尽管面对无处不在、无时不在的客观挑战,但她总是展现出极强的韧性。中国对推动科学和社会进步怀有浓厚的兴趣。虽然我有时会对遵循所有的行政程序感到无聊,但最终还是会有很多热心人提供帮助。我很高兴能经常来到这里,希望明年还能再来。
Q19:在中国的美食中,您尤其喜欢羊肉,甚至认为自己“可以一天三顿都吃羊肉”。这是为什么呢?
Härdle:说到羊肉,这就像问你为什么喜欢清晨7点钟的阳光胜过8点钟的阳光一样。很抱歉,我无法回答,这是个人口味的问题。
下面是对于听课同学的提问。21级国际经济与贸易专业本科生左晓蕊同学在课程开始前与Hardle教授建立了良好的邮件及线下交流互动,受教授邀请旁听学习参与课程,给教授留下了深刻印象。采访人在此请左晓蕊同学谈一谈她的听课体验。Q1:可以向大家介绍一下自己吗?
答:大家好,我叫左晓蕊,是复旦大学经济学院国际经济与贸易专业的本科生。我的研究领域是自然语言处理在产业经济学和国际贸易中的应用。我也在做一些资产定价方面的研究。
Q2:你的兴趣点与研究领域和这门课程有什么联系呢?
答:正如我刚才提到的,我的研究领域基本上都是关于人工智能的,而这门课程主要关注的是各种算法背后的方法论,所以这也是我选修这门课程的原因。
Q3:你在课程中学到了什么?你是否能将本课程讲授的知识运用于自己的研究主题?
答:我认为,这门课程对于我进一步了解自己的研究领域非常重要,因为我曾经使用过各种算法包括人工智能方法等,将它们应用于经济问题,但它们对我来说就像一个黑箱。我不知道算法内部到底发生了什么,同时我也不知道这些人工智能方法、神经网络方法背后的精确细节。但通过这门课程,教授帮助我打开了这个黑箱,解释了其中的机制,这样我就能更好地理解自己的研究了。
Q4:最后一个问题是个私人问题。Härdle教授给你留下了什么样的印象?
答:我认为他是一位很棒的教授,具有很强的人格魅力。在课堂或研讨会上,他就像一位科学家。他非常关心研究的过程、细节和算法。他很勤奋,对所有学生的研究内容都很负责地倾听与建议。而下课后,他更像一位艺术家,谈论歌剧、交响乐、绘画,以及雕塑中的光与影。他很容易就给学生们留下了深刻的印象。
Q5:你们对贝多芬也有共同的兴趣,是吗?
答:是的。贝多芬是我的榜样,我听他的音乐已经有十多年了。
Q6:作为助教,我必须承认,你是我们课程中很优秀的学生之一。非常感谢你全程参与这门课程。
答:感谢你的积极评价,这令我备受鼓舞。