上高金 | 肖京:人工智能未来要更像“乌鸦”
上高金 | 肖京:人工智能未来要更像“乌鸦” 上海交通大学上海高级金融学院 【MBAChina网讯】
近日,由上交大高金MBA学联金融科技俱乐部承办的SAIF Banker金融实践讲座之金融与科技系列第二讲:“智能+金融”探索与实践活动,邀请到了中国平安集团的首席科学家肖京博士为大家分享了人工智能的发展背景、“智能+”的实施路径以及平安集团的探索与实践等前沿领域的知识。活动现场座无虚席、干货满满,逾百位与会嘉宾共享了这场无与伦比的金融科技“盛宴”。
肖京博士,国家千人计划专家,卡耐基梅隆大学博士,现任中国平安集团首席科学家,集团执委,技术研究院院长。长期从事人工智能与大数据分析挖掘相关领域研究,多次当选重要国际学术会议委员会及中美国家基金评审专家委员会。
肖京博士先后在爱普生美国研究院及美国微软公司担任高级研发管理职务,目前在平安集团负责创新技术及产品研发应用,包括智能化大数据分析等技术在金融、医疗、智慧城市等领域的研发和应用。
人工智能发展背景
两年前,Alphago战胜了围棋世界冠军李世石,引发了一股“人工智能热”。实际上,人工智能在上世纪五十年代就已经发轫。英国的数学家图灵提出了一个人工智能的定义,后来也被称为“图灵测试”――如果一个人跟目标对话五分钟,70%的时间里难以判断跟他交流的是人还是机器,那么对面的机器就具备了人的智能。
从定义来看,人工智能是人造机器人模拟、延伸、拓展人的智能,它是自然科学与社会科学的交叉学科,涵盖计算机科学、心理学、社会学、数学等学科。从阶段来看,它可以分为弱人工智能、强人工智能和超人工智能,目前我们还只是处于第一阶段。它的计算智能已远超人类,但在感知智能、认知智能等方面,还达不到人的水平。
大部分人工智能算法都是有监督学习的方法。比如有两组图片,事先标出猫和狗,人工智能算法可以从中找到一些特征――这些特征可以是算法自动找,如深度神经网络;也可以人根据经验或知识来设计。然后,根据这些特征建立一个基于数学映射关系的认知模型,通过认知模型去打分。因此,当用它来识别一张新的图片时,如果猫的分数较高,那么这张新图片上大概率是猫。
还有一种是无监督学习,它不再需要人给出标签,而是通过对特征聚类等方法,区分不同类别的目标对象。无监督学习在异常检测方面应用较多。
回顾人工智能的发展历史,曾经历了“两起两落”,现在是第三次兴起。1956年,人工智能开始作为一门学科得到迅速发展,到2000年附近,互联网浪潮兴起并产生了大数据,加上算法和计算能力的提升,人工智能得以第三次兴起,并且真正开始产生商业价值,如搜索、广告等业务领域,这才真正有了持续的生命力。2016年,Alphago战胜李世石后,人工智能浪潮达到新的顶峰,并进入到人们的日常生活中。比如淘宝上很多用户的反馈是机器人写的,网上跟你聊天的很多也是机器人,女士们必备的修图软件也依赖大量的人工智能技术。人工智能已经从互联网行业进入到传统行业中,比如金融、医疗、制造,实实在在地产生商业价值,这才能给人工智能领域带来长久的发展。
不过,现在的人工智能还处于弱人工智能阶段,会“计算”但不会“算计”。拿朱松纯教授的话来说,它更像是一只“鹦鹉”,你怎么教它,它怎么学,但还不会自己观察并推理,甚至还不如“乌鸦”。日本一家电视台曾拍到一个特别有意思的画面:一只乌鸦特别爱吃坚果,但是嘴巴嚼得很费劲,它发现汽车经过会把路上的东西压碎,就把坚果丢到马路上,等汽车压碎了再吃;后来觉得来往车辆太危险,而车会被交通灯控制,于是它选择停在交通灯上,在绿灯时丢下坚果,等红灯车停下来时再去吃。乌鸦没有经过相关的训练,而是自己观察自己推理。未来人工智能至少要先能像乌鸦一样,会“算计”、会思考。
《未来简史》一书里曾描写了人工智能普及后,把人能干的活都干了,社会会出现一个“无用阶层”。不过也不用担心,美国一个研究游戏经济的教授认为,如果大家都失业了可以去玩游戏,供那些购买大量装备的有钱人取乐,听上去这种生活也不错。
“智能+”实施路径
过去20年,互联网产生了很多红利,提升了传统业务的效率,改进了用户的体验。然而,它还只是把传统业务转移到线上,创造了新的渠道,业务本身并没有做太多的改造,这种模式创新相对比较简单。
智能化转型比互联网化更复杂。智能化是技术上的创新,要在对传统业务流程非常熟悉的前提下先做信息化改造,实现信息流通,再完成数据化。信息流通后把业务流程的各个环节的数据沉淀下来,然后才能通过数据分析,最终实现智能化。因此,智能化绝不是单纯的技术问题。
传统企业的智能化转型需要满足很多要素:第一,要有技术、算法,计算平台、计算能力;第二,要有数据,实现数据化;第三,还要有场景,在实际场景中不断迭代,才能让智能化方案不断改进,最终真正发挥效用;第四,要有行业专家的指导,这样智能化改造才能有效解决实际痛点,而不仅是炫技;第五,要有自上而下的机制来协调推动。
智能化的实施应逐步进行,并不是一上来就用最复杂先进的深度学习就是最好的办法。第一步先利用来源于丰富专业知识和经验的确定性业务规则,这是传统企业最大的壁垒;第二步是统计分析商务智能(BI),比如用户分群、关联分析。有一个很著名的案例,沃尔玛超市通过分析发现买尿布的客户经常也会买啤酒,就把啤酒放到尿布旁边,确实卖得特别好。这也容易理解,一般新生儿的妈妈在家带孩子,爸爸去买尿布,这时候看到啤酒就可能会顺带买回家。然而大数据时代可用来分析的因子太多,会出现组合爆炸,另外还有“长尾效应”,很多时候因子饱和度有限,这样用商务智能可能效果就有限了。这时候就要进入第三步,利用更复杂的人工智能机器学习技术,从大数据中学习挖掘。对于结构化数据,我们可以应用传统的机器学习方法,和行业专家合作,设计提取特征,构建模型;对于大量的非结构化数据,我们可以应用深度学习技术,自动提取特征,实现端到端的学习。
当然,深度学习也有很多不足,比如只考虑相关性不考虑因果关系,Alphago告诉你棋子下在哪会赢,但不知道为什么,不具备解释性;也仅是分类不能量化,它告诉你能赢,但不知道能赢多少;并且过于依赖大数据。Alphago zero不需要大数据训练,是因为围棋规则明确信息完备,可以通过结合深度学习和强化学习,实现自我训练学习,然而绝大多数金融和医疗场景不满足信息完备等条件,因此模型精度还是依赖大量的训练数据,而这往往是很难获得的。因此我们需要改进深度学习的方法,实现可解释、可量化、小数据学习、可读写、自适应等能力。
迁移学习和生成对抗网络(GAN)等方法,都可以用来帮助解决小数据问题。当一个场景的训练数据很少,比如猪脸识别,建模效果有限,可以通过迁移学习借用从另一个数据充足模型精度高的场景学到的知识,大大提升模型的精度。GAN则通过同时训练两个模型,一个识别目标,一个伪装目标,两个模型同时训练相互竞争共同提高,最终在标注数据数量很有限的情况下,仍然达到理想的建模效果。
平安集团的探索与实践
1988年,平安以财产保险起家,今年正好三十周年。平安的战略目标就是要成为国际领先的科技型个人金融生活服务集团。
平安聚焦于大金融资产和大医疗健康两大方向,致力于在国际领先的“金融+科技”平台上,打造“金融+生态”模式。具体包括“五大生态”:金融、医疗、汽车、房产、智慧城市。底层的强大科技平台,包括人工智能、区块链、云计算、大数据、信息安全等创新技术能力。
整体而言,平安经过三十年的业务积累,在实现智能化方面有很多得天独厚的优势。比如说金融牌照齐全,每个细分领域排名领先,应用场景世界最全,行业领先的专家团队;拥有人脸识别、声纹识别、和风控反欺诈等先进算法,自营的平安云具备最全面最高等级的安全认证和高性能计算能力;积累了大量金融、医疗以及运营方面的数据,强有力的集团管理机制,长期经营综合金融形成的整体协同及高效执行力等。
基于以上理解及要素,平安建立了“平安脑”智能引擎,包括底层的大数据平台,中间层的画像脸谱及上述不同步骤的智能分析建模功能模块,及上层针对金融、医疗、智慧城市等不同业务场景的一系列解决方案。这些解决方案覆盖了平安业务的所有核心领域。第一是金融最核心的风险控制、欺诈识别,比如保险的风险定价、信贷投资的风控、反欺诈、监控预警、催收等;第二是获客,比如精准营销、交叉销售、向上销售等;第三,金融的本质是服务行业,服务质量的好坏决定了业务的成败,比如智能客服、质控、体验提升等;第四是运营,平安有180多万名员工,一年的收入逾万亿,1%的绩效提升意味着百亿的增收,人工智能算法可以帮助大幅提升运营效率,降低成本;第五是投研、量化、投顾等金融业务领域,以及疾病预测、健康管理、影像辅助诊疗等医疗业务领域,都可以通过智能化大幅提升效果,产生实际业务价值。“平安脑”智能引擎的上述能力已经被广泛应用于平安集团内外的各项实际业务场景。
以信贷审核为例,平安通过欧拉图谱建立了各个行业的规则模型和业务专题模型,用于全天候监控贷前、贷中和贷后各种风险,以便早期发现风险并及时采取相应措施,避免损失扩大化。
比如,贷前需要评估是否可以给企业发放*;贷中要对风险定价,决定*金额和利率;贷后要监控,比如抵押品是否贬值,企业是否有经营风险等;违约出现后要催收,通过定位人和资产,尽可能早地挽回损失。
在智能医疗方面,人工智能技术在平安也有很多应用,比如说影像识别,即通过医疗影像分析辅助诊断是否有病,病的严重程度如何,良恶性等。目前已经针对最常见的数十种不同疾病建立了模型并研发相关产品服务,可以覆盖五到六亿的国民,其中糖网筛查、肺结节检测定位、胃癌病理切片分析等多项技术在多次大型国际比赛中夺魁。
一般认为智能的高级阶段是创作。创作需要新鲜的灵感,而不是简单地从历史数据中学习既有的规律或模式。平安在音乐、绘画、写作等创作领域也进行了尝试,既提升了智能化技术水平,也有助于让平安的“金融+生态”模式更加丰富更加有生命力。
总而言之,以平安的探索和实践为例,人工智能技术已经可以帮助人类解决很多具体的问题,比如分析、分类、判断、预测、决策等,但目前在推理等方面还达不到乌鸦的水平。另外,乌鸦脑子的耗电量只有0.2瓦左右,而中国所有数据中心一年的耗电量达1000亿度,相当于整个三峡水库一年的发电量,说明我们的数据处理效率比乌鸦脑也差得很远,这也意味着人工智能还有很大发展提升的空间。