商汤的人工智能:AlphaGo低调的中国同行
“人工智能一下子火了起来。”徐立感慨说。35岁的徐立是商汤科技(Sense Time)的CEO,也是一位计算机视觉的科学家。
以前,徐立布道“深度学习”、“人工智能”、“DeepMind”这些名词,客户常常不知所谓。谷歌(Google)旗下Deep Mind公司开发的人工智能程序AlphaGo击败韩国围棋高手李世石之后,客户纷纷主动询问合作机会,“PPT中的大量专业词汇,AlphaGo用5盘围棋全普及了”。
2014年,徐立和学术同行联合创立商汤科技,目前核心业务是机器视觉服务,包括图像视频的处理和理解、人脸识别,其技术基础就是与AlphaGo同源的深度学习。这家低调的创业公司,已在不知不觉中渗透进多数人的生活。
领先一步
对徐立而言,AlphaGo赢得比赛并不意外。
过去两年,但凡介绍深度学习,他都会谈及AlphaGo的“造物主”Deep Mind公司——2014年谷歌耗资4亿英镑收购的一家英国公司。“Deep Mind才12名员工,创始人是一位国际象棋冠军,没有具体产品,只从事深度学习的游戏研究,要花4亿英镑,当时业界震惊了。”
每与人谈及这宗收购,徐立听到的多数评价是“谷歌就会乱花钱”。然而,业内学术权威Yoshua Bengio教授当时评论:“深度学习领域内约有50名真正内行的专家,其中12人在Deep Mind,谷歌买的是未来。”AlphaGo证实了Deep Mind的价值。
所谓深度学习,某种意义上是对人脑神经细胞的模仿,人脑拥有大量相互联系的神经细胞,细胞间彼此传递神经刺激,而运算过程并非一步到位,是从一个层次到下一个层次计算复杂事物,用计算机模仿该过程,就形成深度学习,其本质是一种人工神经网络,擅长在大量数据基础上进行判断。
历史上,谷歌曾进行过一个“猫脸识别”的实验,建立一个有10亿个节点的神经网络,让其“观看”大量视频,人工大脑自主“学会”了识别猫脸的技能。此前没有预先编写任何程序告诉计算机什么是“猫脸”,完全通过海量视频和数据分析猫脸的特征。
深度学习的技术渊源,可追溯至上世纪80年代,受限于运算能力以及数据量,在学术界长期处于边缘地带。2006年后,由于IT技术的进步,其学派开始崛起;随后,微软人工智能首席科学家邓力(Li Deng)将其应用于语音领域,并取得重大突破,邓力及其合作者在2009-2010年间开发了一套算法,迅速将语音识别的准确率提高到一个新量级,一大代表性成果即全自动同声翻译系统,可实时把英文演讲翻译成中文并以中文语音输出。
“这项研究改变了人工智能的产业现状,引爆了学术界,深度学习马上成为大热点。”徐立评论说,“大量研究开始朝着深度学习方向迅猛推进,像推火车一样,技术应用不断拓展,计算准确率大幅度提升。”2013年,《麻省理工科技评论》(MIT Technology Review)将深度学习列为世界十大突破性技术之首。
据徐立介绍,深度学习目前主要应用于三大领域:语音识别、自然语言处理(代表性例子是“微软小冰”)以及计算机视觉。2010年前后,徐立当时是香港中文大学的博士后,与汤晓鸥教授等香港中文大学多媒体实验室的师兄弟多有接触,后者是深度学习在视觉领域应用的先驱。
其中,颇具说服力的成就是,在CVPR、ICCV和ECCV三大计算机视觉学术会议上,前3年有关深度学习的29篇文章中,有14篇出自香港中文大学多媒体实验室,其团队后来成为商汤科技的骨干研究力量。可以说,在深度学习与计算机视觉刚刚联姻时,正是学术方向的明智选择以及强执行力,成就了商汤科技现在的商业价值。
直到现在,商汤科技也保持着浓厚的学术色彩,其人才团队中有不少来自MIT、斯坦福、香港大学、香港中文大学、清华大学等高校及其实验室,以及谷歌、百度、微软、阿里巴巴等产业界的领军人物,其中包括5位微软研究奖获得者(Microsoft Research Fellow),两位A-star(阿里星人才计划),聚集了华人世界中一批深度学习和计算机视觉领域专家。200余人的公司中,拥有50多名博士。
“商汤的很多科学家非常抢手,我们提供的工资并不比业界巨头高。”徐立向《二十一世纪商业评论》(下称《21CBR》)记者解释说,“这些科学家愿意过来,是因为我们真心相信,在人工智能这样的关键领域,中国原创科技完全有机会走到世界前列。”
全球第一
现就职于谷歌的Geoffrey Hinton被誉为深度学习领域的开山鼻祖,2010年在语音领域实现突破后,他尝试将深度学习引入到视觉图像领域,于2012年参加ImageNet竞赛。
ImageNet竞赛是人工智能领域的权威竞技场,斯坦福华裔学者李菲菲(Feifei Li)为视觉领域收集了大规模的“图像分类和物体检测”数据集。该数据集最初包括一个1000类图片分类的任务,后面又增加了200类静态图片物体检测任务。
Geoffrey Hinton第一次使用深度学习方法,就将图像分类的准确率提升10%,这在过往要耗时数年才能实现。此例一开,但凡在计算机视觉领域要证明自身实力,参加ImageNet竞赛几乎成必选项。
2014年9月,商汤科技联合创始人邱石博士等人首次出征ImageNet竞赛,在大规模物体检测比赛中以40.7%的成绩荣获世界亚军,成绩仅次于谷歌的43.9%。
2015年,ImageNet竞赛新增一项视频物体检测的任务。视频是连续的图像,比静态图像中的物体检测复杂度更高,商业价值也更高。举例来说,一旦将视频中的所有物件识别出来,品牌商就可按物体搜索,进行定向的品牌植入。
在该项新任务的比拼中,赛事主办方选择了30个类别的物体,商汤科技联合香港中文大学多媒体实验室组成的团队,在28个类别中准确率最高,第二名只赢了两个;商汤科技整体62%的准确率,也远高于第二名51%的准确率,最终商汤科技以11%的压倒性优势领先并夺冠。
按照徐立的解释,ImageNet比赛的成绩,取决于三大要素:
首先最核心的是“造脑”能力,脑子造得聪明与否,决定最后运算结果,造脑能力也是评价一家公司是否有人工智能核心技术的关键。谷歌收购Deep Mind团队,脸书(Facebook)招募学术权威Yann LeCun等人,百度聘请吴恩达(Andrew Ng)担任首席科学家,本质上请的就是“造脑的上帝”。只要人工网络的设计胜出一筹,在搜索等业务场景中将带来巨大的商业利益,而商汤科技研究团队的高占比,正是因为其将“造脑”列为第一要务。
其次是数据,数据量越大,运算结果越准确,由于ImageNet主办方也提供了限定的训练数据集,该项条件对于参赛者是平等的。
再次是超算能力,这是由大数据处理的需求所决定的,只有计算能力较别人快,才能测试更多的算法模型,从中遴选出最佳算法。商汤团队刚成立时,一开始没有 GPU集群,往往要等1个月才能验证一个结果。在2014年5月,在吴恩达的主持下,百度构建了当时世界最快的超算平台MINWA,实现144个GPU连接。但现在,商汤科技已建设的深度学习超算平台DeepLink,200块GPU的连接为全国最大,以前耗时1个月的运算,现在只需5-6个小时即可完成。
ImageNet竞赛的夺魁,证明了商汤科技在两大领域的实力,“第一,我们脑子确实造得好;第二,超算平台能力强。”徐立相当自豪。
掘金“人脸识别”
深度学习过于抽象,对普罗大众而言,商汤科技最易理解的标签之一就是人脸识别技术。
2014年下半年,投资机构IDG主动找上门,游说香港中文大学多媒体实验室的骨干创业,徐立等人当时在业内已相当资深,为什么舍弃学术追求而创业呢?
“从学术上转换成工业应用,本身是一种责任。”徐立解释说,此前,香港警方曾向其团队寻求帮助:一些高速行使的逃逸车辆,监控录像过于模糊,希望他们恢复出逃车辆的信息,香港警方愿意为服务埋单。这种实践给予了团队巨大的成就感。事实上,计算机视觉领域的“四大天王”(即前文所述的Geoffrey Hinton、Yann LeCun、Yoshua Bengio、吴恩达)中,就有3位投身产业。
2014年10月,商汤科技团队正式成立。创业伊始,团队的主要精力是将学术成果转化为商业性解决方案,2015年上半年一直忙于深耕产品,而随着人脸识别以及图像处理的需求日渐旺盛,在 2015年6月份,公司业务开始爆发性增长,商汤科技的商务团队起初不过四五人,在公司忙于接待问询的客户,直到2015年底,才开始有针对性地开发行业客户。现在商务团队的负责人此前任职IBM Watson Health 大中华区事业总监。
由于商汤科技主要从事B2B业务,多隐身于幕后,一直未为人所知,实际上,其服务客户量早已达亿级规模。
小米是其合作商之一。2015年8月小米推出操作系统MIUI7,其中发布的宝宝相册,正是联手商汤科技共同打造的新卖点。小米云服务负责人范典告诉《21CBR》记者,宝宝相册中采用的人脸识别技术,主要在于三个核心算法:一是检测图库中的同一张脸,二是识别这张脸的特征,三是聚类相同的脸孔。
“在这个过程中,我们要确保用户隐私,绝对不能泄露任何数据,这是个挺大的工作量。尽管我们自研算法,但希望做出来的产品是一流的,所以全方位评估了超过10家公司后,最后决定将‘人脸识别’,就是数据特征这部分交给商汤来做。”范典说。
在线金融搜索服务平台“融360”的CEO叶大清也告诉《21CBR》记者,人脸识别技术发展至今,系统识别准确率已经超过了人眼的识别。换言之,技术胜于人类识别。在叶大清看来,这正是金融行业所需要的——人工智能应用于金融行业,可进行反欺诈,识别骗子,提高效率,降低风险。
因此,2015年5月,融360联合商汤科技推出名为“天机”的风控系统,从用户身份认证、还款意愿和还款能力三个大维度,进行信用评分,再根据分值向放贷机构提出放款建议。 据称,分值足够的用户,申请5万元以下的小额贷款,10分钟便可完成审批,最快当天放款。
同时,叶大清认为,新技术是推动普惠金融发展的重要动力,“我们总说普惠金融,为更多人提供金融服务,这是普遍性;而价格降下来就是‘惠’。长期利用技术能降低贷款利率,这是毫无疑问的。从这个角度来看,人脸识别技术,大数据风控技术,有可能降低融资成本,提高融资效率,推动普惠金融发展,帮助更多需要金融服务的老百姓。”
在徐立看来,深度学习近几年之所以流行起来,在于它为行业提供了新的解决方案。“现在深度学习很强大,以至于一套解决方案可以适配到各个行业中去。它是一个万能钥匙。”
据徐立介绍,现阶段商汤科技主要布局以下几个领域:
第一大领域是移动互联网,其客户包括小米,华为Mate 8发布的智能人脸相册,美图公司的人脸检测器、人像美容等。之前刷爆朋友圈的图聊软件Faceu、Snow等,采用的也是商汤科技的算法。这些产品应用,每个均涉及千万量级以上的客户。
值得一提的是,商汤科技还与中国移动在线公司缔结了战略合作关系,后者实施的3亿用户实名制计划,就依托于商汤科技在OCR人脸识别领域的技术。
2015年中国移动全面实行实名认证,主要通过身份证OCR识别(Optical Character Recognition,光学字符识别),以及人脸识别两大技术实现。在去年中国移动的两项公开招标中,商汤科技最终在数十家竞标公司中胜出。
“在竞标过程中,商汤科技提供的技术模块有三个方面的特点:算法识别准确率最高;能够满足客户在不同场景下的图像识别;在最短时间内,利用数据针对实用场景开展了人脸识别训练。”中国移动在线公司实名制认证负责人王强鑫告诉《21CBR》记者。
王强鑫表示,通过人工智能技术完成身份核实和实名认证,不仅降低身份防骗防盗几率,解决了安全性问题,也因为系统自动处理服务,为客户带来很大的便捷性。王强鑫透露,后续与商汤科技合作中,计划在10086视频客服等其他数字服务领域全面应用刷脸识别技术,为客户提供更加便捷和安全的服务体验。
而包括视频和静态图像在内的安防监控,正是商汤科技发力的第二大领域。2015年,商汤科技与安防企业东方网力共同设立公司,以视频监控系统、安防软件、大数据为基础,共同打造智能交通管理系统。
东方网力总经理赵永军表示:“视频技术作为视频的拓展,在平安城市中经过多年磨合,加上互联网技术的发展,视觉感知正在发生质变,技术和商业模式的探索将不断涌现出新的形态。”
的确,人工智能也为视频行业提供了新的模式和方案。今年年初,网络红人Papi酱火遍互联网时,再次推动了视频行业的发展。视频行业“新贵”小咖秀事业部总经理杨旭向《21CBR》记者透露,在多番评估测试后,小咖秀选择联手商汤科技,探讨如何结合人工智能,打造视频的新玩法。
商汤科技布局的第三大领域是互联网金融,其合作伙伴包括银联、京东金融、招商银行等,涉及真人检测、身份证、OCR等业务。
除了前文提及的融360,另一家合作伙伴“借贷宝”也采用了商汤科技的算法。借贷宝副总裁翁晓奇透露,其肖像认证系统采用了商汤科技的平台,用户不需输入银行卡密码即可进行身份认证,“在APP为用户肖像采集一张照片,再和公安部提供的身份证照片进行比对,我们每天有几十万人通过这种活体的肖像认证,目前是全国最大规模的肖像认证技术实践。”
实际上,商汤的技术曾一度遭到业内怀疑,“有同行误以为我们后台雇佣了大量人员进行人工甄别,实际上完全是大数据处理的成果,我们的技术储备超过了很多同行的想象。”徐立解释,在国内的人脸识别或图像处理等垂直应用市场,商汤科技固然存在竞争对手,但是同行多是根据现有算法从事应用场景的研究,“我们还没有看到跟我们一样,专注于核心的造脑和超算能力的布局。严格意义上,很多同行其实是我们的下游,彼此应有更多的合作”。
商汤科技团队希望对标的,是谷歌、脸书这样从事深度学习研究的公司,徐立说:“谷歌和脸书现在均未提供企业级服务,这是我们巨大的机会。”
- 标签:
- 编辑:崔雪莉
- 相关文章