只要你是在改变世界,那么你就是在从事伟大的事业。每天清晨起床都会兴奋不已。
——拉里·佩奇
人工智能狂想曲
在20世纪60年代的科幻电影《2001太空漫游》中,美国导演斯坦利·库布里克描述了他幻想中的未来世界:宇宙飞船徘徊在外太空,人们试图在星空中寻找生命的起源;一部叫“HAL9000”的高智能电脑,成为帮助人类开启与世界对话的重要工具;电影配乐是奥地利著名作曲家约翰·施特劳斯的《蓝色多瑙河》,当优雅瑰丽的音乐响起,人们发现原来冰冷的外太空竟也可以谱写一曲浪漫的交响曲……这些场景,正是人们在数十年前对未来世界的构想,驾驭飞船和对话机器人,则是人机交互的完美理想。
事实上,当这部电影在1968年上映时,人类还没有真正登上过月球(1969年,尼尔·阿姆斯特朗随阿波罗11号宇宙飞船登月,成为第一个踏上月球表面的人类),人工智能(Artificial Intelligence, AI)也不过是科学家仅仅提出10年的概念——20世纪50年代,美国科学家企图凭借计算机技术生产出一种以与人类智能相似的方式做出反应的智能机器,而随着60年代美国另一部科幻系列电影《星际迷航》的上映,无数狂热的科技爱好者开始投身于这项研究中,并将之视为终身事业。
人工智能的发展并非一条坦途。这项技术以人的器官感知为基础,包括“看得到”的计算机视觉、“听得到”的语音识别、以“理解”为基础的自然语言处理等。尽管这听上去十分美妙,科学家也以为计算机诞生后的数年内人工智能就能实现,但现实却有些残酷。几十年过去了,尽管计算机的运算速度已经提升到每秒数千万次,IBM公司研制的深蓝计算机在1997年5月战胜了国际象棋大师卡斯帕洛夫,科学界也提出试图复制人类大脑的蓝脑计划(Blue Brain Project),但是,人工智能的难点仍在于“训练”一台机器拥有人类的思考方式、思维逻辑甚至情感。从这个角度上看,真正的人工智能貌似还遥遥无期。
不过,近年来的一些迹象似乎让人工智能的苗圃绽放出希望之花——一方面,大数据的爆炸式发展让人们对机器研究获得了更多的数据积累;另一方面,世界顶级公司也不断投入重金推动人工智能研究:2014年,IBM公司承诺拨出10亿美元使认知计算平台Watson商业化;谷歌连续收购8个机器人公司和一个机器学习公司;Facebook(脸谱网)聘用人工智能学界泰斗燕乐存(Yann LeCun)创建自己的人工智能实验室……这让人工智能理想的实现有了极大可能。
计算机视觉、机器学习、语音识别、自然语言处理……成了巨头们的新角斗场。视人工智能为终极目标的谷歌,则在“秘密”实验室里云集了数百位科学大咖。赵勇、李志飞即出于此。
格灵深瞳创始人赵勇,在回国前是美国谷歌研究院高级科学家(senior research scientist),曾被“雪藏”在Google X(谷歌秘密实验室)里进行了3年的专项研究。他在美国学习、工作11年,获布朗大学计算机工程系计算机视觉方向博士学位,并曾在NVIDIA、三菱电器、爱普生、HP实验室工作。而他让很多中国开发者知道则是因为他所从事的一个项目,用赵勇的话说,现在这个项目变得“有点”影响力了——这就是谷歌眼镜(Google Glass)。
另一位知名自然语言处理专家李志飞,博士毕业于美国约翰·霍普金斯大学语言语音处理实验室(CLSP),是谷歌手机离线机器翻译系统和学术界主流开源机器翻译软件Joshua的主要开发者,他曾在国际一流会议和杂志发表30余篇论文,获国际计算语言学协会(ACL)最佳论文提名奖。他先后任职于美国微软研究院和美国谷歌研究院,从事语音识别、自然语言处理、机器翻译、手写识别等领域的核心算法研究和开发。2012年,李志飞回国创业,立志于开发出基于自然语言处理的下一代移动搜索引擎。
神秘的Google X
近两年来影响甚广的谷歌眼镜,被认为是智能消费领域的重要进步,因为它开启了人类日常穿戴与科技结合的先例。然而不为人知的是,智能穿戴研究在美国已经进行了数十年。赵勇给我讲述了他的同事萨德·斯塔那(Thad Starner)的故事。这位佐治亚理工大学教授,从20世纪80年代起,就将一个特别的眼镜戴在脸上。在一段20多年前的电视节目中,斯塔那对主持人“口出狂言”:“我可以回答关于任何事的任何问题!”于是主持人问:“你是否了解棒球?”斯塔那摇头。主持人说:“那么我想知道关于××球员的生平的纪录。”要知道,这个活跃在20世纪40年代的球员当时早已退役。但仅仅三秒钟后,斯塔那就将这个球员所有的比赛数据公布出来——他随身携带电脑,配以自己研发的非键盘式输入设备,几秒钟后,电脑将因特网上搜取的答案传至眼镜中,在交谈中,这些数据被读取出来。“这件事发生在20世纪80年代末90年代初,那时我们的计算机还是286、386。现在萨德·斯塔那已戴着这个玩意生活了20多年,你能想象吗?”赵勇说。
三年前,当赵勇在一个内部会议上做完关于谷歌眼镜的规划报告后,散会时有个行为怪异、态度似乎有些暧昧的人走到他背后低声说:“我觉得咱们俩应该共进午餐!”赵勇当时甚至想,这个人不会是同性恋吧?
原来此人正是萨德·斯塔那。会后,他和赵勇来到会议室交谈,在整个过程中,带着一副造型奇特的眼镜的斯塔那默不作声,只是动手将电脑与投影仪相连,投影中很快出现了斯塔那眼镜里呈现的内容。赵勇用嘴说,斯塔那打字,但速度却比说话还快。
更奇特的故事还在后面。赵勇向自己的上司、前布朗大学计算机系主任汤姆·迪恩(Tom Dean)描述了这个怪人。后者说:“我记得他。20多年前,桀骜不驯、行为古怪的斯塔那毕业时曾来布朗大学应聘,我是面试官。一个教授说如果布朗大学肯给他工作机会,我就辞职。所以我没有录用他。”于是,当赵勇和迪恩再次约见斯塔那一起晚餐时,赵勇提及了20年前那次面试经历。显然,斯塔那已经记不清眼前这位拒绝他的老教授了。但几秒钟后,他就叫起来——原来,20年前的场景一一呈现在他眼前,这些年间,他用眼镜记录了所有语音信息,并将其转化为知识、笔记放进搜索库随时调取。
最终,萨德·斯塔那成为赵勇在谷歌眼镜项目上的合作伙伴。
不过,并非每位科学怪咖都能得到谷歌的垂青。多伦多大学的教授史蒂夫·曼恩(Steve Mann)就没那么幸运了。过去30年间,这位有些“走火入魔”的教授,在自己的头上“安装”了一个佩戴非常麻烦的仪器——他剃光头发,从大脑中提取各种信号去训练它,并试图用自己的意念控制它。这就像脑电波传感器从脑子里提取东西,用以分析人们在想什么事,然后根据信号变化寻找规律,通过规律用眼球、大脑来控制外部设备。显然,这个设备非常“侵入式”,曼恩整个人也看起来有些神经质。为了避免引起误会和麻烦,他不得不随身携带医师证明。“他是这个学术方向的先驱者,至少走在了一般人前面50年,所以才在那个时代显得有点格格不入。”赵勇说。而在谷歌,当时最担心的就是做出一个令消费者产生这种“恐怖”感的产品。所以,当设计谷歌眼镜时,大家就想象一位20岁的年轻姑娘戴着它走进商场的样子。因此,这才是人们今天看到的谷歌眼镜。
对于有各种奇思妙想的Google X而言,谷歌眼镜不过是其中的一个项目而已。尽管谷歌工程师拥有令人艳羡的薪水、有趣的研发项目以及可观的科研经费,但赵勇还是选择离开。“在谷歌工作,尤其是在Google X,所有项目都非常非常具有创新性,很多人都是企业家、发明家,是被谷歌买进或者请进的。而我常常会有一种很强烈的冲动,他们都可以做这些伟大的事情并且让结果发生,为什么我不能?”
“我想成就理想,而不是做谷歌翅膀下的一个蛋。”2012年年初,当作为谷歌眼镜核心研发人员的赵勇看到团队的想法和研发已经变为产品,接下来就是交给工程师如何把它做得更轻、更漂亮时,他有了自己新的创业想法。
从硅谷到中国
赵勇还在读博士时曾研究过一个项目,他一直相信会变成现实,但当时技术尚不成熟。后来到谷歌工作,研究领域和产业有了发展,接近成熟和应用,赵勇觉得这个时机快到了。虽然从很多企业家和工业标准来看它还非常超前,但这正是其魅力所在。“我不想等它成熟了才回来,我要让它变成熟。”赵勇想。
他想做的,是一套基于计算机视觉和模式识别技术,利用新传感器和技术进行安全监控和客流行为的智能分析系统,为商业决策提供数据驱动。简单理解,这就像给机器装上更精密的眼睛和大脑,使它能够看懂世界。人的记忆有限,不可能记录下经历的每一个画面、说出的每一句话,但机器可以帮助人们从多维世界中获取、处理、理解和分析这些信息,然后通过深度学习,即计算机算法,从历史数据中掌握规律,并对事物做出智能识别和预测。
具体来说,比如应用在监控安防领域。如果一个商场丢了东西,人们只知道有东西丢了,却不知何时丢的,可能是过去一天,也许是一周,这就需要播放监控录像进行查找,但24小时的录像即使快进也要三四个小时播放,且人工查找容易遗漏细节。而如果有了这样一个“智能眼”,两分钟内就可以完成这一切。除了安全监控领域,这个“智能眼”还可以应用到商业、艺术等领域,了解不同年龄、不同时间段人们的行为和轨迹,进行商业分析和艺术展示等。
2013年,当赵勇刚刚回国创业时,他从科学上做出了对这项技术的阐释,但他随后说:“从商业的角度讲它还不存在。”不过,他自己也没想到的是,400多天后,他的设想已经变成现实中的产品,他创办的格灵深瞳也成为科技圈里颇有名气的酷公司,甚至微软创始人比尔·盖茨在私访中国时也将他的公司作为会见的第一家创业公司——这也是他此次出行中唯一造访的计算机视觉公司。2014年年初,盖茨曾对外透露,科技界的下一个大事件是计算机视觉与深度学习(deep learning)的结合。难怪他在看了赵勇的项目后,由衷地称赞:“这真的很酷!”
从大公司到创业者
“我们这群搞人工智能的人就像是玻璃罐里的苍蝇,前面似乎永远是光明的,直到你碰壁。”在回国后的一次公开演讲中,赵勇引用导师的一句话来形容他所从事的这门学科风光却又尴尬的现实。这虽是一句玩笑话,但正恰似从美国实验室回到中国的赵勇,他的创业也经历了从与世隔绝的“真空”到现实落地的过程。
找到默契的合作伙伴并非易事。从谷歌辞职准备创业,赵勇很快就遭遇了第一个困境——找到性情相投的合作伙伴。当他面对投资人时,曾听到关于创新的两种不同声音:一方面,投资人觉得震撼;另一方面又觉得恐惧。有人对他说:“我从来没投过这些项目,看不到成功的案例。”只有一小部分投资者说:“这听上去很棒,我们愿意投。”“在中国我感觉这样的投资人连10%都不到。”赵勇一度与投资方签好意向书,但当他从美国回来时对方却反悔了,他不得不重新融资。“时间环境会变,可能一度很火的概念,随着时间推移大家的想法会变。”幸运的是,重新融资的过程还算顺利。
第二个困境则是寻找一个商业人才。当产品还在概念期,赵勇就有一个很技术化的想法,但对具体的产品设计还很模糊。他曾带着一个麻省理工学院的学生会主席和其他公司谈商务,这个优秀的年轻人曾上过电视节目,沟通能力也很强,甚至还在麻省理工创办过技术协会。但真的坐在谈判对象面前,两个技术狂人却不知该说什么,有时跟对方谈了两三次后才发现对方是想要收购他的公司。“这时我意识到他跟我一样都是搞学术的工程师。我需要一个真正商务方面的伙伴,他很重要,必须是联合创始人。”在这种需求下,投资人向赵勇引荐了何搏飞。和赵勇的经历很不一样,何搏飞大学毕业后就在中国工作,获得很多本土经验后,又到斯坦福大学商学院念书,随即再回到中国。认识赵勇前,他已经做过两个在美国上市的中国公司总经理。“他是一个商业人才,商业意识非常好。”赵勇第一次和何搏飞见面,是在后者位于国贸的一间宽敞的办公室里。“但后来他到我创业的民宅看我,瞬间就被我们的气氛吸引了,决定加入我们。我给他找了个很小的格子间,说,你是我们公司第一个商务。”于是,一个是仰望星空的科学天才,一个是久经商业沙场的商业精英,这样的金风玉露相逢,格灵深瞳才开启了自己的商业格局。
人工智能并不是一个虚无缥缈的概念,从现实的角度讲,它的落脚点是为人类解决某一个领域的问题,让人们的生活更智能、更便利。过去一年,赵勇遇到非常多的用户,希望格灵深瞳帮助他们解决问题,他们来自汽车、司法、能源、制造工厂,甚至政府、反恐安全等各个领域,他也曾与至少20个城市的公安局局长接触过。但在这个过程中赵勇发现,可以做的事情太多,但一个硬件不能解决所有问题。事实上,在很多领域已经存在相关专家,只要开发一个核心模块——聚焦在提供一款最优秀的核心视觉感知技术产品,就可以应用到任何行业。说到底,这个核心就是关注人的一切:他的脸、他的手、他的肢体动作、他的轨迹,他在不同网点之间的行动等。比如可以在银行关注取款的人、银行职员操作的规范性;在学校里关注学生安全;在监狱里关注犯人和警察;在工厂里关注操作人员和生产流程;在医院里关注病人……由于格灵深瞳做的是通用核心模块,不与具体产业竞争,且又是全新的领域,所以几乎没有竞争对手,所有人都可以使用这个尖端的模块,成为它的合作伙伴。
即使是面对商业用户,用户体验也同样重要。“我的研究是聚焦在算法和软件上,但我们做的却是一个‘体力活儿’,你要设计一套设备出来,就要考虑电从哪里来,网从哪里来,这套产品最终要交给工人安装,所以我们自己要先变成‘民工’。”在帮购物中心和超市做客流分析系统过程中,赵勇和何搏飞买来梯子和工具,开始了解建筑物的石膏板和轮毂结构,了解大楼里的水电网成本。“在这个过程中我们意识到我们距离这个真实的世界还有些遥远,意识到我们设计的产品还很糟糕,意识到我们的产品如果想要设计得有生命力,就要把整个流程都走一遍。”
创业的环境也直接影响了工作专注度,为此赵勇曾经历五次迁徙。刚回中国时,他被投资人安排住在北京核心商务区的高级公寓,那是个“吃一碗面条也要七八十块钱的地方”。他和朋友一起到公寓楼上的“北京亮”吃饭,一顿饭动辄上千块。十几年没在国内生活的赵勇,一度真以为北京的消费水平就这么高。虽然在谷歌过着衣食无忧的生活,但赵勇认为,这样的环境并不适合创业。“那种环境会给我错觉。我是来创业的,就是要来当‘屌丝’。”他也曾得到微软提供的亚洲研究院的一个开放空间,但格灵深瞳的研发涉及硬件,研发过程需要保密,因此赵勇迫切想要搬到民宅。
几个月后,赵勇在北京北部租到了一个普通的四室一厅,并和格灵深瞳第一位同事在客厅里摆了六张办公桌。渐渐,工程师来了,公司有了一个全职员工和八个研究生。但下班后大家都不愿意离开,几个年轻人就挤在婴儿房的上下铺和书房的两张小沙发上休息。人越来越多,赵勇不得不再次搬家。大家继续向北,在一个新小区一口气租下五套房子,一套当办公室,另外四套给大家住。
然而,随着格灵深瞳不断发展,地方又显得局促了。一年内经历了三次搬家,赵勇非常想要找一个能待上两三年的地方,同时为了留住人才,考虑未来的发展,他需要一个适合创业、思考、生活的空间。在谷歌工作过的赵勇,曾一直想象能不能在北京找到一个废旧的厂房,哪怕外面破旧,但里面可以打造成自己的王国。正在此时,真的有人为赵勇找到了一个“理想国”,赵勇去了就欣喜不已:这是个位于北京西北郊的小型中式园林,小桥流水、亭台楼阁,毗邻玉泉山和颐和园,有28亩绿化面积。“这个地方,全面超越了我最狂野的想象。它很大,很安静,又鸟语花香。”
然而,当时格灵深瞳却付不起这个钱。“这时我跟搏飞做了个决定,融资吧!”后来想来,赵勇认为自己的决定“特别值得”。十几个人搬到了这个2000多平方米的办公场所,除此之外,还有宿舍楼,解决了住房问题,大家就有更多时间专注工作。公司规模也逐渐发展到六七十人。和寸土寸金的中关村5~7平方米的办公空间比,这里人均200平方米。天气好的时候,大家会到湖心的亭子里开会吃饭。格灵深瞳还修建了自己的健身房和电影院,并请白家大宅门的厨师设计自己的专属菜单,不光做中餐还要做西餐,大厨也成了营养师。
一切都在变得更加疯狂。格灵深瞳有了来自哈佛、麻省理工、普林斯顿、卡内基·梅隆、达特茅斯、布朗、斯坦福等美国名校的学生,也包括国内名校如北大、清华、浙大等的学生。年轻人展示出了很强的能力,很多员工还有工作经验。甚至他们之中有从同类型中规模最大的公司——百度深度研究院跳槽过来的。有些人同时拿到格灵深瞳和百度两家公司的工作邀请,他们中的三分之一会选择格灵深瞳。“初创公司去和百度竞争(人才),有这样的结果,我觉得在中国很难做到。”说到这里,赵勇不无得意。这与他在创业前期的经历大相径庭。
赵勇还记得第一个拿到格灵深瞳邀请的应聘者在联想研究院工作,他对创业公司充满了疑惑,最后也没有选择这里。“我是nobody from nowhere(来自无名之地的无名小卒)。”赵勇出生在陕西,在上海读大学,毕业后就在美国深造,并工作十几年,然后又在北京创业。“那时候我发现说服别人加入创业公司很难。”赵勇一度感到沮丧。他不得不选择去美国招人,因为他发现去美国说服年轻人加入初创公司竟比在国内普通高校招人容易得多。他先是找到了麻省理工学院的一个博士生,同样也是学生会主席,又在斯坦福大学找到了一个高中时就在微软边工作边念书的美国人。赵勇还发现了一个有趣的现象,越是名校的学生,越有能力承受风险。“我有个朋友在中国内地一所普通大学当老师,我请他帮忙进校园招人。他就去找就业办公室的老师,没想到老师说,我们学校的学生很优秀,毕业后都会去华为、中兴这样的大公司,创业公司就算了。”后来他有机会到中国做最好的大学演讲,才发现愿意试一试的人很多。“后来我们招的人,四个来自美国,四个来自北京大学,两个来自浙江大学。北大毕业的四个孩子,本身就是创业团队,他们有产品,我看到他们的时候立刻喜欢上了,说服他们加入我们,我们就这样开始了。”
为了更好地运作公司,赵勇还让出了CEO的职位。“我是个工程师,去年做CEO,并不是很开心。”赵勇认为,谈业务并不是他最擅长和最感兴趣的事情。他不喜欢被打扰,而喜欢把一件事想得更深。他的伙伴何搏飞在商业方面反应很快,想法又有广度,赵勇就觉得应该由他做CEO。赵勇甚至连CTO也不想做。“我是在建造一个公司,我希望自己不是用一个职位就可以给这个公司带来贡献。所以未来CTO肯定不是我,至少未来两三年要找一个合适的人选。我希望自己可以聚焦在那些更长远的事情上。”赵勇说。
人工智能:苹果熟了
推开由两座石狮蹲守的朱红色大门,眼前是一片平静的湖面,小桥、亭台倒映在湖面,有风吹过,湖面荡起阵阵涟漪。说实话,若不是被一个指纹识别的门禁拦在外面,以及被几个突然入眼的滑板和哈雷摩托轮胎惊到,你几乎会忘记这里是一家科技公司。传统与现代的冲撞在这里是和谐的:中式的屋檐下,一侧墙壁嵌上木质窗棂,一侧墙壁则是欧美彩绘;办公室的苹果电脑前坐了几个忙碌的年轻人,但也有狗亲昵地在他们面前走来走去。
这正是赵勇对人工智能的理解。“我不希望有一天生活变得像科幻电影,没有自然空间,周围所有的事物都是设备和仪器。最美好的技术是,你放眼望去还是满园春色,可是那些细小的瞬间改善了你的生活,它应该是润物细无声的。所以我想做一件事,希望机器人、人工智能技术让人们变得更友好、更安全,让我们的城市更智能化。”
两年中,为了让更多人理解人工智能,赵勇和他的老同事李志飞参加了好几场演讲,回答大学生、行业伙伴、创业者、投资人的各种问题。“有些东西我们不能确定它会在哪个时间点爆发,但我们都对它深信不疑。我相信在我的有生之年不会太遥远——它一定会创造巨大的价值。”赵勇认为,无论在安全、医疗、工业基础设施建设,还是在消费品行业,当人们对产品的要求越来越高时,其实已经超越了人类的极限。这个时候就需要感知技术的机器人来帮忙,“如果这件事成功了,机器人(robotics)和人工智能就变成现实了”。
来自投资界的反馈也令人欣喜。刚刚回国时,投资人最常问的问题是,美国有什么模式可以复制?如今,很多年轻人创业也想做人工智能,投资人对他们都非常友好,也会打电话向赵勇询问对项目的看法。“我能看到很多人加入了这个行业,这是非常了不起的事。”但是,赵勇也有顾虑,他担心这个势头过去。“投资人跟我们不一样,他们要看到利益,但我们不是,即使这个行业出现了冰川期,我们也不会停滞不前。所以我担心的是,如果过了两三年我们没有挣到很多钱,他们会坚持下去吗?”
因此,摆在他面前的,是必须让这个从事最前沿技术的公司发展得与众不同,并且超出人们的期待。“当一个产业变成传统产业的时候,它的竞争都是发生在那些令他不愉快的方面,比如成本压力,我不认为这会给任何人带来好处。所以我们必须做一件事,它如此的不同,一方面可以给用户带来特别好的体验,另一方面,它会打破一个格局,可以使人们转移到新的产品进度上,把这个产业推到下一个阶段。”
谷歌的影响
赵勇曾近距离接触谷歌创始人谢尔盖·布林,并被他的很多事情所震撼。但是在他眼里,布林的第一特质是单纯。“在硅谷很多行业领袖都有类似的特质,我以前觉得很成功的人都特别聪明,会有大多数人都掌握不了的城府,但事实并非如此。”虽然商业的成功让布林他们富可敌国,但他们并不安于享受,甚至每天和大家一起混在实验室里。有一次为了完成一个项目,布林连续多日没有刮胡子,这让有着俄罗斯血统的他看起来像个恐怖分子。“加油吧,伙计们,看着我的胡子,我的老婆还想亲吻我呢!”布林说,“除非我们完成这个里程碑,否则我不会剃掉它。”
拉里·佩奇也是如此。在布林成立Google X后,佩奇别出心裁地成立了“Y lab”,决心做出点与众不同且有趣的事情来。“他们很单纯,并且拥有实现梦想的决心。别人认为天方夜谭的事,他们觉得那不是‘dream’(梦想),然后就去实现了。”
如何能造出更好的电脑?这个问题一直让不少人苦苦求索,在美国,很多科学家投入毕生精力奉献其中。赵勇在三菱实验室的导师、哈佛大学教授汉斯皮特·菲斯特(Hanspeter Pfister)就是一位。他将哺乳动物的脑子剖开,用精确的激光工具将之切成极薄的片,放到玻璃纸上并拿到显微镜下成像。他记住这些切片的顺序,并在计算机上恢复三维结构,希望把脑子里所有的结构、神经元、神经突触网络连接起来,为科学家提供参考。在此之后,他就向人脑进攻了。他用同样的方法扫描人脑,为此,他用过的照相玻璃纸长度甚至超过了地球赤道。最终汉斯皮特看到超过1000亿个神经元和它们的连接,数据量之大超过了科学界曾经的想象。为了展示这个数据,他还想出一个算法,随机给神经元着色,用颜色过渡来展示神经突触的链接。画出来后他用几百万张照片显示,并将这些照片命名为brainbow(脑虹)。科学家看到这些照片后受到了颇多启发:原来人脑与CPU是完全不同的结构,如何造出更好的计算机?人们还要向人脑去学习。
赵勇曾经的顶头上司汤姆·迪恩,是在布朗大学计算机系工作超过20年的教授,快退休时,他受到谷歌邀请成为研发总监。汤姆将毕生的精力投入人工智能技术,从事的研究正是上述领域。
迪恩的研究取得了很大成就,但他也非常需要灵感。每过一段时间,60岁的他就会开车10小时去俄勒冈州(Oregon)的一个山洞里待上五天,在那里和宗教信徒们一起“冥想”,从而达到某种思维的境界。“当我刚开始冥想的时候觉得特别吵,脑子里有各种想法冒出来,工作、家庭……但当慢慢静下来后,我只能听到自己脑子里的声音,似乎意识不到我的脑子是怎么工作的。”迪恩说,经历了这样的冥想后,他回来时就会确定后两个月的研究方向。“这种投入让我特别崇拜。”赵勇说,迪恩有时听说某个学校有个有趣的研究,也会离开谷歌几个月去找他们聊天,等回来时就会带来很多有价值的发现。从加入谷歌第一天起,迪恩从来没有规定过赵勇每天要做什么、完成什么目标。“你的任务是交朋友,看看哪些人和你有共同的兴趣,需要你的技能,你能为他们奉献些什么。”第一次见面他就这样对赵勇说。每一周,他们会有一小时的例会时间,两个人绕着谷歌的湖走一圈,讨论人生和理想。“你可以看到他的生命在追逐的东西,这可能就是为了自己的兴趣。他们活在未来。”赵勇说。
迪恩的人格也令赵勇深受触动。“当我离开谷歌时有点不好意思。迪恩也问我想做什么、为什么要离开。但他没有劝我留下来,他后来给我写了封信说,当我听完你的计划后我意识到你离开这里比留在谷歌更伟大。我做了20多年的老师,当时的愿望就是学生毕业之后能够远走高飞实现他们的理想。今天我虽然离开了学校,但是这还是我的愿望,我祝福你。”
深受触动的赵勇试图在格灵深瞳也发挥这样的影响。“我跟我们的小伙子们也是这么说的,他们也有人想过离开,有的有了自己新的理想,我都会祝福他们。当然,我最想的是他们在这里让奇迹发生。”
像谷歌那样拥有改变世界的梦想
1942年6月,美国陆军部集结西方国家最优秀的核科学家,由10万多人参与了利用核裂变反应研制原子弹的计划,亦称曼哈顿计划(Manhattan Project)。它历时3年,耗资20亿美元,于1945年7月16日成功地进行了世界上第一次核爆炸。有人把Google X比作科技产业里的“曼哈顿计划”——谷歌想要像计划孕育原子弹那样永远改变世界。
谷歌将那些有着疯狂的想法或者不太可能实现的项目称为moonshot(直译:射月),这些项目被解决的科学概率可能只有百万分之一。而谷歌希望人们运用超前、积极的思维方式思考问题,从而想出根本的方法来解决世界上存在的难题。因此,谷歌对moonshot投入大量的资金,即便该项目可能永远不会有任何成果。
除了联合创始人谢尔盖·布林,Google X还由埃里克·施密特、阿斯特罗·泰勒(Astro Teller)共同领导。阿斯特罗被称为Google X的“射月队长”——这主要源于他的天赋,而这份天赋可能来自他的祖父爱德华·泰勒(Edward Teller)——氢弹之父。
除了众所周知的谷歌眼镜、无人驾驶汽车,2013年,谷歌还推出气球计划(Project Loon),试图通过热气球为那些世界上最偏远的地区覆盖网络。如今,这个气球已经穿越了多个国家飞越了几万公里。谷歌还在研究无人机(Project Wing),希望以此提供快递系统。谷歌成立了新公司Calico,专注于研究因衰老而带来的各种问题,以期延长人类寿命。
“对于技术的突破,最重要的是心理层面。谷歌敢于‘疯狂’地梦想,这种精神即使在美国也很难能可贵。”曾参与谷歌眼镜项目的赵勇认为,这些跟谷歌主业并无关系,但近距离接触它时,会让人感受到创始人远大的理想。佩奇和布林也为之投入了大量金钱和精力。“坦率来说,在中国他们可能会被认为是疯子。但是谷歌支持这些疯狂的想法和创意。”
在格灵深瞳提出项目计划的时候,赵勇的同事或者投资人有时也会问:这个项目现在是不是还太早、风险太大?“我对他们说,这些很重要的事情总要被一些人做掉,不是我们就是别人,那么最好是我们。只要我们还能养活自己,就应该尝试去做这些事。”庆幸的是,中国的创业环境越来越成熟,也不乏聪明人。“我不认为这是10年后才能发生的事。也许它本该10年后发生,但因为我们做了,3年后它就发生了。我们就要做这种人。”
接触现实的时候,赵勇会遇到许多困扰,首先是传统行业存在的商业逻辑和惯性,使新事物受到很多抵触,新事物也可能伤害部分人的利益。其次是被怀疑颠覆者能不能把那些想象中的东西变成现实。“那个时候有些创业者会忍不住收缩一些,觉得我可不可以做一些妥协,做一些渐变式的创新。”赵勇也经历过这样的挣扎,但当度过那个阶段,他变得更狂野了。“过了一个阶段我们发现用户不只接受了这个概念,而且非常喜欢这个东西。这就证明我们最初的直觉是对的。既然这样,我们就一件传统的事情都别做了,要做就做最好的,我们不应该停下这个脚步。”如今,更疯狂的想法是,格灵深瞳不仅在探索跟人相关的项目,还在探索和汽车相关的项目。赵勇希望把这套视觉系统应用到汽车领域。
给汽车装上视觉系统意味着会发生很多不一样的改变。最重要的是,它让驾驶行为变得更智能、更安全。以中国为例,每年大约有30万人死于车祸,其中95%是出于人为原因,75%的死亡案例与卡车有关,80%的死亡事故发生在十字路口。假设能为汽车,尤其是卡车设计一套视觉系统,那么未来,或许每年会有数以万计的人幸免于难。
这一系统并不是像谷歌无人驾驶汽车那样,直接让机器代替人类开车,而是通过一组光学设备,用视觉的方法,每时每刻观察司机的驾驶行为,掌握速度、加速度、相对速度、相对距离等数据,并以此来判断司机的驾驶行为是否安全——即使在没有警察、没有摄像头的情况下。这样的产品将改变整个交通链:它会受到保险公司关注——因为他们的理赔数额将会减少;会得到卡车、物流公司的支持——减少事故对他们而言是重要使命;当然,更会深受所有司机欢迎——做一名安全的司机,不仅会使他们获得奖励和认同,还让他们的生命更加有保障。未来,这样的技术不仅可以运用到运输的卡车上,还包括长途客运汽车、校车、公交车等。
对于改造十字路口的安全现状,赵勇认为公路应该参与到智慧交通中来。事实上,即使大车司机规范驾驶,可以判断前后直线范围的情况,也无法看到折线范围,预测路口横向而来的汽车。那么,如果有一项感知技术,能够在十字路口的每个方向实时监测每一辆车和行人,并把这种信息实时分享出去,使得每一个即将经过路口的司机都可以获取这些信息。那么未来,驾驶员就可以提前预判路况,从而避免十字路口发生的车祸悲剧。
当然,这一方面需要道路有感知能力,能够感受到其“身体”上运行的每一辆车、每一个人的行为和状态,并将这些行为和状态转化为与安全相关的信息;另一方面,汽车需要一个接收器,可以接收这些信息。作为更长远的技术,格灵深瞳已经投资大量资金和人员对此进行研发。
赵勇的理想是,让计算机视觉进入汽车世界,10年之后,可以看到他们的努力拯救了更多生命。不过,这也许不再是遥不可及的moonshot——不出意外,这些项目都将在一两年后走向应用领域。从商业的角度看,如果按照中国保险公司的统计,中国每年的交通赔付额大约为4500亿元,而卡车赔付占据其中一半以上,即2700多亿元——未来,这将是格灵深瞳,或者整个行业的市场。
对于汽车,赵勇更遥远的设想是,未来不是每个人都拥有一辆汽车,而是通过人工智能把所有汽车的行驶时间有效管理起来,这样不仅可以缓解交通压力,也可以实现汽车随用随到的梦想。
2020年
赵勇17岁时,他的父亲因食道癌离世,那时他还是高三的学生。“我体验过那种无助,我当时也曾想成为医生去治疗癌症,不让一个孩子那么早失去父母。”不过最终赵勇并没有走上医学的道路。当了解到每年因为车祸死在路上的人数要远高于死于食道癌的人数时,赵勇就想,如果能在自己从事的领域做好技术,救更多人的命,也算圆了自己少年时的一个梦想。在世界上,不只有医生可以救人,工业同样可以救人。事实上,正是工业的发展使人们的平均寿命从100年前的40岁提升到今天的70多岁。“我特别希望通过科技恢复一些美好的人性。”
当前,赵勇的当务之急仍是把人工智能带到全新领域,为行业重新树立信心。“我在不远的未来会写一篇文章告诉人们我理想中的surveillance(监控)应该是什么样子,应该具有哪些属性。这个东西我们在短期内不能实现,但是我们会把它当成目标。”
更远的愿望,赵勇希望把人工智能带到人们生活中去,让城市智能化。这并不是简单的“物联网”。“‘万物皆联网’是个好事,但它的核心不在这里。若你只是把一个烟灰缸和拖鞋连起来,那有什么意义呢?真正有意思的是‘万物皆智能’。互联网已经变成一个工具,我们应该想如何在因特网上建造出智能来。”他希望建造一个宏大的视觉网络(visual sense network),把数据收集起来,使得人们可以挖掘和应用这个数据。“如果说谷歌非常伟大的地方是建立了一个类似于机器人的搜索引擎,让人们可以用检索的方式在因特网上提问并获取信息;那么,视觉网络则可以让人们向大自然提问。这是我终极的理想,我们就要让计算机像人一样思考。”在赵勇看来,5年前他想这个问题是疯狂的,但最近的讨论证明这个项目的工程已经不再是科学问题。“所以这件事情是非常有趣的。我们能够达到今天的成就,跟我的老板汤姆·迪恩、我过去的导师汉斯皮特·菲斯特,跟这个领域很多重要的科学家是分不开的。我原来认为很多事情要2050年才发生,但我现在觉得可能2030年就会发生,甚至在2020年就可以部分实现。这是我的理想。”
TIPS
在赵勇身上,我们感受到他在与那些伟大科学家接触中获得的宝贵品质:单纯、执着、信念——从不认为现实不可超越,要做未来的缔造者。
刚回国时,赵勇缺乏对市场和资源的足够把控,为此,他甘愿卸下CEO的华丽外衣,专注于对未来的思考和研发。这使得他与搭档快速实现从技术想法到产品设计,甚至商品的转化,让格灵深瞳从“研究所”走向真正的科技公司。单纯、低调、务实的精神,在今天复杂的互联网商业环境中难能可贵。
掌握前沿科技,格灵深瞳在产品方向上有很多选择,也面对很多诱惑。但是一家公司不可能同时解决所有问题,因此,赵勇的选择是找到核心。锁定安防监控和汽车驾驶领域,使公司有了明确方向和定位。
作为初创企业,赵勇常被问道:“这个项目现在是不是还太早,风险太大?”在技术难点和商业不确定性面前,很多创业者面对这样的质疑往往会退缩。但正如谷歌实现那些别人不敢完成的目标一样,赵勇认为重要的事情总要有人去实现,为什么不是自己?正是这样强大的信念,支撑他不断去实现目标和超越自我。
在计算机视觉领域实现人工智能,是赵勇远大的梦想,而不是虚无缥缈的空中楼阁。格灵深瞳在关注未来的同时,解决的是与人类生活息息相关的重要需求;其通过技术改变产业,也意味着拥抱数千亿的广阔市场。将技术与商业相结合的格灵深瞳,是否将像投资人徐小平所言,成为一家千亿级别的公司?我们拭目以待。
打造中国的Google Now
拉里·佩奇说:“技术应该可以完成一些繁重的工作,让人们能够做一些生命中最快乐的事情。以搜索为例,最完美的搜索引擎是电影《星际迷航》中的电脑,它知道你的所想所需。科技正在拉近现实与虚幻的距离。”前谷歌员工、人工智能科学家李志飞做的,正是这件很酷的事。
在北京中关村西北,一条全长220米的南北向大街曾是著名的中国海淀图书城。然而,近年来,受到互联网冲击,图书商户纷纷撤离,这里和周围高楼林立的写字楼相比,呈现出萧条景象。不过最近两年,这里却发生了一些变化,来来往往的年轻人再次停下脚步,他们可能用一个下午的时间在这里迸发出创业灵感,也可能用一杯咖啡的时间获得“天使”支持。有人统计,2014年,大约有200个团队在这里拿到共计近10亿元人民币的投资。这条大街,也被更名为“中关村创业街”。
2014年年末的一天,中关村创业街七号楼的黑马会热闹非凡,记者和科技极客们把这里挤得水泄不通。他们在等待一场名为“全球刷表大会”的活动开始。这场听起来敢跟“谷歌I/O全球开发者大会”名字叫板的发布会说起来有些好笑,因为整场活动也不过百人规模,与前者的万人大会相去甚远。但对活动主角来说,这个“全球”发布会却意义非凡,甚至丝毫不逊于他曾参加过的谷歌开发者大会——在他的人工智能理想之路上,这是一个新的里程碑。这个主人公就是李志飞。
“请为我叫一辆到北大东门的出租车。”在发布会现场,李志飞对着他的智能手表发话,虽然他讲一口湖南普通话,但两秒钟后,手表就识别出了他的语言,并接通打车软件,出租车司机的电话已经拨打进来。
在李志飞的履历中这样写道:知名自然语言处理专家,博士毕业于美国约翰·霍普金斯大学语言语音处理实验室(CLSP),是谷歌手机离线机器翻译系统和学术界主流开源机器翻译软件Joshua的主要开发者。他曾在国际一流会议和杂志上发表30余篇论文,获ACL最佳论文提名奖。他曾任职于美国微软研究院和美国谷歌研究院,从事语音识别、自然语言处理、机器翻译、手写识别等领域的核心算法研究和开发。2012年,李志飞回国创业,立志于开发出基于自然语言处理的下一代移动搜索引擎。
谷歌离线翻译:完成“不可能的任务”
2004年,李志飞赴美留学。在此之前他的专业是无线通信,但在计算机领域,这属于偏系统的学科。当时,李志飞面前有三个选择:第一个选择是继续系统方向的研究,比如操作系统、计算机网络等学科;第二个选择比较偏理论,比如算法,要研究哪些东西可行、哪些不可行;第三个选择则是在应用领域,美国会关注一些未来应用,学校里所学的很大一部分都与人工智能相关,包括自然语言处理、语音识别,还有计算机视觉等方向。虽然自己研究过系统,也算有意思,但对用户来说,李志飞觉得通信协议对普通用户来说是看不见摸不到,过于机械化;如果搞理论研究,自己没有相关背景,也没有太大兴趣。衡量再三,他决定选择应用。从实用的角度讲,他希望自己研究的东西,能够真正为用户解决一些问题,而不仅仅是发表论文,取得学术上的成就。
事实上,在去美国前李志飞就早有创业打算。2000年,他曾在南京一家从事手机上网业务的初创公司移软工作,见证并参与了移软从几个人的创业公司发展到数百人,并被美国Palm公司收购的过程,这一经历使他对创业这件事兴致浓厚。同时,在创业方向上李志飞也有大致思考,他希望做一个产品,它很酷,但同时又能为更多用户服务。还有就是他相信移动领域将大有可为。
在谷歌时,李志飞曾从事一项他认为颇有意义的项目,即把谷歌在线翻译移植到手机上。坦率来说,当时他的上司并不支持这个项目,很多同事也对这个棘手的项目不太有信心。因为其难点在于,在PC互联网上,每一个命令需要几千台机器同时运算,内存基本上也是无限的;但如果用手机来重新运行系统,却只有几十兆存储量,CPU的速度也较慢,而且有诸多限制,因此在大规模降低存储的前提下,将整个系统表现出来难度非常大。在工程上,这也是一个巨大挑战,由于系统复杂,要对工程、算法非常熟悉,才可能在手机上做出一个既好用又结合多种语言,同时符合谷歌标准运行的产品。
然而,在没有得到特别关注和支持的情况下,李志飞用了一年多时间,几乎是一个人完成了这个不可能的任务。他几乎重做了一遍系统,保证了离线翻译在不需后台服务器的情况下,在手机上就可以顺畅运行,效果也颇令人惊喜。
可以佐证的是,后来离开谷歌后,仍然有同事告诉李志飞:不少用户留言给谷歌,他们有人在国外突遇灾难或车祸,还有人在以色列、伊拉克等战地遭遇危机,正是离线翻译救了他们的命,使得他们能及时获得救援,方便与医生沟通。这令李志飞颇感欣慰。
在谷歌离线翻译产品落地后,李志飞看到语音识别和自然语言处理在移动上能做出更多创新。比如在生活中,他有这样的亲身经历:下班后太太让买东西回家,沿途虽有超市却并非时时开门,他想通过手机上网查询营业情况,却因为开车驾驶导致操作极为不便。他当时就萌生了开发一个说话就能让手机直接告诉答案的工具。但在人工智能团队,李志飞的部门却没有太多移动上的研究,很多他想要的创新很难实现。
创业是李志飞一直的打算,唯一的问题只不过是什么时候、在哪里开始。现在,这个机会来了。
用前沿技术创造一个商业上成功的公司
事实上,中国市场所蕴含的机会早已让李志飞摩拳擦掌。2011年,智能手机以迅雷不及掩耳之势席卷这个巨大的市场,看看国内苹果商店门口那些日夜蹲守的消费者和黄牛就可以预测到,这里终将有一天会超越美国市场。更重要的原因还有,中国尚缺少真正的技术型公司。在过去,中国诞生了与计算机软硬件相关的明星公司,但真正的技术派尚属稀缺。李志飞特别想做一件事:回到中国,运用一项前沿技术,创造一个商业上成功的公司。“那可能会扭转很多投资者和媒体对这件事的看法。像谷歌那样的公司,用技术改变人类的生活方式,在中国也会有,我就想做这件事。”
基于人工智能领域的语音识别和自然语言理解,李志飞回国迅速创办了科技公司——出门问问。在两年多时间里,他已迈出了重要的三步。
第一步就是从无到有。2013年6月,仅仅用了几个月时间,出门问问就建立了自己的语音识别和自然语言理解系统。当时,苹果推出Siri,谷歌推出Google Now,国内的一些语音公司也纷纷上线语音类应用,试图实现“人机对话”的梦想,其实,这样的梦想背后通常都有大公司和超级团队的支持。而李志飞的团队只有10个人,却不仅做出了语音识别,还开发出一套系统,更诞生了一个供终端用户使用的产品。这样的小团队以及他们的效率在全球都屈指可数。值得一提的是,这套系统还实现了与微信的对接——在当时的微信平台上,出门问问是第一个生活语音搜索引擎,这实现了对产品落地的最真实测试。
像“请问明天最晚一班北京到上海的高铁几点开”这样的问题,在大而全的Siri中,并不能被准确识别和回答。但出门问问则很容易提供精确的生活信息——很显然,在语音识别的准确率上出门问问丝毫不逊于大公司;在用户体验上,则实现了满足用户生活需求的精确定位。
“我们在中国创业公司里应该是唯一一个拥有自己的语音识别、语义分析和应用搜索技术的公司。我们的技术上在国内肯定属于顶尖水平,拿到国际上应该也是一流的。”李志飞并不掩饰自己的自豪。
这个里程碑对李志飞也有两重意义:
第一,以前在谷歌、学校研究室,都是自己一个人搞研究,但是运作一家公司需要集体的智慧和力量。这就需要培养一批人,发挥各自优势,共同分担责任,完成一个艰巨使命。
第二,从投资人的角度看,在当时的市场环境下他们并不理解什么是人工智能,而出门问问实现了从概念到技术的落地,并且得到了市场的积极反馈。这极大地提升了李志飞整个团队的信心。“我一下就觉得,用很少的人也可以做一件伟大的事,只要你拼命往前跑。”
出门问问的第二个重要足迹是在2014年3月。当时李志飞开始考虑和硬件结合,开发Google Glass和Android Wear上的语音搜索。如果说前一年,出门问问实现了技术的应用,那么后面很长一段时间里,整个团队都在探索一些问题:一个真正用户的使用场景是什么?用户为什么用你的产品?你到底解决了什么痛点,而这是别人解决不了的问题?产品能否形成用户黏性?
过去做微信应用、App,只是拿到市场上推广,并没有真正和用户进行零距离的接触。为了了解用户,得到他们的真实反馈和需求,李志飞和团队做了几十场线下活动。Google Glass显然是一个“聪明”的载体和沟通桥梁——这款产品在国内本身就昂贵和稀有,会操作的人更少之又少。比如,在GMIC(全球移动互联网大会)活动上,拥有20个Google Glass的出门问问瞬间成为全场最火的展台。他们帮助用户试用眼镜,并为他们安装软件,教他们如何与机器对话。这时李志飞才发现,原来智能穿戴产品离普通用户的距离还非常远。比如,用户不知如何使用语音来操作智能装备。即使教他们“OK glass”(谷歌眼镜的启动口令)、“Take a picture”(拍一张照片)这样的命令,但是当很多人真的戴在身上后也会有点不知所措。“原来很多东西在你看来很自然,或许你对AI(人工智能)技术已习以为常,但是在用户那里,会遇到很多问题。”
这样的经历让李志飞完成了一个从技术到产品的思想上的转变,开始考虑产品应该如何落地,是不是能真正实现自己的最终目标:做出一个用户每天都能用的,并且有商业前景的产品。
第三步,也是最重要的里程碑,则是Ticwear刷表系统的发布。由于谷歌在中国的限制问题,Android Wear在国内水土不服,用户无法在摩托罗拉的Moto 360、三星Gear、LG的G Watch等产品中正常使用Android Wear上原生的便利功能。出门问问因此开发了一套基于Moto 360的中文操作系统,来填补Android智能手表在中国的空白。这件事对出门问问来说,能力上一下子增强了很多。早在2014年6月,要做这个ROM(手机系统固件)时,李志飞心里有点没底——他擅长的是做与算法、人工智能相关的产品,但ROM却从没开发过,也没接触过这个圈子;谁能做这件事情,他也没有判断能力。然而在半年后的12月,出门问问却基于Moto 360手表开发出一整套操作系统Ticwear,并且得到媒体的正面评价。“那种感觉,就跟2013年6月做出第一个产品时是一样的。”而且,李志飞这次的体验更深刻,因为无论出门问问的知名度,还是各方面能力都有了很大提升,已经离他的梦想越来越近。“我们先做了技术,用微信账号作尝试;再到Google Glass平台,不断改善用户体验;然后做了系统层次,让手表变得特别简单,用户划一下,或者直接说‘你好,问问’,就可以应用了。这离我想象的那种真正完整的体验,或者对用户来说特别方便、带来效率、带来价值的方式已经越来越近了。”智能硬件的飞速发展使李志飞的梦想得以插上翅膀。如果说2007年iPhone的出现,在重新定义手机的同时也定义了移动互联网;那么2012年Google Glass的出现,则将可穿戴设备带入了消费者视野,智能穿戴从概念化时代进入了产品化时代。就拿国内市场来说,自2013年以来,投资圈对智能硬件市场青睐有加。截至2014年12月15日,在智能可穿戴、智能医疗、智能家居等领域有68笔资金注入,共有58家新兴中国智能硬件公司获得融资,融资总额约5亿美元。
然而智能硬件的普及也是一个巨大的工程,正因如此,从系统层面的推广具有重要意义。一个全新人工智能概念,涉及硬件、软件、消费者的认知,甚至耗电量这样的细节,各方面都需要经过很多考验。出门问问开发的操作系统,对国内绝大部分公司,或者说90%以上的团队来说都颇有难度;而从全球看,即使三星、摩托罗拉,也依赖于谷歌的操作系统,可见做语音搜索颇为不易。“所以我们会推动这个东西,不仅因为我们把它推到了操作系统这个层次,而且因为语音搜索的问题解决了,只要再把硬件做好,得到消费者认知,这个想法就会实现。”
为了得到真实反馈,李志飞尝试更接地气地去了解用户。他每天挂在QQ群里,真的发现了一些过去不能理解的现象:比如用户们喜欢天天换表盘。作为一个从事系统工程开发的科学家,他并不能理解换表盘这件事情有多大的意义,后来才慢慢发现,原来年轻人是很关注这些炫酷的东西的。这就让他开始考虑如何加上这些令用户愉悦的小细节。此外,虽然智能硬件中英文的操控多是一些简单的单词,李志飞过去也没有意识到系统汉化会如此重要,但到粉丝群里一看,原来很多用户真的会被英文难倒,比如更换电池,或者向左向右滑动的指示,一旦用户不能确定,他就会感到紧张,怕不小心删掉东西或重启,从而不再愿意尝试,就此产生了与产品的距离。“我们发现,做一个真正的产品,一些最基本的功能在消费者体验中真的非常重要,解决了这些问题才是通向人工智能的第一步。”这给了李志飞很重要的启发,他甚至觉得自己关注到了一些谷歌也没有想到的问题。“我想谷歌从功能上绝对没有涉及这些,因为他们还离用户很远。”
保持与硅谷连线
对出门问问来说,公司技术本身就与谷歌很有相似性,而且作为一家高科技公司,一定要保证技术在全世界领先,这就让李志飞随时要关注全球最新的产品动向。离开谷歌后,他仍然与硅谷保持着密切联系。他会经常跑到斯坦福大学等高校参加语音识别、自然语言理解以及Android Wear的学术会议,也会邀请谷歌或者一些朋友来出门问问做分享,陪他们在中国游玩,跟他们保持密切的联系,从而获得第一手的技术讯息。
谷歌的工作经历也留给李志飞和出门问问很深的印记。比如,首先,谷歌是一家技术主导的公司,很多时候它的产品都是用一个强大的技术去支撑,或者说把已有的产品,比如email形态化,变成最适合用户的产品。李志飞想做的,正是以最尖端的技术来驱动整个公司。
第二,开发工具的重要性。这一点,几乎成为出门问问超越所有同类型公司的“必杀技”。比如,自然语言处理支持很多垂直内容,原则上每个垂直内容都要做一套语义分析系统和导航,一般公司的做法是,针对每一个内容,专门有对应的工程师来完成这件事。这种方式在刚开始时进展最快,因为它把职责明确化。但在开发过程中,“人”往往成为最大变数,一旦工程师离开,就会对工程进度造成影响。
有了工具则会不同,这使得公司很多人都可以做这件事,并不需要专门配置工程师才能实现导航、酒店搜索或者新的语言分析的需求。为此,出门问问做了一个平台,令很多人都可以操作。李志飞则经常培训大家,教他们标注数据、提交任务。“在这点上我认为我们比谷歌做得极致,我比较着迷这件事,因为我总觉得事情一定要表格化。”
现在,出门问问的每个工具就是一个大平台,这样的平台有了七八个后,内部工作效率就非常高。自然语言分析有了这套工具,别人要九个月才可能完成的项目,出门问问三个月就完成了。而且里面集成了很多复杂的组件,一旦做好,以前的所有经验可以全部借鉴过去,不需要人为实现,都是系统自动地完成。“这样,在非常短的时间,在很有限的条件下,我们就能完成任务。”
工具产生的影响是,即使实现了一个又一个里程碑,出门问问也严格控制着公司体量:六七十人规模完成的产品级别和用户体验,如果是谷歌,则差不多需要两三倍人员才能达到相同的效果;如果是国内的大公司,则可能需要三四倍的人力、两倍的时间才能完成。
特斯拉的启示
1943年1月7日,科学家尼古拉·特斯拉(Nikola Tesla)安静地躺在纽约客酒店的房间里,默默地离开了人世。或许很多人并不知道,70年后一款风靡世界的电动汽车特斯拉,名字正是源于这个发明了交流电机的塞尔维亚裔美国籍天才。而这位改变世界的科学巨人,晚年却过得非常落魄。去世前10年,他只能努力赚取养老金和喂养鸽子,却无力说服投资者资助他的最新构想。直到去世,他都坚信自己可以发明结束所有战争的武器,发明电能通过无线方式跨越大洋的方式,并计划从太空中收集能量。然而,现实中他却寂寞一人,负债累累。
特斯拉智商过人,会讲8种语言,有过目不忘的记忆力。他能够在脑海中构想出完整的发明。然而在商业上,却极其糟糕。1885年,他告诉自己的老板托马斯·爱迪生,他可以改进汽车和发电机。爱迪生说:“如果你做到了,给你5万美元。”特斯拉履行了自己的承诺,爱迪生却只给他加薪10美元。特斯拉愤而辞职,组建了自己的公司——特斯拉电灯生产公司。但是不久后,他就与投资者就公司发展方向产生了分歧,并被炒了鱿鱼。随后一年,特斯拉被迫以挖沟谋生。1900年,他说服摩根大通给另一家公司投资15万美元,但这些钱在1901年就用完了。特斯拉余生一直在给摩根大通写信,请求给予更多的资金支持。但他再也没有拿到过一分钱。
特斯拉去世后的第二年,也就是1944年,《纽约先驱导报》记者约翰·约瑟夫·奥尼尔(John Joseph O’Neill)撰写了一篇关于这位发明家的传记,题为“浪子天才:尼古拉·特斯拉的一生”。“在他生命的最后30年,见过他的数千人当中,知道他是谁的很可能不超过10个人。”“即便媒体每隔一年就会头条报道特斯拉和他最新的科学预测,但没有人将这些报道与这个高高瘦瘦、衣着过时、每天喂鸽子的人联系起来。”
这就是科学家特斯拉的故事。这篇文章发表41年后,也就是1985年,一个12岁的密歇根男孩阅读了特斯拉的传记之后哭了。他就是谷歌创始人拉里·佩奇。佩奇的父母都是密歇根州立大学的计算机科学教授,他们对于科学的专注精神也深深影响了佩奇。从小佩奇的房子里不仅有计算机和电子设备,还到处堆放着科技杂志。这些氛围都培养了佩奇的创造力和发明精神。从那一刻起,佩奇认识到,仅仅构思出创新的科技未来和重大理念是不够的,它还需要商业化。如果想要成为一个发明家,就必须创立一家成功的公司。后来,佩奇又把这样的信念传达给了所有的谷歌人。“你需要发明一些东西,你需要把这些发明带给广大的用户,你需要完成对这些发明的商业化过程。很明显,完成这些过程的最佳方式就是通过公司来进行。”
李志飞也被这件事深深打动。因此他发誓,要做一家商业成功的公司。“我特别认同拉里·佩奇。技术者的悲哀就在这里,虽然你很天才、技术很强大、很有创造性,但如果就是不能商业化、就是不愿意讲故事、就是不能说服投资者给你钱、就是不能让老板给你资源,那么你就很难成功。对我来说,从办公司的第一天起,我就特别关心商业化这件事。我做的产品,是不是能够获得投资,怎样才能生存下去,怎样才能获得市场认同,这些决定了我在整个公司中做什么样的产品。”正是这样的原因,李志飞并没有选择去做无人驾驶或者谷歌眼镜这样的产品,“这些离消费者太远了,或者说在这个结点上做这件事情没有意义。因为谷歌也不是第一天做无人驾驶,如果它是另外一种方式,贸然就去做一个项目,可能早就失败了”。
谷歌给李志飞的另一个印象则是,即使其懂得如何商业化,也还是有点“不接地气”。在谷歌,以工程师为核心的公司文化,很多时候会导致工程师根据自己的需求来想象或开发产品,最终技术上技高一筹,消费者却不买单。“可能是因为谷歌公司做大了,到了一定阶段,就会有点异想天开。”但这给李志飞带来的启示是,做产品一定要能够影响普通人,而不仅仅是一个技术上的大牛。
拉里·佩奇对李志飞影响比较大的还有一句话,他说如果你做一件特别难的事情,反而更容易成功。也就是说,如果现在设定一个目标,在别人看来难以企及,反而比设定一个小目标,在已有的系统上做一些调整、做一些微创新要容易获得成功。原因是,你的目标非常清晰,而且有一个很大的愿景。你想要改变,就没有包袱,不会受到既有系统、人员、思维方式的限制;第二,当所有的人都有一个共同的愿景,认为要面对一个特别艰难的问题时,就会发挥更大的力量去战胜它。
在从事语音识别系统时,李志飞也曾面临选择:是独立开发,还是利用别人现有的基础来开发——虽然前者听起来更艰难,但考虑到利用别人现有的系统就要与别人合作,可能观点、理念、迭代速度都不一样,很可能最终会发现,那并不是最初的设想。于是,李志飞硬着头皮独立开发了语音识别系统。至少到现在来看,这是个正确的决定。“因为我控制了整个系统,可以进行各种各样的优化,跟过去完全不同。”
管理学大师彼得·德鲁克曾说,创新可以分为很多种,包括社会的创新、商业模式的创新、市场架构带来的创新、新知识的创新等。而新知识的创新,由于需要经历研发到落地的过程,可能比其他创新的周期都要长。这就使得创新者不得不想办法缩短这个距离。
“我完全认同,因为我也在经历这样一个过程,如果很容易的事情,很多人都能做,别人早就做了。但是新知识的创新,本来就是一个非常漫长的过程,是非常痛苦的一件事,如果你一定要献身于此,就不要放弃。一旦有创新,就会形成巨大的优势。”而在这个先发优势下,再去思考如何缩短时间——“那就是接地气,跟用户迭代。”李志飞说。或许人们说到人工智能,会觉得这是个细分的行业,产业链也非常长。而且这样一个高端的技术很难直接面对消费者,因此每一次改变都需要漫长的过程。但在互联网时代,迭代发生了根本性的变化。“我能知道我的用户究竟是什么样的人,有怎么样的收入,他在什么样的场景下使用。那么用户与产品一起迭代,就绝对能够缩短这个周期。”对此,在不断了解用户需求后,出门问问每个星期都会迭代一个版本。
人工智能推手
李志飞认为,两方面原因加速了人工智能的成熟。一是移动市场的迅速发展。过去,人工智能本身没有实际意义,语音识别、自然语言处理、计算机视觉等都停留在空泛的概念阶段。但在移动互联网框架下,这些都产生了更高级的应用。人们在真实的移动环境下,每天使用手机,产生了各种需求,数据量也极大提高。“无论是用户,还是投资者、大公司,都能看到这个趋势,不会有人否认这个大趋势。”第二是在移动趋势的前提下,大公司起到了教育大众的作用。尤其是谷歌、微软用深度学习提高语音识别,在过去十几年有了重大突破。美国各种主流媒体都在讨论人工智能。在中国,百度和腾讯也做了很多创新和跟进。此外,过去人们提起人工智能、语音识别,更多的是那些B2B公司发布的,但现在则是Google、Facebook、亚马逊这样一些面向消费领域的互联网公司进行的。“互联网公司把人工智能这个概念推进到产品和投资领域中,确实是推动了整个行业的发展。”
李志飞也成为人工智能在中国的重要推手。为此,他做了很多普及工作:在会议上对媒体宣讲,公司也积极参加各种人工智能沙龙,他还活跃在微博、微信中,热心地与公众进行互动。令他深有感触的是,刚刚回国时,对别人提起人工智能这个概念,他还要从定义说起;现在,无论是媒体还是消费者,都可以说出一些专有概念了。
与此同时,也有更多的顶级人才加入人工智能大军。出生在香港的华裔美国科学家吴恩达,曾因在谷歌负责Google大脑项目而广为人知。2014年,他加盟百度出任首席科学家。百度研究院副院长余凯,则是国际知名机器学习专家,在人脸识别、自动驾驶方面都取得了重大成就。
在出门问问,李志飞的昔日伙伴、语音识别科学家雷鑫也加入公司担任CTO。虽然在出门问问创业之初,李志飞就曾力邀其一起创业,但相对保守的雷鑫还是观望了一阵子。后来,他发现李志飞说的那些“看起来不可能实现”的东西,慢慢地在成为现实,终于加入了这个年轻的创业团队。
李志飞也依然游走在北京和美国硅谷之间。他发现,硅谷华人的创业热情正在不断高涨。2014年7月,他在硅谷分享自己的项目和创业经验,现场来了150多人——这在硅谷的华人圈子中可不算少数,其中有很多斯坦福的学生,还有Google、Facebook的工程师。他们有的利用业余时间创业,有的则对新技术展现出浓厚的兴趣。李志飞和他们分享了自己的创业经验:商业模式、如何面对投资者、中国的用户以及可能遇到的各种问题。没想到,自己讲了十几分钟,最后大家热烈讨论了两个多小时。“过去大家都认为,特别牛的技术人才应该留在硅谷创业,但是现在大家都相信,来到中国市场有更大的机会,也有更大的挑战。”李志飞感触颇深。
回国三年,李志飞也注意到了中国和美国之间的一些创业文化上的差异。比如,硅谷用人强调少而精,尤其是Google,很多人在单打独斗;但在中国,则更多地需要团队协作,发挥各自的优势。有一些美国创业者抱有不切实际的幻想,希望靠一项硅谷尖端的技术就在中国所向披靡;以为一个App上了媒体报道,立马就会火到“服务器都瘫掉”。“其实现实不是这样,一个产品从圈内跳到圈外,是一个很漫长的过程。中国的市场、用户结构也更复杂。”还有就是面对大公司的挑战:虽然新技术有壁垒,但很多壁垒都有期限。“在中国,大公司很可能以你三倍的人力直接打垮你,甚至直接挖你的人,这里有很多现实的问题。”不过,另一个角度则是,硅谷的美国创业者也有同样的顾虑。“你的公司能不能成功,绝对不在于是不是被竞争对手打死,而是你自己会不会放弃,或者说是你的执行力够不够的问题。”李志飞说,如果百度要做类似的事情,自己就会心慌退缩,那也就没有今天的出门问问。从另一个层面看,有大公司的竞争,说明这个市场是正向的,在这个环境下能做出好的东西,并得到资本支持。
李志飞仍记得两年前自己坐在演讲台下听创业者们分享他们经验时的情形。他们提出的很多问题,后来在他的创业过程中都在经历、验证或者反证。“大家有很多相同的思维方式、价值观,所以我希望更多的硅谷人回中国创业,创造一个大家认同的环境。”
作为一名科学家,希望取得商业成功的李志飞也一直注重管理公司的科学性。他认为工程师做管理有几个优势:讲究效率,直观,不拐弯抹角,注重流程的合理性。“我在公司经常做这样的事情,第一是很直白地告诉你我的想法;第二,帮助你清理流程、找到工具,或者用量化的思维解决问题。”但往往事的另一面是:他会钻牛角尖,挑战很多小细节,甚至特别小的数字。对他来说,创业也是一个历练过程。
“我们希望在一个新的地方、新的战场,建立我们自己的地位。这是一个新的类别,会大到你难以想象,也就是说它过去不存在,你从零开始。最终,我要利用人工智能,做出一个大众消费者、包括我自己每天都能使用的,并且商业上取得成功的产品。只有商业成功,才能支撑更伟大的想法。”李志飞说。
TIPS
作为海归派创业者,李志飞的特别之处在于他非常“接地气”:第一,他不只是沉浸在自己的世界里搞技术,为了让产品落地,他近距离接触用户,了解他们的需求和痛点。第二,他的创业带有很强的目的性,能踩准时代节拍,顺应行业趋势,在关键点抓住时机。比如他赴美留学就是为了创业;回国后锁定与移动相关的领域推出语音产品,填补了国外产品对中国市场适应性的盲点;随着智能穿戴市场的成熟,他先是推出智能手表系统;2015年6月,又进军硬件市场,推出了自己的智能手表,敏锐地抓住了市场机会。2015年9月,其提供的智能语音搜索正式加载到谷歌中国版Android Wear智能手表操作系统中。这一合作亦被称为谷歌重回阔别5年的中国市场的第一步。第三,他充分考虑到中美创业的文化差异。美国崇尚个人英雄主义,科学家们往往单打独斗;但在中国,更需要集体的智慧,因此他常常思考如何组织和发挥团队的最大价值。第四,面对大公司竞争,调整心态积极应对,因为好的一面是它们可以带动整个行业的发展与投资者关注。作为创业公司自身,最重要的是提升执行力。第五,注重市场,只有商业化运作,才能支撑更伟大的想法。
附
谷歌的成功之道:拥有“登月”思维
(本文节选自2014年5月14日Google创始人拉里·佩奇和谢尔盖·布林写给股东的一封信。在这封信中,佩奇重述了谷歌各项业务的最新进展,并对公司未来发展进行展望。他认为,只有拥有大胆的梦想、优秀的人才,才能成为改变世界的“登月者”。)
布林和我创立谷歌是因为我们希望“开发一款服务,大幅度地改进尽可能多的人们的生活”。我们一直坚持这一使命,并进行了长期投入,开发用户真正喜爱的新技术,例如搜索、Gmail、地图、Chrome、YouTube和Android。我们在较短的时间内涉足了许多领域,因此人们很自然地会问:今天的谷歌究竟是什么?你们将走向何方?这是个好问题。
搜索
信息是谷歌的核心。我们的一大动力在于,我们认为信息的获得能推动人类进步。在儿童时代,我们俩都很有好奇心。我曾花大量时间阅读图书和杂志,或是把家里的东西拆开,看看它的工作方式。今天,寻找这些信息变得更容易。你只要前往谷歌搜索即可。搜索很有意义,因为些许知识就可能带来巨大的不同,无论这是看似简单但对日常生活很重要的信息,例如如何避开交通堵塞、非洲农民如何拯救他们种植的土豆,还是那些更重要的事。
谷歌搜索引擎中的用户非常活跃,每月搜索次数超过1000亿次(其中15%是我们前所未见的),而我们目前在几秒内就会更新编目,以确保显示最新的结果。为了使生活变得更简单,我们开始针对你的问题提供直接的答案。例如,“世界上最深的湖是哪个湖?”“是西伯利亚的贝加尔湖,深度为1741米。”或者“我的航班何时起飞?”此外,我对语音搜索取得的进展感到高兴,目前该服务已支持超过38种语言,包括最近的泰语和越南语。语音通常是最快捷、最简单的提问方式,尤其是当你使用移动设备时。
从许多方面来看,目前距离创造我梦想中的搜索引擎还有十分遥远的距离。这样的搜索引擎应当在准确的时间向你提供正确的信息,同时你不必花很大精力去操作。深入理解信息是一个有待解决的难题。Google Now正试图解决这一挑战。Google Now能在你没有提问的情况下就提供信息,因此你不必打开收件箱去寻找必要的信息,这一信息会直接出现在你的屏幕上。Google+上基于兴趣的建议也成为一个重要的信息来源。我总是能获得具有高度相关性的信息,例如近期出现在我信息流中关于风筝滑水发展历史的这条YouTube视频。
尽管目前仍处于发展早期,但关于理解人们的内容,我们已取得了重大进展。如果我们希望加强人机互动,那么这非常关键。请想想你的交通通勤。你需要易于获得交通信息,从而可以规划交通路线,避开交通拥堵。如果突然需要安排另一事项,那么你会希望从当前所在的位置开始获得导航(而不是在小屏幕上手动输入位置)。改进的内容也将使搜索变得更自然,不再是你手动输入至计算机的一系列关键词。我们正越来越接近这一目标:查询埃菲尔铁塔的高度,以及它的建设时间。通过理解“它”在上下文中代表什么,我们可以带来会话式的搜索。
生活在多屏幕世界中
随着设备越来越多,确保你可以方便地跨设备使用服务就显得越来越重要。我们的Chrome浏览器已有7.5亿用户,速度很快,同时也很安全。这款浏览器能无缝地跨设备使用。在桌面上打开地图,当你转移至移动设备时,同样的标签将会打开,因此你可以继续浏览。
再来看看照片。在多屏幕世界中,这是非常糟糕的功能场景。在不同设备上我们保存着不同的照片,很难查找或分享。这样的情况令所有人感到失望。Google+可以将这些照片全部上传至网上,随后你可以在任何设备上查看照片。更有利的是,如果你丢失了手机,照片并不会一起丢失。
在不到6年时间里,超过10亿台Android设备已被激活(发展速度很快)。这给全球越来越多的应用开发者带来了一个优秀的平台。目睹这一生态系统的起飞,令人兴奋。2013年,Android开发者通过用户付费获得的平均收入较一年前增长了超过4倍。目前,我们正在将Android推广至手表等可穿戴计算设备,以及汽车。在汽车中,我们可以使导航、拨打电话和播放音乐变得非常简单。
Google Play在线商店的理念也很类似。通过Google Play,你可以一站式获得应用、电影、电子书和音乐,并在任何设备上使用这些内容,而不必进行无休止的同步。如果你在平板电脑上听音乐,而你转移到手机上时,这首曲子仍会在那里。(你可以发现,这里出现了一个主题!)近期,凭借Chromecast电视棒,从家中或朋友公寓的电视机收看来自Google Play和Netflix的电影变得很简单。你可以扔掉所有电视机遥控器,仅仅使用手机或平板电脑中的现有应用,例如YouTube,来控制电视机。最令人高兴的是,Chromecast的价格只有35美元。
目前,如果没有良好的设计,这一切都不会有意义。我还记得,我曾在密歇根大学学习可用性课程。学生们需要选择一个他们熟知的程序(我选择了电子邮件程序),并估计专家级用户使用该程序完成各种任务需要花多长时间。这使我理解到,开发优秀而高效的界面非常困难,需要比你想象中进行更多的工程开发。这里需要一个标签,那里需要一个下拉菜单。如果你给人们提供更多选择(即使他们并不使用这些选择),他们的学习时间就会更长。人们仍在谈论谷歌主页的简洁性,这也是我们最初成功的重要一部分。这种理念没有理由不应用在我们的其他产品中,尤其是目前存在许多设备和选择,以及许多可能分散人们注意力的机会。
互联网接入:尚未得到解决的问题
当然,以上一切都假定你是已接入互联网的20亿人口之一。这意味着全球还有50亿人尚未联网。尽管目前已有大量信息,但全球2/3人口仍缺乏最基本的互联网连接,这是一个悲剧。因此,我很高兴我们的团队正在开发Project Loon项目。这一理念是在太空边缘建设一个气球网络(飞行高度是商用飞机的两倍),从而为农村和偏远地区提供互联网连接。凭借Project Loon,在巴西东北部的教室中,我们很快将首次带来互联网连接。随着项目的发展,我们希望将网络的力量带给更多人,从而创造此前无人能想象的机会。
大部分人在接受教育的过程中缺乏“登月”思维
如果可以让小型的专门团队从基本原则起步,而不是被以往行事方式所束缚,那么所实现的东西将非常有趣。不过我逐渐发现,很难让团队建立起非常远大的目标,因为大部分人在接受教育的过程中缺乏“登月”的思维方式。他们习惯于认为,一些事是不可能的,并对失败感到畏惧。因此我们花费了很大精力,在谷歌内部聘请独立思想家,并设定远大的目标。因为,如果你聘请正确的人才,带来足够大胆的梦想,那么通常都能够实现。即使你最终失败,你也会学到重要的经验。
毫无疑问,许多公司逐渐习惯于从事他们已经能做好的工作,仅仅只是进行增量式的改变。这种增量式的思维方式逐渐变得不合适,尤其是在科技行业,因为科技行业的改变通常都是革命性,而非改良性的。因此,我们仍在为长期发展,为下一代重要产品进行投资。在医疗领域,我们拥有Calico。这是一家由Genetech前CEO亚特·列文森(Art Levinson)领导的公司,专注于医疗、健康和长寿。我们也拥有Iris。这是一款智能隐形眼镜,能改变糖尿病患者的生活。我们近期还收购了Nest,该公司将普通家居用品,例如恒温器变得更有用。此外,我们对新的Google Shopping Express快递服务感到兴奋,这是帮助你在订购当天就收到商品的快递服务。无人驾驶汽车也是如此(无须再做解释!)。今天,这些想法看似非常疯狂,但如果过去的经验能指引我们未来如何取得成功,那么今天的这些重要赌注在几年后不会显得奇怪。
在成立谷歌16年之后,我们仅仅只掀开了幕布的一角。在每天的工作中,布林和我都会对未来,以及与我们共事的杰出人物感到兴奋。谷歌员工使一切变得可能,他们是我们的未来。尽管世界在几年内就会发生改变,但给当前人类生活带来改变的可能性仍在驱动着我们,就像我们刚刚开始时一样。
拉里·佩奇
2014年5月14日
(资料来自新浪科技:http//tech.sina.com.cn/i/20140516/08569382571.shtml)
评论留言