未来都是数据公司?!(二)
四、什么是大数据?
大数据三特征:数据量足够大、多维度、数据的完备性。
大概两年前,百度知道公布的一个数据:通过7700万条与吃有关的问题里,挖掘出一些结论,反映中国不同地区的饮食习惯,比如香港叉烧、厦门蛋挞、福州佛跳墙、重庆麻辣等等,广东人常问什么东西不能吃,西北地区问什么东西能吃,广东云南问虫子能不能吃,西北问螃蟹能不能吃。这些杂乱无章的信息,可以看出很多好的数据。
当然,还可以看出不同人用了不同的计算机、手机,而且上网时间、生活习惯都不一样,所有问问题的时间也不一样,从这里可以知道年龄段、收入等隐私。这些数据属于历史上不同时期产生的,叠加起来分析不同地区的GDP差距和时间上生活习惯的变化。数据维度非常多,维度一多,数据就相对非常稀疏,所以需要更大的数据量。
盖洛普吃亏就吃亏在数据的完备性上面。Natesilver也做了一个总统精选的预测,它找遍了所有网络上的数据,然后对美国50个洲的投票倾向性做了预测,美国竞选不像法国,法国是一人一票,但是美国是只要一个洲里面的数据能够胜出,就可以这个洲把所有票拿走。历史上从来没有一个预测可以同时做50个洲的预测,但是它获得了100%准确性。为什么他能做到?因为数据的完备性。如果你有本事统计到每个人投票前一天的想法,你的预测就会更加精准,以前我们想象不到这个事情,但是现在你有可能做到,所以,今天,我们的整个思维都要改。
BIG DATA,WHY NOT LARGE DATA?用前者的“BIG”不仅仅是强调数据量大,而是强调思维方式。
数据的完备性很可怕,回顾1996年,卡斯帕罗夫大师第一盘棋战胜IBM深蓝计算机,但是后面几盘计算机嬴了,因为它具备了数据的完备性,它把卡斯帕罗夫过去的棋局数据都收集起来了,包括全世界其它高手的历史数据记录都收集了。我们现在正在把很多智能的问题变成大数据的问题。
真正能够取代人的机器人,不是像人的,而是成千上万台的机器在运行聪明的软件。记住大数据三要素:数据量足够大、多维度、数据的完备性
为什么今天的人类正处在一个拐点上?为什么大数据在这个节点上爆发?
首先要归功于摩尔定律;其次,是移动互联网的起来,它和PC非常大的差别在哪里?互联网最早是机器和机器的联网,你离开电脑之后,你就离开互联网了,你坐在电脑前,才重新联上互联网,而移动互联网时代是你时刻联网,根本没有整的时间,全部是碎片时间,因为这样的特性,使得数据的完备性有可能获得。
还有就是传感器技术的发达,数据增长的速度已经超过互联网,也就是说,大数据的增长快于摩尔定律带来的增长。你如果今天创业,你不能做到移动是唯一的,也要做到移动优先。数据的收集不仅是传感器,还有摄像头,上海全市有几万个摄像头,未来市政府还打算扩大到10倍,几十万个。过去你是用密码认证,现在是用摄像头认证,以前摄像头是要花钱的,现在摄像头是可以送给你的。大数据的完备性在于它的多纬度,除了传感器、摄像头,还有很多手段和技术。
从现有的公司中,怎样比较能够处于有利的位置呢?是拥有和分析大数据能力的公司。未来所有的公司都是大数据公司。这根本不是几亿、几十亿的市场,这是几万亿的市场,孙正义说:所有的产业都要数字化。不同的时代一定由不同的公司来引领,PC是微软和因特尔引领,互联网时代是雅虎、谷哥、BAT等,大数据时代不是由传统的互联网公司引领的。在未来,大数据非常重要,未来,所有的公司都是数据公司,如果在50年前说计算机无所不在,没有人信,但是今天就是这样。
中国有一家做风能设备的公司,它的叶片和直升机的螺旋桨差不多,它的使用寿命是10-15年,在工业时代,最重要留一个余量,这个余量是从平均值得到的,所有10-15年的寿命测算就是余量和平均值,这是工业时代的概念,因为你没办法知道某一款产品具体的寿命点是什么时候。现在安装了传感器,就能够监控每一片叶片,可以具体到每一片叶片知道什么时候可以换。以前利润率也不高,被装到哪里也不知道,但是现在有大数据之后,就可以无线联网,每一台风力发电机具体的运行情况、卖到了哪里、当地情况风力如何,等等,都可以知道,这样做市场就特别好做了,能够清楚准确地判断哪个市场风力特别多。
在过去,很多想都不敢想的事情,今天都可以去实现。奢侈品牌他们怎么设计专卖店呢?它们对于怎么摆放产品都非常讲究,比如在北京开一家专卖店,它们用1:1的模型做了4个,然后根据老板的经验来考虑。产品摆完之后好与不好,没人知道,完全凭经验来,Prada做了什么事情呢?在店面和试衣间加了一个传感器,就可以知道多少人试衣,如果很多人试完不买,那就是看上了,但衣服某些细节可能有问题。
Target,类似于沃尔玛,它不要光知道卖了多少,也要知道谁在买,然后可以汇总出不同阶段用户的购买习惯,预计你处在什么阶段,下一阶段可能需要什么,针对性给购物建议。美国人每个月底信用卡都要账单,所以购物后会留发票,然后对账,但是发票多的时候还是麻烦,它就说我寄给你邮箱核对。用户在不同的阶段买不一样的东西,比如孕妇测试是否怀孕,是否开始买婴儿用品,然后出生后买奶粉等,再根据你的需要推送优惠券。后来有一个男客户打电话来,很生气,说你们怎么寄来婴儿用品,后来商场就安慰他,一周后,商场打电话跟踪咨询后续情况,但是男客户说,他女儿真的怀孕了。
五、大数据的关键技术
为什么未来所有的公司都是数据公司呢?在大数据公司,我们能做什么,或者需要做什么呢?
1、数据的收集(无目的性、非结构化)
谷歌去收购了NEST,后者是一款智能家居产品软件,它采集了家庭行为数据等等,数据采集很重要,它一定要无目的性和非结构化,在不知不觉中采集下来。刻意收集的数据可能是不准的,比如问你喜吃什么,可能不好意思说你喜欢吃臭豆腐。一年前我和罗辑思维的罗振宇聊天,罗振宇说在机顶盒出来之前,央视是如何了解收视率的呢?就是发一些调查问卷,发现所谓很多主持人的收视率都被高估了,后来有了机顶盒的统计,就省力很多。
2、数据的存储
3、数据的表示、检索和随机访问
以前我们处理的数据:文本,很容易索引,数据量大了之后怎么检索,如图片、DNA片断?
4、数据的使用和挖掘
当你从沙子里能够挖出金子,这就是挑战,所以数据的使用和挖掘非常重要,谷哥40%工程师的日常工作就是数据的挖掘,有了数据,你才知道产品怎么改进。比如医疗数据,怎么能够把不知道的人的具体情况找出这个人,然后利用这个数据呢?
5、其它挑战:安全、隐私
数据还有一个挑战,就是泄露,数据的安全和隐私不能丢和损坏,这些都是挑战,这不只是法律的问题。
六、机器智能的鼎足三立
计算机不是思考,它是算,所以它要有思维模型,机器智能未来是三足鼎立:摩尔定律、大数据和数学模型。谷歌大脑其实就是人工神经网络,它做了一个热门的概念:深度学习。以前人工智能要几百个节点,但是人工神经网络是几万个节点。
谷歌可以用计算机回答问题,这恰好解决了图灵的问题。比如,你输入:天为什么是蓝色的?自然搜索前10条,可能只有2-3条有用,计算机的解决方案就是把互联网上所有网页拿来做语法分析,是每句话分析,这个数据处理量巨大),或者拼凑答案,东边一句话,西边几个词,将问题转化成大数据问题。谷歌可以用大数据来弥补这个信息的鸿沟。大数据不是说让它比人更聪明,而是按照机器自己的方式解决问题。
再来看自动驾驶汽车。2004年这个点为什么重要?麻省理工两位教授说看看计算机有哪些事情是它替代不了人的呢?想来想去就想了“开车”这件事情,因为要眼观六路,耳听八方,比如车手舒尔赫就是手脑协调能力特别好。自动驾驶汽车,它不是当作智能问题,而是当作大数据问题,它是谷歌街景的延伸,它能够知道路况、红绿灯、堵不堵车、街道宽度、车速如何,一下子机器显得很聪明。后来,谷歌又做了一些改进,对突发性事件预测得更准确了,它没有刹车、油门,现在已经跑了几百万英里了,一共出了十次事故,都是人撞它,没有它撞别人的。
七、如何看待大数据将带来的变化?
如果未来的世界,智能机器无所不在,大家可能会疑惑一个问题:这到底会是机器人的世界还是人的世界?
几个月前,深圳说有一个完全的机器人工厂,那么原来的工人去哪里?富士康未来的工厂,很多工人也将被机器人替代。那么,人去哪? 你以为,再就业就好。其实不是那么回事。你如果看英国整体工业发展,你会发现要消化这些人,让社会重新稳定,这需要几十年的时间(消灭这种变革带来的动荡是几十年的事),所以有当年的《雾都孤儿》。 在美国也类似,美国上世纪20年代的激烈社会矛盾就在于此。
大家认为生产线工人比较容易被波及,那么也来看看放射科医生,在美国,高中毕业后不能直接去读医学院,要先读4年本科,然后还要做医生训练,最后才能行医,年薪非常高,但是未来会怎样呢?未来放射科医生是机器,自动癌细胞识别,它的精确度比人还高,而且它不受情绪影响,它随时都很准。
再看一个类似的粒子,谷歌在2012年搞青少年比赛,以大数据为题目,得第一名的是一位18岁女生,她有200万份取样数据,最终成功率98%,比任何有经验的医生的结果都好。
未来的社会,连高大上的职业都会受到影响。在美国写一份好的专利报告,要收1万多美元,有时候为了打嬴一个专利,要花1亿美元,三星和苹果也打过专利官司,当时有一个案子比较小就和解了,后来就要求对方付一小部分的律师费用,那这一小部分是多少呢?1600万美元。苹果和三星两家光为打官司这几年就花了几亿美元。后来有一个人做了一个用自然语言处理器,搜寻了所有类似的官司案例,最后只花了10万美元解决了问题。可以想象,这个技术未来也会让很多律师的职位受到威胁。
那么未来的世界是怎样的世界?
机器人是不会控制人类的,但是制造智能机器的公司和人,其实是通过机器来控制人。就某种程度,你是不是在被腾讯给控制了?它们是这个机器时代的受益人,其它人怎么办?要么加入他们,相信这个未来,成为2%的人,要么你沦为反对者,成为98%的人,被2%的人控制,还记得占领华尔街运动吗?如果你是那98%,你的希望在哪里?反对有用吗?因为你是不被这个社会需要的人。
从美国的工资变化趋势看:在整个波澜壮阔的互联网时代,全社会总体上生活没什么改进的,只是其中2%的人获得了收益。中国未来不可能持续7%的增长,如果你不在前者,你只能拿着社会的平均工资水平。硅谷的房价一直在往上走,当然这和中国的土豪也有关系,他们用现金去买掉了30%的房子,然后其它的房子去了哪里?是给那些表现突出、财富优越的明星公司,整体房价都在拒绝平庸。
在大数据时代,你没有选择。互联网时代,什么东西都很快,久而久之,你就习惯用数据得到结果。任何一个搜索引擎,没什么差别,差别就在长尾效果,就是谁的数据量大以及数据模型,微软的Bing在什么时候发生巨大的飞跃呢?是在搜索雅虎之后,因为有了大量的内容。
Big data(大数据)的Big,是思维方式的变化,如果你处在这个社会的2%,你的财富积累会被这个社会快非常多。
在美国,医疗费用占据GDP的16%左右,这已经是美国社会无法负担的,所以美国要不断卖掉债券,这就是在预支未来,随着老龄化越来越逼近,医疗这个市场非常大。
在50年代的十年里,对疾病的诊断和治疗没有太大突破,所以大家准备换一个角度看这个问题;60年代,医学界和生物界希望发明一些药品,让人活得好一些,经过十年努力,人均寿命提升0.8年;于是,到了70年再换一个思路,就是少吃油腻、多做运动,这个时候人均的寿命提升3-5年,这个还是很大的差异。所以,大家发现,依靠医疗不是寿命提升最根本的解决方法。
当时,抗癌药的发明人想:“有没有发明一个万能药,把癌杀死?”其实癌细胞是我们自己的细胞,会自己复制和转移,错一次就会错第二次,不知道会复制成什么样子,我们看到得癌症的人,很经常一夜之间猝发,因为可能癌细胞在此发生变异,原来的药品无效了,所以,试图找万能药是做不到的。
如果有专门的医疗团队专门针对病员研制药品,这个倒是可以很好地治疗疾病,但这个要求研制速度够快,而且费用特别高,要10亿美元左右,乔布斯可以做到这块,但是他不信这个方法。
现在谷歌成立了一家公司,通过大数据来做医疗,可以使成本降低到每人10万美元。大数据的关键技术之一是收集数据,但数据不能光靠一个人完成收集,是需要非常多人的数据,通过好基因和坏基因进行比对,就可以提前进行修复。
大数据给我们社会带来的影响不仅仅是产业的变化和生意,对人类也是非常有帮助。大数据的思维就是未来细到每一个人、商品、交易,可以全面性拥有数据。一个酒吧老板发现,有24%的酒是被偷喝掉的,后来他在每一个酒瓶下贴3毛钱成本的传感器,能够接收“酒倒了多少”、“什么时候被拿”等信息,通过手机或者平板电脑都知道,每一笔交易业都清清楚楚,这就是大数据时代和思维的特点。
大数据,它也不只是电子商务,不仅仅是把商品放到网上去,它是整个生态链的改变。这个时代,你再去卖大件产品的时候,是看谁能拿到用户信息,谁能把服务做好。当IBM发现利润不断下滑的时候,它从原来卖硬件改成卖服务。GE(通用)为什么能做成百年老店?它也意识到大数据的价值。
董明珠和雷军的论战,其实更多像两个时代的对话,雷军的想法叫做互联网思维,董明珠是典型的工业时代思维,以严格管理的企业和别人打阵地战,其实,不妨换一个思维,就像空调的过滤器是要更换的,实际上,空调用五年下来,只要市场做得好,用户信息把握得好,然后教育客户过滤器的更换使用,也许过滤器利润要比空调高,正如小米的配件利润比手机还高。
最后我们总结下:摩尔定律带来IT的革命,互联网和摩尔定律带来大数据,大数据和摩尔定律导致机器智能,机器智能改变未来社会。要么成为这个时代的2%,要么成为这个时代的98%。