新浪微博   微信

首页 > 新闻资讯 > 科技动态 > 全文

未来都是数据公司?!(一)

文章来源: metalab / 网站编辑     发布时间:2015-07-02      浏览次数:



        Google科学家、硅谷风险投资人、原腾讯副总裁、《浪潮之巅》作者,它开拓了Google的中日韩文搜索时代,他对互联网时代的每一次变化洞若观火。
 
        一、从摩尔定律说起
 
        50年前,英特尔(Intel)创始人之一戈登·摩尔提出了摩尔定律。50年来,世界科技产生的增量很多来源于摩尔定律,如果把摩尔定律产生的GDP拿掉,人们的生活水平会差得很远的。50年来,摩尔定律已经改变了人们的很多生活方式,是一个浪潮,是持续的增长,它可以再走一段时间,但今年是转折点,接下来的30年还有个新机会:大数据。
 
        接下来是大数据的福利,这个机会就像50年前一波人踩上摩尔定律的船一样。大数据是不是一个泡沫?虽然它今天没有产生那么大的GDP,但为什么认为它如此重要?30年后,它也将彻底改变这个世界,还有思维方式,并带来惊人的结果:机器智能。
 
        首先回顾下摩尔定律:
 
        1965年,摩尔提出一个定律:“半导体的集成度每年翻番。”正如当棋盘每次翻倍放麦子,10次后会翻1000倍。摩尔后来发现“每年”这个数据太乐观了,是18个月翻一番。1968年的时候,诺伊斯相信摩尔,所以他们成立了公司“intel”,最初只想做更大容易的存贮器(当时,IBM小型机的时代,计算机公司自己做处理器)。日本有一家做计算器的公司,它想设计一款微处理器,找到Intel,于是intel阴错阳差就设计出来了,它不仅能做处理器,还可以做很多。那时候他们两个人还没想到计算机可以家用,不知道计算可以在家里干嘛,就卖给了日本。很多探索,商业成功的运气有很大因素。
 
        50年前,没人相信过“每个人都可以拥有一台计算机”这个事情,但是今天计算机的市场这么大。摩尔定律带来的结果是:所有半导体IT公司必须在18个月内完成下一代产品的开发。所以在美国,很多会在10月、11月会推出一款新产品,如果不能上,第二年基本没什么生意,以前你不敢想象的很多事情,就不断变成现实。
 
        以前社会需求带动科技发展,现在科技先被造出来,你甚至不知道它干么用的,但是一旦它产生出来,就会产生社会需求。如果一个企业家在摩尔定律时代,却还是延续过去经济学教科书说的来做,就落伍了。因为有了摩尔定律,你尽管去做一件事情,你只要引领摩尔时代的一件事,各个公司都要开发针对未来市场的产品。在你创业的时候,不用考虑会不会没有市场,即使产品12个月后出来,但是如果你花很多时间去优化前期的代码,你比别人多花了半年的时间,你会发现即使你后面生产出来了,还是会发生很多技术的问题。
 
        摩尔定律给世界带来了惊喜,因为产品18个月后价格会降一半,会给用户带来福利。在农业时代,种田后会留一些种子,第二年接着用,这是过去的方法,今天中国的农村已经不留种子了,可以直接从种子公司购买。为什么种子公司可以研发出更好的种子?因为他们运用了IT技术。
 
        中国在过去的35年走过了英国300年的路,30年前,你去杭州万象集团的前身,会看到工人都是纯手工干活。今天,你去富士康,完全是制造王国,就是因为摩尔定律。过去,我们理解的服务业是旅游、家政等等,今天不是,今天IT作为服务业,光在美国就有1万亿市场,中国的第一、第二产业也正在向第三产业转型,这个时候不是仅仅为它们简单的法律等服务,而是用IT输出。
 
        不过,摩尔定律在经济学上有一个很大的问题:通缩。在世界上比通货膨胀更可怕的是“通缩”。欧洲今天经济出这么大问题,包括日本过去出现那么久的问题,就是通缩,这是一件很可怕的事情。但问题出现的时候,常常就会出现一个解决方案。
 
        那么,这个解决方案是:“安迪-比尔定律”(与摩尔定律、诺威格定律并称的IT产业三大定律。),即“安迪给你的时候,比尔就会全部拿走(“Andy gives, Bill takes away.)”。安迪指英特尔前CEO安迪·格鲁夫,比尔指微软前任CEO比尔·盖茨,这句话的意思是,硬件提高的性能,很快被软件消耗掉了,这对IT产业中软件和硬件升级换代关系的一个概括。这是微软要和大家做对吗?不是的。微软在和英特尔一起打造了IT的产业链。
 
        个人电脑出现后,分工就更清晰了,硬件和软件分开做,硬件要提升,然后软件升级,吃掉硬件的提升。当芯片处理速度越来越快的时候,可以实现更多的文字报表、照片视频等处理,就带来整个工业和社会的升级。
 
        把摩尔定律反过来看,IT就和制造行业完全不一样,它迫使IT从业人员非常辛苦,因为它如果18个月不能把性能翻一番,就会被行业淘汰,所以很多人要不断提升。有的人就说我不玩了,于是出现了很多IT公司转向服务业,把电脑卖出去,然后去做软件,比如IBM,它把电脑业务卖给了联想。在摩尔定律出来,也诞生了今天很多主流公司,如微软和甲骨文计算机公司。IT行业容易出现垄断,但是也迫使制造业升级。
 
        未来30年是什么样的?看看硅谷投资的三个趋势:
 
        1、云计算+移动互联网:在美国有上万亿的企业级IT服务市场,在云计算时代,成本可以比IT时代降低很多,但是,在中国很遗憾,在中国没有几家企业级软件公司,在云计算时代,也许这里会有一个很大的市场;
 
        2、大数据+机器智能;
 
        3、IT+生物医疗:这个行业非常大。
 
        三个趋势的核心是大数据,那么,为什么大数据如此重要?
 
        二、人们对机器智能认知的发展
 
        很多人把大数据和大量的数据等同起来,这两者有什么区别呢?大数据有三个很重要的特征,它不仅仅是数据表格,不是这么简单,它的重要性是将带来机器智能。
 
        摩尔定律的结果是人类历史上第一次同现指数增长,第一次用机器运算来代替人脑,在某一个时间点上,机器智能会超过人。目前,我们正处在机器将近超过人脑的时间节点上。
 
        回顾下过去:
 
        50年代图灵测试,是计算机的模糊概念;60年人工智能;70年代出现了最早的数据驱动概念;96年出现了IBM电脑深蓝战胜了象棋大师,这台电脑是当时世界上最聪明的机器之一,后来互联网发展起来,带来了一系列的结果,到了2010年,谷歌的无人驾驶汽车出现,它已经可以能够主动控制一些东西,而不是和人类比头脑,跟深蓝时代的电脑已经完全不是一回事了。
 
        想到机器智能的时候,大家会想到机器人:比如变形金刚等等。
 
        那现实生活中的机器人是怎样的呢?到底什么算是机器智能呢?1950年,阿兰图灵提出了一个测试:“当计算机回答问题的时候,当你分不清给出答案的是人还是机器,这台机器就开始具备智能了。”图灵测试是以结果判定。那么怎么做呢?拆分条件:要能听懂,要会回答。
 
        来看看机器智能的三个发展阶段:
 
        1、1970年:人工智能时代
 
        之前还属于人工智能时代,就是模拟人的思考方式,即,首先想到人是怎么做的,然后去模仿人,结果这条路走不通。人类之所以是人类,是能够思考、推理,当时有个很有名的计算机科学家明斯基,他们最早提出人工智能机器的概念,他们提了一个概念:“钢笔在盒子里和盒子在钢笔里(the pen was in the box;the box was inthe pen)。”前面这句话比较好理解,后面这句话就费解了,但是如果把pen理解成围栏,那么就可以理解成:盒子在围栏里面。这句话如果让计算机来模拟人,它就做不到这个理解的。因为判断这件事需要世界的知识,从小从生活中知道的,不是分析得到的。明斯基在计算机界很有名,因为这句话,美国计算机基金会对人工智能的投入就减少了。到70年代,发生了一个变化,大家不做这个事情了:人工智能。
 
        2、1972-2000年:数据驱动时代
 
        人是怎么飞起来的?人类为之努力了几千年,最早的认知就是看鸟怎么飞,模仿它。但是,最后人类做出飞机,不是学鸟,而是认知了空气动力学,也就是学习什么不必非要模仿它。所以,如果要让机器有智能,不是让机器按照人怎么想,于是推出了空气动力学派。
 
        1972年发生一个事情:有一位教授从康奈尔大学离开,去IBM带薪休假工作,他做的一件事就是怎么让计算机聪明起来?于是他开始做了语音识别,语音识别和机器翻译是用数据驱动解决智能问题的最早范例。这位教授不是搞计算机科学的,他是基于数学研究通讯的,他认为语音交流的过程可以分解为:当你用语言把大脑中的概念表达出来(编码过程),然后通过空气传播(传输过程),然后你听到后进行理解(解码),这其实是一个通讯问题。
 
        要解决这几个问题,第一要数据(为什么IBM能够做这件事情?因为它当时有超级计算机,有大量商业客户和数据),于是产生了“数据驱动”概念。运动这些数据就可以加以识别,从而实现了语音识别系统,最初的错误率30%,且只能解决100多个字,后来,经过升级,到22000字,误率从对30%降到10%,这就基本能看懂意思了。这给人们启发,原来不需要非得模拟人,还有另一条路可以走:数据驱动。
 
        如果把中文翻译成英文,也是编码、传输、解码的过程。彼得·布朗受此启发,写了篇论文,作了一套翻译系统,但他失败了,因为它当时数据不足。双语资料当时只有圣经。后来,有了数据以后,证明这个方法能够做得很好。
 
        3、云计算+大数据时代
 
        需要多大的数据量才够支撑人工智能呢?当你的统计量大到足够的时候,人工智能的统计模型程度会极大接近人的智能(真实模型)。
 
        盖洛普认为:“统计量大到一定程度就不用再大了。”盖洛普是一个统计学博士,罗斯福第二次当总统的时候,他做总统的预测,盖洛普发了2000份问卷,而文学文摘发放了20万份的问卷调查。盖洛普公布了统计结果:”我自己预测罗斯福会嬴,我可以肯定文学文摘预测罗斯福的竞争对手兰登会嬴,但是我的预测会成功。”果然,最后是罗斯福嬴了,因为文献文摘发问卷的时候偷懒,通过黄页获得电话,当时基本都是中产阶级及以上阶层的人拥有电话,因此采样没有代表性,而盖洛普根据教育程度等数据发放问卷。
 
        盖洛普一直做预测,时准时不准,即使后来的样本在增加,也总有误差。概率的方法虽然好,但总是有些小概率覆盖不了。
 
        到了2000年以后,发生了一个变化,互联网兴起使得数据量剧增,使你一下子可以得到好多数据。凡是拿到美国政府经费的项目,每年就要参加政府的评测,比比谁做得好,谁做得不好。你即使没拿这个钱,你也可以去挑战。2015年, NIST当时对英语翻译做了评测,然后用机器翻译的结果和人翻译的结果去比对,结果:谷歌排第一。第二名相差5%,都是同一个人写的代码,内核更新并不多,唯一差别在于谷歌的数据量多了一倍。当你增加一万倍的数据,量变就产生质变了。
 
        所以,人的思维方式也发生改变了,以前花很多时间研究方法,现在通过数据就会解决。摩尔定律不仅诞生了半导体行业,这是过去50年的事情,未来,你所有的思维方式都要沿着这个方向改变:大数据。