您所在的位置:首页>新闻动态>新闻内容

漫谈“互联网+”技术演进的路径依赖性

 

 

    随着政府工作报告将“互联网+”提升到国家战略的高度,发改委也在近日提出制定“互联网+”行动计划的四大内容。“互联网+”涉及很多前沿技术的演进,不过,技术的演进更需要我们抓住它的本质。

    布莱恩·阿瑟在《技术的本质》中,认为技术是模块化的[1],具有一定的路径依赖性[2],技术的新组合促进经济发展[3],众多技术的集合创造了经济的结构,而经济调节着新技术的创造。“互联网+”行动计划正是希望通过借由互联网的蓬勃发展,将高速网络、云计算、大数据、软件定义、智能终端、增材制造等技术红利外溢到传统行业,利用互联网天生的碎片化、去集中化特性,缩短距离,消弭时限,促进信息对称,降低生产成本,打破信息闭塞和行业壁垒,激发需求和供给的有效衔接,通过影响产业链生态环境以及信息流、物流和资金流走向,优化产业布局,改善社会结构,以创新驱动经济发展方式的转变。

    本文从高速网络、云计算和大数据、软件定义网络、智能终端等技术谈谈“互联网+”技术演进的路径依赖性。

(一)高速网络

    互联网于1994年4月20日实现与国际互联网的第一条TCP/IP全功能链接,成为互联网大家庭中一员。这个时代是1G时代。1G手机(大哥大)基于人声引发震荡器产生的模拟信号,通过电磁波进行传输。信号在传播过程中具有保密性差和抗干扰能力差的缺点,而这些缺点就成为发展2G技术的需求。

    1996年,相继出现的GSM手机揭开了2G时代的大幕。从1G向2G的升级过程中,模拟信号变成了数字信号[4],大大提升了抗干扰能力和保密性。与此同时,容量小、费用贵、基于频分多址技术的1G技术升级为GSM技术[5]和CDMA技术[6],明显改善了用户的通话质量。由于2G有了普遍认可的标准,生产手机的厂商也逐步增多,并实现量产,因此,GSM/CDMA手机就不再像大哥大那么昂贵,普通大众慢慢地都开始拥有了自己的手机。

    2000年3月,中国移动在全国六个城市开通WAP试用网,从此翻开手机上网新篇章。2000 年 12月,中国移动正式推出“移动梦网计划”。随着移动用户的增加,再加上移动梦网的分组数据,让本已有限的空中资源捉襟见肘。这就促使人们发展新的技术来解决空中资源紧缺的危机。然而,如果把GSM系统全部转化为数据分组交换网的接口,付出代价太大。因此提出GPRS系统,仅增加少量功能设备,使得用户除了享用语音、短信业务之外,还能够随时随地接入互联网。让用户“随身携带互联网”的实现,为以后的精彩铺垫了浓墨色彩的一笔[7] 。

    最开始手机上移动互联网,是基于电路交换数据传输方式(CSD),和话费收费类似,按分钟收费。因为,当时的2G核心网是电路域,需要通过信令建立起信道,然后在这个“独占”的信道中传输分组,这个过程跟语音通信类似。GPRS带来的最大改变是分组转发。GPRS的实现原理就是将数据拆成一个个小数据块,每个分组可以通过不同的信道进行传输,这样就提高了传输效率,同时也降低了实时性。这种机制类似于路由器的分组转发,由于占用了多个信道,计费方式从按时收费变为按流量计费,而后者让用户可以“永续在线”,这逐步成为互联网的一大特点。

    2002年8月9 日,中国博客网开通。2002年9月,RSS2.0发布。种种迹象表明,互联网跨入web2.0时代。Web 2.0时代,主要的特点是以人出发,突出用户产生内容和内容的聚合。随着用户密度的急剧增长和对数据业务(尤其是多媒体业务)需求的提高,2G系统空中接口及网络能力遇到了性能瓶颈。此外,由于2G技术,一个是欧洲标准(GSM),一个是美国标准(CDMA),因此,国际漫游就存在很多问题。这时,国际电联就希望以IMT-2000标准来解决这个问题,正式开启3G之旅。但是,一旦统一成一个标准,就会因为利益分配导致话语权的斗争。因此,欧洲和美国就标准的事情开始争论。最后的结果,就是在确保IMT-2000要求的前提下,通过了三个标准,欧洲的WCDMA,美国的CDMA2000,还有中国的TD-SCDMA[8]。从此,国家安全有了切实保障,我国也在国际通信标准上逐步拥有了自己的话语权。

    后续的技术改进主要是频谱利用率和抗多径干扰能力的提升,比如从码分多址发展到正交频分复用,在增加系统容量的基础上,更好地满足了多媒体通信的高品质要求。当然这里面有很多故事,比如正交频分复用虽然是4G的技术,但是它比码分多址出现的早[9]。为什么现在又开始用OFDM呢?经济方面的考虑:第一,数字信号处理芯片的成熟,使OFDM实现成本和难度都大幅降低;第二,OFDM与多发多收技术(MIMO)结合得更好。最为关键的,OFDM技术没有专利费。因此,改进集中体现在上网速率的提升:2G只有9.6Kbps,最高可达32Kbps;3G可达2Mbps;4G可达到20Mbps,最高可达100Mbps。直观地说,2G就是看文字,3G开始看图片,4G可以看视频。在专利标准和话语权方面,我国在移动通信领域的地位也从3G的跟随,到4G的同步,以至期待5G未来的超越。

    此外,随着业务的复杂性和对实时性和稳定性的不断提高,通信网络的底层逐步从2G时代的电路域,经由3G时代的电路域+分组域,逐步向4G全分组交换的核心网演进。不过,演进的过程中也会遇到一些挑战:比如,4G的频率高,基站覆盖范围小,因此4G网络建设开销不低(移动运营商瞄着广电700MHz的频率眼馋,这是频谱规划的问题了);全分组交换网络带来的影响,4G的语音业务使用电路域回落技术,基于2G/3G网络进行语音通信[10]等。

    除了移动通信网络,还有固网的演进。从最开始的拨号上网(5KB/s,上网就打不了电话),到综合业务数字网(10KB/s,上网电话两不误,价格高昂),再到非对称数字用户线路(64KB/s,频分复用实现上网电话两不误,便宜)。由于ADSL在上行带宽和传输距离方面有限制,而且,web 2.0时代以后,用户上传内容和互动的需求与日俱增,于是,就出现了光纤网络。此外,还有采用电线上网的方式和量子通信。至于量子通信,主要是与信息安全相关,目前并没有从本质上提升传输效率[11]。

    高速发展的网络激发了内容的多样化(文本→图像→音频→视频),而内容的多样化给云计算和大数据的发展提供了肥沃土壤。

(二)云计算

    2006年8月9日,Google首席执行官埃里克·施密特在搜索引擎大会上首次提出“云计算”的概念。现在,提到云计算,一般都会将之分解为基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)三大块。而这些名字,在云计算概念提出来之前,就已经有了雏形。软件即服务的概念是在2001年2月的一次大会上首次提出的。在云计算还没有盛行的时代,我们已经接触了很多SaaS应用,比如Google(1998年)和百度(2000年)的搜索、Gmail邮箱系统(2004年)等。平台即服务,早在2005年,Google就公开了它的地图API,当时的开源激扬了社区阵阵热血。基础设施即服务就更不用说了,早期的各种主机租赁已经是司空见惯的现象。

    那么为何提云计算呢?为了满足用户更高度的定制化和更精细化的资源需求。早期的软件即服务,举个例子,在线文档服务,大家都用web服务接入并享用服务。但是,我想和我的朋友们进行一下内部协同,就没法配置软件、设置权限、实现协同。至于使用别人公司的API,的确因为封装提高了软件实现效率,但是却在软件定制方面留下了很多局限性[12]。租用别人主机时,由于同一个局域网的某台主机因为用户访问量激增而耗光网络带宽,自己跟着遭罪,承诺的服务质量没法得到保障。

    除此之外,云计算的出现,更是一种经济上的考量。根据2006 年IDC 对200 家企业的统计,部分企业的信息技术人力成本达到1 320 美元/每人/每台服务器,而部署一个新的应用系统需要花费5.4 周。首先,资源不共享。一个数据中心中的应用系统访问热度不均,导致在有的服务器资源告急的情况下,还有大量闲置服务器存在;想给资源告急的应用添加几台机器,用于负载均衡,还需要等待漫长的部署周期。其次,维护人力成本昂贵。因为维护人员管理的机器数有限,数据中心的服务器越多,自然耗费的维护成本就越高,而给数据中心规划的专家根本无法预估数据中心的未来负荷。最后,新商业模式的出现。贝索斯的Amazon在2006年3月发布了简易存储服务(S3),并于2006年8月29日,发布了EC2公众受限版。数据中心的硬件资源可以基于虚拟化技术,形成资源池,并向公众销售其中的一小切片。一方面,出售数据中心剩余的计算能力,提高了数据中心的利用率,并赢取利润。另一方面,云计算和大数据是硬币的两面,云计算的前期积累,为大数据后期的闪光奠定了战略基石。

    云计算的创新,也形成了技术外溢,激发了其他技术的迭代创新。举个例子,虚拟机的热迁移促进了数据中心的大二层技术创新。首先,一个数据中心一般是通过虚拟局域网(VLAN)来划分多个虚拟网络。由于云计算的急速发展,用户创造的虚拟网络数量远远超过4096个,而4096是虚拟局域网的上限,因此,促使VLAN更新为VxLAN技术,支持海量的虚拟子网。其次,如果是在同一个数据中心热迁移,数据中心有多大,虚拟机热迁移就能有多远。但是,基于生成树协议(STP)的网络规模不会超过100台交换机,而且链路利用率在50%以下[13]。因此,为了替代生成树协议[14],虚拟交换机技术[15]和拔高二层至三层交换的等价链路[16]出现了。最后,如果遇到虚拟机跨数据中心热迁移,由于虚拟机的IP地址和MAC地址在跨数据中心迁移后不能改变,因此,新的隧道技术(硬件方面:VPLS,思科的OTV和华三的EVI;软件方面:威睿的VxLAN和微软的NVGRE)出现了。

    此外,云计算对数据中心的部署,比如自动识别机器并横向扩展和使用Docker容器快速部署应用上线等,也有促进作用。

(三)大数据和深度学习

    正如前面说的,云计算和大数据是孪生兄弟。现在谈谈大数据。正如前面所说,2002年,web2.0时代的到来,引爆了用户产生内容(UGC)。同时,随着GPRS的商用,人们逐步从浏览网页文字转向浏览图片[17]。与此同时,网络传输的增长速率高于摩尔定律[18],安迪比尔定律也在背后推波助澜。98年成立的Google要搜集所有的网页资料,可想而知,他所需要的存储容量有多大[19]。

    2003年,Google发表了GFS论文,着重考虑大文件的存储和文件分布式存储的安全性。其实,在GFS这类分布式文件存储出现之前,数据挖掘里面就会用到对称多处理结构(SMP)和大规模并行处理计算机(MPP,一般都是大型机)。然而,前者共用一条系统总线,最多添加20多个系统接口,限制了系统规模;后者通过高速网络规避系统总线限制,但却引入文件定位的难题。GFS的出现很好地解决了大文件的拆分存储,它将一个大文件按照64M每块进行拆分,并按照1:3的比例将之存储到集群中不同机架的不同的服务器上,在提高文件可靠性的同时,最关键的是通过并行读取,提升了整个文件的读写速度。于是,也就有了2004年的“分而治之”论文,MapReduce和2005年的分布式列查询,BigTable。由此,GFS(查询)、MapReduce(处理)和BigTable(查询)作为Google的“三驾马车”,深刻影响了当时的开源社区。比如,2003年,Doug Cutting正为自己编写的网络爬虫软件(Nutch)的大文件存储发愁,GFS的出现给了他很大启发,Doug Cutting开发出NDFS,于是,也就有了后面的Hadoop。

    不过,Hadoop这类分布式存储和处理软件是批处理软件,也就是离线的,不适合实时业务。于是,twitter公司开发了Storm处理实时流数据[20]。数据模型不支持图计算,后来就有了Pregrel等一系列支持图计算的软件。Hadoop每次计算完都要将中间结果写到磁盘,徒增了很多开销[21],所以后续开发了工作流引擎oozie。伯克利分校APMLab实验室关注到,为何不用内存加快文件的存取速度,因此,比hadoop提升10倍以上的spark诞生了,几乎替代了hadoop在大数据社区的龙头地位。

    不论是GFS,还是Hadoop,但凡是分布式存储文件,都会遇到数据一致性的问题(著名的CAP原理),目前的做法是在放松数据一致性和实现数据可及性两者之间权衡,也有把两者进行混合实现,设定机制决定对策的。既然是集群管理,就会有集群管理器单点故障的问题。这个在Hadoop 1.0.3版本里,继续保留着。在Hadoop 2中,使用多台集群管理器节点,通过Paxos选举机制,选择集群管理主节点,避免单点故障。不过Paxos选举机制实现起来,有点儿复杂[22],于是就有了Raft选举协议。

    谈到大数据,应该也一定要谈到机器学习。MapReduce这种“分而治之”的思想,其本质模式是将数据并行,也就是说,将训练数据划分成若干个数据子集合,每个数据子集合都运行相同的学习算法来进行训练的过程,最后通过“合并”操作,汇总为全局训练模型的结果。但是,如果模型参数非常巨大,单机不能单独完成整个机器学习的建模过程,怎么办?2012年6月,《纽约时报》披露了GoogleBrain项目,吸引了公众的广泛关注。这个项目是由著名的斯坦福大学机器学习教授AndrewNg(吴恩达[23])和在大规模计算机系统方面的世界顶尖专家JeffDean(MapReduce作者)共同主导,用16000个CPU Core的并行计算平台训练一种称为“深层神经网络”的机器学习模型,在语音识别和图像识别等领域获得了巨大的成功。这种模式叫做“模型并行”的模式,即每台机器负责一部分模型参数的训练,通过网络传输,进行彼此的数据交换。

    既然有深度学习,也就有浅层学习。20世纪80年代,基于人工神经网络的反向传播算法,掀起了基于统计模型的机器学习热潮[24]。当时的模型结构最多含有一层隐层节点。后向传播算法主要用来训练模型参数,但是,即使对包含很少隐层的深层神经网络,也很难用这种方法有效训练,根本原因在于,在多层非线性转换过程中存在过多的局部极值点。后向传播算法容易落入局部极值点而停止。随着神经网络规模的扩大,这个问题就越来越突出。

    因此,2006年,多伦多大学的hinton教授提出了深度学习,通过使用多层受限波尔兹曼机逐层叠加形成深度信念网络,并采用非监督方式逐层地学习模型参数,对深度神经网络进行训练。由于这种训练方式的复杂度与神经网络的大小和层数呈线性增长的关系,因此,它具有可行性。深度学习通过大量数据的预训练,使得后期监督学习过程中的目标函数优化有一个较好的起点,有效避免了传统训练方法容易陷入局部极值点的问题。深度学习最让人印象深刻的是在2012年11月,微软在中国天津公开演示了一个全自动的同声传译系统,翻译效果非常流畅。百度也成立了深度学习研究院,训练自己的“百度大脑”。

(四)软件定义网络

    在软件定义网络(SDN)出现之前,传统路由器或交换机的报文转发和路由决定是集成在一起的。这种紧耦合的架构限制了IP 网络创新技术的出现[25],也给设备制造商带来了丰厚的利润[26]。与此同时,互联网的架构也逐渐僵化,其中,最为突出的就是互联网体系架构的沙漏模型,瓶颈处的传输层和网络层是各种链路层技术和高层应用互操作的基础。因此,保持传输层和网络层的相对稳定性和后向兼容,不可避免地为这两层的创新带来了诸多不便。例如,当时的网络研究人员想要在真实网络中基于真实生产流量进行大规模网络实验,这几乎是不可能的,因为网路设备是封闭的,没有提供开放的API[27]。

    当时的互联网演进思想可以分为两个派别:一个是改良派,主张在现有互联网网络体系下进行修修补补,对网络设备或架构进行改造,使其适应新的发展需求。然而,不断增长的RFC却让交换机/路由器设备控制功能变得异常复杂。此外,也有研究通过重叠网增强互联网的功能和性能,然而互联网的底层未得到任何改变。另一个是革新派,主张建立全新的网络架构,从根本上解决原有体系结构存在的问题。改良派和革新派并不是互斥的关系,而是同时存在的两种思潮。

    对互联网的创新可以从主动网络说起。主动网络属于改良派,它的基本思想就是将程序注入数据包,使程序和数据一起随数据包在网络上传输;网络的中间节点运行数据包中的程序,利用中间节点的计算能力,执行数据包中携带的程序,从而改变网络行为和状态。这相对于“被动”的转发分组而言,是“主动”地处理数据包中的程序和数据,因此叫做“主动网络”。主动网络可以通过网络节点的计算抽象高层协议,省去了为新应用制定标准的过程,加速了技术的创新。然而,主动网络由于数据包的格式不统一和标准的不规范,最终并没有在工业界广泛推广。

    接着,就有了基于主动网络的重叠网测试床(ABONE)。后来逐渐演变为基于虚拟化(分片)的重叠网测试床(PlanetLab,2002年)。这种思想是,PlanetLab的每一个子网(分片)都是和互联网平行的网络,PlanetLab子网与现有互联网交换信息,保持联通,可编程的属性允许科研人员自定制子网的路由机制,保持子网的创新活力。通过PlanetLab上的创新服务吸引、聚集互联网真实用户,当PlanetLab上的互联网真实用户足够多时,可以以一种面向服务的新体系架构取代现有僵化的互联网体系。然而,就算上层通过可编程的重叠网实现新应用,底层传统的传输机制依旧没有任何改变,例如,当上层实时性业务对时延、抖动要求很高时,底层互联网依旧是采取尽力而为的传输策略。PlanetLab最后还是停留在学术界,并没有吸引大量的互联网真实用户。

    软件定义网络(SDN)由革新派的代表,斯坦福大学的Clean Slate研究组,提出的一种新型网络架构[28]。其设计初衷是为了解决无法利用现有网络中的大规模真实流量和丰富应用进行实验、研究的难题(跟PlanetLab一脉相承)。其基本思想是将交换/路由器的控制面与转发面进行解耦,由集中控制器下发统一的数据转发规则给交换设备,通过对集中控制器的软件编程,实现硬件对数据转发规则的控制,最终达到对流量进行自由操控的目的。随着网络设备无法适应新应用如云计算、大数据等的广泛出现,SDN 技术目前成为学术界和产业界热门的研究方向。

(五)其他

    还有很多“互联网+”的概念没有涉及,比如智能终端[29]、增材制造、物联网(采集设备及组网方式)等,以后有时间再补充吧,篇幅有限。

(六)几点思考

(1)劳伦斯·莱斯格在《代码》,强调了代码对社会规范、法律、市场和架构的影响。回想一下SDN的发展史,确实代码对整个网络架构产生了深刻的影响。与此同时,开源软件也逐渐成为行业的标准,成为一个行业的话语权。既然代码如此重要,奥巴马都鼓励全民编程,我们也不能落后吧。

(2)大数据的蓬勃发展,让所有国家都意识到这是一笔极其重要的战略性资产。战略性资产现在可以交易(贵阳大数据交易所),但是战略性资产如何确权?如何定价?有何依据。《删除》要给大数据做减法,目前价值密度低的数据真的可以删除么?难免未来不是一座金矿?

(3)这一段是随笔了,可以忽略。出租车集体罢工反对打车软件的事情,让我思考“互联网+”到底是技术创新还是制度创新?

    波特在《国家竞争优势》里说,从粗放型增长向集约型增长的转变,会通过经济增长方式的阶段性演变反映出来。我国经济增长的历史过程可以分为三个阶段:首先是要素驱动阶段(主要驱动力来自基本生产要素,比如廉价的劳力、土地、矿产等资源),我国通过计划生育,成功跨越“马尔萨斯陷阱”(人口指数性增长和生产资料线性增长的不平衡),却提前进入人口老龄化(延迟退休和社保改革);其次是投资驱动阶段,四万亿等天量投资,撬动了地方经济跟进,引爆虚拟经济。虽然美国也是虚拟经济为主的国家,但是他的经验并不适合我国。(其在黄金与美元脱钩、布雷顿森林体系崩溃之后,与欧佩克签订美元结算条约,并利用世界银行的“主人翁”地位和国际货币基金组织的“否决权”,建立了属于他的金融秩序);再者,就是创新驱动阶段,经济发展的驱动力来自于技术创新,经济发展特征为知识密集型产业成为主导产业。我国正实施“创新驱动发展”战略和“互联网+”行动计划,促进大众创业、万众创新,加快转变经济发展的发展方式。

    这里牵扯到技术创新和制度创新。一般来说,这两者是相斥的,最终会以技术或制度谁具有决定性来判别其派系。

    技术决定论的代表,熊彼特,在《经济发展理论》里指出,创新是产生一种新的生产函数,而新生产函数的建立是通过在生产系统中引入生产要素或生产条件的新组合而实现的,这其中包括(1)引入一种新的产品;(2)引入一种新的生产方法;(3)开发新的市场;(4)获得了新的原材料来源;(5)获得了新的半成品供应源(简而言之,就是产品创新、技术创新、市场创新和组织创新)。

    制度决定论的代表,兰斯·戴维斯和道格拉斯·诺斯(1993年诺贝尔奖),在《制度变革与美国经济增长》中提出了制度创新理论,认为“对经济增长起决定性作用的是制度性因素而非技术性因索,技术进步本身就是经济增长而不是经济增长的原因”。我国著名经济学家,吴敬琏,同样支持制度决定论。不论是《制度高于技术》,还是最近的《鼓励创新,政府不能什么事都管》,吴敬琏都强调“实现经济增长方式的转变,关键在于消除体制性障碍,建立和优化国家创新体系”。

    很多人认为“互联网+”就是以企业为主体、辅以产学研用和行业融合的技术创新。我不太认同。我比较倾向于克里斯托夫•弗里曼在《技术和经济运行:来自日本的经验》中提出的国家创新系统理论,即将“互联网+”归结为两个层面:一个是企业主体的技术创新,一个是政府层面的制度创新。(跟“市场在资源配置中起决定性作用和更好发挥政府作用”有异曲同工之妙)。

(来源:公众号卿声细语,作者:卿苏德,博士,中国信息通信研究院产业与规划研究所大数据科研工程师,主要研究方向为大数据、云计算和软件定义网络)

上一篇:IBM宣布放弃咨询业务,转型认知计算和云平台...
下一篇:京东和沃尔玛宣布达成深度战略合作 共同打造全球领先的融合线上线下的零售商业模式...

金源在线客服

QQ在线咨询

咨询电话
010-83650488

在线咨询

在线咨询

电话咨询