除了在2017年听王坚讲过云计算,我还从来没去过阿里云采访。但“全新的计算体系”这个概念吸引了我。我想弄清楚到底是什么意思。
阿里云的两位技术大咖接待了我,一位是阿里云高级研究员、阿里云基础事业部负责人蒋江伟,一位是阿里云研究员、CIPU&神龙计算平台负责人蒋林泉。
要透彻理解云计算,对我这样的文科生不容易。希望本文能帮助众多和我一样的读者,理解云计算和它带来的变化。
云计算的关键,在于提升两个效率
5年前王坚说,“今天的关键词是在线与离线”。
5年后的关键词是什么?
我得到的答案是:“还是云计算。而且我们越来越感到,云计算是百年大计。”
我问:“我们无法想象没有电的生活,无法想象没有计算的生活,但云计算有电这么重要吗?”
回答:“电网出现前,很多企业自己发电,但现在几乎所有企业接入电网就行了。这个比喻可能更贴近一些。原来一个企业为了获取算力,要去买服务器,然后托管到数据中心。现在一个创业公司只要打开网站,一动鼠标,‘啪啪啪’点完,就会获得服务器的服务,可以立即把代码部署上去,整个过程从原来的几个月缩短到现在的半小时。这样,你获取计算资源的效率就会大幅度提升。”
我问:“像我这样的一般用户,似乎不用云计算也没什么问题吧?”
回答:“你自己觉得没有用云计算,但你享受的很多服务,比如游戏、电商、视频会议、外卖等等,这些公司都把计算部署在云上。你手机里的照片也是存储在云上。更重要的是对整个国家来说,同一份算力资源,在云计算和普通计算的条件下,它被利用的效率完全不一样。云计算环境中,你买了电脑、服务器、交换机等等,然后开展业务。假如半年后业务失败,这些资源并不会报废,而是提供给另一家企业使用。而在没有云计算之前,无论企业还是政府,常见的做法就是投很多资金,然后服务器厂商把你订购的服务器搬到机房,而大部分时间服务器都空着没用,万一企业失败了,IT设备往往被当成废品去卖。”
“在某种意义上,国家与国家的竞争,本质是资源使用效率的竞争,就是你的每吨煤、每吨铁矿石,能产出多少GDP。云计算也是一样,一份算力能解决多少次的逻辑运行。亚马逊、微软、阿里云,以及其他的云,都在竞争。算力也是资源,也要购买,而且价格比煤、铁矿石贵多了,因为它是高度知识化的集成。你希望煤有更高的燃烧值,芯片有更低的功耗,同理,云计算也在追求更快、更强、更安全和更低能耗。”
我问:“所谓云计算能带来更高的效率,具体表现在哪里呢?”
回答:“有两个层面。第一个层面是商业模式,云计算是集中化运营的,资源不会被浪费,A公司不用,可以给B公司。而原来,很多项目一失败,服务器就丢在那里,如果当废品卖,二手服务器是很不值钱的。第二个层面,就是云计算本身的技术能力问题。就像人们在政府服务窗口外排队,云计算每秒钟处理一个人的需求,等于完成了一次逻辑。但如果算力的性能更好,也许每秒钟可以处理1.5次。这就是云计算技术比拼的关键,一份算力,能不能解决更多的问题?或者解决同样的问题,能不能花的钱更少?”
我问:“那怎么才能提高算力的效率呢?”
回答:“有两个因素决定效率。第一个是CPU(中央处理器)决定的,因为你写的代码都是在CPU里跑的。它跑得快还是慢?很关键。比如过去你在电脑上写完一篇文章要保存,有些老电脑会滋滋响一阵,花几秒种才能保存,但今天保存什么你是没感觉的,因为CPU很强大,算得非常快;第二个因素是I/O(输入/输出),比如做完一个表单,保存、提交、传到网上,这就是I/O的工作。所以从根本上说,你的计算要更有效率,要么是CPU的单位成本的算力比别人牛,要么是单位I/O处理的成本比别人低,或者单位成本I/O的处理效率比别人高。本质就这两件事。”
什么是全新的计算体系?
我全神贯注地听,他们尽可能通俗地讲。到目前为止,我的脑子还是清楚的。
接下来就进入到了最重要的问题,全新的计算体系是什么?
前面已经知道,CPU和IO决定运算效率。因此,提高CPU的性能,提高IO的性能,就成为唯二之路。
但问题在这里,变得有些复杂。
“如果按传统思维,一家芯片厂商的CPU最强,所以大家就买它的CPU,做服务器,或者希望造出和它PK的芯片。但今天是云计算时代,很多企业已经习惯了不是自己买服务器、建机房,而是在云平台上,点一下鼠标,获取一台‘虚拟’的服务器,云上的服务器。现在大部分CPU要卖给云计算厂商。在全球,云计算已经提供了超过一半的计算基础设施,且比例还在上升。在北美,5年前亚马逊的AWS就开始做自研芯片,AWS的芯片叫Graviton,其自研芯片的使用量已经占到了一个很可观的比例。”
这意味着什么?意味着在云时代,像PC时代芯片厂商独霸天下的那种局面会终结,既然越来越多计算迁移到了云上,云服务商就会自研具有云特征的CPU。
2017年,几乎和亚马逊同时,阿里云也开始自研跟云紧密结合的CPU,并在去年发布了倚天710芯片,其算力性价比提升30%,单位算力功耗降低超过60%,这也是中国首个云上大规模应用的自研CPU。
“现在的服务器长得就是一台框,里面插两个东西,有内存条,有风扇。但以后不一定是这样。那时的服务器可能不是现在这样一台一台的,而是一堵一堵的服务器墙, 上面可能是一个个格子,把CPU插上去,或者把不同的CPU都插进去,而且所有的运维动作全由机器人自动完成。”