每天产生这么多的视频,头条的存储服务器得多大空间?会不会有存储极限?
B,KB、MB、GB、TB、PB、EB、ZB、YB、BB
依次每一个单位之间的差距是2的10次方倍 也就是1024倍
预计2020年全球总数据量为40ZB
换算成TB是2^30TB 约为10亿TB
目前商用数据密度较高的存储介质是固态硬盘/u盘
咱们看一下2T的存储大概有多重
2T=24g,那么就很好算出
2^30/2*24/1000/1000=12884(吨)
10000多吨还是很小的。一栋楼就存下了
那么目前存储密度最高的存储介质有多高呢?
1克可以存储455EB的数据。
换算一下 也就是说 2020年的全世界数据量可以存在一个拳头大小的存储介质里。
这个存储介质就是DNA,目前读写的成本太高,还在研究阶段,但是未来很可能商用。
所以以后看见有人把手指插到另一个人的鼻孔里,请不要诧异,他可能只是在考数据。
而且目前存储技术还有很大的提升空间,现阶段完全没必要担心数据存储的问题。
但是
这些数据绝大部分都是热数据和温数据。
什么是热数据?
就是不断交互的数据,比如交易数据,浏览记录,游戏动作数据等等。
什么是温数据?
温数据是非即时的状态和行为数据,比如用户信息,知乎上的问题和答案等数据。
那肯定也有冷数据了。
冷数据就是很久都用不到一次的这种数据,比如医疗档案,银行凭证啥的。
那么问题来了,这些数据的交互计算和传输,是需要计算资源的,计算才是占资源的大头啊。
而承载这些存储、计算、传输的地方叫做数据中心,啥是数据中心我的这篇回答里有介绍。
假如有人把支付宝所有存储服务器炸了(物理炸),大众在支付宝里的钱是不是就都没有了呢?www.zhihu.com
而你们不知道的是,数据中心用电占全球用电量的3%(2017年数据)。
估计现在的全球用电量的4%-5%了,而这个比例还在上升。
一提到算力很多人都想到,摩尔定律。
当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。
但是很不幸的是,摩尔定律失效很久了。
因为他碰到了量子隧道效应。
具体的我就不在这赘述了,简单说明一下原理。
cpu的算力的根本是cpu内的晶体管数量,而相同体积下想容纳更多的晶体管,那么就要把晶体管做到更小,那么这个极限是7纳米。
一旦小于7纳米,就会产生量子隧道效应,也就是晶体管之间会互相干扰,cpu就不能用了。
那么在算力无法提升的情况下,我们唯一的办法就是堆量。
目前全世界的数据中心占地面积(我自己估算的)大概在10亿平方米左右。
换算成平方公里大约为1000平方公里,目前暂时还不用担心放不下的问题。
而且数据中心 还能放在海底,还能放在山洞里,沙漠里。
但是
全球数据中心电力市场每年增长超过11%
而全球每年的电力生产增长仅为2.9%
照这个情况发展,35年后 数据中心用电会占全球用电的50%以上。
45年后全球电力生产不够数据中心用的。
(当然经济因素肯定会制衡数据中心的发展,以上算的是无约束的增长情况)
现实中也是这样,数据中心建设立项中最难拿下来的就是能源指标了。
所以完全不用担心服务器没地方放,你应该担心服务器没有足够电力供给啊。
特斯拉的车怎么样?
理论上有极限,实际上不会轻易触及
因为有硬件设备的限制,所以任何服务器都是有极限的,但是作为互联网企业的命根子,企业绝对不会让自己的服务器触及到这个极限,实际上一个业务做得大的互联网企业,自然在服务器数据管理方面也需要做得比较好,不然业务是没办法正常开展的。
比如谷歌,它的接入的是全球的数据,毫无疑问每天产生的数据量异常大,但是也也没听过其到达服务器承载量上限的说法,那是因为它在全国各地分布有数据中心,其中仅位于洛华州康斯尔布拉夫斯市的数据中心面积空间就超过115000平方英尺。
这样一对比下来,似乎头条在数据的处理方面就显得没那么艰难了。实际上,作为字节跳动旗下的重要产品,今日头条、抖音等接受着字节跳动超17万台服务器的硬实力支撑,这个体量在国内甚至国际上也是相当大的。
分布式数据中心
和谷歌的数据中心类似,字节跳动等大型互联网企业的网络一般可以分为数据中心内部网络和WAN网,它们的数据中心会分布在全国各个城市,甚至是海外各个城市,各个数据中心又分别和运营商的网络进行对接,这样就避免了所有的业务积压在同一个数据中心,有效分摊了巨大的数据压力。
企业也可以根据业务的扩张,更加灵活地发展各地的数据服务分中心,所以从这个角度看,今日头条的数据中心也可以说是没有存储极限的。
根据流量的方向,我们又可以将WAN网分为内网和外网。
内网是各个数据中心之间互联的网络,用来连接互联网企业在地理上分布的多个数据中心,我们可以通俗地理解为各个数据中心互联的专属网络。而外网则是面向互联网用户访问的网络,用来提供面向用户的各种云服务,比如搜索、视频、文字资讯、下载支持等等。
字节跳动的数据中心扩张速度很快从2017年年初的2、3万台,到截至去年年底的17万台,这样的速度和规模确实非常让人惊讶。系列新技术的应用也为字节跳动取得了多个国内“首个”的头衔,国内首个大规模分布式全预制、国内首个大平层预制框架结构、国内首个整体电源模块预制、国内首个间接蒸发自然冷却模块、国内首个计算模块一体化预制……
这些硬核的实力便是今日头条得以有效处理每日产生的巨大的数据信息的秘密。
强大的数据分析处理能力
当然了,数据储存只是数据服务中心的重要作用之一,字节跳动的数据处理能力在众多互联网企业里面也是名列前茅的。推荐系统和审核系统是使字节跳动在众多资讯平台中脱颖而出的关键,这个关键让其不再只是简单的新媒体资讯平台,而是为其融入了更多的AI含义,这一切得益于数据中心先进的处理分析技术。
字节跳动取得的成绩,从小的方面说,丰富了我们的精神娱乐生活,从大的方面说,展现了中国互联网发展市场的潜力,同时也意味着中国数据中心技术的进步。