找回密码
 注册

QQ登录

只需一步,快速开始

查看: 1103|回复: 0

6G时代--第五章 需求侧算力估计

[复制链接]
发表于 2023-1-28 17:08:23 | 显示全部楼层 |阅读模式
设备所拥有的最大算力和实际使用中所需求算力是两个不同的概念。就和手机的内存一样,我有512G的最大内存,但是我平时一般也就用个128G,这里面是有巨大差别的。在万物互联的时代,通过高速通信和智能分配,可以实现算力资源的最大化利用。那么我们在不用的实际应用场景实际算力需求是怎样的呢?这个算力需求又如何去估算呢?
1. 大数据与算力需求

1.1 日常生活中产生的数据规模
现在的社会是一个高速发展的社会,科技发达,信息流通,生活也越来越方便,信息化特征也越来越明显。
在大数据时代,各式各样电子产品充斥着我们的生活,海量的数据也随之产生。按照全球数据公司(IDC)预测,当前每年新数据的增长速度高达50%,简而言之,每两年数据运用数量就能翻一倍,那么现在每天会产生多少数据呢?

6G时代--第五章 需求侧算力估计-1.jpg

图5-1互联网每天产生的数据量

根据图5-1的统计可知,互联网每天产生5亿条推特2940亿封邮件;Facebook上新创建4拍字节(PB)数据;每辆联网的汽车都会创造出4TB的数据;WhatsApp上发送出650亿条信息;50亿次搜索等,全球每天预计会有463EB的数据产生。
在互联网全面发展的未来,这个数据会更庞大。现行的数据存储方式已经跟不上倍增的数据存储需求。传统的中心化存储导致数据集中,安全性低,传输效率低下等问题,都不能够满足大数据时代所需要的存储条件。
当前,全球数据量仍在飞速增长的阶段。根据国际权威机构Statista的统计和预测,2020年全球数据产生量预计达到47ZB,而到2035年,这一数字将达到2142ZB(已经到达了让人无感的地步),全球数据量即将迎来更大规模的爆发。
大数据时代该如何进行计算分析和加工处理、快速提取有用信息,将是我们面临的最大问题。同时,在信息社会,信息涌现,智力迸发,几乎每天都有新概念、新技术问世,人们又面临着新概念、新技术成果推广普及慢的现实问题。究其原因,是信息技术发展被高昂的更替成本所制约。短期来看,这些问题可能并不起眼,但长此以往恐怕会阻碍社会发展。
1.2 国家政策
为推动数字经济发展,我国陆续出台了多项政策,正加快构建以算力和网络为核心的新型基础设施体系。2021年5月,国家发改委等四部委联合出台《全国一体化大数据中心协同创新体系算力枢纽实施方案》,明确提出布局全国算力网络国家枢纽节点,打通网络传输通道,提升跨区域算力调度水平,加快实施“东数西算”工程,构建国家算力网络体系。所以如何计算用户的算力需求、怎样估算一个区域内所需的算力大学、怎样进行算力的调度分配成为了重要且不可忽视的问题。
2. 全球算力规模发展趋势

伴随万物感知、万物互联及万物智能时代的开启,据IDC预测数据,2025年全球物联网设备数将超过400亿台,产生数据量接近80ZB,且超过一半的数据需要依赖终端或者边缘的计算能力进行处理。预估未来五年全球算力规模将以超过50%的速度增长,到2025年整体规模将达到3300EFlops。

6G时代--第五章 需求侧算力估计-2.jpg

图5-2全球算力规模发展趋势

3. 全球算力分布情况

全球算力竞争愈加白热化。
算力水平方面,美国、中国、欧洲、日本在全球算力规模中的份额分别为36%、31%、11%和6%
其中全球基础算力竞争以美国和中国为第一梯队,且中美差距不断缩小,美国在全球基础算力排名第一,其份额达43%,中国以26%份额排第二;智能算力方面,中国、美国处于领先;中国在超级计算综合性能指标方面优势明显,在绝对数量方面处于领先。

6G时代--第五章 需求侧算力估计-3.jpg

图5-3全球算力规模分布情况

算力发展推动我国产业数字化走向深入。我国在算力基础设施的支撑下,电子商务、平台经济、共享经济等数字化新模式接替涌现,工业互联网、智能制造等全面加速,为我国产业数字化持续健康发展输出强劲动力。
4. 算力需求

从需求出发,当在一个区域中产生的数据量达到一定量级时,单位时间产生的数据量就近似等于算力,从这个角度出发,可以通过计算一个区域范围内一天或者一个月产生的数据量,然后计算出每秒产生的数据量,从而得出这一个区域内所需的算力。
而算力的主要来源分为两类:
一类是传感器设备产生的数据量
一类是由用户每天使用终端设备如手机、平板、电脑等产生的数据
两类数据相加,可以大致估测出整个区域产生的数据量,从而从需求侧去估算一个边缘节点所需要调度的算力。
4.1通过流量计算个人产生数据量

(1)移动终端
清晨,在赶往工作单位的地铁列车里,环顾四周,80%的人们都在俯首阅览手机、平板电脑和电子书等,人们或聚精会神于热点新闻或书籍、或流连于微信朋友圈、或痴迷在游戏世界、或徜徉于音乐海洋,这是一个再熟悉不过的场景,每天都在发生,从不间断,从未改变。
规模庞大的移动终端用户正在成为产生巨大体量数据的主体,使移动终端大数据成为数据统计、挖掘与分析行业视野中的瑰宝。
移动终端大数据的产生移动终端或者叫移动通信终端,包括可以在移动中使用的计算机设备、具有多种应用功能的智能手机、平板电脑等。
移动终端兼具通信及信息处理功能,不仅可以实现通话,还可以联网进行浏览、导航、购物、餐饮、娱乐、阅读、交友、信息咨询等。近几年,智能手机、平板电脑等移动终端在我国飞速发展,使我国进入了移动互联网时代。
移动终端大数据主要包括三种。
一是GPS定位导航数据。GPS全球卫星定位系统,提供低成本、高精度的三维位置、速度和精确定时等导航信息,利用GPS数据可以实时发现时间、空间位置和行动轨迹;
二是互联网+移动终端所产生的移动互联网数据。这类互联网数据以移动终端为载体,通过用户浏览移动终端的网页而产生;
三是在智能终端的独立操作系统和运行空间中,用户自行安装由第三方服务商提供的软件、游戏等程序,软件程序的使用信息被记录下来,如认证、注册、交易信息等。

6G时代--第五章 需求侧算力估计-4.jpg

图5-4移动互联网接入流量

移动终端大数据主要具有实时性、动态性和碎片化三个特点。
不论是GPS定位,还是移动互联网,抑或安装在移动终端的APP应用,都在实时产生海量数据,将这些实时信息加以联结和贯通,就可以及时捕捉到特定时段内事物变化的轨迹,描绘出整个事件变化的动态始末。
此外,应用移动终端主要是在填补上下班、办事的途中、晚上睡觉前等碎片化时间,具有碎片化特点,为后续数据整合分析带来一定挑战
(2)互联网数据
随着手机移动数据网络的发展,由2G逐步发展到现在的5G网络,在给消费者带来高网速的同时,也使得移动终端对于流量的需求上升了一个台阶。手机用户普遍对流量数量产生更大的需求。
随着运营商大力扩充数字服务的接入,移动互联网的应用和使用量继续稳步增长。目前,中国已有超过9.9亿人使用移动互联网服务,预计到2025年,这一数字将再增加2亿。
据工信部数据显示,2020年我国移动互联网接入流量消费达1656亿GB,同比增长35.7%。全年移动互联网月户均流量达10.35GB/户·月,同比增长32%
新冠疫情对中国的移动数据流量产生了不小的影响。2020年初,疫情形势严峻之际,大部分中国人都要居家防疫,这使得移动互联网的使用时间猛增到每个用户每天7.3小时,比疫情前增加了一个多小时。这主要是因为工作、学习、购物等日常活动转向了网络渠道。疫情也加速了数字金融服务的使用。根据GSMA智库《2020年消费者聚焦调查》的数据,目前有大约46%的智能手机用户至少每周使用非接触式移动支付技术消费一次。
《2021中国移动经济发展报告》显示,到2026年,中国移动互联网月户均流量将可能达到39GB/户·月。与此同时,到2025年中国将新增智能手机连接数近3.4亿,采用率将上升到90%。

6G时代--第五章 需求侧算力估计-5.jpg
图5-5移动互联网接入流量
(3) GPS数据
GPS定位的流量主要来自于个人手机的定位以及汽车GPS的定位。
汽车定位系统的定位终端是內置了GPS定位模块和移动通讯模块的终端产品,用作将GPS定位模块得到的定位数据利用移动通信模块传到服务器上,进而能够完成远程在电脑上或手机上查看终端产品即汽车位置。所以,这里就像手机上一样,都需要使用一张启用上网流量包的卡来支持数据的传输。
通常情况下,汽车定位系统所需使用的卡分成三种,流量卡,物联网卡和手机sim卡。流量卡,简而言之便是只提供流量包,不可用短消息和打电话功能,但伴随大家要求的不断提升,流量卡额外增加了每个月3条短消息的套餐内容,暂且不支持打电话功能。物联网卡,是我们汽车定位系统运用数最多的卡,通常随产品购买会比较实惠,物联网卡的运用只需启用个每个月5元30M的流量包就可以了。而手机sim卡,便是大家手机上常用的卡,具有流量、打电话、短消息功能,但费用也比较较高。
特别注意的是,不管运用哪类流量卡,都需要确保卡里不欠费不停机,避免影响产品的正常运用。通常来说,GPS定位器分两类,比如说康凯斯的GPS定位器有接线型和免安装型的。这二者用的流量不太一样。但共同点是每个月流量用的也很少,固定频率的定位每个月仅需几M就足够了,实时定位的话也并不会超出30M。所以,GPS实际产生的数据量并不是很大,在总数据量中只占很小一部分。
(3) 本地数据
本地数据一般来说很难准确估计,主要想法是通过互联网产生的流量的一定比例来估算本地产生的数据,因为在手机产生的本地数据中,本地数据产生的大小与流量成正比,所以通过这种方法来进行估计LOT设备产生的本地数据量,但可能会造成一定的误差。

6G时代--第五章 需求侧算力估计-6.jpg

图5-6 LOT设备

4.2通过泛娱乐时长估计数据量

在泛娱乐行业中,短视频用户规模首屈一指,渗透率高达80%,在线视频稍有下滑;时长方面,游戏用户也占据了将近80%。由于泛娱乐占产生数据量的大头,并且在如此高的比例下,我们将人均通过泛娱乐产生的数据量来进行总数据产生的估计,即将泛娱乐产生的数据加上一个比例系数,从而对人均产生数据量进行估测,绕过了本地数据,通过用户的娱乐时间进行估计,大大减小了误差。

6G时代--第五章 需求侧算力估计-7.jpg

图5-7 泛娱乐的用户渗透率

(1)泛娱乐用户产生的数据量

6G时代--第五章 需求侧算力估计-8.jpg
我们可以通过(5-1)式来对人均泛娱乐产生的数据量进行估计进行估计,其中δ是表示用户的渗透率,F表示的是单位时间对应活动产生的数据流量,T表示的是进行泛娱乐活动的时间,
由2019-2020中国泛娱乐用户渗透率、2019-2020中国泛娱乐用户月人均使用时长两张图可以得到所需信息。

6G时代--第五章 需求侧算力估计-9.jpg

图5-8 中国泛娱乐用户人均使用时长

由图5-9可知,不同年龄段之间看短视频的用户存在差异,如果要计算一个区域所产生的数据,还可以从这个区域的年龄分布、还有城市分布等方面进行更精确的估算。

6G时代--第五章 需求侧算力估计-10.jpg

图5-9 中国短视频用户结构

(2)监控设备及其他传感器设备
摄像监控大量存在于我们的日常生活中,并且无时无刻的产生出大量的监控数据,据统计,目前监控设备在一般场景中,占所有其他所有传感器设备产生数据量的80%-90%。所以计算一个区域的传感器设备,只需要计算出监控产生的数据量即可对所有设备进行估计,不同码率的设备产生的数据量如表3-1:

6G时代--第五章 需求侧算力估计-11.jpg

表5-1 不同分辨率监控设备产生的数据量

6G时代--第五章 需求侧算力估计-12.jpg
通过上表,我们可以估算出传感器设备产生的数据量,N为同总码率的监控设备的个数,d为监控一天产生的数据量,p为监控在所有传感器设备产生数据量的占比,一般为80%-90%,表达式见公5-2:


6G时代--第五章 需求侧算力估计-13.jpg

图5-10 监控设备

(3)总数据量及算力
我们通过5-1式计算出了人均泛娱乐产生的数据量,由于泛娱乐产生的数据远大于平时其他活动产生的数据,于是我们可以通过其他活动产生的数据量进行一个大致的估计,得出与泛娱乐的比例r,N为一个区域内的人数,从而算出区域内总人数的数据量,再与区域内传感器的数据量相加,最后得出一天或者一个月产生的数据量,最后除以时间t,得出每秒产生的数据量,即算力 CP_{area} 。

6G时代--第五章 需求侧算力估计-14.jpg
(3)未来场景应用
一些国家的用户目前体验量超过 125 Mbps,为视频的未来需求铺平了道路。视频和其他应用程序在当今的家中仍然有着巨大的需求,但未来应用需求将会有显著的带宽需求,甚至超过 2023 年的预测期。在上图中,探讨了具有未来视频应用的场景:今天的带宽需求是未来需求的一小片。
2018年全球移动网络连接平均速度为13.2 Mbps。平均速度将超过三倍,到2023年将达到43.9Mbps
传闻证据支持这样一种观点,即当速度增加时,总体使用会增加,尽管速度的提高和使用量的增加之间往往有延迟,从几个月到几年不等。与采用物联网、VR 和 AR 的通配符应用程序、平板电脑和智能手机上的云游戏相关的突发性也是如此,因为在体验设备可以支持的速度方面存在延迟。
按照百度CEO李彦宏的设想,“无人驾驶很可能不再需要互联网、甚至不再依赖互联网”,但是实际技术应用上却需要大量的互联网数据支撑。最近,在Intel开发者论坛(IDF)上,IntelCEO柯再奇表示,到2020年,平均每人每天使用的数据为1.5GB,无人驾驶汽车每天则会使用大约4000GB数据。

6G时代--第五章 需求侧算力估计-15.jpg

图5-11 未来应用场景

(4)未来场景算力估测
有两种方法可以估测未来场景算力,一种是算出目前的算力,根据全球算力规模发展趋势增长百分比来进行计算,另一种是通过下公式,在之前公式5-3的基础上加上了未来的应用产生的数据量来进行预测。

6G时代--第五章 需求侧算力估计-16.jpg
(5)场景计算
如智慧工厂,根据调查,“工业4.0”的实施可以让英国制造业增加4550亿英镑的收入,并将创造17.5万个就业机会,同时将二氧化碳排放量减少4.5%。埃森哲公司的研究表明,在全球范围内,到2030年,“工业物联网”(IoT)创造的价值可能超过14万亿美元,相当于英国、法国、德国、意大利、西班牙、加拿大、荷兰、比利时国民生产总值的总和。
当人们感受到这些数字的巨大规模时,就会理解为什么大多数英国制造商热衷于接受自动化、人工智能、机器学习和机器人技术提供的可能性。
工厂的车间安装部署了数百台机器,从工业厂房的生产线到空调机组,以及保障电力的不间断电源(UPS)系统。这些设备中的每一个都配备有无数的传感器,这些传感器可生成大量的数据,并使它们能够相互交互。
将这些不断流动的数据与智能的实时分析和洞察结合起来,其结果是显而易见的。减少加工缺陷,提高生产质量,提高效率,优化供应链,更好的维护,更好的工作可以节省一些时间和成本。
在数据中心和关键电源保护行业,也需要解决很多重大问题,即企业如何应对智能工厂和物联网连接设备所创造的大量数据。一台机器的性能日志每周可产生大约5GB的数据,典型的智能工厂每周产生大约5PB数据,相当于30万多部16GB的iPhone手机的容量。
计算出该智慧工厂设备每秒产生的数据量为60.68G/s,要更精确的算出该智慧工厂产生的数据量,还需要计算上工厂内的人数,根据公式得到所需算力。
全文直通车:爱喝水的大灰狼:6G时代--算力:算力分级模型设计及算力估计

参考文献:
[30] 赵明. 边缘计算技术及应用综述[J]. 计算机科学,2020(1):6.
[31]Irion, Kristina. "Government cloud computing and national data sovereignty." Policy & Internet 4, no. 3-4 (2012): 40-71.
[32]Wikipedia contributors, "Centralized computing," Wikipedia, The Free Encyclopedia, https://en.wikipedia.org/w/index.php?title=Centralized_computing&oldid=1053332807 (accessed November 5, 2021).
[33]Van Steen, Maarten, and A. Tanenbaum. "Distributed systems principles and paradigms." Network 2 (2002): 28.
[34]Arpaci-Dusseau, Remzi H., and Andrea C. Arpaci-Dusseau. Operating systems: Three easy pieces. Arpaci-Dusseau Books LLC, 2018.
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|Archiver|手机版|小黑屋|广告网 ( 鄂ICP备20005464号-17 )

GMT+8, 2024-5-17 20:09

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表