文章编号:324时间:2024-12-17人气:
大数据,顾名思义,就是大量的数据。
更专业来说,大数据,是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据软件工具能力范围的数据集合。
我们通常说:“量变引起质变”。大数据,就属于这种情况。
当数据体量增加到一定程度时,相关技术、理念、思维等,都随之发生质变,从而形成了一个新的领域,这就是大数据领域。
大数据,通过对海量数据的采集、分析和处理,寻找其中的特征和趋势,提炼更多的高价值信息,用于改善业务流程,或者辅助决策行为。
在大数据领域,我们经常看到一些关于 3V、4V、7V 的说法。这些 V,到底是什么意思呢?
今天这篇文章,小枣君就简单给大家介绍一下。
2001 年,美国麦塔集团分析师道格・兰尼(Doug Laney)在对大数据进行理论研究的时候,发现大数据具备三个特征。而这三个特征的英文单词,恰好又以字母“V”开头,即:
Volume(体量大)、Variety(多样化)、Velocity(速度快)。
后来,“3V”这个特征理论,逐渐被业界所接受,成为描述大数据特征的标准。
再后来,在“3V”的基础上,业界的一些专家们又陆续提出了“4V”、“5V”,甚至“7V”,包括:
Veracity(真实性)、Value(价值密度)、Variability(变异性)、Visualization(可视性)等。
所有这些 V,就变成了对大数据特征的新定义。
接下来,我们就分别看看,这些“V”具体是什么意思。
大数据,到底有多大?
我们传统 PC 和手机处理的数据,是 GB / TB 级别。例如,我们的硬盘,现在通常是 1TB / 2TB / 4TB 的容量。
TB、GB、MB、KB 的关系,大家应该都很熟悉了:
而大数据是什么级别呢?PB / EB 级别。
只是看这几个字母的话,貌似不是很直观。我来举个例子吧。
1TB ,只需要一块硬盘可以存储。容量大约是 20 万张照片或 20 万首 MP3 音乐,或者是 20 万部电子书。
1PB,需要大约 2 个机柜的存储设备。容量大约是 2 亿张照片或 2 亿首 MP3 音乐。如果一个人不停地听这些音乐,可以听差不多两千年。
1EB,需要大约 2000 个机柜的存储设备。如果并排放这些机柜,可以连绵 1.2 公里那么长。如果摆放在机房里,需要 21 个标准篮球场那么大的机房,才能放得下。
阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近 EB 级。
EB 还不是最大的。目前全人类的数据量,是 ZB 级。
根据 IDC 的数据,在 2020 年,全球创建、捕获、复制和消耗的数据总量约为 64ZB。而到了 2025 年,全球数据总量可能会达到惊人的 163ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比 196 个鸟巢体育场还大。
人类社会的数据体量不仅大,增长速度也很快 —— 每年增长 50%。也就是说,每两年就会增长一倍多。
数据的增长,为什么会如此之快?
说到这里,就要回顾一下人类社会数据产生的三个重要阶段。
计算机和数据库被发明之后,数据管理的复杂度大大降低。各行各业开始产生了计算机数据,并记录在数据库中。这时的数据,以结构化数据为主(待会解释什么是结构化数据)。数据的产生方式,是被动的。
伴随着互联网的爆发,网络内容开始迅速增长,增加了很多的专业输出内容(PGC)。Web2.0 出现后,人们开始使用博客、facebook、youtube 这样的社交网络,输出大量的用户原创内容(UGC),从而主动产生了大量的数据。移动智能终端时代的到来,也加速了该阶段数据的产生。
第三个阶段,是 2010 年至今。
随着物联网的发展,各种各样的感知层节点(例如遍布各个角落的传感器、摄像头)开始自动产生大量的数据。企业的数字化转型,构建了大量的系统,沉淀和管理这些数据。人类的数据总量,再次跃升。
经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的爆炸式膨胀。
值得一提的是,如今,随着我们逐渐进入 AI 智能时代,很可能会迎来第四次数据暴增阶段。以 aigc 为代表的智能机器生产内容,正在急剧增加。
例如,企业所产生的营销数据、业务系统数据、生产数据等,互联网行业所产生的社交内容数据、订单数据、用户数据等,政府部门所产生的社会治理数据、地理数据、经济数据等。
数据又分为结构化数据、非结构化数据和半结构化数据。
结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。
而网页文章、邮件内容、图像、音频、视频等,都属于非结构化数据。
半结构化数据,介于结构化和非结构化数据之间。如 XML、JSON 等格式的数据,它们有一定的组织形式,但不如结构化数据那样严格。
目前,非结构化数据的占比是最高的。例如,在互联网领域里,非结构化数据的占比已经超过了 80%。
数据之间关联性强:
数据与数据之间,有一定的关联性,而且频繁交互。
例如,游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有很强的关联性。
这个特性,指的是大数据的产生速度快、处理速度快、传播速度快。从数据的生成到消耗,时间窗口非常小。
数据产生速度快,体现在生产生活中的方方面面。
我们还是用数字来说话:
就在刚刚过去的这一分钟,数据世界里发生了什么?
Google:380 万次搜索请求被提交
Youtube:2100 分钟的视频被上传
怎么样?是不是瞬息万变?
数据处理速度快,体现在大数据可以在实时分析和决策需求的推动下,通过实时处理、并行处理等方式,快速对所产生的数据进行处理。
这就要求大数据系统具备高并发、低延迟的能力。举例来说,大数据所采用的流式处理技术,能够在数据不断产生的同时进行实时处理,确保系统能够及时获取并利用最新的信息。
数据传播速度快,体现在大数据与以往的档案、广播、报纸等传统数据载体不同。大数据的交换和传播,是通过互联网等方式实现的,远比传统媒介信息交换的传播速度快。
数据很多,但也要真实才行。
大数据的真实性,指的是数据的质量和可信度。
确保大数据的真实性,需要采用数据清洗、元数据管理、数据治理等手段。
此外,随着技术的发展,越来越多的技术工具和服务被开发出来,用于对大数据真实性的管理和优化。例如数据验证工具、自动化的数据清理流程、先进的统计方法用于检测异常值等。
大数据的数据量很大,但随之带来的,就是价值密度很低。数据中真正有价值的,只是其中的很少一部分。
例如通过监控视频寻找犯罪分子的相貌,也许数十 TB 的视频文件,真正有价值的,只有几秒钟。
例如,2014 年美国波士顿爆炸案,现场调取了 10TB 的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。这张照片的价值,毋庸置疑。
大数据中包含很多低价值的信息,而且,信息碎片化的情况严重。因此,需要通过深度分析和挖掘,才能发现有用的内容。
数据挖掘、机器学习和人工智能等技术,正在逐渐提升数据分析和挖掘的效率,帮助人们从低价值密度的数据中提取高价值的信息。
不要怕!这里的变异,并不是生化危机。
大数据的变异性,指的是数据在处理过程中可能发生变化的能力,也可以理解为数据的动态性、不确定性。
变异性包括几个方面:
数据分布的不均匀性。
大数据往往是动态变化的,尤其是实时场景(例如股价)。变化速度,也从以前的秒级,变成了现在的毫秒级,甚至更短。这就要求大数据系统和技术必须能够适应这个动态变化的特性。
前面说了,大数据中可能包含大量的噪音、异常值和错误。这些负面因素,也可能随时间变化,导致数据质量出现明显波动。
大数据的变异性,还可能受到环境因素的影响,如天气、地理位置、社会事件等。对于一些特殊场景的大数据应用,需要考虑这些外部因素可能导致的变化。
这个大家应该比较熟悉。我们现在在很多的政府部门和企业,都会看到数据大屏,其实也就是可视性的一种体现。
大数据的可视性,是指利用图形化、图像化的方式,对大数据进行呈现。这种方式,可以更直观地展示数据的模式、趋势和关系,快速把握数据的关键特征。
可视化,能够帮助人们更好地理解和解释复杂的数据集,提高对信息的洞察力,促使更明智的决策。
除了观看之外,可视化也可以借助辅助工具,提供一些交互性功能。
例如,用户能够自由选择感兴趣的数据子集、调整视图参数,从而更灵活地进行数据探索。这有助于用户深入挖掘数据,找到其中的规律和异常。
好啦,以上就是大数据的 7V 特性。
当然了,这些特性定义,除了前几个以外,并没有一个官方的认可。如果你愿意,也可以再想一个 V,变成 8V。
IT之家,软媒旗下科技门户网站 - 爱科技,爱这里。
内容声明:
1、本站收录的内容来源于大数据收集,版权归原网站所有!
2、本站收录的内容若侵害到您的利益,请联系我们进行删除处理!
3、本站不接受违法信息,如您发现违法内容,请联系我们进行举报处理!
4、本文地址:https://2um.baiwanlian.cn/article/fd5a4f802ae7f8fb325e.html,复制请保留版权链接!
36氪WISE2024年度「焦点」产品发布,WPSAI引领智能办公新潮流,wps,36氪,金山,wise,企业版
互联网资讯 2024-12-17 13:03:08
快手副总裁大模型团队负责人张迪在论坛上介绍可灵将于近期推出全新的版本模型新模型将带来更好更稳定的视频质量在文本遵循动态表现风格一致性等方面将有大幅提升数据显示上线半年以来可灵已有超过万用户累计生成超万个视频和超亿张图片视觉行业应用加速落地中国首个导演共创计划上线首届视觉应用论坛在京举办月日中国首个导演共创计划在快手平台...
互联网资讯 2024-12-17 12:48:55
美国第九巡回上诉法院本周维持下级法院的裁决,驳回了一项指控苹果公司的集体诉讼,该诉讼指控苹果非法欺骗客户为iCloud存储付费。
互联网资讯 2024-12-17 12:46:52
大家在进行IPv4地址配置时都看到过“子网掩码”这样的参数名,许多小伙伴都会疑惑这是个啥?有什么用呢? 下面文档君带领大家认识认识子网掩码以及跟其密不可分的子网!
互联网资讯 2024-12-17 12:34:06
昨日有网民李女士爆料自己曾任职河南新乡超力新能源有限公司电商设计岗位,后因向公司人事询问交社保情况后被公司无端开除,在当事人贴出的与公司总经理沟通的录音中,对方明确表示不会对开除员工进行赔偿,并说出“花100万让你身败名裂”、“法律无所谓,就想让法律来整顿我”等发言,今天超力新能源有限公司发布声明,宣布免去该经理职务。
最新资讯 2024-12-17 12:22:38
知情人士表示,TikTok首席执行官周受资在发给员工的邮件中透露,公司将请求美国最高法院审查案件,暂缓实施这一法律,寻求对“禁令”的“禁令”。
最新资讯 2024-12-17 12:21:52
当地时间12日,美国得克萨斯州总检察长肯·帕克斯顿(KenPaxton)周四宣布,其办公室已启动对多个科技公司的调查,重点审查这些平台如何处理未成年人的隐私和安全问题。
最新资讯 2024-12-17 12:21:24
科技消息据外媒报道当地时间周三早些时候一辆特斯拉在美国加州北部撞车并起火造成人死亡人重伤特斯拉发生惨烈车祸至死皮埃蒙特市警察局局长杰里米鲍尔斯说调度员在凌晨点分从车上的一名乘客那里收到了警报称该车在汉普顿路和国王大道发生了碰撞两分钟后一个报警电话打来说的是同一起撞车事故鲍尔斯称目前还不清楚事故发生的具体原因但是猜测速度...
互联网资讯 2024-12-17 00:39:08
科技消息近日注意到有媒体从供应链独家获悉为满足消费者高涨的购买热情华为系列已加单总备货量提升至万台同时有数码博主放出了系列四款机型在中国市场的销售数据早报华为系列加单车圈方面近日特斯拉的生产线遭遇了一系列挑战引发外界广泛关注据了解理想汽车目前还在为纯电的上市做测试准备有网友近期在街头看到了大量测试车的身影新车的外观和内...
互联网资讯 2024-12-17 00:38:09
科技消息近日苹果公司首席执行官蒂姆库克接受了连线杂志的采访就公司近期的一系列重要议题发表了深入见解其中关于上新增的物理相机按钮设计所引发的争议成为了媒体和消费者关注的焦点苹果库克公开回应多项质疑包括这一设计变革与苹果前史蒂夫乔布斯所倡导的极简按钮理念有所不同因此引发了不少质疑对此库克表示虽然无法确切预测乔布斯会如何看待...
互联网资讯 2024-12-16 23:10:30
科技消息近日韩媒援引业内人士消息称三星已成功实现中小尺寸核心材料银蚀刻剂的国产化这标志着供应链发生了重大转变该供应链此前被日本东友精细化学公司垄断了年据悉三星从今年第三季度开始将易恩孚的银蚀刻剂应用于生产线与韩国国内公司合作实现供应链多元化韩媒三星时隔年实现由于住友化学持有的股份东友精细化学被广泛认为是一家日本公司自年...
互联网资讯 2024-12-16 22:59:56
互联网资讯网, 为贯彻落实党中央、国务院关于碳足迹管理工作部署,加快提升重点工业产品碳排放管理水平,促进行业绿色低碳转型,支撑实现碳达峰碳中和目标,工业和信息化部印发实施《重点工业产品碳足迹核算规则标准编制指南》...,全国政务信息一体化应用平台
互联网资讯 2024-12-16 22:39:20