百科解答:什么是大数据

百科解答:什么是大数据

大数据英语:Big dataMegadata),或称巨量数据海量数据大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。

截至2012年,技术上可在合理时间内分析处理的数据集大小单位为艾字节(exabytes)。在许多领域,由于数据集过度庞大,科学家经常在分析处理上遭遇限制和阻碍;这些领域包括气象学、基因组学、神经网络体学、复杂的物理模拟,以及生物和环境研究。这样的限制也对网络搜索、金融与经济信息学造成影响。数据集大小增长的部分原因来自于信息持续从各种来源被广泛收集,这些来源包括搭载传感设备的移动设备、高空传感科技(遥感)、软件记录、相机、麦克风、无线射频辨识(RFID)和无线传感网络。自1980年代起,现代科技可存储数据的容量每40个月即增加一倍;截至2012年,全世界每天产生2.5艾字节(2.5×1018)的数据。

大数据几乎无法使用大多数的数据库管理系统处理,而必须使用“在数十、数百甚至数千台服务器上同时平行运行的软件”。大数据的定义取决于持有数据组的机构之能力,以及其平常用来处理分析数据的软件之能力。“对某些组织来说,第一次面对数百GB的数据集可能让他们需要重新思考数据管理的选项。对于其他组织来说,数据集可能需要达到数十或数百兆字节才会对他们造成困扰。”

随着大数据被越来越多的提及,有些人惊呼大数据时代已经到来了,2012年《纽约时报》的一篇专栏中写到,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。但是并不是所有人都对big data感兴趣,有些人甚至认为这是商学院或咨询公司用来哗众取宠的buzzword,看起来很新颖,但只是把传统重新包装,之前在学术研究或者政策决策中也有海量数据的支撑,大数据并不是一件新兴事物。 大数据时代的来临带来了无数的机遇,但是与此同时个人或机构的隐私权也极有可能受到冲击,大数据包含了各种个人信息数据,现有的隐私保护法律或政策无力解决这些新出现的问题。有人提出,大数据时代,个人是否拥有“被遗忘权”,被遗忘权即是否有权利要求数据商不保留自己的某些信息,大数据时代信息为某些互联网巨头所控制,但是数据商收集任何数据未必都获得用户的许可,其对数据的控制权不具有合法性。2014年5月13日欧盟法院就“被遗忘权”(right to be forgotten)一案作出裁定,判决Google应根据用户请求删除不充足的,无关紧要的,不相关的数据,以保证数据不出现在搜索结果中。这说明在大数据时代,加强对用户个人权利的尊重才是时势所趋的潮流。

定义

大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集庋用、管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数兆字节(TB)至数十兆亿字节(PB)不等。

在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部份大数据产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改了对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与优化处理。”另外,有机构在3V之外定义了第4个V:真实性(Veracity)为第四特点。

大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。

数据挖掘(data mining)则是在探讨用以解析大数据的方法。

应用示例

大数据的应用示例包括了大科学、RFID、传感设备网络、天文学、大气学、基因组学、生物学、大社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦查、社交网络、通勤时间预测、医疗记录、照片图像和视频封存、大规模的电子商务等。

巨大科学

大型强子对撞机中有1亿5000万个传感器,每秒发送4000万次的数据。实验中每秒产生将近6亿次的对撞,在过滤去除99.999%的撞击数据后,得到约100次的有用撞击数据。

将撞击结果数据过滤处理后仅记录了0.001%的有用数据,全部四个对撞机的数据量复制前每年产生25拍字节(PB),复制后为200拍字节。

如果将所有实验中的数据在不过滤的情况下全部记录,数据量将会变得过度庞大且极难处理。每年数据量在复制前将会达到1.5亿拍字节,等于每天有近500艾字节(EB)的数据量。这个数字代表每天实验将产生相当于500垓(5×1020)字节的数据,是全世界所有数据源总和的200倍。

文章来源维基百科,点击查看。

转载请注明来源于燃烧吧(burnba.com):燃烧吧 » 百科解答:什么是大数据

赞 (0)
分享到: 更多

评论 0

评论前必须登录!