其实大数据和个人信息之间并不是等同的概念,大家先初略看下数据类别和相关应用:
工业数据:
工业数据来源于工业生产过程,比如全国的工业产品分布,工业设备开工时间段、产量、效率,工业产品原材料来源等数据。
农业数据:
农业数据包含和农业相关的数据,比如土壤情况、种植分布、产量和土壤空气的关系等等。
金融数据:
金融数据是很重要的数据,包含股市、外汇、债市、现金等交易数据。
政务数据:
政务数据其实比较多,既有深度,又有广度,正是大数据的两大特性,政府决策及情况反馈,相关法律法规执行情况,公务员的活动等等。
教育数据:
中国是人口大国,教育过程中会产生大量的数据,如教师的教学活动、学生完成的作业等等,这都是比较基本的教育数据,当然也包含学生、老师的基本信息,学生家长的基本信息。
医疗数据:
在医院诊疗过程中,病例、检查结果、诊断结果、用药及疗效等等,大量的数据会沉淀在这个过程中。当然也包含患者、医生、护士、医药公司等等基本信息。
自然数据:
比如地质情况、气象情况、河流、海洋、森林分布和变化、动植物分布等等,这类数据和大家的生活环境密切相关,通过分析数据的变化、趋势,大家可以更好的保护自然环境,合理利用自然资源。
科学数据:
有些数据不太好分类,偶把他们放在科学数据里,科学实验过程中产生的数据,比如自然语言的处理(语音语言识别、人脸识别、动物图像识别等等)。
企业数据:
企业基本信息、经营活动、纳税情况、雇佣人员情况等等,都是企业数据的范畴。
用户及用户行为数据:
用户就是大家自己的基本信息(比如大家的手机号、姓名、年龄、身份证号、家庭住址等),在日常活动中产生的数据即行为数据,比如浏览网页,则是上网行为数据;如聊天,则产生社交数据;如购物,则为消费行为数据;开车和运动,都会形成轨迹和位置信息等等。
通过对以上各类数据分析,可以为国家的工业生产现状提供现实指导,对未来规划提供帮助,会对大家的生活产生颠覆式影响。比如对工业、农业数据的分析,可以大幅提高效率,避免浪费成本;对医疗数据的处理,可以提高医生的整体诊疗水平。正是建立在大数据技术和应用基础之上,人工智能技术才取得了飞速发展,人工智能简单的说就是深度学习+大数据技术。
为什么很多人对大数据有误解,认为都和个人信息有关呢?从以上数据来看,绝大部分数据并不包含个人信息,部分数据包含个人信息,而大数据应用绝大多数时候并不关心个案,更关心是整体相对抽象统计分析,并不太需要具体个体案例,更不太需要个人信息。只是在大数据的研究发展过程中,泥沙俱下,不少个人和公司急功近利,把个人信息用于销售、精准营销、甚至咋骗等,导致很多不好的结果,同时给大家带来了直观的不良感受,因此给人造成了大数据就是个人信息的印象。