大数据的多样性使得数据的信息检索系统被分为三种数据结构,分别是:结构化数据、非结构化数据和半结构化数据。
结构化数据
结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,简单来说就是数据库。严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
结构化数据标记,是一种能让网站以更好的姿态展示在搜索结果当中的方式。做了结构化数据标记,便能使网站在搜索结果中良好地展示丰富网页摘要。
搜索引擎都支持标准的结构化数据标记,以便为用户提供更好的上网体验。网页内微数据标记可以帮助搜索引擎理解网页上的信息,能更方便搜索引擎识别分类,判断相关性。
同时结构化微数据可以让搜索引擎提供更丰富的搜索结果摘要展现,也就是为用户的具体查询提供帮助的详细信息,让用户直接在搜索结果中看见你商品的重要信息。例如:商品的价格、名称、库存状况(商品是否有货)、评论者评分和评论等都可以在搜索结果摘要直接看到。
这些丰富网页摘要可帮助用户了解网站与他们的搜索内容是否相关,可以让网页获得更多点击。
如在搜索结果中,部分展示了更多的星级评分、评论条数以及价格等因素,这样无疑增加了网站的专业程度,且提高了客户对网站的信任度,网站良好的曝光度无形中就提高了网站的点击率与转化率。
非结构化数据
与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据。
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。
包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域
半结构化数据
半结构化数据(semi-structured data)。在做一个信息系统设计时肯定会涉及到数据的存储,一般大家都会将系统信息保存在某个指定的关系数据库中。大家会将数据按业务分类,并设计相应的表,然后将对应的信息保存到相应的表中。比如大家做一个业务系统,要保存员工基本信息:工号、姓名、性别、出生日期等等;大家就会建立一个对应的staff表。
但不是系统中所有信息都可以这样简单的用一个表中的字段就能对应的。
半结构化数据(semi-structured data)模型在数据库系统中有着独特的地位:
(1)它是一种适于数据库集成的数据模型,也就是说,适于描述包含在两个或多个数据库(这些数据库含有不同模式的相似数据)中的数据。
(2)它是一种标记服务的基础模型,用于Web上共享信息。
半结构化数据中结构模式附着或相融与数据本身,数据自身就描述了其相应结构模式。具体来说,半结构化数据具有下述特征:
(1)数据结构自描述性。结构与数据相交融,在研究和应用中不需要区分“元数据”和“一般数据”(两者合二为一)。
(2)数据结构描述的复杂性。结构难以纳入现有的各种描述框架,实际应用中不易进行清晰的理解与把握。
(3)数据结构描述的动态性。数据变化通常会导致结构模式变化,整体上具有动态得结构模式。
常规的数据模型例如E-R模型、关系模型和对象模型恰恰与上述特点相反,因此可以成为结构化数据模型。而相对于结构化数据,半结构化数据的构成更为复杂和不确定,从而也具有更高的灵活性,能够适应更为广泛的应用需求。