作者id:分析世界讲方案
都说大数据的目的在于分析,但数据捕获却是第一步。这一步,就像人生第一次呼吸,决定着后面的生存是否继续;这一步,就像迈开第一个脚步,决定着后面的道路是否平坦;这一步,就像作者第一篇文章,决定着后面的叙述是否进行;闲话不讲、废话不说、言归正传。
数据捕获是大数据分析的源泉,但它的能力构成并非如此简单。
从常规来看,学习使用大数据往往更聚焦于大数据能力域,所谓能力域其实可以从身边的情景观察找到答案。比如,企业招聘更被用人部门关注的职位是架构师、分析师、数据科学家;外部大数据培训机构更被学员关注的是大数据生态圈的学习和主流技术掌握;企业大数据方案交付更被客户关注的是整体方案的可行性及商务报价……而数据捕获这么重要的一项工作,往往是工程实施的第一步。
大数据领域的数据捕获,如图所示,主要涵盖了五大方面的能力:多结构化数据源支持、多种数据接入方式、企业级数据交换系统、数据加载时效性保障、异构平台间数据集成。
这五大方面的内容展开,可不是这一张图能概览的,是巨大的内容产出,所以今天就粗略介绍,权当是抛砖引玉。
多结构化数据源支持
这个毋庸置疑,大数据时代本身就是要处理海量的、多结构化的数据源。原来传统的、关系型数据库结构化数据往往存储在企业的生产系统,而且都是“高价值”数据(客户资料、产品信息、财务数据等),这些数据原来早在“bi时代”就已经纳入处理。移动互联网的发展产生了很多非结构化数据,这些数据的数据量巨大且类型繁多,因此又称之为“低价值”数据(互联网日志、点击流、图片等)。所以这些数据需要纳入平台进行处理和分析。所以,除结构化数据之外,大数据将面临更多类型的数据源,包括文本、音频、视频等非结构化数据或者xml、json等半结构化数据。对于大数据平台而言,混杂的数据源支持是考验平台能力的第一道关卡。而且这些数据并非纳入捕获就可以发挥价值,所以就一定需要相应的计算引擎和分析引擎等技术组件有一定要求。
多种数据接入方式
再有,平台应该通过什么方式获取数据?其实这主要取决于原系统类型和数据类型。原系统为关系型数据库的,可以通过odbc/jdbc或api调用捕获数据;是文件系统的可以通过ftp装载或第三方工具抽取数据;是mq消息的可以通过中间件订阅获取。总之要想尽一切办法把原系统的数据load到大数据平台,运用各种手段、各种工具满足数据获取的要求。
企业级数据交换系统
为此,数据捕获的行业进程已经不单单是“原封不动”的平移,伴随着大数据系统的规模庞大和功能完善。所以,大数据核心能力更应该把精力用在大数据作业的处理和分析,避免很多“脏活儿、累活儿”也占用宝贵的计算资源,那么这些活“谁”来干?是的,可以前置倒一些“集群”来完成。这些“集群”早年间通常叫做etl/elt工具,就是简单做做字段去重、内容清洗和字符转换的事情,但后来大数据系统日趋庞大,紧靠工具级的etl不能满足这些需求,这就要求引入企业级数据交换平台(概念传统etl的所有功能)。企业级etl不仅承担大数据预处理环节,更能作为数据交换的核心枢纽,支持跨异构平台的任务调度和管理;
数据加载时效性保障
数据加载的时效性方面,不仅包括传统cdc(变化数据捕获)、批处理/微批次的概念,还包括实时/流的概念。尤其是高时效性的业务场景,比如实时分析、实时营销、精准推荐、实时监控等等。这些业务应用的最终效果不是“秒级”触发也是“分钟级” 刷新,所以这就对前置数据捕获提出了要求和挑战。因此作为数据获取域,必须要构建高可靠、分布式的数据传输平台,支持离线、实时、微批量等不同加载时效性的数据采集;
异构平台间数据集成
还有一些平台级别的大系统,需要整个系统的全库表导入到大数据平台。因此作为数据获取域,还应该支持不同系统类型的数据导入和集成,保障数据传递和导入导出。例如从hadoop系统(hive)导出到数据仓库,或者从mysql/oracle导出到hadoop等等。这就需要工具级别的支持。
因此大数据平台应涵盖传统结构化、非结构化等混杂数据源,支持不同类型的数据获取和集成。采用多种数据接入方式以构建企业级etl能力,满足各类时效性采集要求,从而实现海量数据的高效整合;
作者id:分析世界讲方案