BI分析操作手册
数据分析简介
我们需要对业务运营数据进行分析,以使我们的资源能够得到更大的优化
背景
准备工作 确定我们需要分析的数据指标 分析我们的生产数据,将生产数据整理成一份表格, 市场部和运维部根据自己的需求也先拟定一份指标数据,
在以上这些工作准备好之后我们采用画线的方法将我们企业各部门想要的数据和已经具有的数据进行映射,从而能够得出我们在企业运营过程中忽略了哪些数据,又或者说产生了哪些垃圾数据,这些数据是我们不关注的,他不具备存在的意义。
通过以上方式我们确定了我们需要分析的数据指标之后,我们可以根据情况来把时间因素加入进来,通常在我们的生产数据中不会考虑时间区间,而时间区间恰恰是我们进行数据分析的一个重要维度。
技术准备
OLAP,MDX,java,oracle,mysql
实施计划
第一步: 在我们进行数据分析之前我们首先要拥有我们的数据仓库,要构建这样一个简单的小型数据仓库我们需要使用ETL技术,所谓ETL技术有三个部分组成,一是抓取,这个过程就是我们从各种载体中获取我们需要的数据,绝大多数情况下,这部分数据来自于数据库,包括各种版本的,从informix,DB2,mysql , sybase,oracle等等,当然也有来自邮件,excel文件,log文件,csv文件等不同的载体,甚至会包括来自基层单位所填写的数据卡。
我们从数据源中抓取的数据都是单纯的生产环境数据,在一些情况下我们需要对他们进行转换,在不同的系统下我们对货币的记账方式采取的正负值所表达的意义也许是不一样的,这时我们就需要对数据进行加工转换,在转换过后,将我们需要的数据入库,成为我们即将用来分析的数据仓库。
首先我们将我们确定数据指标过程中所产生的数据指标文档进行优先级评定,结合我们的数据情况,我们制定出第一阶段,或者说容易实现的一类数据抓取。
我们通过kettle来撰写ETL脚本,使用kettlet的好处比我们自己书写程序来进行ETL过程的好处在于: 第一,你可以使用图形化的工具来进行ETL工作的设计,工具会保存成脚本 第二,你有很多代码模版可以使用,可以兼容很多历史版本 第三,使用kettle引擎,你可以设定计划任务,来做到定期入库
当我们ETL工作完成之后我们就可以等待一段时间,让我们的ETL脚本发挥起作用,来丰富我们的数据仓库