数据平台建设文档V2.0 数据平台建设文档V2.0 概述 数据平台的主要职责是对我司既有业务进行沉淀,并赋能新业务,是实现既有业务数据转化应用于新业务的支撑性平台。 通过既往业务的积累,新业务的接入,数据形式会愈加复杂、对齐难度越来越大。在业务上拥有急需数据赋能的新业务,在数据上拥有需要提升数据价值的历史数据,数据平台的建设在我司未来的信息技术发展道路上将是重要的一环。 通过数据挖掘,分析数据的规律、剖析过去、分析现在、预测未来,通过数据平台高效利用数据、建立数据驱动企业决策、构建高效智慧运营业务,将是数据平台在未来的重任。 背景 数据现状 在我司过去的发展历程中,已经积累了大量的数据,并且数据量还在进行有规律的增长。其中包括既有业务的数据增长,以及新业务接入带来的数据汇入。 我司数据目前存在非机构化与结构化两种数据形式,非结构化数据占到所有数据的九成以上,由此可见,从非结构化数据中挖掘出数据关系,形成易读易用,具有规律的数据,是目前数据平台将要完成的重要任务。 在过去的业务数据中,我司的业务涵盖了很多领域,包括保险、金融、互联网、呼叫业务等多个业务方向。其.... 有更新! 数据中台参考设计--私 大数据
环境概述 一般再做数据工程时,除了数据流通流程啊,平台啊,剩下的就是做特征工程和分析。数据流通要说的还相对较多,这部分简单讲讲数据工程需要的环境。 环境准备 系统 不管是做特征处理,还是做数据分析,建模还是规则算法,基本都是需要Py的,另外可能很多人习惯用windows,不过我还是比较习惯linux,这里我选用的是centos7. Python3.7安装 在这里我需要在centos7上安装python3.7.5,步骤如下 安装编译工具 因为我们需要编译的方式安装python,提前安装相关依赖,以下命令逐条执行就可以。 yum -y groupinstall "Development tools" yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel yum install libffi-devel -y 下载安装包 我们选择直接去官网wge.... 数据工程(二):环境准备 Linux
概述 一般拿到这种需求的工程师,都是非常头疼的。因为啥呢,大部分需要提取关键词的数据,都是非常杂乱、毫无章法的。比如爬虫啊、数据结构化啊,都非常需要提取关键词这一步,我也是。。。哈哈,所以简单利用分词、词频分析啊乱七八糟的东西,简单写一个demo。当然,关键词重要与否,有效与否,是需要具体数据分析的,在这里就不详细说数据分析了,后面会详细写一篇文章讲一下。 关键词提取步骤 按照逻辑上的惯例,除非是人工标注,否则我们是很难提取到想要的信息的。但是人工标注,干过的人都知道,实在是太累了,而且效率极低。而且模板的提取方法是余弦聚类,我个人认为是效率比较低的一种方法。(当然我也这么干了一阵。。) 所以,开始使用特征语言处理NLP一类的东西,去尝试做这一事项。 分词 分词没太多可说了,现在已经有很多比较成熟的分词库了,jieba之类的应用已经很广泛了。不过具体的还在分词的使用上,例如根据各个词性啊怎么组合啊,词频怎么推导啊乱七八糟的,这块不赘述了。 词频分析 这里我们可以直接调用jieba的cut去做分词,将每个词组合成的语料库矩阵做排列,拿到每个词的词频,在去做排序就可以了。不过这里的词频...... 数据工程(一) 大数据
StreamSets介绍 StreamSets是最近兴起的ETL平台,它的特点是具有多样性的组件支持,可集成于CDH平台。最为吸引人的就是可视化的数据流通流程设置,多个pipelines的编写,RestApi形式的自动化支持,等等等等,当然选择使用它的最终理由还是因为支持的组件多。这一篇就简单来讲讲StreamSets的简单使用。 StreamSets部署 StreamSets的部署有很多形式,这里列举两个最方便的。 Docker-compose 这里我提供一份写好的docker-compose文件,如下 version: '3.1' services: streamsets: image: streamsets/datacollector restart: always ports: - "18630:18630" environment: HOST_IP: 0.0.0.0 volumes: - streamsets:/opt/steramsets - /data/mdt/data_hbase:/data/hbase volumes: streamsets: 这里把端口映射到了1...... 数据ETL平台Streamsets简单应用 Docker