环境概述 一般再做数据工程时,除了数据流通流程啊,平台啊,剩下的就是做特征工程和分析。数据流通要说的还相对较多,这部分简单讲讲数据工程需要的环境。 环境准备 系统 不管是做特征处理,还是做数据分析,建模还是规则算法,基本都是需要Py的,另外可能很多人习惯用windows,不过我还是比较习惯linux,这里我选用的是centos7. Python3.7安装 在这里我需要在centos7上安装python3.7.5,步骤如下 安装编译工具 因为我们需要编译的方式安装python,提前安装相关依赖,以下命令逐条执行就可以。 yum -y groupinstall "Development tools" yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel yum install libffi-devel -y 下载安装包 我们选择直接去官网wge.... 数据工程(二):环境准备 Linux
概述 一般拿到这种需求的工程师,都是非常头疼的。因为啥呢,大部分需要提取关键词的数据,都是非常杂乱、毫无章法的。比如爬虫啊、数据结构化啊,都非常需要提取关键词这一步,我也是。。。哈哈,所以简单利用分词、词频分析啊乱七八糟的东西,简单写一个demo。当然,关键词重要与否,有效与否,是需要具体数据分析的,在这里就不详细说数据分析了,后面会详细写一篇文章讲一下。 关键词提取步骤 按照逻辑上的惯例,除非是人工标注,否则我们是很难提取到想要的信息的。但是人工标注,干过的人都知道,实在是太累了,而且效率极低。而且模板的提取方法是余弦聚类,我个人认为是效率比较低的一种方法。(当然我也这么干了一阵。。) 所以,开始使用特征语言处理NLP一类的东西,去尝试做这一事项。 分词 分词没太多可说了,现在已经有很多比较成熟的分词库了,jieba之类的应用已经很广泛了。不过具体的还在分词的使用上,例如根据各个词性啊怎么组合啊,词频怎么推导啊乱七八糟的,这块不赘述了。 词频分析 这里我们可以直接调用jieba的cut去做分词,将每个词组合成的语料库矩阵做排列,拿到每个词的词频,在去做排序就可以了。不过这里的词频...... 数据工程(一) 大数据
StreamSets介绍 StreamSets是最近兴起的ETL平台,它的特点是具有多样性的组件支持,可集成于CDH平台。最为吸引人的就是可视化的数据流通流程设置,多个pipelines的编写,RestApi形式的自动化支持,等等等等,当然选择使用它的最终理由还是因为支持的组件多。这一篇就简单来讲讲StreamSets的简单使用。 StreamSets部署 StreamSets的部署有很多形式,这里列举两个最方便的。 Docker-compose 这里我提供一份写好的docker-compose文件,如下 version: '3.1' services: streamsets: image: streamsets/datacollector restart: always ports: - "18630:18630" environment: HOST_IP: 0.0.0.0 volumes: - streamsets:/opt/steramsets - /data/mdt/data_hbase:/data/hbase volumes: streamsets: 这里把端口映射到了1...... 数据ETL平台Streamsets简单应用 Docker
K8S-Dashboard 生产环境部署了K8S集群免不了需要监控每个pod的状态,每个service的状态,乱七八糟的状态,官方的Dashboard就可以来干这件事~~~ 环境准备 目前的环境就是docker,k8s乱七八糟的都准备了。因为我部署的是v1.17.0版本的k8s,官方暂时还没说稳定支持的dashboard版本,用的是2.0.8的beta版。 部署服务 因为我这里已经部署完了,好多镜像乱七八糟的还需要vpn拉啊什么的,我直接提供一份写好的yaml文件 apiVersion: v1 kind: Namespace metadata: name: kubernetes-dashboard --- apiVersion: v1 kind: ServiceAccount metadata: labels: k8s-app: kubernetes-dashboard name: kubernetes-dashboard namespace: kubernetes-dashboard --- kind: Service apiVersion: v1 metadata: label...... K8S部署Dashboard Docker
K8S背景 其实道理大家都懂哈,基本搞过后端开发,用过docker,用过容器化技术,部署过服务的都接触过K8S,感觉上。哈哈,所以就简单说说。 K8S呢可以说是管理docker-container的车间,通过namespace隔离,可以将一组container组成的业务隔离开来。 同时,最为重要的,就是K8S的资源调度能力,不管是负载均衡啊乱七八糟的东西都非常好用。 废话不多说了,本篇简单说说单机部署的流程。 系统准备 本人用的是Ubuntu18,以下以此为例。 基础环境 docker 这个不用说了吧,K8S专门盘container的,肯定要这个。 关防火墙 sudo ufw disable 关防火墙这个一般还是需要的,看自己的需求吧。 关闭系统swap sudo swapoff -a 这个不关就等着报错吧 K8S环境 添加K8s安装密钥 先执行 sudo apt update && sudo apt install -y apt-transport-https curl 然后执行 curl -s https://mirrors.aliyun.com/kube.... 单机版K8S部署(Ubuntu) Docker
前~~~ 本站目的是介绍一些基本应用,组件的组合应用就看每个人的理解了,文档也是很多的就不详细写了。每一篇基本都是基础应用,看文档应该是每个程序员的基本人生吧,感谢。 起步 本介绍的目的是方便大家来使用一些基本组件,爬数据不是目的,偷取别人的私密数据也是违规的,所以仁者见仁智者见智,大家搞一些爱好的基本分析还是可以的。 在爬一些简单数据的时候,一般会遇到几种问题,常见的呢就是:跨域、登录验证乱七八糟的,不过这些都和我今天说的方法没啥关系,因为今天用的是selenium库,也就是自动化web测试工具。一般用selenium做测试的比较多,在我们这里,使用他做一些其他有趣的事情。 环境 python3 的环境,这个就不说了 有了环境之后安装selenium包 pip3 install selenium -i https://pypi.doubanio.com/simple 老规矩还是豆瓣源,速度快 安装了库是无法使用的,我们还需要chromedriver这种浏览器驱动才行,fox或者chrome都支持,不过我习惯用chromedriver,这里都已chromedriver来举例了,反正也..... 简单的爬虫程序 Python