环境概述 一般再做数据工程时,除了数据流通流程啊,平台啊,剩下的就是做特征工程和分析。数据流通要说的还相对较多,这部分简单讲讲数据工程需要的环境。 环境准备 系统 不管是做特征处理,还是做数据分析,建模还是规则算法,基本都是需要Py的,另外可能很多人习惯用windows,不过我还是比较习惯linux,这里我选用的是centos7. Python3.7安装 在这里我需要在centos7上安装python3.7.5,步骤如下 安装编译工具 因为我们需要编译的方式安装python,提前安装相关依赖,以下命令逐条执行就可以。 yum -y groupinstall "Development tools" yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel yum install libffi-devel -y 下载安装包 我们选择直接去官网wge.... 数据工程(二):环境准备 Linux
概述 一般拿到这种需求的工程师,都是非常头疼的。因为啥呢,大部分需要提取关键词的数据,都是非常杂乱、毫无章法的。比如爬虫啊、数据结构化啊,都非常需要提取关键词这一步,我也是。。。哈哈,所以简单利用分词、词频分析啊乱七八糟的东西,简单写一个demo。当然,关键词重要与否,有效与否,是需要具体数据分析的,在这里就不详细说数据分析了,后面会详细写一篇文章讲一下。 关键词提取步骤 按照逻辑上的惯例,除非是人工标注,否则我们是很难提取到想要的信息的。但是人工标注,干过的人都知道,实在是太累了,而且效率极低。而且模板的提取方法是余弦聚类,我个人认为是效率比较低的一种方法。(当然我也这么干了一阵。。) 所以,开始使用特征语言处理NLP一类的东西,去尝试做这一事项。 分词 分词没太多可说了,现在已经有很多比较成熟的分词库了,jieba之类的应用已经很广泛了。不过具体的还在分词的使用上,例如根据各个词性啊怎么组合啊,词频怎么推导啊乱七八糟的,这块不赘述了。 词频分析 这里我们可以直接调用jieba的cut去做分词,将每个词组合成的语料库矩阵做排列,拿到每个词的词频,在去做排序就可以了。不过这里的词频...... 数据工程(一) 大数据