局域网内网站建设,全网vip视频网站建设,北京seo软件,怎么做市场营销和推广目标
了解#xff0c;验证数据集
了解变量关系#xff0c;与预测值之间关系
数据处理、特征工程
数据探索性分析
EDA探索性数据分析
通过EDA可实现:
1. 得到数据的直观表现
2. 发现潜在的结构
3. 提取重要的变量
4. 处理异常值
5. 检验统计假设
6. 建立初步…目标
了解验证数据集
了解变量关系与预测值之间关系
数据处理、特征工程
数据探索性分析
EDA探索性数据分析
通过EDA可实现:
1. 得到数据的直观表现
2. 发现潜在的结构
3. 提取重要的变量
4. 处理异常值
5. 检验统计假设
6. 建立初步模型
7. 决定最优因子的设置 数据类型
数据一般按类型分为两种离散型和连续型;
离散型的数据相当于分类型数据如性别、种族、教育程度等。其中有些类别是没有顺序的如性别;有些类别则是有顺序的如教育程度。这两种情况分别称为名义变量和有序变量。
对于连续型变量一般是在值域里面连续取值这种变量一般是有序的。
统计量
中位数、方差、 内距(Q3−Q1Q3−Q1)
箱线图和直方图
一般步骤
1.拿到数据后用来探索的方法分为两类一是基于图像的二是基于定量方法的。
常见问题
- 一般统计量均值中位数方差分布分位数
- 工程修改是否 产生作用变量变换、缺失值处理
- 自变量是否对结果有影响
- 响应变量和自变量之间的最佳函数
- 时间相关数据能否信噪分离
- 多维变量提取结构
- 离群值?
知识树: 实战案例
目标名称水的供应和用水是否与人均国内生产总值有关提出假设
数据源http://www.fao.org/nr/water/aquastat/data/query/index.html下图数据源界面如果您经常做学术研究例如OECD等数据都是这样的。 数据源简单介绍
网站http://www.fao.org/nr/water/aquastat/metadata/index.stm
组织的三个主要目标是:
1.消除饥饿、粮食不安全和营养不良
2.消除贫困促进经济社会进步
3.自然资源的可持续管理和利用包括土地、水、空气、气候和遗传资源以造福今世后代。
为支持这些目标《宪法》第1条要求粮农组织“收集、分析、解释和传播与营养、粮食和农业有关的信息”。因此水温自动调节器开始其目的是通过收集有助于联合国粮农组织的目标与水资源相关的信息传播分析用水和农业用水管理对国家重点在非洲亚洲美国拉丁美洲加勒比海。
联合国粮农组织提供数据元数据报告国家概况河流域概况分析区域图表空间数据指导方针和其他的在线工具:
1、水资源内部、跨界、总
2、水的用途按部门按来源废水
3、灌溉地点、面积、类型、技术、作物
4、水坝位置高度容量表面积
5、与水有关的机构、政策和立法
项目软件软件python 3.6展示的软件Anaconda里面的jupster notebook运行环境Window7使用电脑Thinkpad T450。
项目计划
通过对数据有简单的预估这个时候由于自己的电脑内存比较小跑上十万以后的数据都会有明显的卡顿为此采取了一个特殊的策略—使用Tidy Data进行试验。Tidy Data大家可能不熟悉我直接也给大家上了干货。TidyData的官方解读https://tomaugspurger.github.io/modern-5-tidy.html直接连接可以查看如何使用小批量的数据进行实验。
本实验的目标为三点每个变量形成一个列每个观测值形成一行不同类型的观测单元组成一个表格。
数据转换
1、取对数log当数据的峰值很高通过将数据取对数能够将数据归一化处理。
2、连续变量分组bin分组连续变量能够更加简便的了解观测值的分布。
3、简化类别一个单一的数据往往类别太多会让人迷乱一般不想超过8-10列那就尽量找到重要的类别。机器学习里面这一个部分很重要和特征选择一样
项目开始
第一步不可或缺的导入五大包NumPy、Pandas、Matplotlib、SeabornWarnings大家对这四个包不熟悉的可以百度官方网站有专门的材料。特别主要的就是Seaborn这个库目前可视化的能力已经超过之前对Python的理解有很多人说R可视化效果很好但是我觉得这个可视化一点都不差。%matplotlib inline很多人不懂为什么会加上这个意思这就是在jupter画图的时候能够将可视化的图能够在结果中展现出来我试过很多时候忘记加结果图就只出现一行字。所以需要加上这个。 第二步导入数据 由于数据是压缩包的形式我们平时一般的是CSVTXT的格式那我们可以试一试压缩包的读取方式。对数据进行基本的了解Pandas为我们提供了很多可以简便查看和检查数据的方法。data.info()data.shapedata.head()data.tail()。
结果展示: 之后的四步见下一篇博文。