当前位置: 首页 > news >正文

国内广告设计seo网站结构

国内广告设计,seo网站结构,庆阳设计公司,网站建设座谈会上的发言特征选择就是从原始特征中选取一些最有效的特征来降低维度,#xff0c;提高模型泛化能力减低过拟合的过程#xff0c;主要目的是剔除掉无关特征和冗余特征#xff0c;选出最优特征子集#xff1b;常见的特征选择方法可以分为3类#xff1a;过滤式(filter)、包裹式(wrapper…特征选择就是从原始特征中选取一些最有效的特征来降低维度,提高模型泛化能力减低过拟合的过程主要目的是剔除掉无关特征和冗余特征选出最优特征子集常见的特征选择方法可以分为3类过滤式(filter)、包裹式(wrapper)、嵌入式(embedding)。1.过滤式filter通过方差选择法、相关系数法、卡方检验法、互信息法来对特征进行评分设定阈值或者待选择的阈值的个数来选择1.1方差选择法计算各个特征的方差剔除小于设定的阈值的特征剔除特征值 波动较小的特征例如一个特征的所有值都为1那这个特征对于预测目标变量就没什么作用方法很简单但实际应用中只有少数变量才会存在只取某个值的情况对特征选择作用比较小可以当做数据预处理部分之后再用其他方法进行特征选择。from sklearn.feature_selection import VarianceThresholdvar VarianceThreshold(threshold0)var.fit_transform(df)df df.iloc[var.get_support(True),:]#VarianceThreshold返回已经提出方差为0的列通过get_support[True]定位剩余变量所在的列1.2 单变量特征选择1.2.1相关系数法皮尔森相关系数衡量的是变量之间的线性相关性取值范围在-1-1之间-1表示完全负相关1表示完全正相关0表示线性无关可以使用scipy的pearsonr 计算皮尔森相关系数且它还可以同时计算出p值import numpy as npfrom scipy.stats import pearsonrx np.random.normal(0,10,300)y x np.random.normal(0,10,300)pearsonr(x,y)但是皮尔森相关系数只衡量线性关系即使两个变量之间有较强的非线性关系皮尔森系数也有可能接近为01.2.2.卡方检验法检验定性自变量对定性因变量的相关性卡方公式为其中Ai为观测频数Ei为期望频数from sklearn.feature_selection import chi2#chi2要求变量值非负返回卡方值和P值from sklearn.feature_selection import SelectKBestfrom sklearn.datasets import load_irisiris load_iris()model SelectKBest(chi2, k2)model.fit_transform(iris.data,iris.target)var model.get_support(True)1.2.3 互信息法和最大信息系数互信息法也是评价定性自变量对定性因变量的相关性的但是并不方便直接用于特征选择一是因为它不属于度量方式也没有办法进行归一化在不同的数据上的结果无法做比较二是因为对于连续变量的计算不是很方便通常需要将变量离散化而互信息的结果对离散化的方法很敏感因此引入了最大信息系数 。最大信息系数首先寻找一种最优的离散方式然后把互信息取值转换成一种度量方式取值区间在[0,1]minepy模块提供了MIC(最大信息系数)方法x np.random.normal(0,10,300)z x *xpearsonr(x,z)#计算得皮尔森系数 -0.1from minepy import MINEm MINE()m.compute_score(x, z)print(m.mic())#mic系数 1.01.2.4 距离相关系数法距离相关系数是为了克服皮尔森相关系数只能衡量线性关系的弱点而生的。x和x^2的皮尔森相关系数可能接近于0但是这两个变量并不是独立不相关的。使用距离相关系数就可以计算x和x^2的非线性关系如果距离相关系数接近于0就可以说两个变量之间是独立的。R语言的energy包提供了距离相关系数的函数Python没有直接计算的包可以查看https://gist.github.com/josef-pkt/2938402#R语言x z dcor(x, z)计算得 x,x**2的距离相关系数为0.982.包裹式Wrapper根据预测效果(AUC/MSE)或者其他方法对特征组合进行评分主要方法有递归特征消除法递归特征消除法的主要思想是反复的构建模型然后选出最好或最坏的特征把选出的特征放到一边然后在剩余的特征上重复这个过程直到所有特征都遍历了。在这个过程中特征被消除的次序就是特征的排序。from sklearn.feature_selection import RFEfrom sklearn.linear_model import LinearRegressionlr LinearRegression()rfe RFE(lr, n_features_to_select2)rfe.fit(iris.data, iris.target)var rfe.get_support(True)3.嵌入式Embedded3.1正则化正则化主要包括L1正则化和L2正则化L1正则化将系数W的L1范数作为惩罚项加到损失函数中L1正则方法具有稀疏解的特性因此天然具有特征选择的特性但是不代表没被选到的特征就不重要有可能是因为两个高度相关的特征最后只保留了一个另外L1正则化和非正则化模型一样是不稳定的如果特征集合中具有相关联的特征当数据发生细微变化时也有可能导致很大的模型差异。from sklearn.linear_model import Lassofrom sklearn.preprocessing import StandardScalerscaler StandardScaler()x scaler.fit_transform(iris.data)y iris.targetlasso Lasso(alpha0.2)lasso.fit(x,y)lasso.coef_L2正则化将系数向量的L2范数添加到损失函数中由于L2惩罚项中的系数是二次方的会让系数的取值变得平均对于有相关性的变量会得到相近的系数L2正则化也较L1稳定import pandas as pdfrom sklearn.datasets import load_irisfrom sklearn.preprocessing import StandardScalerfrom sklearn.linear_model import LinearRegressionfrom sklearn.linear_model import Lassofrom sklearn.linear_model import Ridgeiris load_iris()#看一下各变量之间的相关性data pd.DataFrame(iris.data)data.corr()可以看出2和3、0和2、3变量之间有较强的关联性然后看一下分别使用线性回归、L1正则化和L2正则化后的变量系数scaler StandardScaler()x scaler.fit_transform(iris.data)y iris.targetlr LinearRegression()lr.fit(x,y)lr.coef_lasso Lasso(alpha0.5)lasso.fit(x,y)lasso.coef_ridge Ridge(alpha10)ridge.fit(x,y)ridge.coef_可以看出L1正则化后容易得到一个稀疏矩阵L2正则化后系数会趋于平均。3.2树模型可以利用随机森林或者GBDT模型进行特征选择之前我有一篇博文讲的这个这里不再详细说明上一篇随机森林筛选变量的链接https://mp.weixin.qq.com/s/6gc3H2y6SnOzdyx_L2WBwg
http://www.lebaoying.cn/news/47185.html

相关文章:

  • 成都网站建设哪儿济南兴田德润怎么联系大庆信息网
  • 网站后台上传图片脚本错误百度网页搜索
  • 最新域名网站查询广告推广怎么赚钱
  • 创建网站的目的是什么原因网页产品设计作品集
  • 自由体网站建设vr全景山东建站
  • 网站建设Z亿玛酷1流量订制服装网页设计网站
  • 徐州网站制作怎么做网站导航栏一般有什么内容
  • 青岛谷歌网站建设4366网页游戏
  • 做网站域名的公司wordpress弹出小提示
  • 哪个网站可以做片头网站开发价位评估
  • 手机搭建网站工具粉色网站模板
  • 门户网站 营销wordpress文字上传
  • 装饰网站建设流程网站的开发方法
  • 珠海学网站开发手机网站域名查询
  • 创建网站的目的是什么wordpress更改固定连接404
  • 麻涌东莞网站建设免费外网加速器
  • 渭南做网站都有哪些搜索引擎在哪里获取网站
  • 建设一个网站是不必须备案企业年报查询
  • 馆陶网站wordpress用户组插件
  • 城市建设网站调查问卷重庆建设医院官方网站
  • 猎头公司名字外贸网站优化公司
  • 网站模板怎么打开青岛关键词排名哪家好
  • 永川集团网站建设龙岗网站建设电话
  • 襄阳做网站价格手机h5网站开发
  • 安徽省所有建设类网站网站建设制作开发
  • ppt做的模板下载网站centos做网站服务器吗
  • 青岛集团网站建设wdcp 网站建设
  • 网站开发中设置会员等级网站底部浮动广告代码
  • 做电影数据的网站asp网站开发视频
  • 网站开发需要什么技术人员搜索引擎营销经典案例