网站建设开发免费咨询,重庆微信网站开,营销型网站图片,苏州网站建设公司有哪些计算机应用技术专业硕士答辩* 基于密度和中心点的分布式数据流聚类算法的研究 姓 名#xff1a;侯杰 学 号#xff1a;Y专 业#xff1a;计算机应用技术 研究方向#xff1a;数据挖掘与分布式计算 指导老师#xff1a;高宏宾 报告内容 主要研究内容 计划步骤 对聚类算法的…计算机应用技术专业硕士答辩* 基于密度和中心点的分布式数据流聚类算法的研究 姓 名侯杰 学 号Y专 业计算机应用技术 研究方向数据挖掘与分布式计算 指导老师高宏宾 报告内容 主要研究内容 计划步骤 对聚类算法的初步研究 高维数据流降维 后期拟完成的研究工作及进度安排 1.主要研究内容 分布式聚类算法的研究 基于密度和中心点的聚类方法研究 高维数据流的降维处理 2.计划步骤 序号 阶段及内容 起讫日期 阶段成果形式 [1] 论文全过程 2010.11-2012.04 [2] 确定研究项目查阅相关文献资料进行开题 2010.11-2011.01 已结束 [3] 研究分布式数据流聚类相关算法 2011.01-2011.03 研究了经典的DBSCAN、k-means算法 [4] 研究密度和中心点在分布式数据流聚类中的相关算法 2011.03-2011.06 未正式开始 [5] 高维数据流降维技术的研究 2011.06-2011.10 数据流预处理阶段已经基本结束 [6] 1.综合整理研究项目完成算法与测试数据 2.总结项目 2011.10-2011.12 [7] 总结研究成果完成论文 2011.12-2012.04 表1 开题报告计划表 T KPCA降维 数据 开始 高维数据 低维数据 寻找核心对象集 过滤不符合阈 值的候选对象 寻找完毕 广度优先算法BSF 完成 F F T 图1 论文整体流程图 3.对聚类算法的初步研究 目前已经对经典的k均值算法和DBSCAN算法做了初步研究计划在此基础上研究基于密度和中心点的分布式聚类算法。 图2 K均值图示 图3 DBSCAN图示 4.高维数据流降维 本部分在近期占用时间较多已经就“基于核主成分分析的数据流降维研究 ”完成期刊论文目前正在修改中该部分作为数据流的预处理部分在整篇论文中具有重要作用。 1.核方法 数据空间 线性操作 PCA、分类、线性回归等 非线性操作 KPCA、SVM、SVR等 核方法 特征空间 特征空间回归 到数据空间 2.核函数 3.分组的核主成分分析(GKPCA) 图4 降维方法与效果图示 对于测试结果由于所选的数据集较小又采取了 一个实验对算法的性能方面没有过硬的说服力 目前已经对该问题进行了补充。 表2 测试样例的降维结果 实例数*维数 189*13 378*13 567*13 756*13 945*13 1134*13 1323*13 PCA 189*11 378*11 567*11 756*11 945*12 1134*12 1323*12 KPCA 189*9 378*9 567*9 756*9 945*9 1134*10 1323*10 GKPCA 84*7 169*8 266*8 346*8 429*8 481*8 579*9 图5 时间消耗图 5.后期拟完成的研究工作及进度安排 重点研究“基于密度和中心点的聚类算法” 分布式环境下的数据流聚类(Hadoop) 论文的组织与撰写计划在岁末完成论文初稿2012年完成硕士论文毕业答辩 图6 HDFS 结构 * * * * * * * * * * * * * * * * * * *