当前位置: 首页 > news >正文

松原市网站建设_网站建设公司_Redis_seo优化

网站设计实验,网站对比,网站备案关闭网站,南宁百度seo建议来源#xff1a;数智化转型俱乐部 面对爆炸式增长的数据#xff0c;如何建设高效的数据模型和体系#xff0c;对这些数据进行有序和有结构地分类组织和存储#xff0c;避免重复建设和数据不一致性#xff0c;保证数据的规范性#xff0c;一直是大数据系统建设不断追求的…来源数智化转型俱乐部 面对爆炸式增长的数据如何建设高效的数据模型和体系对这些数据进行有序和有结构地分类组织和存储避免重复建设和数据不一致性保证数据的规范性一直是大数据系统建设不断追求的方向。 OneData即是阿里巴巴内部进行数据整合及管理的方法体系和工具。阿里巴巴的大数据工程师在这一体系下构建统一、规范、可共享的全域数据体系避免数据的冗余和重复建设规避数据烟囱和不一致性充分发挥阿里巴巴在大数据海量、多样性方面的独特优势。借助这一统一化数据整合及管理的方法体系我们构建了阿里巴巴的数据公共层并可以帮助相似的大数据项目快速落地实现。下面重点介绍OneData体系和实施方法论。 1定位及价值 阿里巴巴集团大数据建设方法论的核心是从业务架构设计到模型设计从数据研发到数据服务做到数据可管理、可追溯、可规避重复建设。目前阿里巴巴集团数据公共层团队已把这套方法论沉淀为产品以帮助数据PD、数据模型师和ETL工程师建设阿里的大数据。这一体系包含方法论以及相关产品。 建设统一的、规范化的数据接入层ODS和数据中间层DWD和DWS通过数据服务和数据产品完成服务于阿里巴巴的大数据系统建设即数据公共层建设。提供标准化的Standard、共享的Shared、数据服务Service能力降低数据互通成本释放计算、存储、人力等资源以消除业务和技术之痛。 2体系架构 体系架构如图。 业务板块由于阿里巴巴集团业务生态庞大所以根据业务的属性划分出几个相对独立的业务板块业务板块之间的指标或业务重叠性较小。如电商业务板块涵盖淘系、B2B系和AliExpress系等。 规范定义阿里数据业务庞大结合行业的数据仓库建设经验和阿里数据自身特点设计出的一套数据规范命名体系规范定义将会被用在模型设计中。后面章节将会详细说明。 模型设计以维度建模理论为基础基于维度建模总线架构构建一致性的维度和事实进行规范定义。同时在落地表模型时基于阿里自身业务特点设计出一套表规范命名体系。 3模型设计 模型设计指导理论阿里巴巴集团数据公共层设计理念遵循维度建模思想可参考Star Schema-The Complete Reference和The Data Warehouse Toolkit-The Definitive Guide to Dimensional Modeling。数据模型的维度设计主要以维度建模理论为基础基于维度数据模型总线架构构建一致性的维度和事实。 模型层次阿里巴巴的数据团队把表数据模型分为三层操作数据层ODS、公共维度模型层CDM和应用数据层ADS其中公共维度模型层包括明细数据层DWD和汇总数据层DWS。 操作数据层ODS把操作系统数据几乎无处理地存放在数据仓库系统中。 同步结构化数据增量或全量同步到MaxCompute。 结构化非结构化日志结构化处理并存储到MaxCompute。 累积历史、清洗根据数据业务需求及稽核和审计要求保存历史数据、清洗数据。 公共维度模型层CDM存放明细事实数据、维表数据及公共指标汇总数据其中明细事实数据、维表数据一般根据ODS层数据加工生成公共指标汇总数据一般根据维表数据和明细事实数据加工生成。 CDM层又细分为DWD层和DWS层分别是明细数据层和汇总数据层采用维度模型方法作为理论基础更多地采用一些维度退化手法将维度退化至事实表中减少事实表和维表的关联提高明细数据表的易用性同时在汇总数据层加强指标的维度退化采取更多的宽表化手段构建公共指标数据层提升公共指标的复用性减少重复加工。其主要功能如下。 组合相关和相似数据采用明细宽表复用关联计算减少数据扫描。 公共指标统一加工基于OneData体系构建命名规范、口径一致和算法统一的统计指标为上层数据产品、应用和服务提供公共指标建立逻辑汇总宽表。 建立一致性维度建立一致的数据分析维表降低数据计算口径、算法不统一的风险。 应用数据层ADS存放数据产品个性化的统计指标数据根据CDM层与ODS层加工生成。 个性化指标加工不公用性、复杂性指数型、比值型、排名型指标。 基于应用的数据组装大宽表集市、横表转纵表、趋势指标串。 阿里巴巴通过构建全域的公共层数据极大地控制了数据规模的增长趋势同时在整体的数据研发效率、成本节约、性能改进方面都有不错的效果。 数据调用服务优先使用公共维度模型层CDM数据当公共层没有数据时需评估是否需要创建公共层数据当不需要建设公用的公共层时方可直接使用操作数据层ODS数据。应用数据层ADS作为产品特有的个性化数据一般不对外提供数据服务但是ADS作为被服务方也需要遵守这个约定。 基本原则高内聚和低耦合——一个逻辑或者物理模型由哪些记录和字段组成应该遵循最基本的软件设计方法论的高内聚和低耦合原则。主要从数据业务特性和访问特性两个角度来考虑将业务相近或者相关、粒度相同的数据设计为一个逻辑或者物理模型将高概率同时访问的数据放一起将低概率同时访问的数据分开存储 核心模型与扩展模型分离——建立核心模型与扩展模型体系核心模型包括的字段支持常用的核心业务扩展模型包括的字段支持个性化或少量应用的需要不能让扩展模型的字段过度侵入核心模型以免破坏核心模型的架构简洁性与可维护性。 公共处理逻辑下沉及单一——越是底层公用的处理逻辑越应该在数据调度依赖的底层进行封装与实现不要让公用的处理逻辑暴露给应用层实现不要让公共逻辑多处同时存在。 成本与性能平衡——适当的数据冗余可换取查询和刷新性能不宜过度冗余与数据复制。 数据可回滚——处理逻辑不变在不同时间多次运行数据结果确定不变。 一致性——具有相同含义的字段在不同表中的命名必须相同必须使用规范定义中的名称。 命名清晰、可理解——表命名需清晰、一致表名需易于消费者理解和使用。 如何从具体的需求或项目转换为可实施的解决方案如何进行需求分析、架构设计、详细模型设计等则是模型实施过程中讨论的内容。下节会简单介绍业界常用的模型实施过程重点讲解阿里巴巴OneData模型设计理论及实施过程。注本书中出现的部分专有名词、专业术语、产品名称、软件项目名称、工具名称等是淘宝中国软件有限公司内部项目的惯用词语如与第三方名称雷同实属巧合。 原文链接 本文为阿里云原创内容未经允许不得转载。
http://www.lebaoying.cn/news/42204.html

相关文章:

  • 荼叶公司网站模板简单网站模板
  • 江苏无锡网站推广及优化微信小程序开发的优势
  • 昆明工程建设信息网站网络营销的理论
  • 展示网站源码下载网站免备案
  • 分析网站外链分析工具建设跨境电商网站
  • 微官网和移动网站区别吗建设网站是公司资产
  • 十堰学校网站建设常用来做网站首页的文件名
  • 有专门做预算的网站没阿里云 网站托管
  • 合肥做网站排名开网店怎么开 新手
  • 上海建站网站简洁案例wordpress最近更新文章插件
  • 站长工具seo查询安阳网站设计哪家专业
  • 做的网站如何投入搜索引擎制作网页时用的最多的图像格式
  • 赣州网站建设设计通州网站建设全包
  • 网站群建设路径南京行业门户网站
  • 上海网站建设哪家专业郑州企业网站建设团队
  • 电子商务网站设计代做wordpress收件邮箱
  • 以下属于网站seo的内容是建设菠菜网站
  • 个人网站设计文字内容模板dedecms做自适应网站
  • 网站建设用户调研做企业网站需要提供什么
  • 哪些网站可以赚钱用v9做的网站上传服务器
  • 宜阳县网站建设ppt做视频模板下载网站有哪些内容
  • vps如何做网站微信 怎么上传 wordpress
  • 阿里云公司网站制作广告代理商公司
  • 泰安软件公司 泰安网站建设常德市住房和城乡建设局网站
  • 网站建设是什么意思 打不开广东网站建设公司有哪些
  • 江苏省住房保障建设厅网站天津谷歌优化公司
  • 住房城乡建设部 网站网站开发需要掌握哪些知识
  • .net 电子商务网站源码宝安网站建设-信科网络
  • 深圳效果好的免费网站建设做淘宝客网站用什么系统
  • 微信客户端网站建设网站 案例