当前位置: 首页 > news >正文

山东省网站建设_网站建设公司_Logo设计_seo优化

免费x网站域名,浙江建设信息港咨询电话,十大免费网页游戏,广州哪家网站建设服务好在刚刚过去的 Doris Summit Asia 2023 峰会上#xff0c;Apache Doris PMC 成员、飞轮科技技术副总裁衣国垒带来了“与创新者同行”的主题演讲#xff0c;回顾了 Apache Doris 在过去一年所取得的技术突破与社区发展#xff0c;重新思考了在面对海量数据实时分析上的挑战与机… 在刚刚过去的 Doris Summit Asia 2023 峰会上Apache Doris PMC 成员、飞轮科技技术副总裁衣国垒带来了“与创新者同行”的主题演讲回顾了 Apache Doris 在过去一年所取得的技术突破与社区发展重新思考了在面对海量数据实时分析上的挑战与机遇全面介绍了 Apache Doris 在未来的迭代计划与演进方向。 以下为衣国垒在峰会上的演讲节选以衣国垒第一人称叙述经编辑。 非常高兴可以看到这么多朋友共聚一堂现场几乎座无虚席。我也相信同样有很多朋友在线上观看峰会直播跨越空间的距离与我们共享此刻。 今年的主题是「与创新者同行」按照惯例往往在开场需要对主题进行阐述不过我希望把这一环节放在最后希望大家能跟随我的节奏。相信在今天的分享结束后大家会对这一主题有着更加深刻的认识。 Apache Doris in 2023 01 从“全面进化”到“里程碑式的跨越” 回顾 Apache Doris 过去的发展历程如果用一个关键词来形容 Apache Doris 在过去的 2022 年所取得的种种收获我们相信是“厚积而薄发后的全面进化”—— 在 2022 年所发布的版本中我们全面启用了向量化执行引擎、实现了主键模型上 Merge-on-Write 数据更新模式、引入统一的数据湖对接框架 Multi-Catalog 以及毫秒级的 Schema Change 等重磅特性在性能、稳定性、易用性等取得了全面进化。 而对于即将过去的 2023 年我们迎来了具有里程碑意义的 2.0 版本。从贡献者和 Commits 数据可以看到2.0 版本合入的 PR 超过 4100 个比 1.2 版本增加了 70%、比去年同期发布的 1.1 版本更是增长了近 10 倍参与这一版本开发的贡献者数量达 275 之多这一版本的发布也标志着我们实现了“里程碑式的跨越” 引入自适应的并行执行模型和全新查询优化器盲测性能提升 10 倍多表关联提升 13 倍单表场景提升 10 倍、高并发点查询提升 20 倍从报表和 Ad-hoc 等典型 OLAP 场景拓展到湖仓一体、高并发数据服务以及日志检索与分析支撑更统一多样的分析场景支持实时数据高吞吐写入、秒级时延对各类数据更新都有完备的支持构建更高效易用且稳定的实时数据处理和分析链路 02 全球最活跃的开源大数据项目之一 而在社区生态方面Apache Doris 社区同样也愈加繁荣从开发者规模和开发者活跃度指标上可见 在 GitHub 上 Apache Doris 已经收获了超过 9800 个 Star与去年同期相比增长近 70%且保持持续的增长态势总的贡献者规模已经增长至近 580 位每周都会有许多新面孔开始参与社区贡献平均每月的活跃贡献者已稳定在 120 人左右已大幅超过全球知名的开源大数据项目包括 Spark、Elasticsearch、Trino、Druid 等这些贡献者们每周都会为 Apache Doris 贡献超过 160 个PR同时社区也建立了更加成熟稳定的 CR 流水线每个合入的代码都会经过 3000 的测试用例这也使得社区以极快速度迭代的同时稳定性也得以保证 这一系列数字无不说明Apache Doris 现在已经成为全球最活跃的开源大数据项目之一。 除此以外我们也看到贡献者来源更加多元化广泛分布于国内的数据库独角兽企业和众多一线互联网公司我们也看到阿里云、腾讯云、华为云、百度智能云、天翼云以及火山引擎等顶尖云厂商也纷纷投入社区共建并提供了基于 Apache Doris 的云上数仓托管服务给予开源用户更多选择。 03 开源实时数据仓库领域的事实标准 在技术加速迭代的同时我们也看到有越来越多的用户开始选择相信 Apache Doris社区已经聚集了超过 30000 名数据库以及大数据相关领域的工程师享受由 Apache Doris 带来的极致分析体验。 在过去许多社区用户的印象中Apache Doris 更多是被互联网企业所使用例如百度、美团、小米、京东、腾讯等互联网一线企业。而现如今所覆盖的行业领域已越来越广泛不论是金融、政企、电信、制造亦或是交通、物流、快速消费品行业等都有着许多企业在其核心分析业务中应用 Apache Doris。 在此我很高兴地宣布截至目前 Apache Doris 在全球范围的用户规模已经超过了 4000 家这 4000 多家企业用户中绝大多数都与我们有着直接的接触不论是反馈需求、参与测试、提交代码或是分享实践经验都在以他们的方式回馈和贡献社区。他们中的许多也参与了今天的峰会分享我们也期待他们真实业务场景的经验收获能为更多人带来启发。 在如此庞大的用户规模下Apache Doris 已成为各行各业用户在使用实时数据仓库的首选成为开源实时数据仓库领域的事实标准 我们如何应对实时分析的挑战 从 Apache Doris 诞生之初就一直致力于解决人们海量数据实时分析的难题。而从过去版本的发展脉络中我们同样可以清晰感受到为了更好地应对用户在真实业务场景中的挑战Apache Doris 在朝着实时分析、融合统一和云原生这三大趋势上持续演进这也是我们在 2023 年聚焦的开发方向 实时分析在大规模实时数据上实现极致的查询性能既包含了数据的高吞吐实时写入和实时更新、也包含了更低的查询分析时延融合统一在一套系统中提供对多种分析负载的支持、简化复杂架构带来的运维使用成本除了持续加强过去 Apache Doris 一直比较擅长的报表分析和即席查询外湖仓联邦分析、日志检索分析、ETL/ELT 的查询加速以及高并发 Data Serving 等分析场景也是重要的突破方向云原生化面向云计算基础设施进行革新利用云的极致弹性降低存储和计算成本支持迁移到 K8s 容器等更多环境中进行部署及运行。 01 极致的查询性能 开头我们也曾提到过在 Apache Doris 2.0 版本中我们实现了盲测性能 10 倍以上的提升这其中最重要的部分在于 CBO 查询优化器和自适应的 Pipeline 并行执行模型。 CBO 查询优化器过去 Apache Doris 多服务于在线报表业务这些场景往往是将数据打平存储进宽表中以应对分析即使存在多表关联往往也较为简单因此发挥性能的关键在于扫描和聚合的效率。而当越来越多用户基于 Apache Doris 进行复杂计算或 ELT/ETL 批量数据处理时大宽表或者预聚合表这种空间换时间的方式很难发挥作用需要人工介入进行调优并改写 SQL 查询性能遭遇到挑战。为此我们花费了大量的时间进行了查询优化器的重构并在 Apache Doris 2.0 版本中正式发布。在面对数千上万行的复杂 SQL 或者数十张表的关联计算时CBO 优化器可以生成更高效的 Query Plan 并提升查询性能减少因人工调优带来的人力消耗和心智成本。 Pipeline 并行执行模型过去版本中在发起 Query 时 BE 执行并发度需要进行手工调整同样也需要人工介入并且大小查询在同一个集群执行时会遭遇资源抢占问题。为此我们引入了 Pipeline 执行模型作为查询执行引擎系统自动调整执行并行度并可以保证大小查询的稳定执行提升了 Apache Doris 对于 CPU 的利用效率因此在混合负载场景下查询性能和稳定性都得到了全面提升。 与此同时在 Apache Doris 2.0.0 版本我们引入了全新的行列混合存储以及行级 Cache使得单次读取整行数据时效率更高、大大减少磁盘访问次数同时引入了点查询短路径优化、跳过执行引擎并直接使用快速高效的读路径来检索所需的数据并引入了预处理语句复用执行 SQL 解析来减少 FE 开销在并发能力上实现了数量级的提升。 面向高并发 Data Serving 场景实现了单节点 30000 QPS 的并发表现较过去版本点查询并发能力提升超 20 倍。 在多维度检索场景中我们同样引入了倒排索引来提升性能在关键字模糊查询、等值查询和范围查询等场景中均取得了显著的查询性能和并发能力提升。 02 实时写入与更新 导入性能优化聚焦于实时分析我们在过去的几个版本中在不断增强实时分析能力其中端到端的数据实时写入能力是优化的重要方向在 Apache Doris 2.0 版本中我们进一步强化了这一能力。通过 Memtable 并行下刷、单副本导入等优化使实时导入性能获得 2-8 倍的提升。 Merge-on-WriteUnique Key 主键模型的 Merge-on-Write 数据更新模式最初是在 Apache Doris 1.2 版本中引入而在 Apache Doris 2.0 版本中这一能力得到进一步优化功能稳定性得到大幅提升并通过写入性能的优化实现了单节点 40w 行每秒 Upsert 操作的峰值写入吞吐同时引入了数据的关联更新以及部分列更新实现了对各类更新操作的完整支持。 了解更多10x 查询性能提升全新 Unique Key 的设计与实现新特性解读 03 更多分析场景 湖仓一体在 Apache Doris 1.2 版本中我们引入了 Multi-Catalog 功能支持了多种异构数据源的元数据自动映射与同步实现了便捷的元数据和数据打通。在 2.0.0 版本中我们进一步对数据联邦分析能力进行了加强引入了更多数据源并针对用户的实际生产环境做了诸多性能优化在真实工作负载情况下查询性能得到大幅提升。这一框架也帮助我们可以更好进行跨源的数据同步只需要简单的 insert into select 即可实现数据快速写入 Doris 中。 了解更多查询性能较 Trino/Presto 3-10 倍提升Apache Doris 极速数据湖分析深度解读 半结构化数据分析与日志检索分析在 Apache Doris 2.0.0 版本中我们提供了原生的半结构化数据支持在已有的 JSON、Array 基础之上增加了复杂类型 Map并基于 Light Schema Change 功能实现了 Schema Evolution。与此同时2.0.0 版本新引入的倒排索引和高性能文本分析算法全面加强了 Apache Doris 在日志检索分析场景的能力可以支持更高效的任意维度分析和全文检索。结合过去在大规模数据写入和低成本存储等方面的优势相对于业内常见的日志分析解决方案基于 Apache Doris 构建的新一代日志检索分析平台实现了 10 倍以上的性价比提升。 了解更多如何基于 Apache Doris 构建新一代日志分析平台解决方案 更精细化的多租户与资源管理方案当单个集群应对多种分析负载时随之而来的问题即如何保证相互之间的资源抢占为此在 2.0 版本中我们引入了资源隔离方案通过对 Workload 进行分组管理以保证内存和 CPU 资源的灵活调配和管控此外我们还引入了查询排队的功能在创建 Workload Group 时可以设置最大查询数超出最大并发的查询将会进行队列中等待执行以此来缓解高负载下系统的压力。 04 低成本与高可用 降存储成本在存储方面冷热数据往往面临不同频次的查询和响应速度要求因此通常可以将冷数据存储在成本更低的存储介质中。因此在 2.0 版本中推出了冷热数据分层功能冷热数据分层功能使 Apache Doris 可以将冷数据下沉到存储成本更加低廉的对象存储中同时冷数据在对象存储上的保存方式也从多副本变为单副本存储成本进一步降至原先的三分之一同时也减少了因存储附加的计算资源成本和网络开销成本。通过实际测算存储成本最高可以降低超过 70%。 了解更多Apache Doris 冷热分层技术如何实现存储成本降低 70%新版本特性 支持部署在公有云/私有云/K8s面对更多用户在公有云、私有云以及 K8s 等环境的部署要求我们开发了 K8s Operator可以实现对 FE、BE以及 Compute Node、Broker 等所有节点的部署、扩缩容、健康检查等一系列运维工作此外还支持对 Compute Node 节点 Auto Scaling 根据自机器的负载进行自动扩容。这一功能目前已经在社区用户中大规模试用并将在后续的版本中正式发布出来。 实现跨集群复制在 Apache Doris 2.0.0 版本中我们同样引入 CCR 的功能在库/表级别将源集群的数据变更同步到目标集群可以更好实现读写负载分离以及多机房备份并可以更好支持不同场景的跨集群复制和灾备需求。 走向实时分析的下一步 回顾完在 2023 年的进展后承前而启后该聊聊正在做以及未来即将要做的事情。 定位于实时数据仓库后续 Apache Doris 社区仍会继续坚守实时分析、融合统一及云原生化这三大方向不变每一方向都有许多有意义的工作在陆续开展中。 01 更快的分析性能与更实时的数据写入及更新 查询引擎方面在即将发布的 2.1 版本中CBO 查询优化器将实现全自动的统计信息收集并提供丰富的 Hint 语法在优化器规则失效的时候可以支持手动调整规则我们也将会发布 TPC-DS 的性能测试报告。查询算子落盘和多表物化视图是社区用户呼声已久的功能也将于 2.1 版本加入进来同时我们还将引入 Union All 算子并行执行来进一步加速 ETL 操作的执行性能后续用户在 Apache Doris 进行大批量数据处理将会执行得更快更稳定更简易。我们还会引入新的 Join 算法将多表 Join 性能进一步至之前的两倍。 实时数据写入方面我们将对所有数据写入的语义进行统一无论是关系型数据库、数据流、本地文件或者数据湖的数据文件对于 Apache Doris 而言都将统一具象为关系表、可以通过 insert into 的统一语义来实现数据写入。同时我们还将简化数据写入的链路通过内置的 Job 调度来执行数据写入避免引入第三方的数据同步组件。我们将引入服务端攒批机制在上游数据高频写入时通过服务端攒批来避免小文件合并问题、降低数据库的写入压力。 实时数据更新方面Merge-on-Write 模式将会默认开启以此实现任意列的灵活更新后续将基于 Merge-on-Write 实现所有数据模型的统一减少用户在各种数据模型上的选择。 在可观测性方面我们将为用户提供全新的 Profile 便于用户定位算子执行情况同时支持查询任务的进度动态展示并可以集成至 Doris Manager 中以可视化的方式展现这部分功能已经开发就绪、在 2.1 版本中即将上线。 02 更多查询分析场景的统一 在湖仓一体场景上我们会充分结合多表物化视图与内置 Job 调度的能力将物化视图拓展到数据湖的多种数据源上无需任何其他组件、依靠自身调度能力即可实现从数据湖到数据仓库的 ETL 作业以及数仓分层建模。在 2.0 版本中我们已经实现了对 JDBC 数据源的写回操作后续对数据的写入将会拓展到 Iceberg、Hudi、Paimon 等实现数据查询分析的更完整闭环。 除了读取更多数据源的数据之外Apache Doris 也在打通被外部访问的数据通道。目前 Doris 对外输出数据的接口采取了 MySQL 连接协议在应对大规模数据读取或者数据科学场景时例如 Pandas 之类的数据科学引擎MySQL 协议的吞吐成为了系统瓶颈因此在后续版本中我们引入了基于 Arrow Flight 的高速数据读取接口直接通过 BE 将数据进行传输在实际测试过程中数据吞吐性能较过去提升了超过 100 倍。 在半结构化数据分析和日志分析场景中我们会增加倒排索引对更加复杂类型的支持包括对于 Array、Map、GEO 等复杂类型。同时应对日志场景对存储字段 Schema Less 的需求我们会在 2.1 版本中引入 Variant 数据类型可以支持任意类型、任意形状的 JSON 格式文档数据可以支持自动动态地处理列增加或类型变更完全不需要繁琐的 DDL 操作以及 Schema Change 操作。 在负载管理方面我们仍会持续探索灵活的混合负载管理 支持通过SQL 来创建和管理Workload Group 并调整资源配置保证负载隔离性的同时实现资源利用率的最大化。 03 云原生和存算分离 在之前的文章中我们曾介绍到 SelectDB Cloud 存算分离版本将会合入社区但代码结构整理、兼容性改造以及合入的工作量超过我们预期好在这一工作已经进入尾声。在 Apache Doris 2.1 版本中所有代码结构的调整将会完成预计在 2.2 版本中将会面向社区全面可用届时大家都可以感受全新云原生架构带来的极致弹性敬请期待。 与创新者同行 在演讲的最后我想介绍下本次峰会筹备的幕后故事。我们一直在思考该传达什么样的理念给所有社区用户但一直没有找到特别精准的表达。 在回顾了 Apache Doris 从诞生至今这十年的发展过程后我们想到这不就是一个讲述技术创新的故事么 在 SQL on Hadoop 的时代Doris 选择独立于 Hadoop 生态、不依赖 HDFS 进行数据存储、不依赖 Zookeeper 进行分布式管控任一进程都可实现在线扩缩容并保证高可用面对语法各异的大数据组件中Doris 选择支持标准 SQL 并兼容 MySQL 协议极大简化了用户的使用门槛基于自研的预聚合存储引擎、物化视图和 MPP 执行框架充分利用多机多核的并行计算能力实现了大规模数据上的极速查询性能……正是因为坚持技术创新才使得 Apache Doris 的生命力愈加旺盛。 到现如今我们在 Apache Doris 中引入了诸多的功能创新点倒排索引、行列混存、毫秒级在线 Schema Change、Merge-on-Write 写时合并、Variant 数据类型 …… 每一步都是在持续引领技术创新。 所以这里的「与创新者同行」有几层含义 我们希望与热爱开源技术的开源贡献者们一起以技术创新为数据世界带来些改变我们希望把认可并信赖 Apache Doris 的用户代表聚集起来以真实场景中的应用创新为更多人带来启发我们也希望与上下游合作伙伴、云服务厂商一起以产品创新为行业注入新的活力为所有用户带来新的选择。 选择 Apache Doris就是选择与众多创新者同行。 在最后我们也致敬每一位追风赶月的创新者们也期待与更多创新者与一同前行探索数据世界的更多可能性。
http://www.lebaoying.cn/news/115330.html

相关文章:

  • 外贸用免费网站推广 有效果重庆荣昌网站建设报价
  • 网站开发背景 目的wordpress回复看内容
  • 湖州网站设计平台免费建站网站一级123456
  • 重庆做网站 帮助中心如何做跨境电商怎么做
  • 厦门网站推广¥做下拉去118cr手机网站模板更改吗
  • 苏州网站建设网站教新手做网站难吗
  • 东营设计网站建设找人网站
  • 黄金网站app下载免费七牛图片处理 wordpress
  • 网站备案审核通过时间wordpress更改上传下载目录
  • 精通网站建设 pdf微盘哪个公司做网站推广最好
  • 定制网站建设的流程免费一键生成商标图片
  • 手机怎么创网站免费下载数据过滤网站模板下载
  • 电子商务网站规划与...百度应用商店下载安装
  • 内部劵淘网站怎么做优化网站具体如何做
  • 广西住房城乡建设部网站最好网页游戏网站
  • 滨州做微商城网站150网站建设
  • 网站开发定做网站模板编号
  • 上海网站建设哪家企业自助建站推广
  • 深圳建设网站哪家强响应式网页需要什么技术
  • 网站培训费用怎样做免费网站的推广
  • 数据图表展示网站新网做网站流程
  • 杭州二建建设有限公司网站做直播网站收费吗
  • 网站正常打开速度慢使用nas建设网站
  • 做明星网站网站从设计到制作
  • 查看网站浏览量广州新站优化
  • 网站开发 方案概要域名注册费用
  • 百度上如何做企业网站公众号开发小程序开发
  • 关于酒店网站建设的摘要工信部企业网站认证
  • 本地常州网站建设广东建设工程网站
  • 公司网站建设应包含哪几个板块网站开发php学校