• 存储治理问题一则

    历经大半年的大数据上云也算在近期告一段落。数据上云也是为了更稳定,减少维护成本,增缩容更方便。 数据上云过程中,我又主导了新的一期数据治理。以下记录下存储治理的一个问题排查过程。 问题 现阶段业务并没有爆发增长,但是每日新增存储 GAP (每日新增 0.4%)还挺大,结合 80%的总存储水位线,整体集群存储可用时间只剩 100 天!结合业务知识背景,这显然不合理。 排查 现阶段生命周期设置 主要耗费存储的地方在数仓分层底层部分 占用量前 1% 的表占比 90% 的存储。 占用量 千分之一...
  • 任务调度优化经验

    任务调度优化经验:细分队列,合理利用调度策略,提升集群资源利用率   相信目前很多生产系统,都使用了多租户模式管理所有进驻大数据平台的应用方,租户模式的优势,想必大家都有所了解,它能够管控租户权限,弹性分配资源,提高数据安全性及计算资源利用率,但Yarn集群中租户的资源调度器分为FairScheduler和CapacityScheduler,本文将探究生产任务的资源开销差异较大、且存在不同优先级的情况下,如何选择调度器,以及配置怎样的调度方式更为合理。 首先简单了解一下两种调度器 FairSchedu...
  • 阿里oneData架构设计

    阿里oneData架构设计 oneData是阿里巴巴内部进行数据整合和管理方法体系和工具。 指导思想 首先,要进行充分的业务调研和需求分析。 其次,进行数据总体架构设计,主要是根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵,抽象出业务过程和维度。 再次,对报表需求进行抽象整理出相关指标体系,使用OneData工具完成指标规范定义和模型设计。 最后,是代码研发和运维。 其实施流程主要分为:数据调研、架构设计、规范定义和模型设计。 数据调研 业务调研 需要确认要规划进数仓的业务领域,...
  • Hive的三种join

    Hive中的join可分为三种,分别是Map-join、Reduce-join和SMB Join,本文简单介绍这三种join的原理和机制。 1.Map-join MapJoin的主要意思就是,当链接的两个表是一个比较小的表和一个特别大的表的时候,我们把比较小的table直接放到内存中去,然后再对比较大的表格进行map操作。join就发生在map操作的时候,每当扫描一个大的table中的数据,就要去去查看小表的数据,哪条与之相符,继而进行连接。这里的join并不会涉及reduce操作。map端join的优...
公告