专题出品人: 郭炜

易观 CTO

专题:大数据平台

人工智能技术离不开大数据的支撑,大数据近年来也已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。本专题将突出大数据平台实战,囊括Offline、Online、Real-time等多场景案例。

本专题下的议题

大数据分析系统在游戏领域迭代与实践
周东祥 腾讯游戏增值服务部 大数据平台负责人
所属专题:大数据平台

课程概要

背景介绍:
大数据分析系统和平台一直是大数据应用最基础、最核心的应用之一。
相比于原有的传统BI软件和数据库提供分析能力相对有很多局限,例如:数据处理效率低,大数据处理能力缺失以及无法和线上数据商业化应用推荐和服务打通等能力。
iData作为游戏大数据分析系统,在服务腾讯近800款游戏和产品过程中,经过多年的迭代和实践,形成了iDataCharts 大数据可视化和iDataEngine大数据分析的双擎为核心能力的大数据分析系统。同时,在双擎之上构建了iData的独有适配游戏场景下自助、高效、在线分析路径。最后,在线下分析与线上的数据商业化应用推荐和服务打通能力。

解决思路/成功要点:
1在腾讯海量的游戏产品的多场景需求下,建立一套独有的iDataCharts 大数据可视化和iDataEngine大数据分析的双擎为核心能力的大数据分析系统总体技术架构。
2 iDataCharts数据可视化过程中,提供了适配在游戏产品运营中 具备不同分析技能数据分析人员快速构建自己丰富的数据可视化报表的能力。
3 iDataEngine使用在游戏的实时多维统计分析以及在线多维分析场景中,都实现了秒级的实时分析。采用了独有的TGMars分布式计算架构和TGDruid多维分析引擎。

成果:
通过iData游戏大数据分析系统的针对游戏场景的实现了在线大数据分析能力,从iDataCharts数据可视化到iDataEngine在线交互分析,实现了一站式智能化分析能力。支撑了近700款腾讯游戏和产品数据分析可视化报表以及在线分析服务,打通了在线大数据分析结果链接发布线上大数据应用的能力。

听众收益

1、了解大数据分析系统的主要能力的构成。
2、了解大数据分析系统结合游戏领域下,如何实现一站式智能化分析能力。
3、了解大数据分析系统中,大数据分布式计算分析引擎的设计与实施的经验。

Airbnb实时流计算的架构与演进
汪浩 Airbnb Data Platform Engineering Manager
所属专题:大数据平台

课程概要

Work in progress

听众收益

Work in progress

360大数据平台的变革与发展趋势
王景正 三六零安全科技股份有限公司 360大数据中心 总监
所属专题:大数据平台

课程概要

案例背景介绍:
1.公司业务高速扩张期经常会引发数据统计无法与之匹配的状况,这是由于主要资源都用于业务上的原因。但是业务发展到一定程度之后再回来整理数据平台时常常会有心无力。我会在此案例中分享当时的取舍经过。2.大数据平台建立之后,需要多久做一次全新变革,如何变被动为主动,让数据来驱动业务,我也将在此案例中做分享。
解决思路/成功要点:
技术仍然是那些技术,但是最关键的是抓住用户真正的痛点,不断观察和思考发展趋势,结合内部需求与外部技术的新动向,才能做出有价值的产品。
成果:
QDAS现已是360内部人人皆知的大数据平台,在此基础上演化出的众多数据产品都在不断的满足用户的需求,项目成功的达到预期效果。

听众收益

1.大数据平台要建成什么样,需要听自己的,但要参考别人的。2.从用户痛点出发才能赢得用户。3.要不断的走在你的用户前面,才能立于不败之地,因而需要不断的关注趋势。

EasyScheduler开源分布式工作流任务调度系统架构设计
代立冬 易观 大数据平台总监
所属专题:大数据平台

课程概要

案例背景介绍:
Easy Scheduler是一个分布式工作流任务调度系统,主要解决数据研发ETL错综复杂的依赖关系,而不能直观监控任务健康状态等问题。Easy Scheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。EasyScheduler由在工作流调度方面工作多年的多位小伙伴研发而成,致力于成为大数据平台的中流砥柱,使调度变得更加容易,更可以从其中文名“易调度”看出我们的初衷。

解决思路/成功要点:
设计特点: 一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 其主要目标如下: 以DAG图的方式将Task按照任务的依赖关系关联起来,可实时可视化监控任务的运行状态 支持丰富的任务类型:Shell、MR、Spark、SQL(mysql、postgresql、hive、sparksql),Python,Sub_Process、Procedure等 支持工作流定时调度、依赖调度、手动调度、手动暂停/停止/恢复,同时支持失败重试/告警、从指定节点恢复失败、Kill任务等操作 支持工作流优先级、任务优先级及任务的故障转移及任务超时告警/失败 支持工作流全局参数及节点自定义参数设置 支持资源文件的在线上传/下载,管理等,支持在线文件创建、编辑 支持任务日志在线查看及滚动、在线下载日志等 实现集群HA,通过Zookeeper实现Master集群和Worker集群去中心化 支持对Master/Worker cpu load,memory,cpu在线查看 支持工作流运行历史树形/甘特图展示、支持任务状态统计、流程状态统计 支持补数 支持多租户 支持国际化 还有更多等待伙伴们探索。

成果:
在多位技术小伙伴的努力下,经过2年多的研发迭代、内部业务剥离及重构,EasyScheduler终于迎来了第一个正式开源发布版本-1.0.0。开源地址:https://github.com/analysys/EasyScheduler。

听众收益

1、了解主流调度系统架构设计 2、开箱即用的调度项目 3、解决业务遇到的调度难题

郭炜先生,易观CTO,clickhouse中国社区发起人,全球中小企业创业联合会副会长,中国软件行业协会智能应用服务分会副主任委员,TGO北京分会会长。郭炜先生毕业于北京大学,加入易观就任CTO之前,曾任联想研究院大数据总监,万达电商数据部总经理,并曾在中金、IBM、Teradata公司担任大数据方向重要岗位,对大数据前沿领域研究做出过卓越贡献。 郭炜先生在2018年提出大数据IOTA架构(Big Data IOTA)并提出企业“数据河”(Data River)的概念,带领团队打造了秒算数据计算引擎进行了架构验证。目前秒算引擎支持易观混合云大数据平台日处理数据量379亿条,6.8Pb存储,月活用户5.9亿计算。同时,易观基于秒算数据引擎打造的易观方舟,广泛使用于银行、电商、新零售领域等,是下一代的大数据计算引擎的典范。

专题:大数据平台

人工智能技术离不开大数据的支撑,大数据近年来也已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。本专题将突出大数据平台实战,囊括Offline、Online、Real-time等多场景案例。

其他相关专题

CopyRight © 2008-2019 Msup & 高可用架构