网易杭研院汪源深度解密:网易大数据分析之路

2016年7月9日,网易杭州研究院执行院长汪源应邀出席了在上海·万科虹桥云举办的WAW上海大会。面向近400位与会者,汪源首次深入解密了网易在大数据分析领域的发展历程。


网易作为国内最早诞生的互联网公司之一,在过去十年的大数据分析发展进程中,各个部门对数据有着不同且繁杂的需求。汪源坦言,“如何梳理数据、处理数据、提高数据分析的效率,这是网易一直思考的问题。”

从起步到整合,问题依旧存在

汪源将2014年之前分别划分为网易大数据分析进程中的初步阶段、起步阶段和整合阶段。在2008年之前的初步阶段中,网易和大部分国内的公司一样,使用传统的方法进行数据统计。2009和2010这两年的起步阶段可谓是网易大数据分析的“初体验”,这同时也与网易及国内整体互联网行业的快速发展密切相关。汪源介绍道,正是面对海量的业务数据,网易开始尝试引入Hadoop等成熟的开源技术来解决数据存储和计算的瓶颈。

从2011年开始,针对在前一阶段中数据格式不规范、产品接入成本高、计算任务不稳定等突出问题,网易开始走上大数据分析的整合阶段,其最显著的变化便是整合、规范各类采集机制、指标体系等,将数据分析“工具化”,以适应产品、设计、运营和市场等不同场景。

在经历全面整合的阶段之后,汪源提出,“‘工具化’的背后,问题依旧无法全部解决,个性化的数据需求以及灵活的多维分析难以完全满足,数据分析的“平台化”开始被提出并让网易的大数据分析进入了全新的阶段。” 

十年磨一剑,平台化的加速发展

2014年以来,网易开始加速大数据分析的平台化发展,以提高数据获取速度,提升数据分析效率,更快发挥数据价值。汪源在现场着重向与会人员介绍了网易猛犸与有数两大数据分析平台。

企业大数据面临数据孤立,需求反馈周期长的问题。网易猛犸大数据平台可以实现从各种不同数据源提取数据,同步到内核存储系统,同时对外提供便捷的操作体验。据汪源介绍,每天约有130亿条数据进入网易猛犸平台,经过数据建模和清洗,进行数据分析预测。


网易有数则可以极大简化数据探索,提高数据可视化方面的效率,提供灵活报表制作;帮助分析师专注于自己的工作内容。在二维空间通过综合运用分区块、颜色、大小等标识,展示多维数据,推动数据文化落地,管理层和业务人员的自助分析。

未来设想,融合大数据处理平台

在演讲最后,汪源对未来大数据平台进行了展望。他认为,从网易大数据分析发展历程的第三阶段开始,抽象数据层次已较高;进入第四个阶段,则希望能够开发出更基础的平台。

大数据分析面临各种挑战,老问题有集成、计算和分析等问题。同时也有新的挑战,诸如数据量多样性、数据类型多样性、需求多样性等问题。面对这些问题,网易对大数据分析平台未来的解决方案做了设想:“回归到计算机软硬件设计的基础,各类计算机应用场景,总线和组件的标准是统一的。从底层基础开始,设计大数据平台的数据集成、计算和分析,开发出融合大数据处理平台,从而满足未来遇到的各种个性化的数据分析需求。”

 

网易云,网易技术服务能力的全面开放

从网易大数据发展的历程来看,基于杭州研究院10年的技术累积,网易已经具备了成熟的互联网产品技术体系,并且有力的支撑了网易云音乐、云课堂、易信、LOFTER、公开课等产品的发展。网易云将会把这些能力开放出来,提供给更多的用户使用。如网易易盾作为网易云推出的极速智能反垃圾云服务,其依托的便是网易的大数据和云计算服务,提供文本过滤、图片识别、语音分析、视频检测等服务,帮助企业和开发者实现对垃圾有害信息的实时过滤、精准拦截。