走进支撑过8亿用户的Yahoo!数据中心

【编者按】Yahoo!是一家全球知名的互联网公司,拥有过8亿的活跃用户,提供了60多个全球化产品,分别部署在20多个国家或地区的数十万台服务器之上,然而雅虎全球的运维团队却仅有数百人。下面,我们通过雅虎北京全球研发中心高级系统运维工程师刘元概述的三个方面来了解雅虎的技术运维体系,剖析超大规模网络应用的运维挑战,走进Yahoo!数据中心!以下为原文:

基础设施

“工欲善其事,必先利其器”——需要支撑超大规模的网络应用,超大规模的全球基础设施是必不可少的。所以我们先看Yahoo!数据中心和全球的骨干网络有哪些特别的设计和考虑,来帮支撑超大规模的互联网应用。

图1 Yahoo自主设计的数据中心

首先通过两张图片(图1)来了解Yahoo!数据中心。我们的数据中心大多是自主设计和建造的,尤其在北美地区,我们自主设计并建造了三个超大规模的数据中心。这三个数据中心初期设计的容量均为20兆瓦,大概可容纳25000到30000台服务器及相应网络设备,并均有能力通过后续容量扩展至50兆瓦以上。

如果有参观过国内数据中心,或者有数据中心建设经验的同学可能会有所了解。影响数据中心建设的最主要因素往往不是网络带宽,而是电力和制冷。所以,雅虎通过近20年的经验积累,在这两方面沉淀了大量的专利技术以提高数据中心的密集度。我们自行设计机架及其电源模块以保证所有机架都能满负荷工作,同时实现所有电源的远程网络控制,这样可以有效的提升可维护性,降低现场工程师的工作负担。满架的服务器机架还有另一个好处:所有的服务器都是前吸冷风,后排热风,我们将服务器机架相对排列(面对面,背对背),这样就可以实现冷热风道的隔离,甚至完全密封热风通道,促使冷空气在均匀通过所有服务器散热后,由热风通道排出。这样不仅降低了制冷面积,还提升了散热效率。通过建设超大规模的数据中心,我们不仅增加了数据中心的密集度,提升了单个数据中心的计算能力,满足了日益增长的超大规模应用需求,同时还能提升数据中心现场工程师的管理效率,降低维护成本。此外,我们也不断聚焦新技术的采用以降低能源消耗。我们数据中心通过精心的设计,实现PUE(能源使用效率=总体能源消耗/IT设备能源消耗,越接近1代表能源效率越高)仅为1.08的业界领先水平。

除了数据中心是我们自行设计并建造的,我们全球的骨干网络也是自主设计。我们通过自行铺设光缆或租用运营商网络,构建了自己的Yahoo!全球骨干网。所有的网络设备都由我们的网络运维团队管理,核心网络均是多链路冗余,实现单点网络故障的自动转移,而不依赖网络运营商提供的SLA。

图2全球骨干网络示意图(不代表Yahoo!全球骨干网络设计)

我们的全球骨干网络均为高带宽互联,区域内我们提供10Gbps-40Gbps乃至北美地区的200Gbps互联带宽,洲际间也提供20Gbps的多链路冗余。骨干网络主要是传输雅虎内部数据,分发应用所需的数据到全球所有数据中心,收集全球用户访问数据到后端计算网格进行汇总和计算。

Yahoo!全球骨干网络除了与传统运营商网络互联互通,以方便最终用户能通过其运营商网络快速接入雅虎的各项服务,同时我们还与其他的大型互联网公司有交换网络连接,这样我们与其他大型互联网公司间的数据交换(如邮件数据交换)即可通过我们的交换网络传输,不再依赖于运营商网络。这样不仅提高了交换能力,更大范围降低对网络运营商的依赖性。

技术生态圈

有了世界顶尖的硬件环境,软件环境也不可少。下面我们着重介绍下Yahoo!的技术生态圈,看看Yahoo!使用了哪些产品和技术来支持大规模网络应用。

在雅虎内部构建一个超大规模应用其实并不是那么的复杂,因为我们已经提供了一整套完整的技术体系来帮助开发人员快速建立起一个具有高可维护性的超大规模应用。



图3 Yahoo!数据中心技术生态圈

从这张图我们可以看到一个新应用在生态圈里和现有技术平台的关系:

新应用(APPLICATION)只需要更多的关注自身的业务逻辑。与应用密切关联的本地信息,我们有一些本地存储(LOCAL STORAGE)技术来供应用使用,比如关系性数据库MySQL、Oracle,存储Key-value型数据的MDBM和Memcache。另外,雅虎还提供了大量的平台服务(PLATFORM SERVICES)供我们各种应用使用。比如统一验证平台YCA来完成所有应用内及应用间的身份验证,统一防御平台Ydod来帮助我们识别并且隔离恶意/滥用的流量,用户信息服务UPS可以让应用方便的获取这个用户的相关信息,如地理位置,兴趣喜好等。个性化内容推荐服务Slingstone,可以直接向用户提供个性化的雅虎内部及合作伙伴的内容信息。另外新应用还能方便快捷的接入广告平台(AD SERVER),获取个性化推荐的广告。前端应用收集到的各种应用相关信息(如浏览点击数据),通过我们构建在全球骨干网络之上的数据高速公路(DATA HIGHWAY)这一统一数据通道,及时地回传到雅虎全球最大的商用Hadoop群集。在Hadoop群集上不同应用及平台服务根据各自的需求,处理对应的数据,并将处理好的数据在通过雅虎全球骨干网络分发到各个数据中心的服务端,以方便前端应用的调用。同时Yahoo!在云端(THE CLOUD)还提供共享的云存储(STORAGE),以方便全球化应用的同步和调用各种共享数据。

除了这些常见的技术来帮助快速构建超大规模应用,我们还提供了大量的技术和产品来进行高效的运维和管理:

  • 主机信息管理系统:通过主机信息管理系统管理所有系统硬件信息,如CPU、内存、硬盘、网卡地址、Console接口、电源接口、物理位置等。
  • 角色配置管理系统:主要是把主机根据角色分成不同的组,不同角色的主机会应用不同的配置。不同角色的主机有不同的运维团队、系统配置、应用配置等。
  • 网络设备管理系统:包括交换机上的访问控制列表、负载均衡设备的配置、全球负载均衡配置,以及访问状态数据的统计。
  • 统一的监控平台:用于从不同层面进行监控,我们有所有主机系统数据的监控,也有基于服务可用性的监控。然后我们也有访问量、访问延时等应用层面的数据监控,并可以和历史数据进行比较。

所有的这些平台大多都是雅虎运维团队自行开发和维护的,更贴合Yahoo!的使用体验,帮助对超大规模的主机进行统一和高效的管理。

运维团队

前面的两条分别是硬件和软件环境,除了一流的硬件和完备的软件环境,能够实现高可用性大规模应用的核心,还是人。所以我们在最后,会给大家介绍雅虎的全球运维团队是如何工作的。

在Yahoo!我们的运维团队除了基础设施的Operation团队,如数据中心现场工程师(SiteOps)、网络运维工程师(NetOps)、基础设施(DNS、DHCP等)运维团队(InfraOps)和安全团队(Paranoid)等。我们还会按照产品线划分出Service Engineer团队,来支持这项产品的应用运维。

SE(Service Engineer)团队和大部分公司的系统运维工程师一样,会负责生产系统维护,如部署应用、监控报警、配置管理、变更管理及故障管理。除此之外,在雅虎SE团队会更多的深入了解应用。

图4 团队协作

从产品设计之初,我们就会和产品经历及研发团队共同讨论系统架构设计,确保开发团队将要实现的是高可用性、高可扩展性及高可维护性的产品。产品测试阶段,我们也会和测试团队保持密切的沟通,使测试环境能够最大程度模拟生产环境的各种场景,以保证我们产品经过了完整有效的测试。系统上线前,我们还会和各个团队评估整个产品的可维护性,并确定应用的容量规划及其故障转移策略,确保SE团队充分了解如何在生产环境中维护该项产品。由于不同的团队可能在不同的国家和地区,所以只有更紧密的全球化协作,才能为用户提供一个高可用性、高可维护性的全球化产品。

产品上线以后,才是产品整个生命周期的开始,我们需要确保产品在其设计的生命周期内,都能够按照我们的预期提供高可用性的服务。所以在日常维护中,我们会和产品及研发团队一同分析产品运行状态,分析总结各种故障,不断的修正已有的Bug,提供新功能的建议与意见。根据各地用户分布及产品的运行状态,修正我们的容量规划及故障转移策略,进一步提升用户体验。

结语

以上只是雅虎在超大规模应用运维体系的简单概述,并没有太多的技术细节,瑾作抛砖引玉之用。雅虎全球运维团队的工程师利用他们的智慧,不断创新,一一应对各种挑战,完成一个个不可能完成的任务。

http://www.csdn.net/article/2014-02-11/2818365-yahoo-datacenter-view

天朝的?"晕计算":"云计算"

来源: SmdCn’s Blog

云计算(Cloud Computering)是当下非常热的话题,经过很多年的发展,国外以Google、Amazon为代表,技术已经相当成熟,虽然说也还是有Amazon S3当机的故障发生,但给人的印象多还是可靠,规模化降低成本。

但凡热的概念,国内都要炒,不管技术到没到位,不炒作一下都不行,于是一时间这个云,那个云,不管做啥业务的,觉得和云沾上变就可以变得很高端一般,于是乎,网盘们也都纷纷变身成为了云存储。当然,在天朝对于互联网的XX方面,还有各种办证神马的,云计算其实相当的不靠谱,晕计算,浮云也。当然,“我们的云存储可以保证你的数据存储的安全可靠,但不能保证不被**看”也成了这方面被广泛认可的共识。不过就算如此,既然最近这么火,还是可以讨论一下,当然,这云那云的太多,于是就主要说说对于一个个都想做Google、Amazon的巨头们的公有云——“新浪SAE”,“阿里云”,“盛大云”,至于腾讯的Hosting,介于目前只对开放平台的合作伙伴提供,于是就不列出来。

写在前面:SAE\阿里云\盛大云 都用过,阿里云产品线太多,在本文中不包括手机云和ACE。这几个云给人的印象真心是大公司出品,小公司作风。

一、新浪SAE

本来说SAE并不应该和阿里、盛大放在一起,SAE其实国产版的GAE,其主要面向的对象是开发者,而非建站使用(虽然说国内都觉得云应该这么使用)。但还是不得不说,也正是因为这个特点,使得SAE每一步走得更稳更为踏实,SAE也是在这方面最早开始尝试的一家,目前已经2周年了,其一改新浪媒体形象,展现出其技术的强大,同样,也是我个人认为SAE也是国内云最为靠谱的一家。

目前用SAE差不多4个月了,虽然说是自己写的CMS应用,每天1k+PV,申请了开发者于是有送云豆,没有付过费,不过还是觉得云豆有些吃紧,流量资费过高。

优点:发展时间最长,功能相对完善,文档全面完整,支持PHP,另外Python和Java也已经在内测中。机房就在海淀,到全国速度都很好,不限制带宽。使用SVN取代SDK进行代码维护后,对于增量的修改更新来说较为方便。在多人协作维护方面也有较好的支持。 目前服务上也做得相当好,各方面答疑响应都很快。

缺点:限制较多,流量资费较高( HTTP 2.4元/GB, HTTPS 4.8元/GB),大量本地数据依赖于Storage 存取,使用SVN管理,没有FTP管理方式。

对于非开发者来说存在不少技术门槛(虽然说目前SAE希望非开发者只需要付费使用商城的应用,但实际上,商城方面目前还不完善),sinaapp的DNS极不稳定,而且Storage的域名区分方式会带来非常多的DNS查询请求影响效率。

绑定域名需要备案,但不提供备案服务。

二、阿里云

阿里出品,包括了VM、Storage和关系型数据库,其中VM产品线和阿里旗下的万网非常类似,至于说到底是哪边用哪边的资源就不太好说了,但至少只谈产品的话,还算靠谱。

刚推出的时候是通过PHPWind进行宣传的,一开始就以站长作为主要群体 ,但毕竟不是万网的产品,而是阿里云产品,而阿里云虽然介绍说公司成立了很久,但市场和客服在各种方面都烂得不行,以至于套餐变了又变,今天一个价,明天一个价,各个方面的服务都跟不上而饱受诟病。

当然,其实我很想说,如果你想体验万网的产品品质,可以试试阿里云,但用了之后你就能体会到万网贵的价值了。

用了三个月阿里云,真的是用一个月看一个月,虽然说性能不错,放上去的网站也是相对已经正常运行1年多的网站了,而且原先已经有备案,所以也没太多麻烦,但真心客服实在太难找,也太难沟通了,对未来完全不可知的情况下,又没能力年付,所以最后还是选择不用了。

优点:单从质量上来说,现阶段性价比还是比较高的,性能上也相当的好,带宽 5M BGP 的质量也是相当的高,配套的关系型数据库虽然不便宜,但是很实用。现阶段来说,上面的网站只要没违法信息,暂时不备案也没关系

缺点:市场策略一直在变,让人捉摸不透,就像今天北京的能见度一样,就算要用,很多时候也只能走一步看一步。嗯,所以有点也都要加上“现阶段”

售后方面不太行,IDC经验不足,虽然提供备案服务,当相比万网来说,非常繁琐,还有各种限制。

三、盛大云

所谓盛大创新院出品,其实盛大创新院出的各种各样的东西太多了,有靠谱的也有不太靠谱的。
盛大云选择的是完全照搬最为成熟的Amazon模式 ,对每一项计算力和资源进行细分。也是国内少有的IDC不限制带宽的。

当然,如果说在云计算方面照搬了Amazon的话,国内有个服务叫做監控寶,如果说监控宝是在模仿国外的监控服务的话,那么盛大的云监控就是完全是监控宝的翻版了,前端交互除了颜色稍微改了一些之外,和监控宝做得一模一样,虽然说这么做在各方面来看,都是风险最小的,但这实在有些对不住“创新院”之名了。

优点:

目前资费相对低廉,不论是机器方面,还是流量方面。控制面板相当强大,支持开设和管理无公网IP的VM,安全组使得不需要浪费VM的CPU进行防火墙和端口过滤,完全通过外围路由实现。

缺点:

机房资源不太好,非BGP,联通资源也相对匮乏,选择双线则电信联通是不同的IP,而且需要付两个IP的费用。

前三档套餐都CPU只提供1 core。类Amazon模式,系统盘采用镜像方式管理,存储盘需要另外使用云硬盘,云硬盘在购买时就需要设置好容量,后期目前暂时不能修改扩容。

目前暂时没有备案服务,但是如果有未备案网站则不能使用。

其实本来说这些都是大公司,产品总会比国内各式各样的IDC要靠谱的多,但有着太多为了不落后,为了所谓的战略而拼凑出来的感觉,虽然占用了大公司很多技术优势,使得产品质量都还是再较高水平,但在很多地方毕竟还是和专注于IDC那么多年的公司有显著差距。当然,这在同出于阿里的万网和阿里云有最明显的对比了。所以说,目前暂时还是保持观望吧,如果不是非放在国内不可的业务还是可以考虑Google(虽然最近也涨价了),Amazon(虽然提供的阶段国内访问都不太友好,而且资费也较高),Linode之类各方面都较为成熟的比较好吧。(文/SmdCn’s Blog

苦逼创业青年写给在腾讯上班女友的EMAIL

来源: 派代网

媳妇。昨天看过你在腾讯的工资和工作小结,我确实有些不高兴。

工资和你以前没有实质上的改变,工作内容没有太多的技术含量,一个文员也确实不能要求你要有多少技术含量。

我知道你很努力,也许你需要一个过程去上升职位,不过你也知道,像腾讯这样系统稳固的公司,该要人把守的位置都有人把着,能留给你的空间不多。也正是这些原因,我从高中开始就明白自己以后绝对不会去一个体系已经完善的公司,越完善的地方能留下的空间就越少,并且很多你看不见的关系和利益以及监督链条在控制那一切。我没有那么多时间在一个完善的公司等到晋升,就算我可以等,我的老婆孩子也不能等着受穷。

你总不能五年十年的去处理别人的文件、报账、应聘等等信息。那样是在浪费青春,并且回报不大。就算你晋升了,你觉得用时间熬出来的晋升真的是成功吗。你要知道,你现在做的这些,别人都可以做到,你可以很用心,别人也可以很用心。你的工作是没有技术门槛的,你是其中的一个可以被替换的小份子。

你还没有真正明白为什么工作。腾讯的光环不错,但是生活还是你自己的。 腾讯不会帮你买房,不会帮你买车,不会帮你充加油卡,不会管你的孩子喝的什么奶粉在哪个学校,不会管你几点起来不会管你有没有时间在家陪陪老公孩子,腾讯不会管你卡上还有多少存款,不会帮你抵抗意外和风险,腾讯也不会管你过年回家是坐飞机火车大巴还是高铁。

如果每天把自己忙得没有时间但是对生活仍然无助也能叫做享受的话,我实在很难想象一个腾讯的光环值得你这样。

这个社会很现实,我每天的努力都是希望自己有足够的能力保护你和我们身边的人,只有这样才能让身边的人活得自在。

你的工作我真的看不到太多空间,你的性格也决定了你不适合作为一个管理,因此你也很难从普通职员上升上去。

这个月我们其中一个店员的工资已经超过了你上月的工资。在最现实的金钱问题上,其实你是没有等级上的胜利的。你是一个要强的人,我相信你终究会明白,像文化和福利这种浮影,它只是企业的一个工具,用来让你为它工作。白领这个词只有在10年前才算高尚,在这个时代,已经贫瘠得所剩不多。

我们会结婚,会生子,我们甚至会把你父母也接过来一起过。你真的希望你的父母孩子起床后看不到你,晚上晚饭过后才能找见你吗?或者你希望自己忙得没时间陪孩子去幼儿园吗?哪怕一个礼拜偶尔的接送呢?以你的这种工作状态能做到吗?对老公孩子的缺失换来的回报已经能让人预见了,那么这份工作还值得你这样吗?

你以后会怀孕,你不能用电脑,你的很多工作也会因此无法展开。我也不会允许你带孕的时候在电脑前晃。

我希望我们的孩子健康,希望你的努力不会在腾讯半途中止,希望你有更多时间陪陪家人,也希望你能在更轻松并且回报更高的状态下工作,希望你有多一些时间享受生活,而不是在别人的规则下终日忙碌。

如果给你开一家分店,在3个月内回报会超过你的月薪,上手半年左右每月万八千的收入也不会有问题,并且随着时间积累回报也会越高,最重要的是你可以开始支配自己的时间。

除了很多出于你以及我们以后的考虑,分店对我的事业也有一定的辅助作用,并且你以后也可以帮我巡查店铺情况。毕竟我最终的事业还是电子商务,我不能分心做太多事。

END。

百度获上亿元云计算专项拨款:腾讯阿里在内

2011-10-19 23:13 比特网 小光

10月19日,记者获悉,由国家发改委牵头,联合工信部、财政部拨出15亿元人民币,作为国家战略新兴产业云计算示范工程专项资金,重点推动国内云计算产业发展、扶持云计算领军企业。百度、阿里巴巴、腾讯等企业,成为国家首批云计算示范企业。

据悉,百度云计算获三部委上亿拨款额,是此次云计算专项支持所有企业中最高的。而据记者了解,百度自身计划投入数十亿元人民币,大力发展智能数据服务、典型行业应用和公共云计算平台。

百度的云计算在中国的领先优势明显。百度拥有国内最大规模的绿色数据中心集群,其云计算技术在超大规模海量数据存储与处理、高性能与实时计算、高性能服务架构和高可用服务平台等领域已相当成熟。作为工信部云计算标准委员会的主要成员,百度还参与了中国云计算的标准制定,并在科技部863云计算关键技术与系统(一期)重大项目中,承担了网络操作系统研制和互联网语言翻译系统研制两个重要课题。不久前,百度被中关村云计算联盟授牌,成为云平台提供商。

目前,百度正在积极推进“开放云”的计划,以帮助第三方企业有效降低研发和运营成本。先期开放的百度云存储,将向每位申请通过的开发者免费提供高达1TB的存储空间,可说是国内第一家向业界免费开放云计算的企业。

据《中国云计算产业发展白皮书》预计,到2012年,中国云计算市场规模将达606.78亿元,并将高速增长。业内人士评价指出,随着国家扶持及企业投入力度的进一步加大,中国云计算从概念到大规模应用将指日可待。

腾讯超级电商平台国庆后上线 首批接入六家合作伙伴

今年以来,腾讯开始高调公开谈论电商,不仅开展了一系列电商领域的投资并购行为,而腾讯超级电商平台将选择在国庆后上线公测。(TechWeb配图)

9月14日消息,腾讯内部的人士透露,腾讯超级电商平台将选择在国庆后上线公测,首批将接入六家B2C战略合作伙伴,公测地区会选择广东。

今年以来,腾讯开始高调公开谈论电商,不仅开展了一系列电商领域的投资并购行为,在8月19日,腾讯高级执行副总裁吴宵光于派代2011电子商务年会上首次透露了腾讯在电子商务领域的战略及规划,宣布腾讯将在今年底前推出B2B2C的超级电商平台。

有业内人士猜测,这六家战略合作伙伴将肯定包括腾讯投资的易迅、好乐买及珂兰钻石,此前好乐买CEO李树斌在接受采访时也证实了好乐买将独家运营腾讯超级电商平台的鞋类商品,并表示如果独立鞋类品牌希望进驻腾讯的电商平台,“建议他们与好乐买合作”。易迅早在一年前就开始了与腾讯电商团队的整合,据公开的数据显示,腾讯投资易迅一年多以来,易迅的订单量直接翻了10倍。

对于接下来和腾讯合作的企业还会有哪些,腾讯表示由于平台还在系统的对接和调试阶段,暂时不便透露。

腾讯方面指出,国内主流的大型B2C都对腾讯超级电商平台表示了强烈的兴趣,腾讯将会根据用户主要的购物需求优先选择服装、化妆品和日用百货等主要类目的合作伙伴。有消息称,包括当当、凡客、1号店等B2C平台或许都在腾讯的战略合作范围之内。

这种初期只选择了少数B2C平台入驻的做法,不同于其他商业地产模式的电商平台大规模招商入驻的接入方式。好乐买CEO李树斌认为,腾讯电商平台所强调的“开放”并不意味着没有进入门坎,让某一家B2C单独运营某一品类,可以避免商家“鱼龙混杂”的现象,给用户提供更完善的服务及质量保障。

腾讯投资B2C负责人表示,腾讯选择合作伙伴不仅需要有正品保障、价格优势等基本要求,还要考量其商品丰富度、库存数量、仓储地点、配送能力、到货时间、支付手段、售后服务等不同维度。“比如腾讯会要求所有商家在接到订单后10个小时内发货,这样的要求一般的中小卖家基本做不到,只有B2C有这个能力。”

据介绍,腾讯电商平台推出之际并未选择全国性的放量推广,只是选择广东地区的试点公测,向外界传递了其试图通过打透网购发达区域服务体验的差异化竞争策略。

此前有媒体报道称,腾讯超级电商平台将采取开放的策略。如B2C企业可以保留自己的企业LOGO,图片上可以打上印有自己主站网址的水印。分析称,腾讯是重要的流量入口,加上腾讯在营销上计划整合QQ、QQ邮箱、腾讯微博等资源。在营销成本居高不下,转化率却越来越低的现实下,腾讯的电子商务平台对于B2C企业有很大的诱惑。

易观分析称,未来中国B2C的竞争格局已经开始逐步清晰。随着腾讯、淘宝等巨头快速的横向和纵向布局,未来B2C的竞争将逐步演化成平台之争。淘宝商城和腾讯推出的超级电商平台将成为B2C企业的服务提供商,通过对营销、支付、物流、数据等资源的整合,平台级的厂商有可能为独立B2C企业提供全方面的基础服务支持。对于B2C站点而言,借助开放平台提供的基础性资源,在业务开展上将达到事半功倍的效果,由此形成的电商生态圈将形成价值共享的局面。而以腾讯和淘宝为核心的平台之间的竞争,将成为未来网上零售市场竞争的核心。