雲上騰訊

2022-06-18 00:00:10

自研上雲,是騰訊在陽光燦爛的時候修屋頂,也是給一艘正高速航行的大船更換引擎。

來源:21tech

作者:白楊

編輯:張偉賢

圖源:圖蟲

自2021年第四季度以來,To B業務已經連續兩個季度成爲騰訊集團的收入支柱,這也是騰訊爲“930變革”實施三周年,交出的一份答卷。

2018年的“930變革”,騰訊明確了“擁抱產業互聯網”的战略方向,騰訊雲也成爲其搶佔To B市場的橋頭堡。

過去三年,在外界看來,騰訊自研雲產品的穩定性和豐富性不斷提升,在中國公有雲服務市場的份額也不斷增長,但絕大多數人沒有察覺到的是,騰訊內部在進行的一場“激烈”的技術改革。

在業務組織架構調整的同時,騰訊也成立了技術委員會,大力推進“自研上雲”和“开源協同”。這是騰訊在技術層面上的战略改革,目的是打破過去各BG(事業羣)技術棧割裂、重復造輪子的問題。

騰訊集團高級執行副總裁、雲與智慧產業事業羣CEO湯道生(Dowson)是騰訊技術委員會的牽頭人之一,同時也是騰訊To B業務的掌舵者。在“930變革”之前,湯道生經常被客戶挑战一個問題:“你們總說騰訊雲有多好,那騰訊有多少業務使用了騰訊雲?”

這其實是一個很常規的問題,無論是國外的AWS,還是國內的阿裏雲,都承載了各自集團最核心的業務。但對騰訊雲團隊而言,每每被問及這個問題,他們都無法正面回答。

在消費互聯網時代,騰訊爲追求靈活創新,鼓勵小團隊作战,這也導致騰訊各個BG相對獨立,包括業務及技術體系的獨立。因此,在上雲這件事上,不同BG的進程各不相同,即便一些已經上雲的業務,用的也是自己獨立的虛擬化技術棧。

而“自研上雲”項目,要打破這一現狀。過去三年,“自研上雲”被冠以騰訊頂層意志,在騰訊內部逐步推進,這個過程,相當於給一艘正高速航行的大船更換引擎,其難度可想而知。

知難而上,需要破釜沉舟的勇氣,自研上雲也是對騰訊的一次全方位考驗。它要考驗這場自上而下的改革如何解決小團隊作战與大一統上雲的矛盾,如何說服精兵團“不自己搞閉環”,同時,也考驗騰訊頂層設計者的智慧、中間層管理者的執行力以及普通員工對於變革的包容和理解。

總辦“通行證”

2018年9月,騰訊最高決策機構“總辦”在香港召开了一場會議,正是這場會議,敲定了騰訊930變革的方向。

時任騰訊社交網絡事業羣(SNG)總裁的湯道生,是接管新成立的CSIG(雲與智慧產業事業羣)的最佳人選。湯道生告訴21世紀經濟報道記者,當時他向Pony(馬化騰)和Martin(劉熾平)提出,自己可以承擔To B業務,但公司要給予支持,比如定一個時間點,三年內所有新的業務或者新的資源都必須長在雲上。

對於湯道生提出的“條件”,在場的其他總辦成員沒有反對,Pony和Martin也爽快答應,就這樣,湯道生爲騰訊雲爭取到了一張寶貴的內部“通行證”。

在整個930變革中,自研上雲只是其中的一個小議題,不僅如此,這種自上而下推動一個項目,也有別於騰訊一貫的管理風格。但它能順利得到總辦的認可,是因爲在湯道生提出之前,騰訊內部已有兩股“暗流”湧動:

一方面,騰訊管理層已意識到,過去以產品爲導向的割裂的技術棧,不僅產生了大量資源浪費,也無法有效支撐新時期的業務創新;另一方面,隨着雲計算的不斷發展,騰訊很多業務和工程師們已經自發地去擁抱雲原生技術,並進行了大量雲上實踐,上雲已是大勢所趨。

所以某種意義上,騰訊上下其實已經在上雲的問題上達成共識,然而,“上雲”和“上騰訊雲”是兩個概念,湯道生以及騰訊管理層要推動的,不僅是自研業務上雲,而且要上騰訊雲,這也導致騰訊內部在共識的基礎上,產生了一些分歧。

另一位總辦成員——騰訊高級執行副總裁、技術工程事業羣總裁盧山也是騰訊技術委員會的牽頭人,他和湯道生分工明確,他側重开源協同,湯道生主要推進自研上雲。

盧山告訴21世紀經濟報道記者,开源協同是解決一個大公司內部技術協同的問題,與是否上雲沒有必然的關系。但是,雲和开源是近十年互聯網技術發展中最重要的兩個議題,也具有一定的相互促進關系。

比如K8S(Kubernetes, 部署和管理容器化應用程序的开源系統)是騰訊开源協同的一個重要項目,內部各技術團隊都要爲其發展貢獻力量。騰訊雲的容器雲原生產品TKE就是基於K8S搭建的,這也是內部業務上雲的統一框架。而开源協同能更好地打磨TKE,更好地服務自研上雲。

除此之外,無論是开源協同還是自研上雲,盧山和湯道生要應對的內部挑战也是相同的。盧山表示,“大公司有部門牆是必然的,因爲公司大了以後,對每個事業羣的考核就是要能打勝仗,而打勝仗的前提是小、快、靈,要有自己閉環,時間長了,也就導致不同事業羣會各走各的技術路线”。

而自研上雲要做的,是打破各個BG的閉環,讓它們把業務遷移到騰訊雲上。這對於原先的技術團隊而言,難免會有排斥心理,而在不得不改變的前提下,給騰訊雲提要求,盡可能保證上雲後不影響原有業務,也成爲他們應對自研上雲的第一反應。

所以,拿到總辦的“通行證”,只是推動自研上雲邁出的第一步,後面更艱巨的挑战,是如何推倒騰訊內部的部門牆、打破各個團隊之間心理隔閡,讓自研上雲這件事真正帶來價值。

什么是上雲?

2019年初,在“930變革”實施幾個月之後,騰訊內部召开了一場關於自研上雲的會議,會議的核心目的是明確“什么是上雲”。

會上,CSIG的發言人話沒說完,就被盧山打斷。這位發言人提出,只要是各個BG的業務跑在騰訊雲提供的虛擬機上,那就算上雲,但在盧山看來,這是在偷換概念。

“如果各BG的業務只是用騰訊雲的虛擬機,這顯然不能算真上雲,只是把自己的技術棧換了個地方”,盧山說道,但他心裏也明白,CSIG給出這樣的口徑,只是因爲無法搞定其他BG。

當時在場的,除了盧山還有Dowson,他們與Martin商量一番後給出了結論:自研上雲必須基於騰訊雲的容器雲原生產品TKE,才算真的上雲。

對“自研上雲”項目而言,這是一場關鍵的會議。正是因爲有了這場會議的定調,上雲的路徑在騰訊內部才得以明確。後來,在2019年下半年,騰訊技術委員會對“上雲”又提出了更高的要求:除了原先基礎設施和資源層面的搬遷之外,業務也要完成雲原生的適配和改造。

騰訊雲副總裁徐勇州主要負責雲技術運營、服務體系建設,也是自研上雲項目CSIG側的牽頭人,他告訴21世紀經濟報道記者,根據騰訊自研業務的不同,上雲也分爲兩種情況,一是業務跑在物理機或虛擬機上的,那上雲的工作量主要來自於打包並基於K8S體系進行部署。

圖源:騰訊雲官網

另外一種是,部分業務已經使用了部分容器技術,只不過用的不是騰訊雲的TKE。對於這些已經雲化的業務,只需要做一些接口的適配,就能實現遷移。

徐勇州告訴記者,與從物理機或虛擬機上雲,以及從其他雲遷移至騰訊雲相比,讓業務部門從虛擬化到雲原生的轉變是更難的,因爲它已經不僅僅是資源的搬遷,而需要業務進行底層架構的徹底改造。

內部“破冰”

面對騰訊龐大的自研業務生態,推動自研上雲需要先抓“大頭”以及“搞定最難啃的骨頭”。

“如果優先搞定了核心數多的業務,那其他長尾的、腰部的業務也自然會跟進,所以我們當時花了很大的精力去盯住各個BG裏最大頭的業務”,徐勇州說。

但是整個2019年,即推動自研上雲的第一年,徐勇州都有很強的挫折感。雖然在做早期規劃時,他就已經意識到,這是一條沒有捷徑的道路,並做好了逢山過山、逢海架橋的準備,但當業務部門真的指着騰訊雲的產品說這不行那不行的時候,他發現,推動自研上雲比想象的要難。

比如某業務部門會提出,騰訊雲CVM的損耗不能高於8%,如果高於這個值就不能接受。拿到這個需求後,騰訊雲就需要回去做評估,看自己能否滿足要求,如果滿足不了,就要想盡辦法去優化。

類似損耗、延時等方面的需求,騰訊雲一开始遇到了非常多,也碰過一鼻子灰,而他們能做的就是逐一去解決問題。比如上面提到的損耗,騰訊雲當時做到了5%,到現在,騰訊雲虛擬機相對於物理機的損耗則已經到0。 

不過,騰訊雲在服務業務部門上雲的過程中,也遇到過一些“事故”。

2020年,騰訊有一個很重要的手遊上线,起初幾天運行平穩、風平浪靜。但隨着玩家數量增加和等級成長,兩周後騰訊內部論壇上突然出現匿名吐槽卡頓的消息,更有遊戲運營人員留言直指雲服務器的性能問題。

隨後,騰訊雲、TEG、IEG協調專家一起“會診”,在兩天一夜後終於排查出原因。除玩家數量增多外,也的確跟雲服務器選型部署相關——該手遊在部署雲服務器時選擇了標準型服務器,而沒有選擇高主頻的計算型服務器,這導致服務器性能與業務需求不太匹配。

所以,騰訊雲和手遊團隊前期溝通不夠充分,導致未能在最初就實現最優的解決方案,是這次“事故”的主要原因。

這也推動騰訊雲進一步提升了對內的服務能力,後來他們在服務業務部門時,都會主動梳理和講解一些關鍵內容,並針對不同業務整理出對應的檢查流程,主動避免因溝通不充分而出現問題。

“現在,我們隔三差五就會收到IEG遊戲工作室送來的小蛋糕,慶祝遊戲順利上线或者扛過一個峯值。他們會感謝自研上雲項目組的支持,對我們來說,這種認可十分溫馨”,徐勇州表示。

在推動自研上雲的過程中,也有一些關鍵轉折點,2020年星星海服務器的上线是其中之一。

自研上雲帶來的海量業務需求,催生了自研服務器星星海的誕生。而星星海服務器上线以後,在降本增效方面的出色表現,也吸引諸多業務部門主動要求使用。

湯道生告訴21世紀經濟報道記者,像微信這么大體量的業務,它一直都有新項目、新能力上线,所以對於星星海服務器這樣成本更低的資源有較強的需求,這也是微信愿意上雲的原因之一。

除了成本方面的考慮,騰訊雲在一些技術領域的積累,如音視頻領域的直播、點播、低延時等技術,也對騰訊一些新業務的發展起到了重要推動作用。比如微信做視頻號,就直接使用了騰訊雲的很多能力,這使得它不需要自己再投入資源去構建底層技術。

湯道生坦言,騰訊的管理風格從來都不是自上而下的,非常尊重員工意愿。所以雖然制定了自研上雲的大方向,但最後要讓業務搬到雲上,也不會通過強迫的方式。

“推動自研上雲,沒有什么捷徑,我也沒有什么殺手鐗。要想做成這件事,需要騰訊雲團隊有非常好的服務心態,讓業務部門認可騰訊雲的價值,相信我們能夠支持好他們才行”,湯道生說。

雲的價值

過程雖有諸多曲折,但自研上雲項目最終實現了三年目標。如今,騰訊自研業務已經全面搬上公有雲,开啓了雲端生長新時代。

與此同時,得益於公司層面的統一管理和TKE的在離线業務混合部署能力,騰訊自研業務的服務器資源利用率從30%提升至65%。騰訊業務全面上雲爲集團累計節省成本超過30億元。

湯道生說,今天回看過去三年多的變化,很慶幸當時作出了自研上雲的選擇。“這三年行業變化很大,無論是大的技術趨勢還是行業發生的變化,都要求騰訊具備更高效的管理能力。如果當初沒有推動自研上雲,現在隨着業務的收入和利潤壓力越來越大,騰訊的壓力也會更大”。

現在看自研上雲,可謂是騰訊在陽光燦爛的時候修屋頂。最初,包括湯道生在內,都不確定自研上雲能否真的節省成本,而且當時的ToC業務,盈利能力比較強,對成本的控制也沒有那么敏感。

但現在,騰訊各個業務部門都开始注重成本控制。最近一段時間,騰訊很多業務團隊都在往回退資源讓騰訊雲幫忙消化,可如果不是因爲有自研上雲的機制,這些資源業務部門很難說退就退。

今年,湯道生在多個場合詢問了不同BG的運維負責人,問他們自研上雲是不是真的對業務有幫助,湯道生得到的都是肯定的回答。“所以,越是在毛利率沒有那么理想、需要精細化運營的時候,大家就越能理解當初爲什么要推自研上雲”,湯道生表示。

在接受記者採訪時,無論是盧山、湯道生等總辦成員,還是其他中高層業務領導,都不約而同的提到了“樂問”,這是騰訊內部一個交流平臺,據稱每天有80%的騰訊員工都會上樂問。

樂問的开放與真實,也成爲很多業務的驗金石。湯道生坦言,在推動自研上雲過程中,最讓他情感最受挫的,就是看到樂問上其他業務部門的吐槽。

“內部員工說話比較狠,有些抱怨也很難聽,但對騰訊雲團隊而言,這些也相當於來自客戶的反饋,所以看到吐槽,就會派人去對接、解決”,湯道生說。而現在,讓湯道生頗爲欣慰的是,即便有人在樂問上對騰訊雲提出質疑,下面的評論中也會有其他業務部門的人作出客觀評論。

俘獲了業務部門的人心,這是騰訊雲在自研上雲項目中最有價值的收獲。因爲這意味着業務部門不再是迫於頂層壓力,被動去接受騰訊雲,而是出於對騰訊雲的認可,愿意與騰訊雲協作發展。

如今,騰訊的微信、視頻號、騰訊會議、騰訊文檔、王者榮耀、和平精英等明星業務均已經跑在騰訊雲上。騰訊雲團隊也終於可以自信地回答“騰訊有多少業務跑在騰訊雲上”——這個過去不敢正面回答的問題。

編輯:盧陶然


追加內容

本文作者可以追加內容哦 !

0/100