东京热成人网站_XX另类XX伦理XXAV_亚洲精品无码成人AAA片_高清av中文字幕无码_手机看片国产欧美日韩高清_bd美妙第进化型

咨詢電話:
15628812133
09
2022/04

阿里李飛飛:在云計算時代 云原生數(shù)據(jù)庫變得越來越重要

發(fā)布時間:2022-04-09 13:42:44
發(fā)布者:sgz
瀏覽量:
0

編譯|Ailleurs

作者|陳彩嫻

阿里巴巴集團(tuán)副總裁、阿里巴巴云數(shù)據(jù)庫產(chǎn)品業(yè)務(wù)部負(fù)責(zé)人李飛飛也是達(dá)摩學(xué)院數(shù)據(jù)庫首席科學(xué)家、達(dá)摩學(xué)院數(shù)據(jù)庫和存儲研究實(shí)驗室主任。在加入阿里巴巴之前,他是猶他大學(xué)計算學(xué)院的教授。他的研究興趣包括數(shù)據(jù)庫系統(tǒng)、大規(guī)模數(shù)據(jù)管理、數(shù)據(jù)安全、數(shù)據(jù)分析和機(jī)器學(xué)習(xí)方法,用于系統(tǒng)性能和監(jiān)控。與此同時,他仍然是ACM Transactions on Database Systems(ACM TODS)期刊副主編多次擔(dān)任ACM SIGMOD和ACM SIGKDD高級區(qū)域主席曾擔(dān)任過各種領(lǐng)導(dǎo)角色(如總聯(lián)合主席)和多個領(lǐng)導(dǎo)角色ACM SIGMOD會議項目委員會成員。

近日,ACM對李飛飛的采訪主要包括李飛飛團(tuán)隊在阿里巴巴云基礎(chǔ)設(shè)施建設(shè)中的目標(biāo)規(guī)劃、云原生數(shù)據(jù)庫系統(tǒng)的應(yīng)用、漫游連接算法的介紹以及機(jī)器學(xué)習(xí)技術(shù)對電子商務(wù)的巨大影響。最后,李飛飛還談到了他對學(xué)術(shù)界和行業(yè)工作差異的看法。

本文將采訪編譯如下:

ACM:作為阿里巴巴數(shù)據(jù)庫的首席科學(xué)家,么?

李飛飛:我們團(tuán)隊的主要目標(biāo)是為阿里巴巴自己的業(yè)務(wù)運(yùn)營和阿里巴巴云企業(yè)客戶建立一個先進(jìn)的、世界級的云本地數(shù)據(jù)庫系統(tǒng),如我們的云本地關(guān)系數(shù)據(jù)庫PolarDB和云原生數(shù)據(jù)倉庫AnalyticDB(ADB)。

在云計算時代,由于對彈性、高可用性和可擴(kuò)展性的需求以及來自不同業(yè)務(wù)領(lǐng)域的應(yīng)用程序需求的增長,云本地數(shù)據(jù)庫變得越來越重要。云應(yīng)用程序的這些需求為云本地數(shù)據(jù)庫提供了新的機(jī)會,而傳統(tǒng)的企業(yè)內(nèi)部數(shù)據(jù)庫系統(tǒng)無法完全滿足這些需求。探索共享存儲和完全共享的架構(gòu)(shared-everything architecture),云原生數(shù)據(jù)庫利用底層云基礎(chǔ)設(shè)施提供的資源池將計算與存儲分離,從而獲得優(yōu)異的彈性和高可用性。云原生數(shù)據(jù)庫可以進(jìn)一步利用要求水平擴(kuò)展的高并發(fā)工作負(fù)載(shared-nothing layer)提供分布式查詢和交易處理能力。我們的最終目標(biāo)是為我們的業(yè)務(wù)運(yùn)營和云客戶提供高效、易用、高度可靠的數(shù)據(jù)庫服務(wù)。

ACM:在阿里巴巴雙11全球購物節(jié)期間,該網(wǎng)站的流量可以在幾秒鐘內(nèi)激增150倍。您的團(tuán)隊開發(fā)了哪些工具來處理此類網(wǎng)站的流量波動?您如何看待這些技術(shù)在未來的發(fā)展趨勢?

李飛飛:如上所述,在處理此類應(yīng)用場景時,成功的關(guān)鍵是通過底層數(shù)據(jù)庫系統(tǒng)產(chǎn)生高彈性和高可用性。轉(zhuǎn)眼間,流量將突然激增??刹僮鞯臄?shù)據(jù)庫系統(tǒng)必須以經(jīng)濟(jì)有效的方式抵御這種海嘯「襲擊」。對于典型和傳統(tǒng)的本地數(shù)據(jù)庫系統(tǒng),必須提前提供大量的硬件資源,以滿足峰值時的工作負(fù)荷。一旦峰值流量在短時間內(nèi)減少,就可能導(dǎo)致高成本和資源浪費(fèi)。

相比之下,云原生數(shù)據(jù)庫系統(tǒng)可以通過探索共享存儲和完全共享的架構(gòu)來自適應(yīng)和靈活地分配和釋放資源。計算和存儲的解耦,以及各種資源(計算機(jī)和存儲資源)的共享,使云原生數(shù)據(jù)庫系統(tǒng)具有自適應(yīng)性。我們還利用分布式查詢和交易處理,通過水平分區(qū)提供進(jìn)一步的可伸縮性,以滿足高并發(fā)性的需求。

此外,Raft或Paxos等分布式共識協(xié)議式共識協(xié)議,使可用區(qū)(available zone,AZ)內(nèi)部和可用區(qū)之間的可用性很高,可以處理任何故障,而不用擔(dān)心數(shù)據(jù)丟失、業(yè)務(wù)停機(jī)或中斷。同時,利用軟硬件協(xié)同設(shè)計進(jìn)行探索RDMA、NVMe等新硬件和DPDK等內(nèi)核旁路協(xié)議所具有的加速和優(yōu)化作用。

HTAP(Hybrid Transaction and Analytical Processing,混合事務(wù)和分析處理)是云本土數(shù)據(jù)庫系統(tǒng)追求的另一種趨勢。其目標(biāo)是在雙11購物節(jié)為集群用戶的數(shù)據(jù)處理和分析需求提供一站式解決方案。

最后,自驅(qū)動數(shù)據(jù)庫(又稱自治數(shù)據(jù)庫)技術(shù)通過編排機(jī)器學(xué)習(xí)技術(shù)和云原生組件(如kubernetes)以及各種數(shù)據(jù)庫模塊(如慢慢)SQL結(jié)合診斷和索引推薦,簡化了云設(shè)施上云原生數(shù)據(jù)庫的部署、維護(hù)和操作。例如,我們在阿里云建立了DAS(database autonomy service,數(shù)據(jù)庫自主服務(wù))為雙11運(yùn)營和云客戶提供服務(wù),以確保我們的系統(tǒng)具有自我修復(fù)、自我調(diào)整和自適應(yīng)性。

ACM:你最著名的研究工作之一Wander Join: Online Aggregation via Random Walks”在2016年第35屆ACM SIGMOD會議獲得了最佳論文獎。在這項工作中,您和您的合作伙伴提出了一種新的方法來處理復(fù)雜的在線查詢。本文的主要觀點(diǎn)是什么?查詢處理領(lǐng)域的創(chuàng)新探索是什么?

李飛飛:查詢處理和優(yōu)化是數(shù)據(jù)庫系統(tǒng)最關(guān)鍵的組成部分之一。JOIN(一種用于查詢和訪問多表數(shù)據(jù)中的數(shù)據(jù)SQL子句)是最常見但最昂貴的數(shù)據(jù)庫操作。采樣提供的估計速度遠(yuǎn)快于計算的準(zhǔn)確結(jié)果,這對查詢處理和優(yōu)化任務(wù)非常重要。JOIN采樣非常困難,這是數(shù)據(jù)庫領(lǐng)域近20年來面臨的挑戰(zhàn)。在這項工作中,我們引入了一種新的數(shù)據(jù)采樣技術(shù),以實(shí)現(xiàn)近似和交互查詢處理(例如,提供在線近似結(jié)果,并不斷提高結(jié)果的質(zhì)量)。在線估計器的質(zhì)量將隨著時間的推移而提高,最終得到準(zhǔn)確的結(jié)果。這對大數(shù)據(jù)分析和查詢處理非常有吸引力,因為用戶可以根據(jù)自己的意愿發(fā)送查詢需求,并立即看到查詢結(jié)果,輸出結(jié)果的質(zhì)量將逐漸提高,直到找到準(zhǔn)確的結(jié)果(如果需要);否則,用戶必須等待,不知道什么時候才能得到最終的準(zhǔn)確結(jié)果。它們也可用于查詢優(yōu)化(例如,估計復(fù)雜查詢項目中間查詢結(jié)果的基礎(chǔ))。

本文提出的漫游連接算法通過在連接圖上隨機(jī)行走,巧妙地實(shí)現(xiàn)了采樣。連接圖不是具體的,而是通過仔細(xì)的加權(quán)采樣過程和估計的偏差調(diào)整來探索概念。這使得漫游連接算法在數(shù)量級上優(yōu)于現(xiàn)有方法,極大地促進(jìn)了最先進(jìn)技術(shù)的發(fā)展。就像我們在2017年一樣ACM SIGMOD一篇論文在會議上被評為研究亮點(diǎn),「在數(shù)據(jù)庫管理系統(tǒng)的研究歷史上,大量的研究使用采樣以比精確計算更快的速度估計查詢結(jié)果。本文提出了比最先進(jìn)的技術(shù)更好的計算和統(tǒng)計特性的高效替代方案;Postgres開源實(shí)現(xiàn)的實(shí)驗令人信服地證明了這一點(diǎn)」。

漫游連接產(chǎn)生獨(dú)立但不均勻的樣本;但有時,更復(fù)雜的分析操作(機(jī)器學(xué)習(xí)方法,如支持向量機(jī))需要獨(dú)立和均勻的隨機(jī)樣本。我們在那里SIGMOD18中的后續(xù)工作展示了如何獲得復(fù)雜連接的真正隨機(jī)樣本。這項研究還帶來了一些創(chuàng)新,如基于學(xué)習(xí)的查詢和優(yōu)化方法。這些想法是DeepDB: Learn from Data,not from Queries!” 以及“BlinkML: Efficient Maximum Likelihood Estimation with Probabilistic Guarantees其他論文都有概述。我們的工作也激發(fā)了真實(shí)系統(tǒng)的實(shí)際應(yīng)用和設(shè)計。

ACM:如何改變阿里巴巴等大型電子商務(wù)公司的機(jī)器學(xué)習(xí)方法?最重要的改變方式是什么?

李飛飛:機(jī)器學(xué)習(xí)在現(xiàn)代的進(jìn)步對更多的組織和社會產(chǎn)生了根本和持久的影響,包括阿里巴巴。例如,阿里巴巴電子商務(wù)網(wǎng)站和應(yīng)用程序中的推薦框架依賴于精心設(shè)計和微調(diào)的深度學(xué)習(xí)模型,為瀏覽網(wǎng)站和應(yīng)用程序的客戶提供更有效的商品匹配。當(dāng)然,機(jī)器學(xué)習(xí)的影響不僅體現(xiàn)在推薦上。在阿里巴巴數(shù)據(jù)中心的運(yùn)營中,我們探索并利用機(jī)器學(xué)習(xí)技術(shù)構(gòu)建了它AIops這種智能監(jiān)控和協(xié)調(diào)工具,以提高數(shù)據(jù)中心運(yùn)營的效率和有效性。還有許多其他的場景和例子,也都可以表明機(jī)器學(xué)習(xí)和人工智能方法的變革性影響,它們越來越成為許多系統(tǒng)中的關(guān)鍵構(gòu)建組件,包括上面提到的云原生數(shù)據(jù)庫系統(tǒng)(例如使云原生數(shù)據(jù)庫系統(tǒng)能夠進(jìn)行自我調(diào)整)。

ACM:在加入阿里巴巴之前,你在美國猶他大學(xué)教授。與學(xué)術(shù)界相比,在工業(yè)界工作最明顯的區(qū)別是什么?

李飛飛:在猶他大學(xué)計算機(jī)學(xué)院工作期間,我在計算機(jī)科學(xué)領(lǐng)域的研究和工程生涯的增長和豐富是巨大而難以形容的。它擁有世界上最好的計算機(jī)教育和研究項目之一。我將永遠(yuǎn)感謝我的學(xué)院和學(xué)校。然而,在阿里巴巴這樣一家偉大的公司工作無疑為我理解計算機(jī)科學(xué)提供了不同而豐富的視角,這不僅是一門技術(shù)學(xué)科,也是一個日益重要的商業(yè)領(lǐng)域。為一家公司工作意味著你必須始終把業(yè)務(wù)和客戶需求放在第一位,并專注于由業(yè)務(wù)驅(qū)動的實(shí)際客戶需求。這并不一定意味著你可以沒有長期的規(guī)劃目標(biāo),但這些目標(biāo)必須非常集中,并對戰(zhàn)略計劃和具有精心設(shè)計和明確描述的商業(yè)價值的實(shí)際應(yīng)用具有價值。

這與在學(xué)術(shù)界工作完全不同。在學(xué)術(shù)界,首要任務(wù)不是創(chuàng)造商業(yè)價值,而是創(chuàng)造智力價值。最終目標(biāo)往往是探索一個未解決的問題或挑戰(zhàn),即使這種努力最終只是一種智力練習(xí)。然而,正是通過追求這種好奇心,我們才能取得創(chuàng)新性的突破。項目的努力最終可以在實(shí)踐中推廣和擴(kuò)展新技術(shù)的應(yīng)用。

歸根結(jié)底,無論是在學(xué)術(shù)界還是在工業(yè)界,這一切都是為我們整個社會和文明的良好運(yùn)作創(chuàng)造價值和貢獻(xiàn)。從我目前的角度來看,我相信我在學(xué)術(shù)界和工業(yè)界的職業(yè)生涯已經(jīng)相互補(bǔ)充和豐富!

   


返回列表