Hadoop 已死,AI 吞噬世界!

2024年2月6日 22点热度 0人点赞

【CSDN 編者按】你用上 GPT-4 了嗎?

在數據領域,AI 正逐步重塑數據處理和分析的各個環節,從 ETL、數據治理到數據分析和消費方式均會發生根本性變化。Kyligence 聯合創始人 & CEO,Apache 頂級開源項目 Apache Kylin 的創建者韓卿(Luke.han)將用這篇文章來分享他在 AI 沖擊開源領域之後引發的深度思考,其中涵蓋了開源項目的商業化路徑、技術變遷對行業格局的影響、AI 對數據分析和業務決策范式的革新等多個層面,反映出大數據與分析行業正在經歷一場深刻的變革,呼喚從業者積極應對和創新。

作者 | 韓卿(Luke.han)

責編 | 王啟隆、唐小引

出品 | CSDN(ID:CSDNnews)

Apache Kylin 畢業於 2015 年,Kyligence 公司成立於 2016 年,在過去幾年,我們在技術上不斷迭代和更新,以適應新的技術趨勢,積累了不少實踐和總結

在新年之際,我想借此機會,和大傢分享更多我們的一些思考,介紹我們對相關趨勢的觀察和思考,以及對未來的一些認知。希望大傢一起,為這個行業的變革帶來貢獻。


開源賺不了大錢!

Open source can't make big money

這是我很不願意提及的話題,但事實如此。

從商業角度看,開源不是商業模式,隻是市場手段。而在商業上,如果沒有有效的商業化手段,開源的用戶是不會轉換成為付費用戶,從行業中很多朋友們的實踐中可以深刻地感受到。

很多人對我們的認知不夠深刻,覺得我們是讓用戶先用開源 Kylin,然後轉換到商業版本,這個誤解很多年了。Apache Kylin 在我們離開 eBay 的時候,已經完成了幾項重要的社區工作:
  • 畢業成為 ASF 頂級項目,建立了品牌和知名度

  • 被幾大互聯網廠商大規模使用,包括百度、網易、頭條、美團等,磨煉了技術成熟度

  • 作為中國第一個 ASF 頂級開源項目,構建了社區和影響力

因此,在我們創立 Kyligence 公司的時候,即全面開啟商業化,幾乎所有的客戶都是直接談的企業版,並且在一開始就走商業化合作,這也是這麼多頭部客戶持續合作多年的原因。今天我們積累了這麼多企業級客戶,隻有極個別是使用了 Apache Kylin 之後轉換為商業版的,尤其是銀行等金融客戶,一開始就對企業級特性、安全、資源管理以及服務等提出了苛刻的需求,而這些也是企業版的設計目標。客戶要的從來不僅僅隻是技術,而是技術背後的產品設計、服務保障以及持續的創新能力

商業是商業,我們所有人必須要深刻理解客戶為什麼付錢,為什麼願意付我們這麼多錢。底層技術突破很難,但往往在產品上,真正賺錢的不是最高深的技術,我們隻需要提升一些用戶體驗,改變一些工藝流程,隻要能夠幫助用戶節省人力、成本,提升效率,客戶都是願意付費的——每個技術點,都要設計價值主張給到客戶,而不隻是聲稱技術很厲害,必須得到客戶的認可。這需要我們更多地深入客戶現場,更多去理解客戶的實際需求、痛點、癢點。

當然,我們並不否認開源的價值。我們自己也是從開源技術、社區等獲益匪淺,因此我們也將持續在各個開源項目中持續投入、參與和繼續主導。


Hadoop 已死

Hadoop is dead

Hadoop 作為大數據的代表,曾經風光無限,有著巨大的市場機會。可惜在 2021 年隨著 MapR 的出售和 Cloudera 的私有化逐漸沒落。這裡面夾雜著太多的原因,但從我的視角,主要來自於社區的分裂和商業策略上的保守

2017 年,Doug Cutting(Hadoop 之父)在 Hadoop 十周年之際暢想未來十年的 Hadoop 生態將會如何。而不到 5 年,行業已經幾乎很少再談論 Hadoop 的相關技術——有也隻是小修改,沒有驚艷的項目出現了。

在創業的前五年,我們很幸運跟著大數據、數據湖的擴張而擴張,那時候各傢銀行都在將基於 MPP 數據倉庫的應用遷移到基於 Hadoop 的大數據平臺。但隨著 Hadoop 廠商的沒落,我們也明顯能感覺到市場的快速變化,同時隨著雲計算的興起,雲數據倉庫、雲數據湖又非常快速的在市場上出現,“數據倉庫”的技術流派逐漸分裂。而國內的情況更加糟糕,滋生了各種定制的 Hadoop、魔改的私有雲,使得這個市場非常復雜,卻又很難賺到超額利潤。

2021 年,某銀行客戶領導聯系我們去講課,直接坦承“Hadoop 已經結束了”,讓我們去和他們的架構團隊探討 Hadoop 之後的大數據平臺應該如何走向,以及現有的架構、應用等如何遷移等。當時我們就非常敏感地意識到,必須更快地迭代和轉型。

過去的兩年多來,我們可以真切地感受到,以 Hadoop 為主的平臺正在放緩建設,一部分重新回到了 MPP(以數據倉庫為基礎,大數據/數據湖支撐部分業務),一部分走向了雲原生架構(以數據湖為基礎,走向湖倉一體)。我預測,未來這種復雜的混部架構應該會持續存在至少 5 年以上


BI 即將進化

BI will be evolved

現代的 BI 工具,幾乎都是可視化工具,而之所以需要這麼強的可視化,是因為人類無法直接理解數據,給人 0 和 1 是無法直接解讀和理解的。而圖形可以幫助人類快速理解,某個指標是漲了還是跌了,某個因子比另外一個要影響更大,哪個結果指標是由哪幾個過程指標分解等等。優秀的可視化能力,是幫助分析師高效完成分析、總結和探索的的利器

但今天,當 AI 可以直接讀取和分析數據的時候,就不需要前置一個可視化工具了。直接給 AI 數據 0 和 1,即可讓 AI 快速給出分析結論:是漲了跌了?背後是為什麼?什麼因子影響的?影響有多大?還有什麼原因……AI 產生的效率提升,是十倍到百倍以上的。相當於 AI 把以前分析師需要做的大部分工作都做了,人類隻需要進行選擇、判斷和稍微修正就行。這是 AI 時代對數據和分析行業帶來巨大變化的第一點。

自動化行業有一個非常好的比喻:不要讓機器人打算盤。都已經有 AI 了,人類可以問 AI 要結果和建議,而不是依然讓 AI 去做低效的工作。

圖片來源:ChatGPT-4

我們今天的產品已經做到了這些能力,我們可以更進一步,去改變這個行業。為用戶提供一個動態的、聰明的、高效的決策助理/Copilot,而不僅僅隻是一個數據呈現工具。


從性能轉移到績效

Performance is not the key
Performance will be the new key

我們在 OLAP 的場景中,經常碰到的挑戰就是 Performance/性能

雖然性能是我們的強項,但往往我們花費了無數的心血,可能隻是為了幫助客戶的某條 SQL 提速了幾秒鐘,或者隻是讓他們在點開儀表盤的時候少等待幾秒。

在技術 PK 中,Performance 也是最常見的、競爭性最強的一個點。性能良好的系統/OLAP,當然是非常好的,但當大傢都到了秒級的時候,其實已經沒什麼可比的。而往往改變一個數據結構,或者一個數據 Pipeline,就能夠以數量級的方式提升性能。

那為什麼需要這麼好的性能?在 AI 時代,性能依然重要嗎我們認為,之所以需要 OLAP 或者數據倉庫端有極好的性能,是因為大量的數據分析工作,依賴於有限的幾個分析師或業務用戶,而這個人群的業務壓力非常大,且往往數據出來後,依然有著非常繁重的任務,比如對比數據、查閱歷史、分析原因、重跑各種可能性等等,並要形成報告和決策、行動建議。所以一個非常好用的工具確實是必不可少的。

但在 AI 時代,這裡的大量工作其實可以委托給 AI 完成,甚至可以讓 AI 提前完成,尤其是固有的、常用分析套路。AI 可以快速給出大致的總結,這已經能夠大大節省人力。AI 甚至可以讓各種系統自動化連接起來。

今天我們用 Kyligence Zen 出一個周報或者做一次歸因,隻要十秒左右即可,而且自帶了總結,這比傳統的那套流程:出結果、查資料、寫報告……已經有了質的提升。性能,尤其是查詢性能,在這個場景下其實已經沒那麼嚴苛了。反而,並發性成了下一個挑戰,因為會有越來越多的人來使用系統。而並發,正好也是我們的強項。

而最近,更多的客戶已經將關註點,從性能轉移到了 Performance 的另外一個含義:績效

指標平臺,本質上是一個 KPI 平臺,而 KPI 則是 Key Performance Indicator 的縮寫。當我們將關註點從性能轉移到績效的時候,突然發現,這才是客戶真正要的產品:儀表盤或者報表從來不是客戶要得最終結果,他們要得是基於數據的管理能力幾乎每一個有用的指標/Metric,都展示了某個業務或者管理的結果,而一個公司之所以需要指標,就是為了更好地觀測相關業務的進展、健康狀態以及及時采取措施來修正組織行為,從而確保公司的整體或者部分績效能夠按照設定的目標行進。

我們要跳出技術思維,在 Performance/績效上打出差異化和壁壘,提升技術投入的 ROI,並快速占據市場。

AI 吞噬世界

AI is eating the world

圖片來自網絡

AI 正在吞噬軟件,這是 NVIDIA 黃仁勛在2017年的一篇采訪中提到的,到今天,應該沒有人再懷疑這個論斷。現在的問題是,AI 將如何改變不同領域的軟件,在我們自己的行業,就是 AI 將如何改變數據與分析市場。

圖片來自網絡

在數倉領域,上面這種圖已經用了超過 30 年了:“數據源”—“ETL”—“數據倉庫”—“OLAP/數據集市”—“BI/Reporting”頂多再加上“元數據”和“分析預測”。無論 ELT 還是 ETL、數據湖還是數據倉庫、本地部署還是雲端部署,其中所有的假設,都是數據需要經過漫長的工程,從原始數據萃集後,整理成星型或雪花模型,從而提供給上層 BI 等使用。作為使用者的最終用戶,往往是最後才被賦能,從而導致大量的數據其實今天依然沒有被充分利用起來

Generative AI(生成式 AI)的出現,使得數據的工藝流程出現了巨大的變革,數據的加工方式發生了革命性的變化。首先,各種復雜的重復性的勞動,尤其是數據的 Pipeline,都將由 AI Agent 來處理。小到行列轉換,大到數據治理,未來應該有很多的 AI Agent 來處理這些工作,人類隻需要用提示詞設計合理的流程就好。這從 ChatGPT 自帶的 Advanced Data Analysis 和眾多使用 OpenAI’s Code Interpreter 的數據分析工具都可以看到,甚至 GPTs 可以通過幾個簡單的提示詞就可以完成很多數據梳理、分析的工作。

當時我在一個內部的文檔中就寫到:

其次,人和機器的交互進化到了最自然的方式,數據的消費方式發生了革命性的變化。隻要會說話,就能用數據,是這一次 AI 帶來的巨大變革。這使得原來隻有領導、分析師、專業用戶等才能使用的“數據和分析能力”,一下子平民化到了每個人,即使文化水平有限的用戶,也能被充分賦能。這將大大改變現在的數據架構、處理模式和消費方式等。

大部分公司現在能夠有效使用數據的員工不超過 10 ~ 15%,而這次 AI 革命,能夠讓其餘 85 ~ 90% 的人直接消費數據或者數據產品,可以預見,現有的數據架構是無法滿足的。這裡的變革才剛開始,我們的實踐走在行業最前沿,最近收到很多的市場反饋,都說我們的產品做的非常務實和好用,甚至某頭部股份制銀行和我談是不是給他們提供個產品咨詢教他們怎麼做產品——這說明我們的設計、體驗和功能,獲得了最終用戶的認可,正在影響行業的發展。

當每個人都能、都需要消費數據的時候,傳統的數據倉庫或者數據湖的架構是否還適用,數據的存儲方式將發生什麼樣的變革?這是一個開放問題,目前我還沒有具體的答案,但可以預見,AI 的場景,必然會要求系統處理更多的數據,更靈活地訪問數據和更高效地服務更多人。從今天的大部分 MPP 和大數據的架構上看,在這幾個方面應該都會很快面臨巨大的挑戰,當比現在訪問量大十倍、百倍甚至萬倍的時候,今天任何數據系統要在成本可控的情況下完成都非常困難,這裡期待我們未來和客戶一起共同研究和探索,一起突破這裡的極限。

AI 能帶來的,將遠比這些更多。AI 將帶來數據和分析的深層次革命。機器將代替人類完成更多的工作,尤其是重復的、可被自動化的。過去數據系統完成數據的加工和指標的統計後,後續需要大量的人工去分析影響相關指標變化的影響要素,探索根因,並根據經驗提供相關的決策建議。

簡單的實踐就能看到巨大的變化,這裡面的潛力無限。希望所有人都能發揮想象力,更多地讓 AI 來改變數據和分析,甚至是整個企業的經營和管理。