您現在的位置:首頁 > 資訊 > 今日頭條 > 正文

        環球即時:2023年谷歌專題報告 全面推進AI+云計算轉型

        時間:2023-05-08 09:55:40    來源:中信建投    

        1、谷歌:全球搜索與移動生態公司巨頭,轉型AI+云計算

        1.1、公司概況:全面推進AI+云計算轉型

        谷歌為全球搜索與移動生態公司巨頭,以在線廣告收入為核心,并逐步推進“AI+云計算”建設。谷歌由 拉里·佩奇和謝爾蓋·布林于 1996 年聯合創立,2004 年于納斯達克上市,2015 年,谷歌成立母公司 Alphabet, Google 成為母公司旗下最大子公司,Calico、Nest、Fiber 等成為 Google 同級子公司。谷歌(Alphabet)的業務 板塊包括 Google 和 Other Bets 兩部分,其中 Google 為公司的核心收入來源。Google 以廣告業務為核心,輔以 云業務、應用商店、硬件產品等互聯網產品與服務,具體包括 Android、Search、YouTube、Apps、Maps 和 Ads。 此外,子公司 Other Bets 業務涉及生物科技(Calico)、智能家居(Nest)、資本投資(GV)、寬帶服務(Fiber)和自 動駕駛(Waymo)等領域。

        發展歷程方面,谷歌成立 20 余年間,由單一的搜索引擎服務公司轉型為全球搜索與移動生態公司巨頭,其 發展歷程大致分為四個階段。第一階段為 1996 年-2004 年,谷歌依靠搜索引擎廣告收入營收。谷歌搜索最初版 本為 BackRub 搜索引擎,利用讀取網絡標題并利用 PageRank 算法對搜索結果排序。2000 年,谷歌基于 BackRub, 發布 AdWords,利用廣告商針對搜索結果界面定向廣告投放機會的價格競拍營收,為公司提供穩定的收入來源。 第二階段為 2004 年-2008 年,搜索引擎業務收入來源單一且局限,谷歌開始快速收購初創公司,構建公司主營 業務框架。


        (資料圖片僅供參考)

        為尋找搜索引擎業務外新的收入增長點,谷歌于 2004 年上市后大量收購初創公司,其中包括 2005 年收購 Android 拓展移動生態業務,2006 年收購 YouTube 拓展視頻廣告業務,2007 年收購網絡廣告服務商 DoubleClick 和發布廣告產品 AdSense,拓展在線廣告業務。在此階段,谷歌構建了其主要業務板塊搜索和視頻 廣告、硬件、應用商店的基礎。第三階段為 2008 年-2015 年,谷歌一方面在搜索引擎、移動生態領域快速發展,另一方面,主攻技術的聯合創始人拉里·佩奇于 2011 年重新擔任 CEO,谷歌開始探索各類創新產品。

        具體而 言 1)谷歌潛心深入發展移動生態和搜索引擎業務,于 2008 年推出 Chrome 瀏覽器并開源操作系統 2)谷歌在 CEO 拉里·佩奇帶領下開始嘗試各種新奇的想法,比如開發自動駕駛技術、谷歌眼鏡,成立生物科技公司 Calico 等嘗試。第四階段為 2015 年至今,通過四年探索,谷歌的在線廣告業務和其他業務逐步成熟,開始探索 AI 和 云業務的布局。2014 年谷歌收購 Deepmind,2016 年整合谷歌云,谷歌云在公司收入中占比逐年增加,未來公 司將以“AI+云計算”作為公司新的業務增長點。

        管理團隊方面,公司共經歷了拉里·佩奇、埃里克·施密特、拉里·佩奇和桑達爾·皮猜四任 CEO。拉里·佩 奇自 1998 年-2001 年擔任公司 CEO,因投資人質疑其年齡和經驗限制要求其卸任。2001-2011 年,前 Sun 和 Novell 的首席執行官埃里克·施密特擔任公司 CEO,因其具有豐富的管理經驗,埃里克·施密特負責公司運營,兩位 聯合創始人專注于技術。埃里克·施密特任職期間,谷歌實現搜索引擎公司向科技巨頭的轉型。2011 年-2019 年,拉里·佩奇重新成為谷歌 CEO,谷歌在在線廣告業務外,不斷探索云業務、生物科技、智能家居、資本投 資、寬帶服務和自動駕駛等創新業務。2019 年桑達爾·皮猜任職 Alphabet 和谷歌 CEO,桑達爾·皮猜曾擔任谷 歌 Android 操作系統、Chrome 瀏覽器等核心產品負責人,對谷歌主營業務運營具備經驗。

        組織架構方面,谷歌組織建構經過三次調整。上市之初,公司組織架構運行“創始人+CEO 三人共同決策& 扁平化”的組織結構,其中兩位聯合創始人聚焦技術,具有豐富經驗的桑達爾·施密特擔任 CEO 負責運營。此 時組織架構特點為:公司內部減少層級關系,以項目組形式開展工作,但項目實行申請制且項目職責不明,導 致公司管理混亂且復雜。

        2011 年,谷歌聯合創始人拉里·佩奇(Larry Page)出任谷歌 CEO 后,簡化組織框架,將 組織架構調整為“CEO+六位高級副總裁”。此階段組織架構特點為:YouTube、搜索、廣告、社交、Chrome 和移動業務等重要產品部門分別由一位高級副總裁負責,部門可獨立提出產品計劃,自主權提高。2015 年,因 為谷歌除主營業務外,進一步探索了自動駕駛、生物科技等多領域產品,為解決組織架構龐大和體系臃腫問題, 以及充分劃分公司業務和部門職能,谷歌組建母公司 Alphabet,將核心業務歸于谷歌,非核心業務拆分谷歌的 同級子公司,歸于母公司 Alphabet 下。子母公司 CEO 分別由桑達爾·皮猜和拉里·佩奇擔任。2019 年,谷歌 進一步簡化組織架構,Alphabet 和 Google 均由桑達爾·皮猜擔任 CEO。

        1.2、財務分析:收入結構逐步優化,利潤率保持穩定

        收入結構上,廣告收入是公司主要營收來源但占比逐年下滑,谷歌云營收占比逐年提高,而其他收入保持 穩定。谷歌收入結構包括廣告業務、谷歌云和其他收入等,FY12- FY22,谷歌廣告收入從 95%降至 80%。谷歌 云營收由 6%增至 9%,而其他收入穩定保持約 10%。費用率方面,FY21- FY22 受疫情影響、海外監管政策壓制 和招聘放緩,2021 年管理費用下降,但 2022 年呈現回升態勢。

        2、LLM大語言模型:具備充分想象力的技術趨勢

        2.1、研究框架:聚焦模型結構、預訓練模型、下游調試、部署、推斷等環節

        大模型領域的研究核心要素包括模型結構、預訓練模型、下游調試、模型部署、模型推斷等。根據青源會, 大模型研究領域存在一定問題,包括同質化嚴重的情況,多數廠商采取類似的模型架構,例如 GPT、Bert、T5 等。由于模型架構同質化,影響模型效果的核心因素更多是工程方面的技巧、細節??傮w上,大模型領域的研 究機會主要包括 1)模型結構,例如非注意力交互機制、稀疏路由結構等;2)預訓練模型,例如預訓練任務設 計、模型更新方法等;3)下游調試,如探索任務微調效率提升方法;4)模型部署,如統一的任務范式,通過 單一模型支撐多種任務;5)模型推斷,如模型壓縮、剪枝、動態路由等。我們對比不同廠商大模型研發水平也 主要參照上述框架。

        2.1.2、綜述:Scaling Law、Prompt Engineering驅動LLMs加速發展

        從技術路線上看,GPT、T5、BERT 都是基于 Transformer 架構衍生而來的。Tranformer 相對 RNN 引入 了注意力機制(Attention mechanism),實現對全局信息的利用,同時簡化計算復雜度,實現對下游任務的泛化 應用。由于更簡潔的模型結構設計和參數假設,Transformer 在數據抓取能力方面有所取舍,從而導致為了實現 效果提升,需要進行更大規模的數據訓練,以及構建更大規模的模型,間接導致了當前模型越來越大的趨勢。

        根據 OpenAI 研究,預訓練模型的擴大帶來資源投入的指數級增長,而效果呈現線性增長的趨勢,這意味 著邊際投入帶來的效果提升,即邊際收益呈現遞減的趨勢,也就是給定算力等資源成本下存在參數規模的極限 值,使得 ROI 最優。另外,根據 GPT-4 技術報告,Inverse Scaling Prize 提出,在一些任務上,隨著參數規模的 擴張,大模型在任務上的表現反而出現下降的情況。

        GPT 是基于Transformer架構,將decoder(解碼器)取出,也就是 Decoder-only 模型;相較之下,BERT是將 Transformer 架構的 Encoder(編碼器)取出,即 Encoder-only,后續 T5 模型則是 Encoder-Decoder 模型。 模型結構的差異會導致其在下游任務表現的差異,例如過去學界認為 Encoder 模型對上下文理解能力更強, 因為其可以結合上下文信息進行輔助判斷,而 Decoder-Only 模型僅能通過下文信息進行決策,存在一定信息損 失。這一定程度上解釋了 BERT 類模型在小參數規模下在下游任務上表現好于 GPT 系列模型。

        然而,近年 NLP 行業下游任務的統一化趨勢改變了 BERT 模型的相對優勢,即學者發現可以通過改變提問 方式將分類、匹配等下游任務統一為一類問題,從而最大化模型效果,后續發展出 Prompt engineering(提示工程)。下游任務的統一相當于幫助 Encoder/Decoder 模型規避其不擅長的任務領域。在此基礎上,GPT 能夠脫穎 而出更多得益于工程方面的提升而非在技術思想上創新,需要指出的是,GPT 模型采用的多數技術都是此前的 學術研究成果,就科研貢獻本身,GPT 模型的提升并不多。

        從技術路線上看,包括 ERNIE 在內的多數廠商選擇 BERT 路線(Encoder-only),少數選擇T5路線 (Encoder-Decoder),較少選擇GPT路線(Decoder-only)。這種選擇可以從學術影響力看出,BERT 論文的 被引用量遠大于 GPT 系列論文及 T5 系列論文。事后看,當前OpenAI旗下GPT系列模型的領先得益于早期技 術選型的成功,這一成功是建立在以下基礎上——GPT的學界/業界影響力小于 BERT,導致多數廠商選擇跟蹤 BERT 的工作。

        GPT 路線此前的影響力弱于 BERT 路線主要由于 1)Google 品牌背書;2)開源精神;3)產研結合難度。 OpenAI 旗下的 GPT 路線基于 Transformer 架構,將解碼器單獨取出,論文發布時間早于 BERT 論文發布時間。 但論文的業界影響力弱于 BERT,我們認為,這主要由于 Google 的品牌背書,Google 研究團隊在 AI 領域的研 究積累導致業界對其研究關注度更高。另一方面,GPT 系列論文發布后,相關數據集、模型不完全開源,導致 其他研究團隊很難跟進和復現其研究成果,這進一步削弱了業界/學界跟進研究的動力。最重要的是,OpenAI 團隊解決問題的思路與當時業界/學界有所差異,此前研究人員更傾向于設計精細的模型結構和高效的方法,實 現相同規模下效果更優,而 GPT 引入 Few-Shot/Zero-Shot 下表現沒有明顯好于 Fine-tuning 下的其他模型,只是 在數據量和參數量指數提升后表現快速提升。

        這里存在 2 個問題:1)線性外推的思維定式。2)業界研究的思維習慣:追求效率,聚焦更具體的問題。 首先是 1)線性外推的思維定式,多數研究團隊選擇優先調整模型結構和訓練方法等路線的隱含假設是,規模 擴張不會對技術路線的效率產生明顯影響,或者即使產生影響,但相比規模擴張帶來的成本,其投入難度很難 同比擴大。例如,OpenAI 的團隊在 2020 年 1 月發現模型參數規模與效果存在冪律關系,即模型參數呈指數增 長時,性能會線性增加,但 GPT-3 規模大于 BERT large 幾個數量級,Zero-Shot/One-Shot 下效果也沒有明顯優 勢。這意味著 Fine-tuned 的效率提升優于參數規模擴大所帶來的影響。2022 年 1 月,Google 和 DeepMind 研究 團隊發現 Fine-tuning 也存在冪律關系2,因此行業主要聚焦既定規模模型的效率提升。

        Google研究推動規模競賽加速,規模界限分別是62B和175B。2022年1月,Google團隊開創了思維鏈(CoT) 領域研究《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》,通過 prompt 中引導大模型 進行邏輯推理的方式實現性能優化,并且這種優化幅度大于此前規模提升帶來的線性提升。而下一個自然的問 題則是參數規模的界限,Google 團隊在 2022 年 12 月3比較了不同參數規模下直接 prompt 以及 CoT 下的表現, 得出以下結論:對于所有小于 62B 的模型,直接用提示詞都好于思維鏈。結合 GPT-3 模型規模,至少需要大 于 175B4,思維鏈的效果才能大于 Fine-tuned 小模型的效果。

        除規模外,訓練語料也可能對 CoT 能力產生較大影響。根據 Mirac Suzgun(2022)等人的研究5,基于代 碼和文本數據訓練的 Codex 模型在基于提示遵循任務指令、探索算法規律方面表現優于 InstructGPT 和 PaLM。 更進一步,學界/業界希望分析出具體哪一因素導致 CoT 能力產生(主要區分 fine-tuned/代碼訓練),因而進行 對比研究。Jason Wei在第一版論文(https://arxiv.org/pdf/2201.11903v1.pdf)提到,GPT-3 text-davinci-001在GSM8K 測試集上表現的推理能力較弱,而 text-davinci-001 是完全基于文本訓練的模型。在論文第五版中 GPT-3 text-davinci-002/Codex code-davinci-002 在 GSM8K 測試集上表現明顯提升。

        而 Percy Liang 等研究6總結基于代碼 訓練的模型在推理能力方面強于非代碼訓練的模型,其測試集中平均推理能力 Codex cushman v1 位列(9/30), Codex davinci v2(1/30)。因此推理能力來自代碼訓練的可能性更大,代碼訓練對提升推理能力有明顯幫助。更進一步的佐證是 Zero-Shot Prompting。根據 Takeshi Kojima 等人的研究7,通過加入“Let’s think step by step” 提示,模型的表現有顯著提升。且根據《Scaling Instruction-Finetuned Language Models》,Finetune 計算量僅占 預訓練的很小比例,因此更大可能邏輯推理能力是預訓練模型本身具備的,CoT Prompt 激活了這類能力。

        對齊調優方面,根據《A Survey of Large Language Models》,RLHF 等技術主要是幫助實現對齊調優 (Alignment Tuning),目前的主流目標是 Helpful、Honest、Harmless。OpenAI 團隊8提出通過遞歸法能夠實 現對長難文本的歸納總結,并指出這類方法可以進一步泛化至其他類型的任務上,實現與人類的對齊。此外, 論文指出 RL 比 SL 更有效地幫助模型對比。

        具體細節方面,John Schulman 在《Reinforcement Learning from Human Feedback: Progress and Challenges》9提到,SFT 與其等價的 BC 存在固有缺陷,即訓練越充分越容易出現欺騙(即 模型并不明確自己知識的邊界),RLHF 則是讓模型明確有些問題自己不知道。原理上是因為 SL 訓練時只有正反饋,而且對偏離樣本的懲罰較重,RL 多樣性更好,因而在面對不知道的問題時,SL 訓練充分的模型傾向于 回答(胡編亂造),而非反饋不知道10。需要指出的是,OpenAI 提出 alignment tax,即模型犧牲部分性能實現 與人的對齊。

        2)另一方面,業界追求效率的思路,關注投入產出比。這種思路的本質是投入資源稀缺,要在有限的資源 投入下最大化產出。而研究思路背后是互聯網公司 AI 實驗室與業務部門的博弈。縱觀國內外互聯網公司的 AI 研究部門,其大致經歷了職能制、矩陣制、事業部制等架構,背后反映了大 廠對 AI 科研部門的不同期許和考核體制,這種激勵體制也影響了 AI 科研部門的中長期發展。

        2013 年成立的 FAIR 采取職能制,其定義 Facebook 的 AI 部門為 FAIR + Applied Machine Learning(應用機器學習團隊)+ Product Groups(產品部署團隊)11。但 2018 年組織架構調整后,FAIR 轉向矩陣制,即 AI 實驗室同時對業務部門和技 術領導(一般是 CTO 體系)負責。2021 年底 FAIR 進一步調整,將旗下 AI 研究團隊并入業務部門,轉向事業 部制。從職能制向矩陣制、事業部制,考核體制上越來越接近業務,越來越遠離學術影響力/前瞻研究,這種轉 變大多是由于互聯網公司面臨營收、利潤壓力,業績壓力倒逼研究團隊轉向業務團隊的“外包”,壓力下部分 研究人員離開業界,重回學術界,這是過去我們看到的業界 AI 研究的循環。

        大廠在大模型領域研究的落后有一定時代特征:對谷歌來說是價值觀變革導致凝聚力減弱,同時創新工作 不足;對 Meta 而言是企業聲譽受損導致凝聚力減弱,此外則是戰略重心調整導致人員流動。以谷歌為例,2018-21 年谷歌經歷了介入軍事、語音監聽、倫理委員會等風波,價值觀或政治正確在內外部引發的爭議導致研究人員 產生分歧,進而離開公司。2021 年至今一些谷歌高級研究人員離職創業、加入競爭對手等。總體上來看谷歌 研究人員的離開主要是公司規模擴張帶來價值觀稀釋,內部分歧管控失敗導致的,另一方面大企業機制下對“創新”的激勵趨弱,部分員工離職創業或加入中小型公司,尋求更自由、追求創新的工作。

        對 Meta 而言,2018年因非法向劍橋分析泄露超 5000 萬用戶信息從而影響美國選舉,Meta 的企業形象大幅 惡化,影響了員工對于企業的信心,導致當年大批高管及核心研究人員離職12。另外2021年 Meta員工的離職 潮主要受戰略變化及組織架構調整影響,由于公司戰略轉向 AR/VR,一些員工出于職業發展的考慮13加入其他 公司繼續本領域的研究和工作。

        更大的趨勢在于 1)開源帶來的技術擴散,頭部科研院所及互聯網科技公司相比中小公司/科研院所的相對 優勢在縮減,這主要由于過去 AI 領域的創新主要來自方法論層面,而非工程層面,而方法論的創新更隨機;2) 對大型科技企業的監管約束趨嚴,大多數美國互聯網科技企業都是在 1990 年后成立,并受益于 20 世紀末、21 世紀初的反壟斷監管,在快速發展階段經歷了經濟高速增長、監管邊際寬松的環境,但 2017 年以來歐盟、韓國 等對谷歌、亞馬遜、Meta、蘋果公司、微軟等加強監管,導致大型科技公司面臨較高的監管壓力。

        此外,輿論環境對中小型創業公司容忍度更高也是影響大公司創新成本的要素。包括 Meta、Google、微軟 在內的科技公司此前推出類似產品時都出現過由于語言模型生成內容存在虛假、政治不正確的情況,并引發輿論熱議,從而迫使產品下線。例如 2015 年 Google 將黑人女性的圖片識別為 Gorilla(大猩猩)14;2016 年微軟 聊天機器人因種族歧視言論迅速被下線15;2021 年 Facebook(Meta)將黑人男性標注為 Primate(靈長類動物) 16。對于大型科技公司的輿論和監管壓力天然高于創業公司17,這也導致其面臨較高的合規成本,喪失部分靈活 性。

        總結來看,BERT 模型由于存在雙向路徑,實現相似效果需要的參數量更大,對計算資源的要求更高,在 千億規模下表現相對弱于 GPT,且下游任務統一化利于 GPT 模型。而據 OpenAI,其認為 GPT 模型規模已經接 近極限,往后的效果提升需要指數級參數/數據規模提升,邊際效果提升較小,ROI 較低。在類似 Transformer 的新架構出現前,GPT 較 BERT 是更好的技術路徑,不同 GPT 模型的差異主要取決于預訓練等環節的差異。

        2.1.3、預訓練:差異來自數據集、知識圖譜、參數規模、訓練策略

        預訓練環節的主要差異來自 1)語料,包括語料規模、語料配比;2)知識圖譜的引入;3)訓練策略的優 化;4)參數規模。 1)語料 ERNIE 團隊在 ERNIE 1.0 時注意到引入不同種類的語料能夠提升模型預測的準確率。OpenAI 團隊在 GPT-3 論文中也引入大規模且多種類的訓練數據??傮w而言,語料多樣性越充分,高質量語料占比越高,對模型的預 測準確度有幫助,但學界在這方面的定量研究仍較為稀缺,語料對于模型預測準確率的量化影響尚不明確。

        2)知識圖譜的引入 ERNIE 1.0 模型相比 BERT 最大的變化就是引入知識圖譜,從而提升預測準確度。具體來講,2019 年 4 月 ERNIE 團隊提出基于 BERT 的改進掩碼策略,1)在單詞級別隨機生成掩碼并引導模型預測(BERT 框架, basic-level masking),2)詞組級別(phrase-level masking)、實體級別(entity-level masking)隨機生成掩碼并 引導模型預測。通過引導模型預測詞組、實體,模型訓練隱性地18引入知識圖譜概念。 例如:哈利波特是 J.K.羅琳寫的小說。單獨預測哈[MASK]波特或者 J.K.[MASK]琳情況下,模型無法學到 哈利波特和 J.K.羅琳的關系。如果把哈利波特直接 MASK 掉的話,那模型可以根據作者,就預測到小說這個實 體,實現知識的學習。

        3)訓練策略的優化,ERNIE 2.0 引入持續學習框架,解決知識遺忘及訓練效率的問題。ERNIE 1.0 相比基礎版 BERT,改變了掩 碼策略(引入知識圖譜)和數據結構(加入多輪對話語料),提升了模型預測準確率。此后學界討論通過多任 務學習提升模型的預測準確率,例如微軟研究團隊在《Multi-Task Deep Neural Networks for Natural Language Understanding》中論證了通過在預訓練模型中加入有監督的下游任務,能夠優化模型在 NLU(自然語言理解) 方面的效果。因此,后續的一個思路就是通過堆疊訓練任務提示模型預測準確率,但相應存在一個問題,即模 型出現學習新知識后容易遺忘舊知識,ERNIE 2.0 主要的變化就是針對這一問題提出持續學習框架,實現知識 庫擴充,優化模型效果。

        常規的模型訓練即序列訓練模式,即后一個模型訓練是建立在前一個模型訓練結束后,從模型參數的角度, 后一個模型訓練初始參數為前一個模型,但訓練結束后參數有所調整,且由于訓練是基于后一個任務,其對此 前任務的預測準確率可能低于此前的訓練結果。學界此前的解決思路是將多個任務同時訓練,確保模型對不同 時序加入的任務等權學習,但每新增一個任務,模型都需要重新訓練此前所有的任務,這對應較高的訓練成本。 ERNIE 2.0 提出序列多任務學習(Sequential Multi-task Learning)模式,通過給每個任務分配 N 個訓練迭代,自 動將每個任務的 N 個迭代分配到不同訓練階段,兼顧學習效果和效率,較 BERT 框架繼續優化。

        OpenAI 在訓練策略方面并未披露細節,但結果上看 OpenAI 訓練效果好于 Meta。GPT-4、InstructGPT 論 文中其透露微軟為 GPT 專門構建了計算集群和訓練環境,確保訓練的穩定性。GPT-4 的訓練環境經過多次迭代 后表現非常穩定。而根據 Susan Zhang 教授19,Meta 在 OPT-175B 模型的訓練中出現了 50 多次的斷點(需要回 到 Checkpoint 重啟訓練),下圖中不同顏色代表著模型連續訓練的時間。GPT-4 能夠基于“小模型”訓練預測大模型的損失函數,從而降低訓練負載,同時并發訓練多個模型,提 升訓練效率。目前沒有在其他競對中看到類似的效果。

        2.1.4、下游調試、部署、推斷:RHLF仍處于技術發展的早期,潛在優化空間大

        GPT 系列模型的拐點在 InstructGPT,其引入了 RHLF,對應 SFT、RM、PPO 三階段,最終效果是 PPO 模 型預測準確度好于 SFT-175 模型。而 Anthropic 團隊研究《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》指出,InstructGPT 基于較小的 RM 訓練反饋并非最優的,大規模 的 RM 模型對模型性能的提升可能更好。

        Anthropic 團隊上述研究的副產物即在 RLHF 中模型性能提升與 RM 的關系,進而在后續研究中可以通過這 一關系估算給定性能提升目標需要多大規模的 RM,并且不同參數規模的模型性能提升曲線基本上平行的,也 就是基于 RLHF 不同規模的模型的性能極限可能不同,并且性能提升的斜率可能是近似相同的。 部署和推斷在 OpenAI 論文中大多數被忽略了,僅提到微軟在這方面的支持。ERNIE 在論文中提到在線蒸 餾框架,實現算力節約。

        總結來看,OpenAI 在 GPT-4 訓練結束后花費 6 個月左右時間進行調試和其他調整,其主要精力大體上是 放在調試上,而部署、推斷等更多依賴微軟和其他合作方的支持。微軟/英偉達在合作聲明中提到,雙方基于數 萬塊 A100、H100 GPU 芯片,NVIDIA Quantum-2 400Gb/s InfiniBand 架構,以及 NVIDIA 企業級配套軟件等構 建了基于公有云的 AI 超級計算機。此外,基于 ONNX runtime 的推理框架,模型的在線推理速度能夠進一步優 化。

        2.1.5、量化效果:基于公開測試集進行量化評估

        學界/業界對 LLM 的評估主要是基于公開測試集的評分,例如 GPT-4 的評分情況如下,GPT-4 在絕大多數 語言評測中都大幅超越了此前的 LLM SOTA(最高分),在視覺評測中部分超越此前的 SOTA,但整體表現并 不如 GPT-4 的一騎絕塵。主要難點可能在于視覺信息、文本信息的聯合訓練、理解。

        2.2、谷歌的競爭分析:全棧技術積累深厚,總體處于第一梯隊

        2.2.1、預訓練環節:谷歌在訓練基礎設施/訓練策略方面布局領先

        谷歌在訓練集方面不具備明顯優勢。在訓練數據集方面,現有的大模型主要采用書籍、文章、網頁等文本 數據,這些數據能夠幫助大模型積累語法、文本知識、文本理解、上下文連貫邏輯等能力,而在前文“綜述” 部分我們提到代碼對語言模型的邏輯推理能力具備幫助,因此訓練數據集的多樣性較為重要,確保大模型積累 多樣化的能力以便后續激活,這里的問題主要是,例如邏輯推理的培養需要一定比例的高質量代碼數據,1)如 何定義高質量的數據,怎么對原始數據進行清理、去重20、標注等?2)多大比例的數據能夠積累能力?就我們 的知識范圍,目前學術界/業界尚未有較為公開且權威的研究能夠回答上述問題,但總體而言,數據質量上論文 /書籍/百科≥代碼/文章≥對話≥網頁。從這一角度看,Google 在數據源方面不存在明顯的優勢。

        谷歌在 AI 架構、芯片方面處于行業領先地位。Google 在《Pathways: Asynchronous Distributed Dataflow for ML》 提出了 Pahtways 作為新一代 AI 架構,其特點是多任務,多通道,稀疏激活。在《PaLM: Scaling Language Modeling with Pathways》中,Google 提到 Pathway 下 MFU(Model Flops Utilization)達到 46.2%,高于 GPT-2/3 在 A100/V100 集群上的利用率 35.7%/21.3%,但低于 GPT-3 基于英偉達 Megatron-A100 集群實現的利用率 52%。TPU 方面, TPU 在 MLPerf 部分場景的性能測試中表現優于 A100,其中 TPU v4 在 4096 塊芯片,應用 BERT 場景下性能是 A100 的 1.15 倍左右;ResNet 場景下 TPU v4 則是 A100 性能的 1.67 倍。

        大模型的訓練穩定性是過去研究涉及較少的。由于小模型訓練時長較短,涉及的軟硬件協同面較窄,擴展 至大模型下集群出現異常或錯誤的概率大幅提升,相應帶來模型訓練的不穩定性(Training instability),以及 資源的額外耗費(一般需要回到 checkpoint 重新訓練)。在訓練策略上,Google 團隊在 PaLM 論文中提到模型 訓練過程中多次出現損失函數的突變(we observed spikes in the loss roughly 20 times during training21),而 Susan Zhang 在 Stanford 分享 OPT 模型訓練過程中展示了模型訓練中也出現了多次波動。

        谷歌在模型訓練方面具有較好積累。Diederik P. Kingma 和 Jimmy Lei Ba 2014 年發表《Adam: A method for stochastic optimization》,Adam 是一種可以替代傳統隨機梯度下降過程的一階優化算法,它能基于訓練數據迭 代地更新神經網絡權重。Diederik P. Kingma 于 2015 年與其他合伙人共同創立 OpenAI,并于 2018 年加入 Google Brain。而 Google 團隊于 2023 年 2 月提出了 Lion 優化器22,此前流行的 AdamW 等自適應優化器需要同時保存 一階和二階矩相比,Lion 只需要動量,這意味著內存占用降低,且在訓練大型模型和大 Batch size 時效果顯著。

        此外,Google 研究團隊在 2021 年《Sharpness-aware minimization for efficiently improving generalization》提 出 Sharpness-aware minimization (SAM)方法,除了提升模型的泛化表現,SAM 可以提高模型對標簽噪聲的穩健性 (robustness)。后續 NUS23和字節跳動24的研究團隊進一步優化了 SAM 方法。模型初始化策略方面,MIT 和 Google252019 年提出 Fixup 策略,避免梯度爆炸或消失,并可以應用于超過 1 萬層的神經網絡。后續 UCSD26和 Google27進一步在此基礎上提出 Rezero 和 SkipInit,具體到每一層執行操作, 實現進一步優化。

        2.2.2、模型調試:谷歌在Fine-tuning,Prompt engineering方面領先,在Alignment Tuning等領域與OpenAI存在差距

        Google 團隊在模型調試和 Prompt engineering 方面積累領先行業。在前文綜述部分,我們提到谷歌團隊開 創了 CoT 研究,其論文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》引入 CoT Prompt, 并通過對比實驗探測出模型能力涌現的界限大約是 62B 和 175B。Google 團隊在 2022 年 12 月比較了不同參數 規模下直接 prompt 以及 CoT 下的表現,得出以下結論:對于所有小于 62B 的模型,直接用提示詞都好于思維 鏈。結合 GPT-3 模型規模,至少需要大于 175B,思維鏈的效果才能大于 Fine-tuned 小模型的效果。東京大學和 Google 團隊《Large Language Models are Zero-Shot Reasoners》更進一步提出 Zero-Shot Prompting,即加入“Let’sthink step by step”可以顯著的提升模型性能。

        對齊調優方面,OpenAI 及 Anthropic 相對領先。OpenAI 團隊28提出通過遞歸法能夠實現對長難文本的歸 納總結,并指出這類方法可以進一步泛化至其他類型的任務上,實現與人類的對齊。此外,論文指出 RL 比 SL 更有效地幫助模型對比。具體細節方面,John Schulman 在《Reinforcement Learning from Human Feedback: Progress and Challenges》29提到,SFT 與其等價的 BC 存在固有缺陷,即訓練越充分越容易出現欺騙(即模型并不明確自 己知識的邊界),RLHF 則是讓模型明確有些問題自己不知道。原理上是因為 SL 訓練時只有正反饋,而且對偏 離樣本的懲罰較重,RL 多樣性更好,因而在面對不知道的問題時,SL 訓練充分的模型傾向于回答(胡編亂造), 而非反饋不知道30。需要指出的是,OpenAI 提出 alignment tax,即模型犧牲部分性能實現與人的對齊。

        總結來看,谷歌在大模型領域的布局是全方位的,涵蓋上游芯片、分布式計算集群、深度學習框架,以及 模型訓練、調試優化策略,并且在多數環節保持領先地位,OpenAI 的成功則是建立在與微軟、英偉達等公司相 互合作的基礎上,并且是 OpenAI 與微軟是通過股權投資綁定利益關系,這意味著其他競爭者模仿的難度較大, 而就互聯網平臺而言,Google 在 AI 領域的積累深厚,整體并不落后于 OpenAI 的情況。

        (本文僅供參考,不代表我們的任何投資建議。如需使用相關信息,請參閱報告原文。)

        關鍵詞:
        相關新聞

        最近更新

        凡本網注明“XXX(非汪清新聞網)提供”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和其真實性負責。

        特別關注

        • 省委召開常委會議

          今天,在中央第一環境保護督察組向吉林省反饋督察情況后,省委書記巴音朝魯立即主持召開省委常委會議,聽取關于中央環保督察反饋問題整改工

          2017-12-29 14:30

        • 2017年全球十大航天新聞和中國十大航天新聞評選揭曉。

          新浪科技訊 12月28日消息,由空間瞭望智庫、《國際太空》和《衛星應用》雜志,以及中國太空網聯合組織的2017年全球十大航天新聞和中國十大

          2017-12-28 21:47

        • 五星級酒店馬桶刷洗茶杯,酒店以后還能住嗎?

          保潔人員先用馬桶刷子刷茶杯,隨后用同一把馬桶刷子刷馬桶。緊接著,她用浴巾擦杯子,再蘸了馬桶水擦地,最后將浴巾放在地上整理。馬桶刷刷

          2017-12-28 21:12

        • 這些政策將影響你明年錢袋子

          近日,國家發改委、住建部、商務部、工信部、交通部等部委密集召開年度工作會議,貫徹落實中央經濟工作會議精神,部署2018年的重點工作,在

          2017-12-27 21:40

        • 生態文明建設年度評價結果公布:吉林排名靠前

          根據中共中央辦公廳、國務院辦公廳印發的《生態文明建設目標評價考核辦法》和國家發展改革委、國家統計局、環境保護部、中央組織部印發的《

          2017-12-26 16:34

        • 長春市公安局寬城區分局“一號追逃目標”嫌疑人喜歡二人轉“露出馬腳”

          21年前的12月25日,這一天是圣誕節,雖然是西方的節日,但隨著夜幕降臨,歡樂的節日氣氛也隨之而來。當晚,八點多鐘,長春市寬城區的一家藥

          2017-12-15 22:18

        • “第一動力”正加力

          十九大報告再次明確創新的地位:創新是引領發展的第一動力,是建設現代化經濟體系的戰略支撐。2017年,我省創新成果豐碩,形成了跟跑、齊跑

          2017-12-12 10:34

        • 中紀委機關談反腐

          每到關鍵節點,人們總是根據一些重要信號來判斷一項工作的走勢。十九大閉幕后的首月,人們熟悉的打虎節奏和信息如約而至,中央紀委監察部網

          2017-12-08 12:32

        • 撐起“半壁江山” 釋放更強動力

          長春、通化、白山、遼源入選東北地區民營經濟發展改革示范城市,在政策環境、金融環境、創新環境、促進民營經濟轉型升級及人才隊伍建設等方

          2017-12-08 12:21

        • 300城市土地市場量跌價漲 成交均價上漲

          11月,全國300城市土地市場供求回落,但各線城市土地成交均價環同比繼續上漲。綜合前11個月來看,年度土地出讓收入整體保持同比上漲勢態。6

          2017-12-07 18:43