機器學習是一個計算過程,因此它與計算力緊密相關,也就是與承載機器智能算法的芯片和半導體緊密相關。最明顯的是,計算力和計算架構決定了機器學習的訓練和推斷速度,從而影響該技術的發展進度。然而,這些關系遠比上面描述的更加微妙:硬件決定了研究者和工程師在設計、開發機器學習模型時使用的方法。芯片的能耗等特性也決定了機器學習在現實世界中的應用。從更廣泛的角度來說,計算力也很重要,因為其具備特殊的地理影響。半導體通過復雜的國際供應鏈進行設計、裝配及部署。市場結構和該領域公司之間的競爭影響著機器學習的發展。此外,從國家安全的角度來看,這些供應鏈也很重要,硬件成為對人工智能必備的基礎器械有直接影響的政府工業和貿易政策競技場。
本文旨在深入探討計算力與機器學習發展之間的關系。更具體地說,本文要探索計算架構、機器學習方法和供應鏈的變化對人工智能未來的影響。為此,本文嘗試理清這一底層硬件層與深遠的社會影響及 AI 相關風險之間的特殊關系。一方面,這一探索凸顯了硬件如何加劇對無處不在的監控、技術失業和地緣政治沖突的一系列擔憂。另一方面,它也凸顯了促進計算力發展在解決這些問題上可能發揮的重要作用。
第一部分將研究算力在機器學習發展中所起的作用,并指出在近期關于該技術社會影響的報告中,其影響被扁平化。第二部分將探討機器學習硬件的專門化趨勢,以及它對控制和隱私的影響。第三部分將討論半導體供應鏈及其對機器學習地緣政治的影響。第四部分將介紹在機器學習工作流程中改變數據和算力之間平衡的研究進展,以及它對技術的經濟影響。最后,我們將介紹硬件作為行動杠桿的潛在作用。
第一部分:機器學習和算力
以計算機視覺領域為例,該領域聚焦于提高機器從圖像和
視頻中提取可理解特征的能力。20 世紀 90 年代和 21 世紀早期的「傳統」方法聚焦于在人為定義的特定特征上運行算法執行圖像處理和分類。相對地,神經網絡可以自己學習用于分類的相關特征,而不需要在算法中進行預定義。
擴展算力和數據可用性改變了計算機視覺領域的實踐方法。從數據方面來看,消費網絡的增長產生了大量可用于機器學習系統訓練的圖像。包含 2 萬類別、1400 萬張標注圖像的 ImageNet 數據集為研究者提供了圖像處理研究的常用數據集。從 2000 年的每芯片 3700 萬晶體管到 2009 年的每芯片 23 億晶體管,算力在 21 世紀繼續發展。這一趨勢隨著一類特殊的計算架構 GPU 的出現而持續增強。GPU 因其并行計算的特性尤其適用于神經網絡。
基于自動學習特征和并行訓練的特性,神經網絡得以顯著超越該領域的早期方法,ImageNet 大規模視覺識別挑戰賽是這一過渡趨勢的典型標志。自 2010 年舉辦以來,該挑戰賽聚集了很多研究者在視覺識別任務上進行系統設計的競爭。從 2010 年到 2011 年,傳統方法從未將誤差率降到 25% 以下。由 Hinton 帶領的團隊在 2012 年開發的 AlexNet 首次實現了 25% 以下的識別準確率,有研究者稱「ImageNet 2012 引發了 AI 大爆炸」。
第二部分:計算力專門化
計算力不是簡單的數量問題。芯片的特殊架構很大程度上決定了該芯片能否有效解決給定的計算問題。總的來說,該行業正擁有日益專門化的機器學習平臺,這一領域的持續增長也吸引了越來越多的商業興趣。從這個角度來說,硬件的發展方向與軟件截然相反:盡管研究領域一直致力于構建更通用的學習系統,但芯片領域仍在持續轉向更窄的專門化方向。
有兩個因素塑造了機器學習硬件的市場。一個是性能與靈活性之間的負相關關系。盡管通用計算力可以支持廣泛的任務,而且經過簡單配置就能承擔新的任務,但它往往會被為特定目的而構建的硬件所超越。然而,這種性能的提升是有代價的:專用硬件適應相對較小的用例集,而且其體系架構在部署后不太容易改變。
另外一個重要的因素是,用于訓練機器學習模型以完成任務的硬件可能與用于利用已經訓練的模型進行推理的硬件有很大不同。這是因為機器學習工作流程的每個步驟都有不同的需求。例如,能耗對于在移動設備上運行的計算機視覺系統來說可能非常重要,雖然該系統最初在數據中心上訓練時能耗可能并不重要。
背景:從 CPU 到 GPU
GPU 是當今機器學習工作流程的支柱,也是訓練和推理的主要平臺,被廣泛用于基礎研究及市場上機器學習驅動產品的實際開發和部署。
GPU 在機器學習中發揮的巨大作用來自一個意想不到的歷史融合。顧名思義,GPU 最初是為支持計算機圖形和圖像處理應用而設計的。為此,GPU 采用了一種架構,將計算任務分布在大量要并行處理的內核中。這點與 CPU 不同,CPU 采用的內核數量更少,功能更強大,優化后只需同時處理幾個任務。
這種并行架構使得 GPU 非常適合機器學習應用。從根本上說,神經網絡的訓練和推理依賴于大量相同矩陣乘法運算的執行。
日益專門化:FPGA 和 ASIC
作為機器學習的主要硬件平臺,GPU 的新用途反映了現有技術的選擇。隨著機器學習熱度越來越高,專門為這些應用程序設計硬件的想法也變得更有吸引力。業內的討論聚焦于將現場可編程門陣列(FPGA)和專用集成電路(ASIC)作為機器學習下一個主要平臺的可能性。
FPGA 不同于 CPU 和 GPU,因為它不在
存儲的
內存中運行程序。相反,FPGA 是標準化「邏輯塊」的集合,一旦收到制造商的芯片,編程人員就可以配置這些邏輯塊之間的關系。ASIC 是專門為某一目的而設計的芯片板,在制造后不容易重新配置。
在機器學習推理的背景下,FPGA 和 ASIC 特別有吸引力。這兩種設備的能耗都小于 CPU 和 GPU,而且由于它們更加專業,其速度也更快。這些優勢以損失靈活性、增加成本為代價。FPGA 和 ASIC 無法輕易、快速配置來用于執行各種各樣的任務。與 CPU 和 GPU 相比,它們都更貴一些。ASIC 價格更高,因為它是「定制」項目,生產成本高、耗時長。這使得它們只有在大量使用時才具有成本效益。
前景
目前仍然不清楚更專門化、更不靈活的硬件是否會取代 GPU 在機器學習訓練和推理中的地位。FPGA 和 ASIC 生產商發布的性能基準表明在兩類任務上它們都能顯著超越 GPU。谷歌聲稱,相比當前的 GPU 和 CPU,其 TPU ASIC 能以 15 到 30 倍的速度執行推理。而聚焦于機器學習專用硬件的創業公司 Graphcore 也聲稱,他們的 8 塊「IPU」卡擁有相當于 128 塊當前 GPU 卡的性能。
盡管如此,基準問題仍然存在,系統地評估這些宣言也很有挑戰性。GPU 領導者英偉達對谷歌宣稱的 TPU 性能提出了挑戰,并指出谷歌的芯片無法與英偉達最新一代硬件進行比較。同時,半導體行業目前并不像在 CPU 領域中那樣擁有評估機器學習專業硬件的通用方案。
影響:訓練和推斷的地理布局
1.推斷的地理布局
機器學習可以不斷被集成到各種產品和服務中,并且在一些以前認為不切實際的情況下使用。對于公民自由意志主義者來說,FPGA 和 ASIC 支持將機器學習作為一種監控手段來使用:小型、低功耗的設備現在可以結合計算機視覺的進步來識別人和物體,即使是在帶寬較低的地區。對于那些擔心機器學習被濫用的人來說,專門化硬件可能效果更好,因為其中的不法活動更容易被追蹤和截斷。
另一個令人擔憂的事實是,當發現缺陷后,FPGA 和 ASIC 不夠靈活的架構可能會使修復機器學習系統變得更具挑戰性。越來越多的研究繼續強調這一點,即機器學習系統經常會產生偏見、歧視性的結果,并且可能容易受到惡意操縱。當一個訓練好的機器學習模型被「硬連線」到芯片中時,發現它有這些缺陷可能會使修復過程變得更加昂貴和漫長,因為它需要更換處理器本身,而不是修改軟件。這種問題在「嵌入式」環境中比較常見,在這種環境下,芯片隨產品一起銷售和分發,一旦芯片離開工廠,就沒有統一的方法來改變它們的行為。
同時,FPGA 和 ASIC 也提出了一種可能性,即機器學習可能會以更穩健的隱私保護方式來構建。因為專門的計算能力使得機器學習推斷能夠在設備端完成。
隨著用于機器學習的 FPGA 和 ASIC 進入市場,并試圖在該技術的應用中找到可行的位置,這種情況一直懸而未決。
2.訓練布局
意識到訓練布局和推理布局非常不同是很重要的。FPGA 和 ASIC 在傳統上限定于作為機器學習系統訓練的平臺。同時,在使用專業硬件進行訓練這一方向上,谷歌和其它公司也在持續探索,近期的現實情況表明對于很多研究者和從業者而言,在訓練階段中 GPU 仍然是主導。并且由于訓練過程在可見未來內也許仍然是計算密集的,很可能機器學習模型的構建將仍然在集中化的數據中心上進行。
這種機理模式會影響機器學習的管理。對最復雜、最精細模型的訓練將繼續在少數有財力維持或租用必要計算能力的參與者中進行。然而,一旦訓練完成,機器學習模型就可以更廣泛地傳播與部署。毫無疑問,一些類型的機器學習模型將繼續接受「作為服務」,推理會在云中進行。然而,FPGA 和 ASIC 打開了推斷的大門,不再局限于這種特殊方式。同時,這些平臺——特別是 ASIC——更加不靈活,使得分布后更加難以修改。
第三部分:供應鏈和算力
CPU、GPU、FPGA 和 ASIC 都是復雜的半導體全球供應鏈中的最終產品。上文我們探討了改變計算架構對機器學習的社會影響,現在我們深挖半導體制造業更廣泛的商業影響力。
半導體制造業的地理位置和在國家安全中的戰略資產地位使得算力成為 AI 地緣政治的重要競技舞臺。
半導體供應鏈
第二部分討論的硬件平臺只是半導體行業的一個維度。半導體芯片,這種「由數十億部件組成,用于
存儲、傳輸和處理數據的小型
電子設備」是「信息時代的基礎建設技術」。這些芯片使計算機能夠運行軟件應用,是「從
手機到游戲系統,再到飛機和工業器械、軍事設備和武器」等大量設備的關鍵組成部分。鑒于其廣泛應用,半導體是一個體量龐大的全球行業。2015 年,全世界的半導體銷售額達到 3350 億美元,比 2012 年增長 15%。
生產一塊半導體芯片需要很多步驟。一些公司是「集成器件制造商」(IDM),管理從始至終的整個半導體生產流程,包括設計、制造、裝配、測試和包裝。采用該模型的企業包括英特爾、
三星和德州儀器。
但是,很多企業僅負責供應鏈中的特定部分,將該生態系統中的任務按需求外包給其它公司。在機器學習硬件的討論中,「無晶圓廠(fabless foundry)」的角色非常重要。這些企業主要負責設計半導體芯片然后將芯片制造工序外包出去,通常叫做「fabrication」。采用這一模型的企業包括 AMD、Broadcom、Qualcomm。機器學習硬件開發的領導企業中有很多都是「fabless」。這樣這些企業就避免了大量資金支出,節省了構建和維護芯片「制造」的費用。建立一家半導體制造高級工廠耗資可能高達 200 億美元。
GPU 市場由英偉達主導,這是一家無晶圓廠(fabless)。根據一份行業分析,2017 年第三季度,英偉達占 GPU 市場份額高達 72.8%,剩余份額由 AMD(另一家 fabless foundry)控制。兩家公司的總部都在加州圣塔克拉拉。
FPGA 市場同樣由幾家 fabless foundry 主導。2016 年,賽靈思以 53% 的市場份額主導 FPGA 市場。另一家 FPGA 生產商 Altera 公司占據 36% 的市場份額,該公司于 2015 年被英特爾收購。隨后是競爭者 Microsemi (7%) 和萊迪思半導體公司(Lattice Semiconductor)(3%)。從 2015 年開始 FPGA 市場的局勢大致保持穩定。這些公司全都在美國,且除了萊迪思,其它公司的總部都在加州。
評估機器學習專用芯片 ASIC 的市場份額則更具挑戰性。首先,該市場仍在快速發展:目前在 ASIC 的大規模生產和銷售方面沒有強力玩家。截至本文寫作時,僅谷歌將其 TPU ASIC 分配給少數研究者,并通過谷歌云服務提供有限的 TPU 計算循環(computing cycle)。由于這些芯片是為特定目標而高度定制的,最終定義 ASIC 這一「市場」可能比較有難度。
由于機器學習硬件的主導者是「fabless foundry」,它們依靠該生態系統中的其它公司來提供其設計芯片的實際產品。僅制造芯片的這些公司叫做「純晶圓代工企業」(pure play foundry)或「晶圓代工廠」(foundry),該領域是高度整合的。2016 年,臺積電(TSMC)占據晶圓代工全球市場的 59%。其后是 GlobalFoundries(11%)、聯華電子 (UMC) (9%) 和中芯國際 (SMIC) (6%)。TSMC 和 UMC 的總部在臺灣,SMIC 在中國,GlobalFoundries 在美國。盡管 GlobalFoundries 在美國,但是它由阿布扎比酋長國國有投資機構阿布扎比高級技術投資公司(ATIC)控股。
設計機器學習芯片的主要「fabless foundry」之間的關系較為穩定,少數企業承包芯片制造任務。在 GPU 領域,英偉達將大量高性能 GPU 生產任務外包給臺積電。2009 年,GlobalFoundries 不再屬于 AMD 芯片制造業務的一部分,因為當時 AMD 謀求轉型為「fabless foundry」。由于這一歷史關系,AMD 與 GlobalFoundries 合作密切,不過 AMD 最近宣布將把新 GPU 生產任務分配給 GlobalFoundries 和臺積電。
在 FPGA 領域,芯片設計者和代工廠之間的關系稍微不同。賽靈思過去與聯華電子合作,但是近期硬件的生產將更多與臺積電合作。Altera 2015 年被英特爾收購,它主要承接英特爾的硬件制造任務。萊迪思與聯華電子和臺積電合作,還有一些小的代工廠。
這些競爭者的地理分布反映了該行業的整體結構。美國企業占據全球市場的最大份額,2016 年半導體銷售額占全球市場的 50%。但是,半導體設備的實際制造主要在美國以外的其它地區。2015 年,世界 3/4 的高級半導體制造產能位于韓國、臺灣、日本。這將繼續推動半導體制造從美國向亞太地區的轉移這一歷史趨勢。1980 年,美國占據全球半導體制造產能的 42%,這一數字逐年下降,2007 年該數字降至 16%。