基礎設施的下一個重大機遇：為智慧系統提供基石

編者按：本文編譯自Venturebeat原題為“Infrastructure 3.0: Building blocks for the AI revolution”的文章，作者LENNY PRUSS, AMPLIFY PARTNERS。

無論如何，我們已經進入了機器學習和人工智慧的時代。大量資料的彙集、廉價的存儲、彈性計算和演算法的進步，尤其是在深度學習方面，已經把以前僅限於科幻小說的想像帶到了現實中應用。

在複雜的戰略遊戲中，機器已經超越了人類，更不用說圖像識別，語音轉錄，以及其他的進步，這些都使我們對判斷什麼是人類，什麼不是人類的假設更加複雜。基於語音的個人助理是司空見慣的，而完全自動化的車輛似乎就要在馬路上開起來了。

鑒於最近的這些進展，

圍繞機器學習和人工智慧的大部分對話都集中在演算法及其應用方面的突破。儘管可以理解，但在討論中明顯沒有提到這些智慧系統的基礎設施。

就像在電腦最開始的時候，我們需要組合語言，編譯器和作業系統方面的專業人士來開發一個簡單的應用程式，所以今天你需要大量的統計和分散式系統博士來構建和部署人工智慧。目前我們缺失了能讓機器學習和人工智慧可用的抽象理論和工具。所以，機器學習和人工智慧仍然是一個有限而昂貴的學科，僅供少數精英工程組織使用。

那麼最終就會影響到基礎設施發展的滯後，迄今為止，機器學習技術的基礎設施遠遠落後于技術創新的發展。

簡而言之，當前實際機器學習時代的系統和工具不適合為將來產生的智慧應用提供支援。

未來，需要一個全新的工具鏈，來釋放機器學習和人工智慧的潛力，使開發人員和企業能夠操作和使用，先不用說平易近人了。那麼，基礎設施的下一個重大機遇就是為智慧系統提供基石。

從基礎設施1.0到2.0及更高版本

應用程式和基礎架構逐步發展。

硬體或系統軟體的進步使堆疊層層疊疊，誕生了新的應用程式品種。這些應用程式已經成熟並逐漸耗盡了其基礎資源，催化了基礎架構層面的後續創新。模組構建更好，更快，更便宜的興起，不可避免地會導致應用程式向最終使用者提供以前無法預知的體驗。這種潮起潮落勾畫了從打孔卡延伸到PowerPoint到Pinterest的技術發展輪廓。

90年代末和90年代早期的商業互聯網由x86指令集（Intel），標準化作業系統（Microsoft），關聯式資料庫（Oracle），乙太網（Cisco）以及網路資料存儲（EMC）組成。亞馬遜， eBay，雅虎，甚至穀歌和Facebook最早的反覆運算都建立在這個我們稱為基礎設施1.0的骨幹上。

然而，隨著網路的成熟，從1995年的1600萬用戶會在2015年底，增長到超過30億，應用程式的規模和性能要求發生了變化。對於網路規模巨人來說，在客戶伺服器時代和客戶伺服器時代所開發的技術對於企業運營已經不再可行了，也不太經濟。

相反，這些公司向內探索。結合從學術界，全世界Google， Facebook和亞馬遜那裡的優秀的平行計算技術專家定義了一個新的基礎架構類別，它是可擴展的，可程式設計的（通常也是）開源的和商業化的。

Linux， KVM， Xen， Docker， Kubernetes， Mesos， MySQL， MongoDB， Kafka， Hadoop， Spark等等這類技術定義了雲時代。我的同事Sunil Dhaliwal將這種轉變描述為基礎設施2.0

最終，這一代技術專門用於將互聯網擴展到數十億最終使用者，並有效存儲從這些使用者獲取的資訊。這樣做，基礎設施2.0的創新催化了資料增長的急劇增長。結合幾乎無盡的平行計算和演算法的進步，這個基礎設施的舞臺就是為今天的實用型機器學習的時代而設定的。

基礎設施3.0：走向智慧系統

基礎設施2.0最終關心的問題是“我們如何連接世界？”

如今一代的技術把這個問題改成了“我們如何理解世界？”

這種連通性與認知的區別，使得機器學習與人工智慧與前幾代的軟體截然不同。編碼認知的計算挑戰是它顛倒了經典的程式設計範例。

在傳統應用中，邏輯是機器通過完成人的手動編碼來執行特定的任務，而在機器學習與人工智慧中，則是機器自己通過訓練演算法從資料庫推斷邏輯，然後執行這個邏輯來做出有關世界的決定和預測。

最終這會是一個“聰明”的應用程式，但是其資料異常密集且計算成本昂貴。這些性質使得機器學習和人工智慧不適合於過去七十多通用的多重目的的馮·諾依曼計算範式。相反，機器學習和人工智慧代表了一個基本的新架構，需要重

新思考基礎架構，工具和開發實踐。

但迄今為止，機器學習和人工智慧的研究和創新的優勢一直致力於新演算法，模型訓練技術和優化。具有諷刺意味的是，機器學習和人工智慧系統中只有一小部分代碼用於學習或預測。相反，大部分複雜的任務是資料準備，特徵設計以及大規模執行這些任務所需的分散式系統基礎架構的操作上。

成功建立和部署機器學習和人工智慧需要一個複雜且精心調控的工作流程，這其中涉及多個離散系統。首先，需要收集資料，清洗資料並且做好跟蹤標籤。然後，必須確定預測所依據的適當屬性（稱為特徵）。最後，開發人員必須對模型進行訓練並進行驗證，執行並不斷優化。從開始到結束，這個過程可能需要幾個月的時間，即使是最技術精通的組織。

為了讓機器學習和人工智慧充分發揮潛力，它必須從目前的學術型學科畢業，成為一個實踐型工程學科。這意味著在實踐中需要有新的抽象理論，介面，系統和工具，使得開發人員能夠輕鬆地開發和部署智慧應用程式。

這些必要的演變不是在抽象理論中微小轉變，或者在過程中漸進式改進。相反，它們在系統設計和開發工作流程中都是破壞性的，基礎性的變化。

相應地，在堆疊的每一層，我們都開始看到為機器學習和人工智慧範例而優化的新平臺和工具。機會很多：

•帶有許多計算內核和高頻寬記憶體（HBM）的專用硬體非常接近處理器裸片。針對神經網路需要的快速，低精度，浮點運算，這些晶片針對性優化神經網路的高度並行數值計算。

•具有可將計算降至電晶體級別，高效實現硬體設施的系統軟體。

•分散式運算框架，用於訓練和推理，可以在多個節點之間高效地擴展模型操作。

•資料和中繼資料管理系統，實現可靠，統一和可重複的管道，用於創建和管理訓練和預測資料。

•極低延遲的服務基礎架構，使機器能夠根據即時資料和上下文快速執行智慧操作。

•模型解釋，品質保證，調試和可觀測性工具，可以大規模地監測，反思，優化模型和應用。

•封裝整個機器學習和人工智慧工作流程的端到端平臺，從最終用戶中抽象出複雜性。例如Uber's Michelangelo和Facebook的FBLearner等內部系統，以及像確定AI *這樣的商業產品。

就在過去的十年裡，雲本地堆疊的出現，在接下來的幾年裡，我們也期待著龐大的基礎設施和工具生態系統能夠圍繞機器學習和人工智慧進行合併。

放大合作夥伴：初步基礎架構3.0堆疊

總的來說，這個時代的基礎設施3.0的創新將是釋放機器學習和人工智慧的潛力，為智慧系統提供構建模組。和前幾代一樣，將會出現新的項目、平臺和公司，這些公司會出現並挑戰現有的在職人員。這個迫在眉睫的機器學習和人工智慧革命的基礎架構提供商將成為未來的基礎設施巨頭。

謝謝埃文·斯帕福特大學的Evan Sparks，斯坦福大學的Dawn的Peter Bailis，UC Berkeley的RiseLab的Joey Gonzalez和Robert Nishihara以及Amplify Partners的同事們的觀點和意見。

Amplify Partners是確定的AI的投資者。

Lenny Pruss是Amplify Partners的合夥人，專注于分散式系統和基礎設施，開發工具和安全。

編譯組出品。編輯：郝鵬程

（36氪編譯組出品，未經許可禁止轉載）

機器學習和人工智慧系統中只有一小部分代碼用於學習或預測。相反，大部分複雜的任務是資料準備，特徵設計以及大規模執行這些任務所需的分散式系統基礎架構的操作上。