人工智能 (AI) 長期以來一直是熱門話題,但它對我們的社會和企業的影響才剛剛開始顯現。人工智能和其他形式的機器學習和深度學習將徹底改變業務,自動執行重複性任務並加速取得成果——所有這些都基於大量數據。
開發深度學習應用程序通常遵循以下三個步驟:
數據準備,將大量“原材料”轉化為可用數據模型訓練,對軟件程序進行訓練以從數據中學習新功能推理,其中(如暗示的那樣)程序將這種新學習應用於新數據
所有這些加起來會導致海量數據增長。行業分析師預測,非結構化數據(文件和對象)的容量在未來幾年內將增加一倍甚至三倍。這種增長的一大推動力是人工智能、機器學習和深度學習用例。
這個“下一個“數據時代”給 IT 基礎架構領導者帶來了一些明顯的挑戰。首先,數據集的規模和體積比以往任何東西都大得多。我們的一些客戶正在開發駕駛輔助技術——本質上是一種機器學習形式,特別是機器視覺——在短短幾年內生成了超過 EB 的數據。所以規模很大。
此外,深度學習應用對存儲基礎設施性能提出了巨大的要求。處理這些龐大的非結構化數據集需要極低的延遲,而且至關重要的是,性能必須在大規模情況下保持一致。基於串行硬盤驅動器的磁盤存儲系統根本無法滿足這些要求。這導致了全閃存文件和對象存儲的增長,並且隨著閃存價格的下降以及新架構使用非易失性內存高速 (NVMe) 等內存技術,這種增長將在未來五年加速,並且支持超低延遲分佈式存儲架構的遠程直接內存訪問 (RDMA)。因此存儲系統性能必須提高幾個數量級。
最後——數據不在一個地方。它是在數據中心之外生成的,它被移動到某個地方進行處理。這可能在公共雲中,可能在數據中心中,或者更可能是數據管道的一部分在兩個地方發生。因此,此數據在其整個生命週期中的移動和管理是一個主要考慮因素。而且,這些數據集將越來越多地保存數十年——而不是五年或七年。具體來說,用於數據準備的大型數據集以及模型本身可能會存儲數十年或更長時間,以防模型必須重新訓練。
所有這些因素都已經給傳統存儲架構帶來了壓力。世界上大部分非結構化數據都存儲在 20 多年前設計的系統中。這些系統是在大多數創建的文件是由人而不是設備創建的時候設計的,並且要存儲數十年的數万億個文件和對像以及 EB 級數據的概念還沒有出現。
對於 IT 基礎設施決策者來說,如果您的企業有數字化轉型計劃,或者基於人工智能、機器學習或深度學習的新業務計劃,您的數據存儲基礎設施可能會阻礙您的業務發展。它可能會影響每天依賴這些數據來產生結果的數據科學家、內容創建者和分析師的生產力。這肯定會導致您做出不公平的權衡以嘗試使其發揮作用。現在採取後續步驟評估下一代架構應該是什麼樣子,為下一代人工智能和深度學習應用程序提供動力。
圖片來源: Photon photo/Shutterstock
Eric Bassier 是 Quantum 的高級產品總監。