Por qué la IA distribuida es clave para impulsar la innovación de la IA



El futuro de la IA está distribuido, dijo Ion Stoica, cofundador, presidente ejecutivo y presidente de Anyscale el primer día de Transformación VB. Y eso se debe a que la complejidad del modelo no muestra signos de desaceleración.

“Durante los últimos dos años, los requisitos informáticos para entrenar un modelo de última generación, según el conjunto de datos, crecen entre 10 y 35 veces cada 18 meses,» él dijo.

Hace apenas cinco años, los modelos más grandes cabían en una sola GPU; avance rápido hasta hoy y solo para ajustarse a los parámetros de los modelos más avanzados, se necesitan cientos o incluso miles de GPU. PaLM, o Pathway Language Mannequin de Google, tiene 530 mil millones de parámetros – y eso es solo alrededor de la mitad de los más grandes, con más de 1 billón de parámetros. La empresa utiliza más de 6000 GPU para entrenar a los más recientes.

Incluso si estos modelos dejaran de crecer y las GPU continuaran progresando al mismo ritmo rápido que en años anteriores, aún pasarían unos 19 años antes de que sea lo suficientemente sofisticado como para ejecutar estos modelos de última generación en una sola GPU, agregó Stoica. .

“Fundamentalmente, esta es una gran brecha, que crece mes a mes, entre las demandas de las aplicaciones de aprendizaje automático y las capacidades de un solo procesador o un solo servidor”, dijo. “No hay otra forma de soportar estas cargas de trabajo que distribuirlas. Es tan easy como eso. Escribir estas aplicaciones distribuidas es difícil. Es incluso más difícil que antes, en realidad”.

Los desafíos únicos de escalar aplicaciones y cargas de trabajo

Hay varias etapas en la creación de una aplicación de aprendizaje automático, desde el etiquetado y preprocesamiento de datos hasta la capacitación, el ajuste de hiperparámetros, el servicio, el aprendizaje por refuerzo, and so forth., y cada una de estas etapas debe escalarse. Normalmente, cada paso requiere un sistema distribuido diferente. Para construir canalizaciones o aplicaciones de aprendizaje automático de extremo a extremo, ahora es necesario unir estos sistemas, pero también administrar cada uno de ellos. Y también requiere desarrollo contra una variedad de API. Todo esto agrega una gran cantidad de complejidad a un proyecto de AI/ML.

La misión del proyecto Ray Distributed Computing de código abierto y Anyscale es facilitar el escalado de estas cargas de trabajo informáticas distribuidas, dijo Stoica.

“Con Ray, tratamos de proporcionar un marco informático en el que se pueden crear estas aplicaciones de principio a fin”, dijo. “Básicamente, W Anyscale proporciona un Ray alojado y administrado y, por supuesto, funciones y herramientas de seguridad para facilitar el desarrollo, la implementación y la administración de estas aplicaciones”.

Computación híbrida con estado y sin estado

La compañía lanzó recientemente un producto sin servidor, que abstrae las funciones requeridas, eliminando la necesidad de preocuparse por dónde se ejecutarán estas funciones y aliviando la carga de los desarrolladores y programadores a medida que escalan. Pero con una infraestructura transparente, las funciones tienen una funcionalidad limitada (realizan cálculos, vuelven a escribir los datos en S3, por ejemplo, y luego desaparecen), pero muchas aplicaciones requieren operadores con estado.

Por ejemplo, el entrenamiento, que requiere una gran cantidad de datos, se volvería demasiado costoso si se escribieran de nuevo en S3 después de cada iteración, o si simplemente se movieran de la memoria de la GPU a la memoria de la máquina, debido a la sobrecarga de obtener el datos y luego, por lo common, serializar y deserializar esos datos.

“Ray, desde el primer día, también se creó en torno a este tipo de operadores que pueden mantener el estado y actualizarlo continuamente, lo que en la jerga de ingeniería de software program llamamos ‘actores’”, cube. “Ray siempre ha apoyado este modo twin de este tipo de computación sin estado y con estado”.

¿En qué entrada está la implementación de la IA?

Existe la tentación de decir que la implementación de la IA finalmente ha llegado a la etapa de caminar, impulsada en el viaje de transformación de la IA por la reciente aceleración del crecimiento digital, pero acabamos de ver la punta del iceberg, dijo Stoica. Todavía hay una brecha en el tamaño del mercado precise, en comparación con la oportunidad, related al estado de massive knowledge hace unos 10 años.

“Está tomando tiempo porque el tiempo [needed] no es solo para desarrollar herramientas”, dijo. “Es capacitar a la gente. Expertos en formación. Eso lleva aún más tiempo. Si observa los datos masivos y lo que sucedió, hace ocho años muchas universidades comenzaron a ofrecer títulos en ciencia de datos. Y, por supuesto, ahora hay muchos cursos, cursos de IA, pero creo que verá más y más cursos de IA y datos aplicados, de los cuales no hay muchos hoy en día”.

Obtenga más información sobre cómo la IA distribuida está ayudando a las empresas a impulsar su estrategia comercial y ponerse al día con todas las sesiones de Rework registrándose para obtener un pase digital gratuito aquí mismo.