Cómo aprovechar al máximo sus inversiones en IA/ML: comience con su infraestructura de datos



Estamos emocionados de traer de vuelta Rework 2022 en persona el 19 de julio y virtualmente del 20 al 28 de julio. Únase a los líderes de inteligencia synthetic y datos para charlas perspicaces y oportunidades emocionantes para establecer contactos. Regístrese hoy!


La period de Huge Information ha ayudado a democratizar la información, creando una gran cantidad de datos y aumentando los ingresos en las empresas de base tecnológica. Pero a pesar de toda esta inteligencia, no estamos obteniendo el nivel de conocimiento del campo del aprendizaje automático que uno podría esperar, ya que muchas empresas luchan por hacer aprendizaje automático (ML) proyectos accionables y útiles. Un programa exitoso de AI/ML no comienza con un gran equipo de científicos de datos. Comienza con una sólida infraestructura de datos. Los datos deben ser accesibles a través de los sistemas y estar listos para el análisis para que los científicos de datos puedan hacer comparaciones rápidamente y entregar resultados comerciales, y los datos deben ser confiables, lo que apunta al desafío que enfrentan muchas empresas al iniciar un programa de ciencia de datos.

El problema es que muchas empresas se lanzan primero a la ciencia de datos, contratan costosos científicos de datos y luego descubren que no tienen las herramientas o la infraestructura que los científicos de datos necesitan para tener éxito. Los investigadores bien pagados terminan dedicando tiempo a categorizar, validar y preparar datos, en lugar de buscar información. Este trabajo de infraestructura es importante, pero también pierde la oportunidad de que los científicos de datos utilicen sus habilidades más útiles de una manera que agregue el mayor valor.

Desafíos con la gestión de datos

Cuando los líderes evalúan las razones del éxito o el fracaso de un proyecto de ciencia de datos (y 87% de los proyectos nunca llegan a la producción), a menudo descubren que su empresa trató de adelantarse a los resultados sin construir una base de datos confiables. Si no tienen esa base sólida, los ingenieros de datos pueden gastar hasta 44% de su tiempo mantenimiento de canalizaciones de datos con cambios en las API o estructuras de datos. La creación de un proceso automatizado de integración de datos puede hacer que los ingenieros recuperen el tiempo y garantizar que las empresas tengan todos los datos que necesitan para un aprendizaje automático preciso. Esto también ayuda a reducir costos y maximizar la eficiencia a medida que las empresas desarrollan sus capacidades de ciencia de datos.

Los datos limitados producen conocimientos limitados

El aprendizaje automático es quisquilloso: si hay lagunas en los datos o no están formateados correctamente, el aprendizaje automático no funciona o, lo que es peor, da resultados inexactos.

Cuando las empresas se encuentran en una posición de incertidumbre acerca de sus datos, la mayoría de las organizaciones le piden al equipo de ciencia de datos que etiquete manualmente el conjunto de datos como parte del aprendizaje automático supervisado, pero este es un proceso que requiere mucho tiempo y conlleva riesgos adicionales para el proyecto. Peor aún, cuando los ejemplos de entrenamiento se recortan demasiado debido a problemas de datos, existe la posibilidad de que el alcance limitado signifique que el modelo ML solo puede decirnos lo que ya sabemos.

La solución es garantizar que el equipo pueda extraer datos de un almacén de datos central y completo, que abarque una amplia variedad de fuentes y proporcione una comprensión compartida de los datos. Esto mejora el ROI potencial de los modelos ML al proporcionar datos más consistentes con los que trabajar. Un programa de ciencia de datos solo puede evolucionar si se basa en datos confiables y consistentes, y una comprensión de la barra de confianza para los resultados.

Grandes modelos vs. datos valiosos

Uno de los mayores desafíos para el éxito programa de ciencia de datos es equilibrar el volumen y el valor de los datos al hacer una predicción. Una empresa de redes sociales que miles de millones de interacciones cada día puede utilizar el gran volumen de acciones de valor relativamente bajo (por ejemplo, alguien deslizando hacia arriba o compartiendo un artículo) para hacer predicciones confiables. Si una organización está tratando de identificar qué clientes es possible que renueven un contrato al last del año, es possible que esté trabajando con conjuntos de datos más pequeños con grandes consecuencias. Dado que podría llevar un año averiguar si las acciones recomendadas resultaron exitosas, esto crea limitaciones masivas para un programa de ciencia de datos.

En estas situaciones, las empresas necesitan romper los silos de datos internos para combinar todos los datos que tienen para impulsar las mejores recomendaciones. Esto puede incluir información de terceros capturada con contenido privado, datos de sitios net propios y datos de las interacciones de los clientes con el producto, junto con resultados exitosos, tickets de soporte, encuestas de satisfacción del cliente, incluso datos no estructurados como comentarios de los usuarios. Todas estas fuentes de datos contienen pistas sobre si un cliente renovará su contrato. Al combinar los silos de datos en los grupos comerciales, las métricas se pueden estandarizar y hay suficiente profundidad y amplitud para crear predicciones confiables.

Para evitar la trampa de disminuir la confianza y los rendimientos de un programa de ML/AI, las empresas pueden seguir los siguientes pasos.

  1. Reconoce dónde estás — ¿Su negocio tiene una comprensión clara de cómo ML contribuye al negocio? ¿Tu empresa tiene la infraestructura lista? No intente agregar detalles sofisticados a los datos borrosos: tenga claro desde dónde comienza, para no adelantarse demasiado.
  2. Obtenga todos sus datos en un solo lugar — Asegúrese de tener un servicio de nube central o un lago de datos identificado e integrado. Una vez que todo esté centralizado, puede comenzar a actuar sobre los datos y encontrar cualquier discrepancia en la confiabilidad.
  3. Gatear-caminar-correr — Comience con el orden correcto de las operaciones a medida que desarrolla su programa de ciencia de datos. Primero concéntrese en el análisis de datos y la inteligencia comercial, luego cree ingeniería de datos y, finalmente, un equipo de ciencia de datos.
  4. No olvides lo básico — Una vez que haya combinado, limpiado y validado todos los datos, estará listo para hacer ciencia de datos. Pero no olvide el trabajo de «limpieza» necesario para mantener una base que brinde resultados significativos. Estas tareas esenciales incluyen invertir en la catalogación y la higiene de los datos, asegurarse de apuntar a las métricas correctas que mejorarán la experiencia del cliente y mantener manualmente las conexiones de datos entre los sistemas o usar un servicio de infraestructura.

Al construir la infraestructura adecuada para la ciencia de datos, las empresas pueden ver qué es importante para el negocio y dónde están los puntos ciegos. Hacer el trabajo preliminar primero puede brindar ROI sólido, pero lo que es más importante, preparará al equipo de ciencia de datos para lograr un impacto significativo. Obtener un presupuesto para un programa llamativo de ciencia de datos es relativamente fácil, pero recuerde que la mayoría de estos proyectos fracasan. No es tan fácil obtener un presupuesto para las tareas de infraestructura «aburridas», pero la gestión de datos crea la base para que los científicos de datos generen el impacto más significativo en el negocio.

Alexander Lovell es jefe de producto en cincotran.

Tomadores de decisiones de datos

¡Bienvenido a la comunidad VentureBeat!

DataDecisionMakers es donde los expertos, incluidos los técnicos que trabajan con datos, pueden compartir información e innovación relacionadas con los datos.

Si desea leer sobre concepts de vanguardia e información actualizada, mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DataDecisionMakers.

Incluso podrías considerar contribuyendo con un artículo ¡tuyo!

Leer más de DataDecisionMakers