Personas del mundo de los negocios de todas partes son conscientes de que algo repentino y drástico está sucediendo. He aquí cinco indicios importantes:
- El número de transistores de un circuito integrado se sigue duplicando cada dos años. La densidad de almacenamiento se duplica cada trece meses. La cantidad de datos transmisibles por fibra óptica se duplica cada nueve meses.
- El acceso a internet de banda ancha dentro del G-20 ha crecido de 800 millones (de los cuales el 50% es banda ancha móvil) en 2010 a 27.000 millones (de los cuales el 80% es móvil) en 2015.1 Hay entre 1.000 y 2.000 millones más de personas en el mundo que tienen un teléfono móvil que las que tienen una cuenta bancaria… o un retrete.2 Las ventas de teléfonos inteligentes en 2013 alcanzaron los 1.000 millones de unidades (el 66% más que en 2012). Los smartphones son la tecnología más rápidamente adoptada de la historia.
- Facebook tiene 1.300 millones de usuarios activos, el 64% de los cuales visita el portal a diario (durante unos veinte minutos de media). Cada día hay 45.000 millones de «me gusta» nuevos.3 Cada año se suben a internet medio billón de fotografías y a YouTube cien horas de vídeo por minuto.
- El número de sensores IP superará los 50.000 millones en 2020.4 Las tarjetas de identificación por radiofrecuencia (RFID, por sus siglas en inglés) cuestan hoy solo cinco centavos. Los cálculos varían, pero entre 2017 y 2025 se prevé que el número total de sensores en el mundo oscile entre uno y diez billones.
- El 90% de los datos almacenados en el mundo se generó en los últimos dos años.5 De ellos, el 99% está ya digitalizado y más de la mitad habilitado para IP, lo que quiere decir que técnicamente se pueden subir y divulgar en internet. Potencialmente, la mitad de los conocimientos mundiales están almacenados en un único documento.
Casi todo esto ha sido verdaderamente repentino: la reaceleración del cambio tecnológico que parece haberse producido en la última década, después del parón que siguió a la burbuja de las puntocom y a pesar de la recesión global, es realmente desconcertante. La gente habla de «tecnologías disruptivas» en referencia a cambios que aquellos a quienes afectan no saben cómo abordar. Los directivos de empresas consolidadas quieren algo más específico que la noticia de que su destino es sufrir una «disrupción» provocada por unos chavales de Silicon Valley. Pero dado el ritmo actual del cambio, sería insensato predecir lo que el futuro depara a negocios o empresas específicas. Apple, por ejemplo, ha sido declarada «difunta» por analistas de los medios de comunicación sesenta y cuatro veces desde abril de 1995.6 Mientras escribo este ensayo es la empresa con mayor valor del mundo.
El 90% de los datos almacenados en el mundo se generó en los últimos dos años. De ellos, el 99% está ya digitalizado y más de la mitad habilitado para IP
Para hacer frente a este grado de fluidez e incertidumbre, el estratega necesita volver a los principios básicos. No podemos dar por hecho que las bases tradicionales en las que se apoya la ventaja competitiva vayan a perdurar, ni que la «excelencia» ganada a base de esfuerzo y construida según el modelo de negocio actual sea la destreza indicada para el futuro. No sabemos quiénes serán nuestros competidores futuros, ni cuáles serán los límites actuales de los negocios y de la industria. Necesitamos dar un paso atrás y reconsiderar el vínculo entre tecnología y estrategias de negocios.
Creo que el principio general es el siguiente: dos fenómenos de envergadura, ambos provocados por las tecnologías de la información, están remodelando la organización interna, la estrategia de negocios y la estructura de las industrias. El primer fenómeno es la deconstrucción de las cadenas de valor: la desintegración de negocios integrados verticalmente a medida que los estándares y la interoperabilidad sustituyen a las interfaces gestionadas. El segundo es la polarización de las economías de masa, que significa que, en determinados sectores, las economías de escala y experiencia están desapareciendo, mientras que en otras se están intensificando. La polarización «negativa», en la que las economías basadas en la escala y la experiencia se han debilitado, conduce a la fragmentación de actividades, a menudo llegando al extremo en que las empresas son sustituidas por individuos como actores principales en algunas comunidades. La polarización «positiva», donde estas economías se han fortalecido, conduce a la concentración de actividades; ejemplos extremos serían las compañías de servicios públicos, las cooperativas o los monopolios. La consecuencia combinada de estas tendencias es reemplazar la organización «vertical» por una «horizontal», en una transposición de la matriz industrial.
La deconstrucción de las cadenas de valor y la polarización de las economías de masa están remodelando la organización interna y la estrategia de las industrias
Esto no convierte en obsoletas las empresas tradicionales, pero a menudo significa que tienen que rediseñar su papel y replantearse su definición de negocio. Necesitan establecer relaciones colaborativas con comunidades, en especial las de usuarios, en las que los individuos o los propietarios individuales son más flexibles, están mejor informados sobre el uso final de los productos o pueden innovar con costes más bajos. Por otro lado, deben establecer relaciones colaborativas con otras instituciones, quizá incluso con la competencia, para alcanzar economías de escala y experiencia que de otro modo les resultarían inaccesibles. Para ambas partes, la estrategia se convierte en una cuestión tanto de colaboración como de competencia.
En el ámbito interno, las empresas necesitan hacer lo mismo. La innovación y la experimentación a pequeña escala se consiguen mejor en grupos flexibles, donde los individuos y los equipos de pequeño tamaño gozan de mayor autonomía. A la inversa, las funciones que tienen que ver con la escala y la experiencia han de centralizarse transversalmente, reconduciendo a toda la organización hacia una estructura más funcional. De esta manera, la arquitectura interna de la empresa se convierte en un conjunto de plataformas en las que se desarrollan actividades a escala más pequeña y con ciclos de tiempo más cortos. Una plataforma puede superponerse a la otra. Y la arquitectura de una «industria» entera también puede ser así, con determinadas compañías haciendo de plataforma para comunidades de usuarios finales. El patrón es fractal.
Estas tendencias están bastante generalizadas y explican muchas de las disrupciones ocurridas en industrias. Pero son especialmente aplicables a los big data. La expresión «big data» no solo hace referencia a gigantescos conjuntos de datos y a software exótico. Significa también tratar los datos como una infraestructura: centralizada, segura, de escala masiva y construida a modo de recurso general y no para un uso final específico. También requiere tratar el proceso de inferencia como una «superestructura»: iterativa, táctica, granular, modular y descentralizada. Si se conjugan ambas cosas de manera interna, se está reemplazando una organización basada en el producto o en el mercado por una organización funcional. Si se conjugan de forma externa, el resultado es un desafío fundamental —una disrupción— para muchos modelos de negocio tradicionales.
Así, los big data no son un fenómeno único o aislado, sino la punta del iceberg de un conjunto mucho más amplio y profundo de tendencias que están remodelando el mundo empresarial. Es una cuestión que deben abordar los consejeros delegados.
En este ensayo me propongo explicar de forma general la lógica de la deconstrucción y polarización de la escala y a continuación aplicarla al caso específico de los big data. Espero que, al dar un paso atrás para ampliar la perspectiva, podamos apreciar su importancia estratégica y organizativa a largo plazo.
Deconstrucción
Las actividades se pueden integrar verticalmente por dos razones posibles: la necesidad técnica de coordinar una interfaz compleja o ambigua y/o la necesidad moral de integrar los intereses de las dos partes interesadas sin contratos ni abogados. La tecnología resta fuerza a ambos argumentos. Tal y como lo diría un economista, la tecnología abarata los costes de transacción.
Los principales impulsores técnicos son, por supuesto, los «grandes exponenciales», es decir, los costes cada vez más bajos de cómputo, almacenamiento y comunicación. La primera gran consecuencia es que las dos partes de una transacción pueden tener acceso a mucha más cantidad de información —y más puntualmente— sobre la otra y también sobre alternativas a ella. La búsqueda, la comparación, el benchmarking, la calificación, la determinación de precios, la negociación o la auditoría se vuelven infinitamente más baratos y exhaustivos. En el contexto de esta explosión de accesibilidad, se impone la necesidad de estándares: simplificar interfaces, determinar las expectativas mutuas, promover la interoperabilidad y alimentar el efecto red. Al abaratar las interfaces, los estándares reducen y a menudo eliminan la necesidad de coordinación técnica.
El argumento moral es algo menos obvio. Las asimetrías en la información inhiben transacciones («¿qué sabe el vendedor de este coche usado que yo no sepa?»). Por lo general, la tecnología aumenta la simetría de información entre las partes de una transacción. Por tanto, la tecnología puede mitigar las ineficiencias económicas que se derivan de comportamientos racionales defensivos de la parte menos informada. Cuando se puede consultar el historial de reparaciones de un coche en un terminal situado debajo del salpicadero, al comprador y al vendedor les resulta mucho más fácil cerrar el trato.
Las tecnologías electrónicas sitúan a las partes de una transacción ante un público virtual. Los sistemas de valoración de Amazon, Etsy y Yelp dan a cada producto o vendedor una «reputación» acumulativa que es garantía de confianza
Además, las tecnologías electrónicas pueden situar a las partes de una transacción ante un público virtual. Los sistemas de valoración gestionados por Amazon, Etsy y Yelp dan a cada producto o vendedor una «reputación» acumulativa que es garantía de confianza. Amazon anima a sus clientes a que evalúen no solo el producto, sino también a los que valoran, y concede estrellas y distintivos a quienes contribuyen más y con mayor consistencia. Cuanto más visible y persistente es la reputación, más se puede confiar en que el individuo se esforzará por conservarla actuando en consecuencia; cuanto mayor es la confianza, menor es la necesidad de negociar, supervisar, de ver por uno mismo, de redactar o hacer valer un contrato. La reciprocidad es un capital social establecido entre las dos partes, «cablea» la confianza porque requiere la inversión de múltiples transacciones entre las partes para que se establezca la confianza mutua. La reputación, por el contrario, es portátil dentro de una comunidad: la confianza que se gana en un contexto sirve también en otro; la reputación «programa» la confianza. La tecnología hace posible un cambio a gran escala de reciprocidad a reputación, incrusta la reputación en datos y permite que crezca más allá de los límites tradicionales geográficos o institucionales.
Los costes de transacción hacen las veces de «gastos iniciales» de una transacción. Así, unos costes de transacción menores reducen el tamaño mínimo de las transacciones y hacen posible ejecutar otras más pequeñas y granulares (eBay empezó como sitio de compraventa de máquinas dispensadoras de caramelos Pez). Y esto se alimenta a sí mismo. Cuanto menor sea la transacción, menores serán los beneficios de acciones oportunistas donde se corre el riesgo de empañar la reputación al ser sorprendido intentando aprovecharse de la parte contraria. Por ello, las personas y las compañías tienen más razones de peso para evitar el comportamiento oportunista; otras personas tienen, por consiguiente, más razones de peso para confiar en ellas. Las transacciones arrojan datos, los datos apuntalan la confianza, la confianza posibilita las transacciones. Es un círculo virtuoso.
La visibilidad abarata los costes de transacción mediante otro mecanismo cada vez más relevante en los big data, crea un «coste negativo» de las transacciones derivado del valor de la información generada como subproducto: los «datos de desecho». Siempre que las partes objeto de los datos sean indiferentes a los usos adicionales que se hagan de ellos —¡esta condición es importante!—, esta ventaja inicial rebaja los costes netos de la transacción. Cuando este valor positivo es lo bastante alto, puede garantizar que el servicio ofrecido resulte gratuito a cambio de la captura de los datos de la transacción. Este es, por supuesto, el modelo de muchos servicios de internet, en especial de motores de búsqueda y de redes sociales. La gratuidad a su vez elimina otro tramo de costes de transacción que de otro modo serían necesarios para mantener cuentas, facturar y cobrar (la mitad de los costes de la telefonía, por ejemplo, corresponden a facturación). Si quienes hacen la transacción son —o deberían ser— indiferentes, es otra cuestión. La transparencia puede generar confianza, pero también la requiere. Confianza en la entidad que recoge y usa los datos.
La manera exacta de funcionamiento de esta lógica varía, claro está, de un ámbito a otro. Pero sus elementos son tan predecibles y combinables como los ingredientes de la carta de un restaurante chino: estándares, interoperabilidad, simetría de la información, confianza basada en la reputación, «gratuidad»; todos en el contexto de una conectividad global de bajo coste. La generalización de los grandes exponenciales y la implacable presión a la baja que ejercen sobre las transacciones conducen a una debilitación, y en numerosos casos desaparición, de la argamasa universal que mantiene unidas las cadenas de valor. Este proceso se llama deconstrucción.
Polarización de las economías de masa
En una industria de estructura tradicional, los negocios compiten en cadenas de valor similares e integradas verticalmente que abarcan todo un conjunto de actividades heterogéneas y más o menos secuenciales: abastecimiento, mecanización, ensamblado, distribución, publicidad, etcétera. La ventaja de un elemento puede muy bien verse neutralizada por la desventaja de otro. Muchas actividades están experimentando un regreso a la escala y/o la experiencia —he acuñado la expresión «de masa» para englobar ambas—, pero muchas otras no. Incluso puede haber actividades que han vuelto a la masa con efectos negativos; a saber, cuando se hacen más grandes pierden flexibilidad y aumentan los gastos generales. Por esta razón, extrayendo el patrón medio de todos los componentes de la cadena de valor, hemos observado solo un aumento leve de los beneficios para el negocio en su conjunto. Por tanto, en una industria ya consolidada podrían sobrevivir múltiples competidores y su rentabilidad estaría relacionada de forma positiva —aunque no abrumadora— con la cuota de mercado.
Pero la deconstrucción, al descomponer distintos eslabones de la cadena de valor y permitirles que evolucionen de manera independiente, socava el patrón «medio» de beneficios de las economías de masa. En lugar de ello, cada elemento de la cadena evoluciona según sus propias leyes.
La deconstrucción socava el patrón «medio» de beneficios de las economías de masa. En lugar de ello, cada elemento de la cadena evoluciona según sus propias leyes
Si las economías de masa son negativas, su actividad se fragmentará, quizá dando lugar a un conjunto de entidades de pequeño tamaño, como las comunidades de desarrolladores y productores que florecen en plataformas como iOS, Alibaba y Valve. En casos extremos, individuos autónomos forman comunidades para practicar la «producción entre pares» de bienes de información. Los usuarios del bien o servicio son a menudo los más motivados y están óptimamente posicionados para hacer mejoras por interés propio. Además, si la contribución es información, compartir sus mejoras no les comporta coste alguno. Las contribuciones pueden hacerse en cantidades tan pequeñas que las motivaciones no económicas —ya sea diversión, altruismo, reputación o búsqueda de reconocimiento— pueden bastar. Esto tal vez se deba únicamente a que las personas están deseando donar su trabajo, a que las tareas pueden desmenuzarse ahora en partes mas pequeñas con costes bajos, a que la gestión jerárquica se limita en determinadas circunstancias a estar ahí sin intervenir o a que existe un fenómeno inefable y emergente de inteligencia colectiva, pero el caso es que funciona. De ahí Wikipedia, Linux o la cartera de reseñistas de libros de Amazon. Edificios intelectuales coherentes construidos con miles de contribuciones autónomas y no remuneradas.
Lo que resulta nuevo aquí no es la posibilidad de que existan comunidades productivas (que son, después de todo, una forma tribal de coordinación que antecede tanto a los mercados como a la organización jerárquica), sino la nueva capacidad que tienen las comunidades de expandirse (es decir, de aumentar su tamaño o escala). Con la escala llegan la complejidad, la estructura emergente y la fuerza gravitatoria del efecto red. Para ciertas clases de producción, las comunidades de escala global no solo consiguen hacer las cosas, al mismo tiempo también obtienen ventajas económicas sobre jerarquías corporativas y mercados tradicionales.
Y si las economías de masa son claramente positivas, también puede ocurrir lo contrario. La actividad se concentra y pueden convertirse en monopolios. En ocasiones, las economías de escala han estado presentes, pero encerradas e inaccesibles dentro de las cadenas de valor de empresas rivales. Otras veces, como con las redes de fibra óptica, la ciencia genómica, la informática en la nube y por supuesto los big data, las economías de escala han prosperado gracias a las nuevas tecnologías.
Deconstruir datos
¿Cómo afecta esta lógica a «los datos»? La respuesta inmediata es que la digitalización —que es un proceso en gran medida completado— permite la deconstrucción y a esto se suma que estamos entrando en una etapa de polarización. Las economías de masa (de escala y de experiencia) están polarizándose a favor de lo muy grande, es decir, de los big data. Pero también lo están haciendo en beneficio de lo muy pequeño, a medida que equipos e individuos se convierten en vehículos capaces de extraer «grandes ideas».
Los datos fueron un subproducto de otras actividades. Eran algo análogo y de vida breve, generado y consumido in situ o transmitido por cadenas de valor, de forma similar —o igual, más bien— a las tarjetas kanban en una cadena de montaje de Toyota. A continuación, la mayoría de las veces se desechaban o, si se conservaban, se filtraban y formateaban en esquemas rígidos como contabilidad, con fines limitados y preestablecidos.
Los datos, igual que toda la información, tienen unos costes fijos de creación o recogida, así que, antes incluso de la digitalización, su rentabilidad para las economías de escala estaba en función de la amortización de esos costes fijos. Y la lógica de la inferencia estadística siempre ha dictado que más datos proporcionan más información, que tal vez proceden del número de patrones o discriminaciones que pueden inferirse llegado un determinado nivel de confianza, o de la confianza con la que se consigue extraer una conclusión determinada. Pero hasta hace poco estas economías de escala y experiencia no han predominado debido a restricciones en la recogida, el almacenaje, la transmisión, el procesamiento y los análisis de los datos. Trabajábamos con conjuntos de datos más pequeños porque no podíamos recopilarlos todos, ordenarlos y que nos salieran las cuentas sin incurrir en grandes gastos. Las economías de escala y experiencia inherentes a los datos estaban, pues, atrapadas en procesos, lugares y cadenas de valor.
Pero la digitalización redujo a cero los costes de replicar datos, la comunicación amplió el radio de alcance de esta replicación a escala universal y los gastos de almacenamiento se dividen por mil con cada década que pasa. El «internet de las cosas» es lo que nos permite reunir datos; la movilidad ubicua es una de las muchas maneras en que los producimos, transferimos y consumimos; y la nube es la arquitectura para su almacenaje y cómputo. Las economías de «masa» se extienden: las de escala lo hacen aprovechando los flujos de datos y las de experiencia explotando la acumulación de bancos de datos. «Los datos quieren ser grandes» y, por fin, la tecnología lo ha hecho posible.
En consecuencia, está creciendo la escala eficiente mínima para los datos y las instalaciones que los albergan, primero superando la capacidad de unidades de negocio individuales dentro de una empresa y, en última instancia y en muchos casos, rebasando la capacidad de la propia compañía. De ahí la aparición de la computación en la nube y de los centros de datos remotos, en primer lugar dentro de las empresas y luego externalizados a proveedores como Amazon, que tienen economías de escala aún mayores. A medida que los datos crecen, se vuelve lógico tratarlos como una infraestructura: general en su cometido, intensiva en capital y que da soporte a una multiplicidad de actividades. Se convierte en algo duradero pero al tiempo fluido.
Sin embargo, la recopilación de datos en sí misma es de valor muy limitado. Lo valioso es la información que puede derivarse de estos. Esta «gran información» exige que el proceso analítico crezca en paralelo a los big data que utiliza. Puesto que la complejidad analítica a menudo supera en proporción al número de puntos de datos empleados, nuestra capacidad de analizar conjuntos de datos de gran tamaño no está garantizada por el progreso de los grandes exponenciales anteriormente mencionados. Un superordenador Cray que ejecuta métodos de análisis tradicionales a velocidad asombrosa no es la solución al problema de analizar conjuntos inmensos de datos. A partir de cierto punto, la máquina simplemente deja de trabajar. En lugar de esto, los expertos en estadística e ingenieros informáticos han desarrollado dos estrategias que permiten aumentar la escala de la información extraíble de los datos.
La primera estrategia es la iteración: no buscar una solución formal y total a un problema analítico, sino construir algoritmos computacionalmente más sencillos que predigan las respuestas con una exactitud cada vez mayor. Cualquier cálculo, de hecho el valor lógico de un punto de datos, es meramente provisional y susceptible de enmiendas y correcciones a medida que se recopilan más datos. En esencia, la inferencia se transforma en un proceso «bayesiano» que consiste en revisar cálculos de probabilidades a medida que se incorpora nueva información. Y la inferencia se convierte en un proceso antes que en un acto. En lugar de resolver un problema una vez, se hacen continuas aproximaciones y reaproximaciones a la solución.
Expertos en estadística e ingenieros informáticos han desarrollado dos estrategias que permiten aumentar la escala de la información extraíble de los datos: la iteración y la descomposición
La segunda estrategia es la descomposición: solucionar un problema de envergadura dividiéndolo en partes pequeñas que pueden computarse en paralelo. Se trata de una rama de la estadística en rápida evolución y que se ocupa de encontrar nuevas maneras de solventar en paralelo problemas que tradicionalmente se habían resuelto de forma secuencial. Estas soluciones se pueden calcular, no con una supercomputadora, sino con baterías de servidores básicos baratos y de bajo rendimiento. Así es como los centros de datos, que tienen cientos de miles de estos servidores, se convierten en depositarios no solo de big data, también de gran información computable. Los datos no van a la consulta, la consulta debe ir hasta los datos.
La iteración y la descomposición juntas permiten aumentar la escala de extracción de conocimiento. El ejemplo por excelencia de esto es el buscador de Google. El problema subyacente es cómo calcular la «centralidad» de cada página de la World Wide Web, definida por el número de páginas que apuntan a ella, pero sopesando cada una por su propio grado de centralidad. En términos matemáticos, consiste en calcular algo llamado «centralidad de vector propio», una sencilla operación de álgebra lineal. El problema es que el número de operaciones aritméticas necesarias para solucionarla es proporcional al tamaño al cubo de la World Wide Web, y con 4.500 millones de páginas web no es factible. La genialidad de Larry Page fue desarrollar un algoritmo que conseguía aproximarse a la solución de este problema lo suficiente para fines prácticos. Se llama PageRank. Para aplicar el algoritmo, Google ejecuta un rastreador o crawler, un software que busca continuamente páginas y vínculos nuevos en internet. El contenido de las páginas y su ubicación se reindexan y almacenan de forma continua literalmente en millones de servidores. Cada servidor puede incluir, por ejemplo, una lista de direcciones y PageRanks de todas las páginas web que contienen una palabra concreta. Cuando hacemos una búsqueda en Google, el trabajo pesado lo hace un programa llamado Map/Reduce, que descompone nuestra petición en las palabras que la constituyen, las envía a los servidores de indexación pertinentes y a continuación recompone los resultados para ofrecer las páginas que mejor responden a la consulta. El programa Map/Reduce no necesita saber dónde está un índice específico; en su lugar hay una capa de software «virtualizadora» llamada Big Table que se interpone entre los programas Map/Reduce y los servidores encargados de indexar. Big Table añade servidores, hace copias de seguridad, reasigna datos de un servidor a otro y sortea máquinas que fallan, todo ello sin necesidad de que el software Map/Reduce se entere.
Los tres principios —datos como infraestructura, iteración y descomposición— trabajan juntos en el buscador de Google en la solución de problemas que serían insolubles con métodos convencionales, y lo hacen a escala global. Y en un cuarto de segundo. Esto puede parecer extraño y exótico, pero en realidad se reduce a tres principios aplicables a cualquier entorno corporativo.
Los datos como infraestructura, la iteración y la descomposición trabajan juntos en el buscador de Google para solucionar problemas insolubles con métodos convencionales
Google Search tiene otra consecuencia complementaria importante: elimina las economías tradicionales de escala y experiencia del proceso de búsqueda. La persona que consulta no necesita ser bibliotecario profesional ni estar físicamente en una institución investigadora. Le basta con una conexión a internet y un buscador. De esta manera, lo que era una profesión, o al menos una actividad de plena dedicación, se convierte en una actividad informal y al alcance de cualquiera. Dentro de la propia arquitectura de Google ocurre lo mismo. Con un coste muy pequeño, Google puede añadir nuevos algoritmos como Spellcheck y Google Translate, que se sitúan encima de Big Table y acceden a exactamente los mismos datos y la misma infraestructura computacional. Equipos pequeños y autogestionados de ingenieros pueden experimentar con productos y servicios nuevos apoyándose en los servidores encargados de indexar y en Big Table para que hagan todo el trabajo pesado y de gran escala.
Google pone su infraestructura a disposición de otros. Ha publicado cerca de setenta IPA o interfaces de programación de aplicaciones que permiten acceder a los recursos de Google a cualquiera que tenga una página web y nociones básicas de programación. Así es como el restaurante de la esquina utiliza un widget de Google Maps en su página web para dar información de cómo llegar. En total, hay publicadas unas 12.000 IPA procedentes de distintas compañías. Además, hay toda una industria familiar que ha producido unas 6.000 aplicaciones llamadas mashups (híbridas) combinando estas IPA para crear servicios nuevos de pequeña escala. Estos servicios pueden ser negocios pequeños, actividades de tiempo libre, modas pasajeras, etcétera, da lo mismo; precisamente porque los recursos necesarios son tan pequeños, los costes de experimentación y de fracaso resultan casi insignificantes. Lo muy pequeño florece apoyado en lo muy grande.
Los big data nacen no solo como un nuevo conjunto de técnicas, sino como una arquitectura diferente para los negocios y las industrias
De esta manera nacen los big data, no solo como un nuevo conjunto de técnicas, sino como una arquitectura diferente para los negocios y las industrias. Las interfaces interoperativas como las IPA y Big Table permiten que distintas funciones evolucionen de acuerdo con sus economías respectivas. «Deconstruyen» la cadena de valor tradicional de inferencia lineal. Una vez que estas interfaces están instaladas, los activos de gran escala (sobre todo datos y centros de datos) y las actividades de gran escala (principalmente computaciones descompuestas y de gran tamaño) pueden centralizarse y gestionarse en términos de eficacia, capacidad, utilización, seguridad y fiabilidad. De hecho, el rendimiento de análisis a gran escala puede —y, cada vez más, debe— ser reubicado a los centros de datos, con los propios datos. Pero a la inversa, actividades como la alteración de algoritmos, la combinación y recombinación de diferentes recursos de información para hacer frente a requerimientos específicos o la experimentación han dejado de ser de gran escala. Ahora cualquiera puede hacerlas en cualquier parte. Los costes de ensayo-error, de replicación y de redundancia se vuelven insignificantes. El «ecosistema» en su conjunto explota la simbiosis entre estas dos clases de actividades: la infraestructura gestionada en aras de la eficiencia y las comunidades autoorganizadas en aras de la innovación, la personalización y la adaptabilidad. El equilibrio clásico entre eficiencia e innovación se ha refinado radicalmente.
Así pues, comunidades, industrias artesanales, diletantes, equipos autoorganizados, aficionados y pluriempleados que han florecido gracias a inmensas plataformas creadas por Google y empresas similares pueden hoy competir contra profesionales de organizaciones tradicionales. La empresa típica se ve, en consecuencia, amenazada desde dos frentes. En uno, por enjambres de individuos y pequeños grupos con capacidad de innovar, adaptar y experimentar a un coste menor. En otro, por organizaciones que tienen una escala y un nivel de experiencia que las sobrepasan. Es posible que una empresa típica sea a la vez demasiado grande y demasiado pequeña.
Demasiado grandes: explotar el poder de las comunidades
Las empresas pueden abordar el problema de ser demasiado grandes, lentas e incómodas de gestionar poniendo sus datos al servicio de la energía y la imaginación de comunidades externas. Es lo mismo que hace Google con sus IPA y Amazon con sus reseñas de clientes (¡y no se trata precisamente de compañías novatas!). Esto es arriesgado. Se puede estar violando la propiedad intelectual y hay que proteger la privacidad. Minoristas como Amazon se arriesgan a perder ventas publicando reseñas negativas con la esperanza de que pesen más la confianza y la credibilidad de la tienda en conjunto.
Una de las formas de explotar la energía de las comunidades es mediante concursos. En 2006, Netflix organizó uno para mejorar su sistema de recomendación de películas. Publicaron un inmenso conjunto de datos anonimizado con las valoraciones que medio millón de clientes habían hecho de cerca de 20.000 películas. Netflix prometía un suculento premio de un millón de dólares para el primero que lograra mejorar su algoritmo de recomendaciones en el 10%. También se ofrecieron premios intermedios para los mejores algoritmos hasta la fecha, a condición de que se divulgaran parcialmente entre los otros competidores para estimular nuevas innovaciones. Netflix construía así de manera inteligente un entorno que favorecía tanto la competición como la colaboración. Los equipos compitieron durante más de tres años. Se concedieron premios intermedios, pero se motivaba a los ganadores para que compartieran sus progresos con otros si querían optar al premio gordo. El algoritmo ganador, desarrollado por un equipo mixto, mejoró la exactitud de predicción del sistema en el 10,9%. Un proyecto de I+D que le salió a Netflix extremadamente barato, con un conjunto de big data como única infraestructura y equipos de entusiastas de la programación compitiendo y colaborando de manera fluida. Una alianza entre los muy grandes y los muy pequeños.
Más recientemente, Orange, la compañía francesa de telecomunicaciones, hizo público un conjunto de datos sobre uso de telefonía móvil en Costa de Marfil, donde es la única operadora. Los datos recogían los patrones de uso durante cinco meses de unos 50.000 individuos seleccionados al azar y estaba completamente anonimizado. Revelaba cómo los usuarios de teléfonos móviles se desplazaban de un lugar a otro y quién hablaba con quién (por localización). La idea era simplemente invitar a los investigadores a que vieran qué podían sacar de un conjunto de datos tan rico. Uno de los proyectos más interesantes fue un análisis de varios investigadores en colaboración con IBM7 de patrones de viaje en Abiyán, la ciudad más poblada del país. Emplearon los datos de teléfonos móviles para averiguar de dónde salían y adónde llegaban los usuarios en sus desplazamientos diarios. Esto permitió reoptimizar las rutas de autobús de las ciudades, reduciendo potencialmente el tiempo de desplazamiento en el 10% sin necesidad de añadir más autobuses. Otra aplicación posible sería de gran utilidad para la sanidad pública: los patrones de movilidad física predecirían la propagación de epidemias y los patrones de comunicación podrían utilizarse en campañas de propaganda para ayudar a combatir la enfermedad. Cosas como estas hacen presagiar una revolución en la salud pública.
Seguramente, Orange sola no habría podido identificar estas realidades y mucho menos resolverlas; no es más que una empresa de telefonía. Pero el valor de los datos es mayor que la industria en la que se originaron y, al hacerlos accesibles a investigadores de todas partes, Orange está siendo pionera en una nueva manera de pensar en los negocios. Quizá, en un futuro, las operadoras de telefonía abandonen los teléfonos y se dediquen a explotar los datos; parece descabellado, pero también lo parecían los servicios de investigación gratuita antes de Google. Orange hace bien en experimentar. En el mundo de los big data, la información que estos pueden arrojar difícilmente será cognoscible antes de los hechos y de ningún modo resultará aparente para la institución que se ocupe de reunirlos.
Demasiado pequeño: construir una infraestructura de datos
Los big data rebasan los límites del modelo tradicional de negocio en lo referido a gestión de instalaciones físicas. Por eso, las compañías están externalizando las tareas de procesamiento de datos a proveedores de «computación en la nube». Proveedores de nube como Amazon Web Services cuentan con economías de masa respecto a sus clientes. La mayoría de los servidores del entorno corporativo que ejecutan una o dos aplicaciones solo alcanzan una utilización del 10 al 15%, debido a la necesidad de reservar capacidad para poder operar durante las horas punta. Amazon consigue una mayor utilización, explotando la llamada ley de los grandes números: mientras que las fluctuaciones en la demanda sean de alguna manera independientes, su suma es, proporcionalmente, menos volátil. Así, Netflix puede ofrecer sus películas desde instalaciones de Amazon porque sus horas punta —las noches— no coinciden con las de la mayoría de los otros clientes corporativos de Amazon, es decir, con el horario de oficina. Además, y esto es importante, la gestión de estas instalaciones requiere destrezas especializadas, una «competencia fundamental» de la que la empresa media puede carecer. Los especialistas son capaces de gestionar tiempos de operación, copias de seguridad, recuperación ante desastres, actualizaciones y parches de manera mucho más avanzada que la mayoría de los usuarios finales. Pueden responder con mayor rapidez a amenazas de seguridad. El proveedor de nube logra así concentrarse en las virtudes clásicas de la infraestructura general: fiabilidad, ubicuidad y eficiencia. Los clientes se ahorran dinero pero, sobre todo, ganan flexibilidad. Son capaces de movilizar recursos, aumentar la escala de los procesos, incluso desarrollar negocios por completo nuevos en cuestión de horas en lugar de semanas. La flexibilidad y la adaptación a bajo coste son posibles gracias a la descomposición de una cadena de valor en sus distintos componentes y a la gestión de las partes donde la escala influye en una organización separada.
Pero esta posibilidad no se limita a las instalaciones; también sirve para los propios datos. Puesto que el auge de los big data abre la posibilidad de conjuntos de datos mucho mayores y de análisis mucho más avanzados, surgen nuevas oportunidades para la ventaja competitiva.
En 1994, Tesco, el minorista de alimentación del Reino Unido, emitió una nueva tarjeta de fidelización llamada Clubcard. Contrataron a un equipo formado por un matrimonio, Clive Humby y Edwina Dunn, ambos matemáticos, para que hicieran algo revolucionario: deducir el comportamiento de los clientes usando lo que ahora llamaríamos «big data». Clubcard proporcionó a Tesco datos granulares de transacciones ordenados por código de barras, punto de venta, cliente y desplazamiento al punto de venta. Dunn y Humby cartografiaron el rango de alcance de productos de Tesco en cincuenta dimensiones abstractas: tamaño, rangos de precio, color, dulce-salado, etcétera. A continuación examinaron las cestas de productos que compraban las familias para establecer correlaciones entre dichas dimensiones. La compra de «productos de mercado» reveló variables de segmentación previamente invisibles, como la preocupación por el presupuesto familiar, la ansiedad relacionada con el estatus y el vegetarianismo. También otras variables de segmentación que nadie fue capaz de explicar, y que tampoco hacía falta hacerlo, ya que en el mundo de los big data basta con que exista una correlación. Tesco utilizó entonces esas correlaciones para identificar preferencias no obvias de clientes, determinar parejas de productos intercambiables o complementarios e impulsar categorías transversales de productos.
El auge de los big data abre la posibilidad de conjuntos de datos mucho mayores y de análisis bastante más avanzados; surgen así nuevas oportunidades para la ventaja competitiva
Los resultados fueron espectaculares. Las tasas de reembolso por cupones promocionales alcanzaron el 20% (comparado con el 1% del sector en general).8 Tesco ahorró unos 350 millones de dólares redirigiendo sus promociones de manera más eficiente. Y, gracias en gran medida al impulso proporcionado por Clubcard, superó a Sainsbury’s y se convirtió en la primera cadena de alimentación del Reino Unido.
Durante algunos años, Sainsbury’s se esforzó por encontrar una estrategia de respuesta. La superioridad de Tesco en escala y en experiencia acumulada parecía imbatible. Al final, optó por una táctica audaz: desbancar a Tesco abriendo Nectar, su tarjeta de fidelización, a otros minoristas. Nectar se lanzó en colaboración con los almacenes Debenhams, el gigante del petróleo BP y la compañía de tarjetas de crédito Barclaycard y la gestionó un agente neutral, una empresa llamada Loyalty Management Group. Desde entonces se le han unido más compañías. Los usuarios de Nectar obtienen puntos por gastar en otros minoristas y Nectar gana escala y rango de alcance para su base de datos de usuarios. Un rango de alcance grande puede compensar la desventaja inicial en cuanto a escala y experiencia. Pero el principio crítico es este: en la era de los big data, las economías de masa pueden expandirse más allá de los límites del concepto tradicional de negocio. De este modo, el valor y la ventaja pueden ser creados por nuevas instituciones, las encargadas de reunir los datos.
Las técnicas de big data se usarán en la medicina genómica para identificar patrones mínimos en la información de individuos, datos a tiempo real suministrados por sensores corporales y datos ambientales
Es de esperar que esta misma lógica pueda aplicarse a escala mucho mayor en la medicina genómica. Se usarán técnicas de big data para identificar patrones mínimos en la información genómica de individuos, en historiales médicos, síntomas, protocolos, resultados, datos a tiempo real suministrados por sensores corporales y datos ambientales. La medicina avanzará descodificando conjuntos de datos inmensos, interrelacionados, baratos e imprecisos, en lugar de los datos pequeños, en silos, caros, precisos y patentados que generan los informes médicos, los ensayos clínicos y los experimentos de laboratorio. Al acceder a estas bases de datos, los médicos, e incluso los pacientes, pueden convertirse en investigadores, y las buenas prácticas basadas en pruebas podrán extenderse por todas las comunidades médicas.
Pero entonces surge una pregunta incómoda: ¿cómo pueden juntarse todos estos datos si proveedores, aseguradores, fabricantes de dispositivos, compañías farmacéuticas, Google, pacientes y gobiernos no solo poseen distintas partes del total de datos sino que los protegen celosamente y compiten basándose en la ventaja que les proporcionan? Cuando tiene sentido unir conjuntos de datos, ¿cómo se van a proteger la privacidad y los derechos del paciente? La tecnología por sí sola no puede resolver estos problemas. La respuesta —la única posible— está en la arquitectura. Necesitamos una infraestructura de almacenes de datos fiable y neutral.
Estos cambios ya se están produciendo. Las organizaciones sin ánimo de lucro se están posicionando como plataformas para la anonimización, tutela y protección de bases de datos genómicas. El Three Million Person Genome Project está ya en marcha en Pekín. Los registros gestionados por universidades y asociaciones médicas se están convirtiendo en archivos dinámicos en los que se comparten datos de medicina basada en pruebas. Las nuevas tecnologías de anonimización y encriptado de datos harán compatible la necesidad científica de divulgar con el derecho personal a la privacidad. Construir una infraestructura de datos compartida será uno de los desafíos estratégicos de la próxima década en el sector sanitario y también para los legisladores.
Prioridades del gestor
Huelga decir que la prioridad inmediata respecto a los big data es de tipo operativo. Las personas responsables de la investigación de mercado, ingeniería de procesos, fijación de precios, gestión de riesgo, logística y otras funciones complejas necesitan dominar una gama completamente nueva de técnicas estadísticas. Numerosos analistas que se han formado muy recientemente —durante la última década— se encuentran con que sus destrezas han quedado ya obsoletas. Los departamentos de tecnologías de la información necesitan controlar el procesamiento de datos a una escala por completo distinta y a menudo a tiempo real, en vez de por tandas y fuera de línea. Los gestores no especializados han de tener cierta comprensión de las posibilidades y los escollos de los big data para poder trasladar su rendimiento a beneficios económicos prácticos. La visualización de datos se está convirtiendo en una interfaz clave entre el especialista y el que no lo es. Pero todas las compañías tarde o temprano llegarán a ese punto. Al igual que ocurrió con la transición de las hojas de cálculo en papel a Excel, las nuevas destrezas serán «mínimos exigibles» y no fuente de ventaja competitiva sostenible.
El mayor problema reside en el potencial que tienen los big data de crear «disrupción», en términos tanto de amenaza como de oportunidad. La deconstrucción y la polarización de las economías de masa son los dos vectores fundamentales de un probable ataque. La deconstrucción permite a una organización oportunista atacar un eslabón vulnerable de la cadena de valor de otra compañía, aunque sus áreas de negocio no guarden relación aparente. La polarización «negativa» de las economías de masa posibilita a pequeñas empresas, quizá incluso a comunidades de individuos no remunerados, abordar de forma conjunta una tarea determinada de maneras que las empresas no pueden imitar fácilmente. La polarización «positiva» de las economías de masa sirve a las empresas con conjuntos de datos verdaderamente grandes para abrirse camino en áreas de negocio nuevas, a menudo cediendo gratuitamente el producto o el servicio a cambio de acceso a más datos. En una alianza entre lo grande y lo pequeño, estas empresas a menudo ponen estos datos al servicio de comunidades, atacando así el modelo de negocio tradicional desde ambos flancos.
A modo de respuesta, la empresa tiene que aplicar estas mismas medidas a su propia estructura. Necesita deconstruir sus cadenas de valor, poner algunos de sus recursos al servicio de la energía de las comunidades y, por una vía u otra, impulsar sus recursos por encima de un umbral de masa crítica mucho más alto. No importa si el propósito es atacar o defenderse. Quizá requiera eliminar fronteras de negocios y redefinir las relaciones con clientes y proveedores. O también externalizar funciones previamente consideradas «fundamentales». Algunas de estas exigirán una descentralización radical o incluso una transferencia de la autoridad fuera de los límites de la empresa. En otras, exigirá una centralización radical de los recursos. La idea clave —de hecho, el corolario de la deconstrucción y la polarización— es que estas estrategias en apariencia contradictorias se complementan mutuamente.
Organizativamente, los big data obligan a las empresas a consolidar bases de datos para conseguir economías de masa internas
A medida que los big data transformen el mundo de los negocios, modificarán también dos de sus aspectos fundamentales: la organización interna y la arquitectura empresarial.
Desde el punto de vista organizativo, los big data obligan a las empresas a consolidar bases de datos para conseguir economías de masa internas. Necesitan establecer una «fuente única de verdad» (SPOT, por sus siglas en inglés) en tiempo real. Esto puede suponer un desafío inmenso, porque la información referida a un único cliente puede estar encerrada en distintas líneas de producto y en canales diferentes. La mayoría de las empresas no tienen capacidad para conectar sus datos online y offline de manera consistente. Reconstruir bases de datos heredadas de cero no es factible, así que los gestores tienden a articular un camino para la migración de datos por el cual la inversión en una arquitectura nueva y más funcional se va amortizando a medida que se implanta. Hay que cerrar el almacén de datos heredados, pero hay que hacerlo por etapas. Esto puede parecer desaconsejable desde el punto de vista económico, pero es que hay que valorarlo estratégicamente. De otro modo, un recién llegado, sin herencia, disfrutará de una ventaja inmensa. A la inversa, las destrezas analíticas necesarias para interrogar esa base de datos integrada, para encontrar la «gran información», han de ser, en última instancia, descentralizadas y transferidas a distintas unidades de negocio. Eso llevará tiempo, puesto que ahora mismo esas destrezas escasean y, por tanto, hay que dosificarlas. Las empresas tienen que desarrollar planes explícitos para gestionar esta evolución.
Las consecuencias de los big data para la arquitectura de las industrias están relacionadas con la capacidad de aprovechar las destrezas superiores de otros jugadores. Esto puede requerir externalizar la innovación, trasladarla a pequeños participantes, sobre todo clientes, poniendo a su disposición IPA y bases de datos patentadas. También externalizar el procesamiento y la gestión de instalaciones a un proveedor en la nube que disfrute de una economía de escala y de una experiencia superiores. Puede implicar además invertir en sociedades de datos para conseguir de manera conjunta una masa crítica que sería inviable individualmente. En todos los casos, la definición del negocio cambia para adaptarse a la evolución de la ventaja competitiva más allá de los límites del modelo de negocio tradicional.
Hay una última cuestión que en realidad rebasa los límites de este ensayo, pero cuya importancia no se puede dejar de señalar: los derechos de los datos. En la mayoría de los contextos de negocios resulta totalmente ambiguo quién es «dueño» de los datos personales y qué derechos tiene a usarlos. En teoría, hay un contrato que gobierna la relación entre el sujeto objeto de los datos y el que los utiliza. Pero en la práctica este contrato casi no significa nada. Los individuos objeto de los datos no se leen los contratos, a menudo no tienen otra alternativa que firmarlos y desconocen el uso real que se hace de esa información. Pero si se endurecieran los términos de intercambio de datos, tal y como han propuesto algunos legisladores, entonces su exploración para diversos fines legítimos quedaría truncada. Es poco probable que estas ambigüedades legales y de percepción se resuelvan de manera clara en los próximos años. Mientras tanto, el uso corporativo —y gubernamental— de los datos personales dependerá fundamentalmente del contexto en el que dichos datos se reúnan y utilicen y del grado de confianza del que gocen las organizaciones que los manejan. Determinar ese contexto y construir esa confianza serán desafíos fundamentales. En última instancia, la legitimidad con la que usen sus datos las empresas, a ojos de los clientes y de la sociedad, determinará el ritmo al que la revolución de los big data transformará nuestro mundo.
Notas
- <http://www.businessinsider.com/the-future-of-mobile-slide-deck-2013-3?op=1>
- <http://newsfeed.time.com/2013/03/25/more-people-have-cell-phones-than-toilets-u-n-study-shows>
- <http://www.pewresearch.org/fact-tank/2014/02/03/6-new-facts-about-facebook>
- <http://research.gigaom.com/report/a-near-term-outlook-for-big-data>
- <http://www.sciencedaily.com/releases/2013/05/130522085217.htm>
- <http://www.macobserver.com/tmo/death_knell>
- M. Berlingerio, F. Calabrese, G. Di Lorenzo, R. Nair, F. Pinelli y M. L. Sbodio, «AllAboard: A System for Exploring Urban Mobility and Optimizing Public Transport Using Cellphone Data», en Machine Learning and Knowledge in Databases, LNCS 8190, 2013, pp. 663-666.
- <http://www.information-age.com/channels/information-management/it-case-studies/277256/getting-relevant.thtml>
Comentarios sobre esta publicación