Big Data: ¿a quién pertenece?

En 2010 Eric Schmidt, entonces consejero delegado de Google, hizo una declaración memorable durante una rueda de prensa en Abu Dabi: «Un día, en el curso de una conversación, caímos en la cuenta de que se podría [utilizar los datos que tiene Google de sus usuarios] para predecir la evolución del mercado bursátil. Y después decidimos que eso era ilegal. Así que dejamos de hacerlo».

El periodista John Battelle ha descrito Google como «base de datos de las intenciones [humanas]». Battelle destacó que las búsquedas realizadas en Google expresan necesidades y deseos humanos. Al almacenar todas esas búsquedas, más de un billón al año, Google puede crear una base de datos de tendencias humanas. Con ese conocimiento Google podría predecir los movimientos de los mercados bursátiles (y muchas más cosas). Por supuesto que ni Google ni nadie tiene una base de datos exhaustiva de las intenciones humanas. Pero parte del impacto causado por la frase de Battelle se debe a que sugiere que se aspira a conseguirlo. Serguéi Brin, cofundador de Google, ha dicho que en un futuro lejano las búsquedas consistirán en conectarse directamente con los cerebros de los usuarios. ¿Qué podría llegar hacer alguien en posesión de una base de datos que contuviera todas las intenciones humanas?

La base de datos de intenciones humanas es tan solo una pequeña parte de una idea mucho más amplia: una base de datos que contenga todo el conocimiento de la humanidad. Esta idea nos retrotrae a los primeros días de la informática moderna, cuando escritores como Arthur C. Clarke y H. G. Wells exploraban ideas futuristas de un «cerebro mundial». A diferencia de aquellos tiempos, ahora mismo hay una serie de empresas tecnológicas que participan en proyectos muy serios (aunque incipientes) para construir bases de datos que realmente contengan gran parte del conocimiento humano. Pensemos, por ejemplo, en el modo en que Facebook se ha constituido en medio de las conexiones sociales entre más de un millón de personas. O en cómo Wolfram Research ha integrado cantidades ingentes de conocimientos de matemáticas y ciencias naturales y sociales en Wolfram Alpha. O en los esfuerzos de Google para crear Google Maps, el mapa del mundo más detallado jamás elaborado, y Google Books, que aspira a digitalizar todos los libros existentes en el mundo (en todos los idiomas). Crear una base de datos que contenga todo el conocimiento humano es, además, rentable.

Estos datos brindan a las empresas un enorme poder para conocer el mundo. Consideremos los siguientes ejemplos: Mark Zuckerberg, consejero delegado de Facebook, ha utilizado datos personales para predecir qué usuarios de Facebook iniciarán relaciones sentimentales; analistas de mercado han empleado datos de Twitter para calcular los ingresos de taquilla de las películas; y Google ha utilizado criterios de búsqueda para detectar brotes de gripe en todo el mundo. Estos ejemplos no son más que la punta de un gigantesco iceberg. Con la infraestructura apropiada, los datos se pueden transformar en conocimiento, a menudo de forma sorprendente.

Lo que de verdad llama la atención en los casos arriba mencionados es la facilidad con la que se llevan a cabo estos proyectos. Un equipo reducido de ingenieros puede construir un servicio como Google Flu Trends, el servicio de Google para identificar brotes de gripe, en cuestión de semanas. Sin embargo, dicha capacidad depende del acceso a datos especializados y a las herramientas necesarias para dar sentido a esos datos. Esta combinación de datos y herramientas constituye una suerte de infraestructura de información, y solo unas pocas organizaciones, como Google y Facebook, tienen acceso a infraestructuras verdaderamente potentes. Sin dicho acceso resultaría muy complicado crear proyectos como Google Flu Trends, aun contando con los programadores más brillantes.

Hoy en día damos por hecho que solo un puñado de grandes compañías ¹ con ánimo de lucro y agencias secretas de inteligencia, como la NSA y la GCHQ, tienen acceso a una potente infraestructura de datos. Pero en este artículo voy a indagar en las posibilidades de crear una infraestructura pública de datos igualmente poderosa, una infraestructura que pueda usar cualquiera en cualquier lugar del mundo. Hablo de llevar los grandes datos (big data) a las masas.

Imaginemos, por ejemplo, que un becario de 19 años que trabaja para una institución sanitaria en un lugar cualquiera tiene una idea similar a Google Flu Trends. La institución para la que trabaja podría usar la infraestructura pública de datos para ensayar la idea rápidamente. O que un estudiante de posgrado de 21 años tiene una nueva idea para clasificar los resultados de una búsqueda. Una vez más, se podría usar la infraestructura pública de datos para comprobar su viabilidad. O tal vez un especialista en historia intelectual quiere entender cómo se han ido incorporando expresiones a un idioma con el paso del tiempo, o cómo se difunden las ideas en determinados grupos y se pierden en otros, o cómo ciertas historias tienen más gancho que otras para los medios de comunicación. Todos estos proyectos podrían llevarse a cabo fácilmente con una potente infraestructura pública de datos.

Experimentos de este tipo no salen gratis, de hecho, cuesta dinero real ejecutar una computación a través de clusters compuestos por miles de ordenadores. Y las personas que realicen los experimentos habrán de correr con dichos gastos. Pero hasta los programadores más novatos podrán realizar interesantes experimentos por solo unos cuantos dólares, experimentos que hoy en día resultan casi inviables hasta para los programadores de más talento.

Por cierto, cuando digo «infraestructura pública de datos», no me refiero necesariamente a una infraestructura de datos gestionada por el Gobierno. Lo importante es que el público pueda hacer uso de ella como una plataforma de descubrimiento e innovación, y no que sea de propiedad gubernamental. En principio podrían gestionarla organizaciones con o sin ánimo de lucro, o incluso una red flexible de individuos. Más adelante explicaré que existen buenas razones por las que dicha infraestructura debería ser gestionada por una organización sin ánimo de lucro.

Hay muchos proyectos en ciernes para construir una potente infraestructura pública de datos. Probablemente el más conocido sea Wikipedia. Consideremos la declaración de intenciones de la Wikimedia Foundation, que gestiona Wikipedia: «Imaginen un mundo en el que todo ser humano puede compartir gratuitamente la suma de todo el conocimiento. Pues ese es nuestro compromiso». Wikipedia tiene un tamaño impresionante, con más de cuatro millones de artículos en su edición en inglés. La base de datos de Wikipedia contiene más de 40 gigabytes de datos. Pero aunque esto parezca una enormidad, pensemos que Google trabaja habitualmente a una escala de petabytes, es decir ¡de millones de gigabytes! En comparación, Wikipedia resulta minúscula. Y es muy fácil adivinar el motivo de esta diferencia. Lo que Wikimedia Foundation considera «la suma de todo el conocimiento» es una franja muy estrecha de la cantidad de datos sobre el mundo que resultan útiles para Google, desde libros escaneados hasta datos generados por los coches sin conductor de Google (¡cada coche genera casi un gigabyte por segundo acerca de su entorno!). Y de este modo Google está creando una base de datos de conocimientos mucho más exhaustiva.

Otro fantástico proyecto público es OpenStreetMap, una organización sin ánimo de lucro que trabaja para crear un mapa gratuito y editable del mundo entero. Open-StreetMap es tan bueno que sus datos los usan servicios como Wikipedia, Craigslist y Apple Maps. Sin embargo, a pesar de la calidad de sus datos, OpenStreetMap aún no consigue igualar en cobertura a Google Maps, que tiene 1.000 empleados a tiempo completo y 6.100 subcontratados. La base de datos de OpenStreetMap contiene 400 gigabytes de datos. Y, una vez más, aunque parezca impresionante, se trata de una cifra ridícula comparada con la escala a la que operan compañías como Google y Facebook.

Por lo general muchos de los proyectos públicos existentes, como Wikipedia y OpenStreetMap, generan datos que se pueden analizar en un único ordenador usando software comercial. Las compañías con ánimo de lucro manejan infraestructuras de datos muy alejadas de esta escala. Sus clusters se componen de cientos de miles o incluso millones de ordenadores. Hacen uso de algoritmos inteligentes para realizar computación distribuida a través de esos clusters. Esto no solo requiere acceso a hardware, sino también a algoritmos y herramientas especializadas, y a equipos numerosos de personas muy brillantes con los escasos (¡y muy caros!) conocimientos necesarios para hacer que funcionen. Pero el gasto se compensa porque esta gran infraestructura de datos les brinda mucho más poder para comprender y modificar el mundo. La raza humana está construyendo en la actualidad una base de datos de todos los conocimientos mundiales, pero no no olvidemos que la inmensa mayoría de ese trabajo se lleva a cabo en bases de datos de propiedad privada.

Aún no he explicado lo que yo entiendo por una «base de datos de todo el conocimiento mundial». Está claro que se trata solo de una expresión y no —¡aún no!— de una descripción literal de lo que se está construyendo. Ni siquiera Google, la organización que más ha avanzado en esta tarea, ha dirigido demasiados esfuerzos directamente a este fin. ² Se han concentrado más bien en las necesidades prácticas del usuario, tales como búsquedas, mapas, libros, etcétera, recopilando en cada caso datos para crear un producto útil. Después han aprovechado los datos recopilados y los han integrado para crear otros productos. Así, por ejemplo, han combinado Android y Google Maps para construir mapas en tiempo real de la situación del tráfico en determinadas ciudades que luego se pueden visualizar en teléfonos Android. Los datos agrupados en Google Search se han utilizado para lanzar productos como Google News, Google Flu Trends y, el ahora desaparecido a pesar de su fama, Google Reader. Así pues, aunque Google no esté destinando recursos directamente a la construcción de una base de datos de todo el conocimiento mundial, su trayectoria sí nos ayuda a hacernos una idea cada vez más aproximada de cómo podría ser.

Por este motivo, a partir de ahora usaré sobre todo el término «infraestructura pública de datos». Para que lo entendamos de momento habrá que explicarlo con proyectos concretos. Tomemos, por ejemplo, un proyecto para crear un motor de búsqueda en una infraestructura abierta. Como ya he dicho, se trataría de una plataforma que permitiría a cualquier persona del mundo experimentar con nuevos modos de ordenar los resultados de las búsquedas y de presentar la información. O bien, un proyecto para la creación de una red social de infraestructura abierta en la que cualquier individuo del mundo pudiera experimentar nuevas maneras de conectarse con otras personas. A su vez, esos proyectos servirían de plataformas para otros servicios nuevos. ¿Quién sabe lo que puede llegar a inventar la gente?

La expresión «infraestructura pública de datos» quizá haga pensar en una base de datos creada por una organización concreta. Pero no me refiero exactamente a eso. Para crear una potente infraestructura pública de datos se precisa un vibrante ecosistema de organizaciones, cada una haciendo su propia aportación a la infraestructura pública de datos. Muchas serán pequeñas organizaciones que buscan su propio camino a la innovación o tratan de convertirse en plataformas nicho. También saldrá a la luz algún caballo ganador, organizaciones mayores que integran y aúnan gran cantidad de datos a un nivel superior. Así pues, cuando me refiero a la creación de una infraestructura pública de datos, no hablo de crear una organización única. Por el contrario, me refiero a la creación de un ecosistema de organizaciones en el que proyectos como Wikipedia y OpenStreetMap serían solo los miembros más veteranos.

Voy a describir brevemente cómo podría crearse una potente infraestructura pública de datos y qué consecuencias tendría. Pero antes debo aclarar que mi propuesta difiere en gran medida del concepto largamente debatido de los datos abiertos.

Muchas personas, incluido Tim Berners-Lee, el creador de la World Wide Web, han defendido la publicación abierta de datos online. Los partidarios de los datos abiertos creen que pueden transformar ámbitos como el gobierno, la ciencia y la ley mediante la publicación de datos cruciales sobre ellos.

Si esta visión de futuro llega a hacerse realidad, miles o millones de personas y organizaciones publicarán sus datos online.

Aunque los datos abiertos supongan una transformación, lo que yo propongo sigue siendo algo diferente (aunque complementario). El concepto de datos abiertos consiste en la publicación descentralizada de datos. Eso significa que están hablando en gran medida de pequeños datos. Yo, por el contrario, hablo de los grandes datos, de la acumulación de datos de muchas fuentes dentro de una infraestructura de datos potente y centralizada que después se haría accesible a todo el mundo. Hay una diferencia cualitativa. En otras palabras, la publicación abierta de datos es un buen comienzo, pero para disfrutar de todos sus beneficios necesitamos reunir datos de muchas fuentes dentro de una potente infraestructura pública.

¿Por qué el desarrollo de la infraestructura pública de datos debe hacerlo una empresa sin ánimo de lucro?

¿Es mejor que una infraestructura pública de datos la construyan empresas con ánimo de lucro? ¿O bien hay alguna solución mejor, como que la cree el Gobierno, o tal vez una red de colaboradores voluntarios organizados independientemente, sin una estructura institucional tradicional? En esta sección defiendo mi apuesta por una organización sin ánimo de lucro.

Primero voy a comparar organizaciones con y sin ánimo de lucro. En general, soy de la opinión de que las empresas con ánimo de lucro son las que llevan la tecnología al mercado. Sin embargo, en el caso de una infraestructura pública de datos, hay circunstancias especiales que hacen preferibles las organizaciones sin ánimo de lucro.

Para entender esas circunstancias especiales hemos de retroceder a finales de la década de 1980 y principios de la de 1990. Fue una época de estancamiento para el software, en la que sí se producía algún progreso, pero sin innovaciones de importancia. Esto se debía a que Microsoft ejercía un control absoluto de los sistemas operativos. Cada vez que una compañía descubría un nuevo mercado de software, Microsoft replicaba el producto y a continuación ejercía su control sobre los sistemas operativos hasta expulsar del mercado al descubridor original. Así sucedió con la hoja de cálculo Lotus 1-2-3 (aplastada por Excel), con el procesador de textos WordPerfect (aplastado por Word) y con muchos otros programas menos conocidos. Lo que ocurría, en efecto, es que esas otras compañías hacían todo el I+D del que luego se beneficiaba Microsoft. A medida que esto resultaba más evidente, la inversión en nuevas ideas para software fue perdiendo incentivos hasta desembocar en una década o más de estancamiento.

Todo eso cambió cuando apareció una nueva plataforma informática, el navegador web. En esta ocasión Microsoft no pudo echar mano de su dominio de los sistemas operativos para destruir a compañías como Google, Facebook y Amazon, ya que los productos de estas compañías no se ejecutaban (directamente) en sistemas operativos de Microsoft, sino en la web. En un principio Microsoft ignoró la web, una situación que no cambió hasta mayo de 1995, cuando Bill Gates distribuyó un memorándum a todo su personal titulado «The Internet Tidal Wave» (La marea de internet). Pero, cuando Gates cayó en la cuenta de la importancia de la web, ya era demasiado tarde para detener la marea. Microsoft realizó varios intentos para hacerse con el control de las especificaciones de la web, pero todos fueron rechazados por obra de organizaciones como World Wide Web Consortium, Netscape, Mozilla y Google. Así, la industria informática pasó de ser una plataforma de propietario (Windows) a una plataforma abierta (la web) que no pertenecía a nadie en particular. Como consecuencia, la innovación volvió con fuerza al software.

La moraleja aquí es que cuando las plataformas tecnológicas dominantes son de propiedad privada, el propietario puede secuestrar los mercados descubiertos por compañías que usan la plataforma. He puesto el ejemplo de Microsoft, pero hay muchos otros, como Apple, Facebook y Twitter, que se han aprovechado de ser propietarios de importantes plataformas tecnológicas para apoderarse de nuevos mercados. Sería mucho mejor para todos que las plataformas tecnológicas dominantes fueran operadas en interés público y no para usurpar cualquier innovación. Por suerte, eso es lo que sucedió tanto con internet como con la web y, por eso mismo, estas plataformas han supuesto un poderoso estímulo para la innovación.

Plataformas como la web e internet son un poco especiales, ya que, en primer lugar, son, básicamente, estándares, es decir, acuerdos ampliamente aceptados sobre cómo deben operar las tecnologías. Esas especificaciones a menudo son administradas por organizaciones sin ánimo de lucro, como World Wide Web Consortium e Internet Engineering Task Force. Pero no tiene ningún sentido decir que los estándares son propiedad de esas organizaciones sin ánimo de lucro, ya que lo que realmente importa es el amplio compromiso de la comunidad con dichos estándares. En otras palabras, los estándares los hacen los corazones y mentes, no los átomos.

En contraposición, una infraestructura pública de datos sería un tipo distinto de plataforma tecnológica. Cada elemento de dicha infraestructura acarrearía costes considerables asociados con la propiedad (o el leasing) y con la necesidad de operar grandes clusters de ordenadores. Y precisamente esos costes son lo que hacen necesaria la existencia de un propietario. Como ya hemos visto, si la infraestructura pública de datos fuera propiedad de empresas con ánimo de lucro, estas se aprovecharían siempre de la situación para apropiarse de cualquier innovación. La solución alternativa natural es, pues, que la infraestructura pública de datos sea propiedad de organizaciones sin ánimo de lucro comprometidas con el fomento y el apoyo a innovación sin pretender apoderarse de ella.

¿Y si fuera el Gobierno quien proporcionara la infraestructura pública de datos? Esto, de hecho, ya ocurre cuando se trata de datos directamente relacionados con el Gobierno, a través de iniciativas como Data.gov, el portal del Gobierno de Estados Unidos para sus datos locales. Pero resulta difícil creer que sería una buena idea dejar que sea el Gobierno quien suministre una infraestructura pública de datos de mayor alcance. La innovación tecnológica requiere que muchos grupos de personas expongan y sometan a prueba las ideas de otros grupos diferentes. Muchas de estas propuestas fracasarán, pero las mejores ideas saldrán adelante. Y ningún Gobierno del mundo ha demostrado ser capaz de gestionar eficazmente un modelo de desarrollo de este tipo por un periodo de tiempo prolongado. Dicho esto, iniciativas como Data.gov serán una importante contribución a la infraestructura pública de datos, pero no pueden constituir el núcleo de una potente infraestructura pública de datos de amplio alcance.

Una última posibilidad pasaría por que no fuera ningún tipo de organización quien desarrollara la infraestructura pública de datos, sino una red organizada de colaboradores independientes sin una estructura institucional al uso. En esta línea estarían proyectos como OpenStreetMap. Aunque su núcleo lo constituye una organización sin ánimo de lucro tradicional, es una entidad muy pequeña, que en 2012 contaba con un presupuesto de menos de 100.000 libras esterlinas. La mayor parte del trabajo lo lleva a cabo una red de voluntarios independientes. Este modelo funciona muy bien para OpenStreetMap, aunque en parte se debe al volumen de datos relativamente modesto que manejan. Los big data exigen organizaciones de mayor tamaño (y mayores presupuestos) debido a la potencia informática que requieren y a la necesidad de mantener el compromiso a largo plazo de suministrar un servicio fiable, una documentación eficaz y un soporte técnico. Todo pasa por establecer una organización duradera. Si bien un modelo mayoritariamente independiente puede ser excelente para iniciar dichos proyectos, con el tiempo habrá que hacer la transición hacia un modelo más tradicional de organización sin ánimo de lucro.

Retos para las organizaciones sin ánimo de lucro en el desarrollo de una infraestructura pública de datos

¿Cómo hará una organización sin ánimo de lucro para desarrollar dicha infraestructura pública de datos?

De entrada, resulta estimulante observar la proliferación de entornos de software de código abierto. Ohloh, una especie de índice de proyectos de código abierto en la red, actualmente presenta una lista de 600.000 proyectos. Con frecuencia, proyectos de código abierto como Linux, Hadoop y otros son líderes en su sector.

Y, a pesar de la existencia de este ecosistema de software de código abierto, sigue llamando la atención que la infraestructura pública de datos existente sea comparativamente tan pequeña. ¿Por qué son cada vez más las personas con acceso a estos códigos tan importantes y, sin embargo, la infraestructura de datos sigue siendo tan pequeña?

Para responder a esta pregunta lo mejor es explicar cómo se origina el software de código abierto. Los proyectos de código abierto por lo general empiezan de una de estas dos maneras: en forma de proyecto particular, aunque a menudo creado por programadores profesionales en su tiempo libre, como Linux; o como subproductos del trabajo de compañías con ánimo de lucro. Si analizamos cada uno de estos dos casos por separado, entenderemos por qué el software de código abierto se ha desarrollado muchísimo más que la infraestructura pública de datos.

Veamos antes las motivaciones detrás del software de código abierto creadas por empresas con ánimo de lucro. Un ejemplo es el proyecto Hadoop, que fue creado por Yahoo! para facilitar la ejecución de programas a través de enormes clusters de ordenadores. Cuando una compañía con ánimo de lucro deja abierto el acceso a sus códigos es porque no ve ventaja competitiva en conservar la propiedad de ese código. Aunque para Yahoo! es, evidentemente, esencial el manejo de grandes clusters de ordenadores, no está en sus previsiones usarlo como arma competitiva. Por eso no le supuso ningún problema abrir su código Hadoop y de este modo conseguir que otras personas y organizaciones lo probara y le ayudaran a mejorarlo.

En cambio, para muchas otras compañías de internet la propiedad de sus datos está en el centro de su negocio y no es probable que divulguen su infraestructura. A priori no hay nada que diga que tiene que ser así. Una empresa con ánimo de lucro podría tratar de crear un negocio ofreciendo una potente infraestructura pública de datos y descubrir ventajas competitivas que no tienen por qué incluir la propiedad de los datos (es mucho más probable que se centren en la logística y en la gestión de la cadena de suministro). De todos modos, creo que esto no ha sucedido aún porque, para las empresas, impedir el acceso a sus datos sigue siendo un modo natural y sencillo de conservar una ventaja competitiva. El inversor Warren Buffet ha explicado que para que una compañía tenga éxito necesita un foso, una ventaja competitiva fuera del alcance de otras organizaciones. Para Google y Facebook, como para muchas otras compañías de internet, la infraestructura de datos internos es ese foso.

¿Qué pasa con los proyectos que nacen como un pasatiempo? Si un proyecto como Linux se originó como una afición, entonces ¿por qué no hay proyectos de infraestructura pública de datos iniciados del mismo modo? El problema es que construir una infraestructura de datos exige un compromiso mucho mayor que la creación de un código abierto. Un proyecto de código abierto exige tiempo, pero muy poca inversión económica. Se puede hacer durante los fines de semana o después del trabajo. Como ya he dicho, construir una infraestructura de datos eficaz requiere tiempo, dinero y un compromiso a largo plazo para suministrar un servicio fiable, una documentación eficaz y un soporte técnico adecuado. Y todo esto exige una organización que funcione durante largo tiempo. Hay que superar obstáculos mucho mayores que en el caso del software de código abierto.

¿Qué haría falta para crear un ecosistema vibrante y saludable de organizaciones sin ánimo de lucro que trabajaran en el desarrollo de una infraestructura pública de datos?

Es una pregunta cuya respuesta excede los límites de este breve artículo. Pero citaré de pasada dos importantes obstáculos para que esto se pueda materializar recurriendo a los mecanismos de financiación tradicionales de las organizaciones sin ánimo de lucro, que son las fundaciones, las subvenciones y otras fuentes filantrópicas similares.

Para explicar el primero de estos obstáculos utilizaré el ejemplo de la empresa sin ánimo de lucro Ludicorp. En 2003, Ludicorp lanzó un juego online llamado Game Neverending. Después de dicho lanzamiento, Ludicorp incorporó una función para que los jugadores pudieran intercambiarse fotografías. Los programadores de repente se dieron cuenta de que la gente ya no entraba en el juego y se limitaba a intercambiarse fotos, ignorándolo por completo. Al observar esto, tomaron una decisión audaz. Se deshicieron del juego y relanzaron su página unas semanas más tarde como un servicio para compartir fotografías, al que dieron el nombre de Flickr. Flickr llegó a convertirse en la primera aplicación de fotos compartidas online y finalmente fue adquirida por Yahoo!. Aunque, desde que fue adquirida, Flickr ha ido decayendo, en su día fue una de las páginas web más visitadas del mundo.

Historias como esta son tan comunes en los círculos tecnológicos que incluso tienen un nombre. Los emprendedores hablan de pivoting cuando descubren que alguno de los conceptos básicos de su modelo de negocio estaba equivocado y necesitan probar otro camino. El emprendedor Steve Blank, una de las personas que ha desarrollado este concepto de pivoting, ha ideado la siguiente y muy acertada definición de compañía startup: «una organización creada para identificar un modelo de negocio repetible y escalable». Cuando Ludicorp descubrió que compartir fotos era un negocio escalable de un modo que el Game Neverending no lo era, hizo lo correcto: optar por el pivoting.

Este tipo de actuación está muy bien para empresarios que traten de crear nuevas tecnologías y encontrar nuevos mercados para ellas. La verdadera innovación no reside en saber de entrada lo que va a funcionar, sino en descubrirlo. Y en tener en cuenta que los planes iniciales pueden muy bien ser erróneos y que se tendrán que cambiar, tal vez de manera drástica.

Muchos inversores en tecnología entienden y aceptan el pivoting. Se espera que las empresas cambien de objetivo, a menudo radicalmente, e incluso se las anima a lanzarse a la búsqueda de un modelo de negocio escalable. Pero en el mundo de las organizaciones sin ánimo de lucro este tipo de cambio está totalmente prohibido. ¿Se imaginan a una organización sin ánimo de lucro explicando a sus patrocinadores, por ejemplo alguna gran fundación, que ha decidido hacer pivoting? Podría, por ejemplo, decir que ha decidido dejar de trabajar con jóvenes sin techo porque ha descubierto que su tecnología tiene una aplicación idónea en el mundo del arte. ¡Este cambio no quedaría nada bien en la memoria anual! Y, sin embargo, como lo demuestran el pivoting de Flickr y de compañías similares, ese tipo de flexibilidad supone una ayuda enorme (y podríamos incluso decir que esencial) en el desarrollo de nuevas tecnologías y nuevos mercados.

El segundo obstáculo a la financiación por parte de organizaciones no lucrativas que trabajen en una infraestructura pública de datos es la naturaleza conservadora ante el riesgo de gran parte de quienes las financian. En el mundo de las empresas con ánimo de lucro se entiende que poner en marcha una nueva tecnología siempre acarrea un alto índice de riesgo. Los cálculos varían, pero las estimaciones habituales suelen cifrar el riesgo de una nueva tecnología entre el 70% y el 80%, un porcentaje que muy pocas fundaciones o agencias de subvenciones estarían dispuestas a asumir. La biografía del emprendedor Steve Blank resulta especialmente ilustrativa en este sentido. Afirma sin rodeos que en sus inicios «hice dos strike outs, toqué base varias veces y conseguí terminar una carrera gracias a la burbuja punto com». Es decir, que tuvo dos fracasos estrepitosos y un éxito rotundo. En el mundo de las empresas con ánimo de lucro uno puede presumir de un historial así, pero en el mundo no lucrativo este índice de éxito se consideraría desastroso. La situación se complica por la dificultad de definir lo que es el éxito para una organización sin ánimo de lucro. El resultado es que organizaciones mediocres se mantienen activas a duras penas, cuando lo más saludable sería que dejaran de funcionar y ocuparan su lugar iniciativas más eficaces.

Algunas fundaciones y agencias de subvenciones han probado una solución que consiste en animar a los solicitantes a asumir más riesgos. El problema es que cualquier solicitante que considere asumir dichos riesgos sabe que un fracaso supondrá un obstáculo para subvenciones futuras, con o sin asunción de riesgo. Así que parece más sensato limitarse a proyectos de bajo riesgo.

Una idea que podría dar solución a este problema es que los patrocinadores de las organizaciones sin ánimo de lucro realicen auditorías de fallos. Supongamos que los programas de las grandes fundaciones se sometieran a auditorías de fallos y tuvieran que demostrar una tasa de fracaso por encima de cierta cifra. Si una fundación estuviera de verdad interesada en asumir riesgos, podría poner en marcha un programas de subvenciones de alto riesgo con un objetivo de al menos el 70% de proyectos fracasados. Para que esto se haga bien, es necesario un cuidadoso diseño que elimine los obstáculos. Pero, si se sigue el proceso correcto, se podría llegar a crear una cultura de organizaciones sin ánimo de lucro dispuestas a asumir riesgos. De momento, y por lo que yo sé, ningún patrocinador de importancia realiza auditorías de fallos ni utiliza otros métodos que estimulen la asunción de riesgo.

He dibujado un panorama sombrío de la financiación en organizaciones sin ánimo de lucro para una infraestructura pública de datos (y para muchas otras tecnologías). Pero no es del todo real. Proyectos como Wikipedia y OpenStreetMap han encontrado el camino del éxito a pesar de no contar en sus inicios con una financiación tradicional. Y estoy convencido de que ejemplos de este tipo inspirarán a los patrocinadores, que adoptarán una actitud más abierta a la experimentación y al riesgo al financiar proyectos de innovación tecnológica, una actitud que acelerará el desarrollo de una potente infraestructura pública de datos.

Dos futuros para los big data

Estamos viviendo una época de transición. Muchas de las actividades humanas fundamentales (el modo en que obtenemos información, en que nos conectamos con otras personas, en que decidimos hacia dónde ir y con quién queremos ir, por ejemplo) están experimentando profundos cambios. La manera en que hacemos dichas elecciones cada vez está más influida por unas cuantas empresas de tecnología con potentes infraestructuras de datos. Es fantástico que la tecnología mejore nuestras vidas, pero creo que estaríamos muchísimo mejor si más personas pudieran participar en la toma de decisiones clave que van a afectar a nuestro modo de vida.

En este artículo he descrito dos futuros posibles para los grandes datos. Uno de ellos es continuista, es decir, las mejores infraestructuras de datos serán propiedad de unas cuantas grandes empresas que considerarán que poder acotar el conocimiento humano es una ventaja competitiva. En el otro, que es el futuro que yo confío que podamos crear, las mejores infraestructuras de datos se pondrán a disposición de todos los habitantes del mundo en una potente plataforma destinada a la experimentación, el descubrimiento y la creación de mejores y nuevos modos de vida.

Agradecimientos:
Gracias a Jen Dodd, Ilya Grigorik y Masum por nuestras muchas conversaciones sobre estas ideas.

Notas

1. Muchas empresas (entre ellas Google y Facebook) de hecho ofrecen a personas externas un acceso limitado a sus datos internos. Por ejemplo, la plataforma Facebook es un modo de integrar aplicaciones de programadores externos con Facebook. Productos de Google, como Google Maps, ofrecen APIs abiertas (interfaces de programación de aplicaciones) que permiten a programadores externos usar mapas de Google en sus propias aplicaciones. Esta apertura, aunque valiosa, normalmente está estrictamente limitada. Se trata de algo muy distinto y mucho menos potente que el acceso directo a la infraestructura con que cuentan los programadores de estas empresas.

2. Excepción hecha del Google Knowledge Graph, que sí parece apuntar hacia una incipiente base de datos de todo el conocimiento mundial.

Referencias

Arrington, Michael.
«Google CEO Eric Schmidt On The Future Of Search: Connect It Straight To Your Brain».Tech Crunch, 3 de septiembre de 2009. http://techcrunch.com/2009/09/03/google-ceo-eric-schmidt-on-the-future-of-search-connect-it-straight-to-your-brain/

Asur, Sitaram y Bernardo A. Huberman.
«Predicting the Future with Social Media». arXiv, 29 de marzo de 2010. http://arxiv.org/abs/1003.5699

Battelle, John.
«The Database of Intentions Is Far Larger Than I Thought». John Battelle’s Searchblog (blog), 5 de marzo de 2010. http://battellemedia.com/archives/2010/03/the_database_of_intentions_is_far_larger_than_i_thought.php

Blank, Steve.
«What’s a Startup? First Principles». Steve Blank.com, 25 de enero de 2010. http://steveblank.com/2010/01/25/whats-a-startup-first-principles/.

Blank, Steve.
«About Steve». Steve Blank.com. http://steveblank.com/about/ (consultado el 9 de septiembre de 2013).

Carlson, Nicholas.
«To Do What Google Does In Maps, Apple Would Have To Hire 7,000 People». Business Insider, 26 de junio de 2012. http://www.businessinsider.com/to-do-what-google-does-in-maps-apple-would-have-to-hire-7000-people-2012-6

Fortt, Jon.
«Top 5 Moments from Eric Schmidt’s Talk in Abu Dhabi». CNN Money, 11 de marzo de 2010. http://tech.fortune.cnn.com/2010/03/11/top-five-moments-from-eric-schmidts-talk-in-abu-dhabi/

Ginsberg, Jeremy, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski y Larry Brilliant.
«Detecting Influenza Epidemics Using Search Engine Query Data». Nature 457 (19 de febrero de 2009). http://www.nature.com/nature/journal/v457/n7232/full/nature07634.html

Gompers, Paul A., Anna Kovner, Josh Lerner y David S. Scharfstein.
«Performance Persistence in Entrepreneurship». Harvard Business School. Documento de trabajo 09-028. Cambridge, Massachusetts: Universidad de Harvard, 2008. http://www.hbs.edu/faculty/Publication%20Files/09-028.pdf

Gross, Bill.
«Google’s Self-Driving Car gathers almost 1 GB per SECOND». Twitter, 13 de abril 2013. https://twitter.com/Bill_Gross/statuses/329069954911580160

Letters of Note.
«The Internet Tidal Wave». Letters of Note: Correspondence Deserving of a Wider Audience, 22 de julio de 2011. http://www.lettersofnote.com/2011/07/internet-tidal-wave.html

O’Neill, Nick.
«Facebook Knows That Your Relationship Will End in a Week». AllFacebook (blog), 17 de mayo de 2010. http://allfacebook.com/facebook-knows-that-your-relationship-will-end-in-a-week_b14374

OSM (OpenStreetMap Foundation).
«Finances/Income 2012», 4 de junio de 2013. http://www.osmfoundation.org/wiki/Finances/Income_2012

Taycher, Leonid.
«Books of the World, Stand Up and Be Counted! All 129,864,880 of You». Google Books Search (blog), 5 de agosto de 2010. http://booksearch.blogspot.ca/2010/08/books-of-world-stand-up-and-be-counted.html

Wikipedia
«World Brain». Wikipedia, The Free Encyclopedia (consultado el 17 de septiembre de 2013).

Citar esta publicación

Ciencia

Economía

Humanidades

Tecnología

¿Qué es la entropía? más allá del desorden

La alienación de la inteligencia artificial

Multimedia

Libros OpenMind

Autores

Efemérides científicas

Monográficos BBVA

El hombre que descubrió que lavarse las manos salva vidas

Autor destacado

Último libro publicado

Big Data: ¿a quién pertenece?

¿Por qué el desarrollo de la infraestructura pública de datos debe hacerlo una empresa sin ánimo de lucro?

Retos para las organizaciones sin ánimo de lucro en el desarrollo de una infraestructura pública de datos

Dos futuros para los big data

Notas

Referencias

Descargar Kindle

Descargar EPUB

Descargar PDF

Más de Tecnología

Futuro

Innovación

Inteligencia Artificial

Mundo Digital

Robótica

Visionarios

Comentarios sobre esta publicación

Ciberataques

¿Quieres estar al día de nuestras publicaciones?

Libros OpenMind

Sobre OpenMind

Conecta con nosotros

Newsletter

Autor destacado

Último libro publicado

Big Data: ¿a quién pertenece?

¿Por qué el desarrollo de la infraestructura pública de datos debe hacerlo una empresa sin ánimo de lucro?

Retos para las organizaciones sin ánimo de lucro en el desarrollo de una infraestructura pública de datos

Dos futuros para los big data

Notas

Referencias

Publicaciones relacionadas

Más publicaciones relacionadas con este artículo

Más de Tecnología

Comentarios sobre esta publicación

Ciberataques

¿Quieres estar al día de nuestras publicaciones?

Libros OpenMind

Sobre OpenMind

Conecta con nosotros

Newsletter

Cita esta publicación