Los errores que cometí con Kratia

Kratia ya lleva un año de vida, y no ha despegado en su uso, sin embargo, la idea de hacer un buscador basado en la gente y no en algoritmos parece que ha calado hondo y están surgiendo numerosas iniciativas basadas en este concepto. Dos ejemplos son ChaChá, y Search Wikia.

ChaChá es un buscador con asistente humano, es decir, podemos hacer una búsqueda normal, y si lo requerimos, podemos pedir la ayuda de un asistente humano que hará las búsquedas por nosotros y nos ofrecerá los mejores resultados. El asistente humano se supone que utilizará algún otro buscador como Google, revisará los resultados, y sólo nos ofrecerá los que considere los mejores. El asistente humano nos determinará lo que es relevante y lo que no.

Search Wikia es el buscador que tiene en proyecto el fundador de la wikipedia. Muy interesante su entrevista en Information Week donde habla de las bases de su proyecto, y por qué cree que tendrá éxito donde Google falla. Muy interesante su lectura porque corrige los errores que cometí.

Bueno, volviendo al principio, los errores que creo que cometí son:

  • No pedir registro de usuarios. Este error es demasiado evidente, sabía que debía hacerlo. No lo hice por querer sacar el buscador demasiado rápido, y luego no lo añadí porque quería contar con el apoyo de inversores/socios para implementar todas las ideas que tenía en la cabeza y no desvelarlas todas en un principio. Me precipité en sacarlo, y luego he perdido demasiado tiempo en corregir los fallos.
  • Buscar inversores. Durante bastante tiempo he estado buscando inversores contándoles la idea del proyecto para ver si se animaban. Igual no lo he hecho bien, pero el caso es que no ha salido nada. Creo que debí haberme concentrado más en desarrollar en buscador y olvidarme de los inversores. Los inversores de capital riesgo no quieren riesgos, sólo van a lo seguro. Si el proyecto tiene éxito, ya vendrán.
  • No abrir un blog y un foro. Creo que debía haber abierto un blog y un foro en Kratia desde el comienzo, contar el con el feedback, el apoyo de los usuarios y crear comunidad es fundamental.
  • Pedir permiso a los “grandes” para usar sus resultados. Creo que este fué otro error. Si ya ofrecen la API, podía haberla usado y listo, si no les gusta lo que hago ya cortarán el grifo.
  • No hacerlo Open Source. Han habido numerosas personas que se han ofrecido a colaborar con el proyecto, rediseñando la web, mejorando el código, ofreciendo hacer traducciones, etc. Ha sido un error por mi parte no pensar en esta posibilidad desde el principio y tratar de hacerlo todo yo sólo. Cuanto más abierto el proyecto a la colaboración, mejor.
  • Falta de transparencia. Ese puede ser el resumen de todos los errores, falta de transparencia. Cuando un usuario vota un resultado, debería ser visible para todos los demás usuarios quién ha dado ese voto. Cada usuario debería tener su página de perfil donde poder consultar cuál ha sido su actividad, los comentarios que ha hecho, los votos que ha dado, etc. Además, de ofrecer más comunicación por mi parte en un blog, un foro, y liberar el código.
  • No mandar notas de prensa. Este fué otro de los errores. Al lanzar el buscador debía haber lanzado una campaña de notas de prensa para que los medios de comunicación se hicieran eco del proyecto.

De errores se aprende, espero no seguir cometiendolos a partir de ahora.

Hay que decir también que tengo en mente dos ideas que aún no he sacado a la luz y son bastante innovadoras:

  • Un sistema de publicidad contextual sin posibilidad de fraudes (por click o cualquier otro tipo).
  • Búsquedas realmente personalizadas. El buscador aprende de los gustos y preferencias y ofrece los resultados más relevantes a cada usuario.

Videos del 73ª Edición de Thursday Internet : Los Buscadores como puerta de acceso a la sociedad de la información

El pasado 25 de Enero tuvo lugar la 73 edición del Thursday Internet, organizado por Ildefonso Mayorgas, Rubén García, y Emilio Marquez. Esta vez tenía como título “Los buscadores como puerta de acceso a la sociedad de la información”. Estuvieron allí presentes gran cantidad de profesionales del sector y medios de comunicación. Estaban allí de ponentes Bernardo Hernández de Google, Diego Díaz de Yahoo!, Ismael El-qudsi de Live (Microsoft), Samuel Arenas de Ask y Antonio Valderrábanos de Bitext.

Fué bastante interesante, aunque no contaron mucho sobre las cosas que tienen reservadas para el futuro. Tuve la oportunidad de hablar un poco sobre Kratia, aquí os pongo dos videos:

Del evento se hicieron eco numerosos blogs:

Algoritmos de Relevancia

Ayer publiqué un pequeño post diciendo que la relevancia sólo puede determinarla la mente humana. Hoy me alargaré un poco más en el asunto indicando dónde se esconde la inteligencia humana detrás de los distintos algoritmos.

PageRank: Es el algoritmo más conocido, por ser el usado por Google. Hay que decir que Google tiene inteligencia cero. Si al usarlo nos parece que  tiene inteligencia, es porque la ha extraido de los webmasters que publican páginas webs. Es decir, es un agregador de la inteligencia colectiva de todos los webmasters, obteniendo esa inteligencia colectiva principalmente de los textos de los enlaces. Google no entiende nada de los significados de lo que buscamos, ni de los significados de las páginas encontradas, símplemente hace comparaciones entre palabras.

TrustRank. Este algoritmo está indicado sobre todo en combatir el spam en buscadores. Parte de la idea que el buscador debe dar más credibilidad a sítios conocidos y confiables, y menos cuanto más nos alejemos de ellos. Es el viejo concepto de “dime con quien andas ..”. Ni que decir tiene que esos sitios iniciales han de introducirse a mano.

Hilltop. Este algoritmo parte de la idea que hay sitios web importantes, autoridades, expertos en una materia en concreto. Los enlaces de esos sitios tienen más valor. De nuevo la inteligencia humana detrás de los creadores de esos sitios web.

La relevancia puede además tener multiples aspectos, por ejemplo:

Ordenación por número de clicks. Los elementos con más ratios de clicks se situan al comienzo. Es la manera de ordenar los anuncios en Adwords por ejemplo. Muchas webs ordenan sus listas de enlaces en base al número de clicks. De nuevo la inteligencia humana está en los autores de esos clicks.

Ordenación por ratio de ventas. Es la manera natural de ordenar los productos en una tienda. Los productos más comprados se situan al comienzo. La inteligencia evidentemente la proporcionan los compradores.

Ordenación por Votos. Es la mejor manera de ordenar. Es una manera tan importante y tan efectiva de ordenar, que la usamos para otorgar premios (Oscar, Goya, concursos), y para elegir a quien nos gobierna.

Hay que decir que también hay otros factores de relevancia:

Ordenación por Fecha. Es la manera natural de ordenar las noticias en un periódico y los artículos en un blog. Cuando alguien busca novedades, es evidente que la fecha de publicación importa.

Y por último, el peor (creo yo) factor de ordenación:

Ordenación Alfabética. Es una manera pésima de ordenar. Horrible. ¿Alguien se imagina un buscador devolviendo resultados en orden alfabético?. En esta manera de ordenar se ha eliminado completamente la inteligencia humana. La ordenación alfabética realmente es un sistema de clasificacion, es decir, su único sentido es hacer fácil el encontrar un elemento en concreto cuando ya se conoce su nombre. Es últil para libros y páginas amarillas en papel, pero no para internet. Los libros no tienen cajitas de búsqueda, los ordenadores sí.

La relevancia sólo puede ser determinada por la mente humana

Según la definición de relevancia en la Wikipedia

In computer science, and particularly in search engines, relevance is a numerical score assigned to a search result, representing how well the result meets the information need of the user that issued the search query. In many cases, a result’s relevance determines the order in which it is presented to the user.

Según la definición de la wikipedia, la relevancia es una medida numérica de lo bién que un resultado concuerda con la necesidad de información del usuario.

Es decir, la relevancia es un concepto subjetivo que tiene mucho que ver con la satisfacción del usuario. ¿Por qué no preguntarle al propio usuario? ¿Por qué ese empeño en obtener esa medida numérica sin contar para nada con la opinión del usuario?

Buscadores democráticos

Creo que el futuro de los buscadores está en los buscadores democráticos, y explico mis razones. Primera porque si de verdad se quiere ofrecer los mejores resultados a los usuarios, estos deberían poder indicar cuales son los mejores para ellos, y segundo y no menos importante, es que nos ahorramos p o l é m i c a s, como la que está surgiendo actualmente con la editorialización de los contenidos por parte de los buscadores.

El éxito de Google se ha basado en el algoritmo del PageRank, que era una manera de medir la popularidad de las webs en base al número de enlaces, haciendo una similitud entre un enlace y un voto.

El problema es que esta “democracia” de los enlaces no es una verdadera democracia. En esa democracia falsa de Google sólo votan los que tienen web y ponen enlaces, es decir, una minoría de todos los usuarios de internet, y además, una minoría interesada, pues esos mismos creadores de contenidos pueden estár mas interesados en obtener visitas para sus webs que en “votar” de una forma desinteresada. Y para más inri, no todos los enlaces tienen el mismo valor, además de que no hay límite en el número de enlaces que un webmaster pueda poner. La democracia es una persona, un voto; cualquier otra cosa no es democracia.

Existe otra tendencia, que dice que el futuro de los buscadores está en que estos entiendan en lenguaje natural. Creo que es muy necesario que se hagan avances en ese sentido; la usabilidad de los buscadores pasa por que entiendan las faltas ortográficas, sinónimos, y entiendan mínimamente lo que se pregunta, cosa que de momento no hacen. También son muy necesarios avances en la traducción automática de idiomas, que es algo que está muy relacionado, aunque es una tarea enormemente compleja. Hay empresas españolas que son referencias a nivel mundial en estos sentidos, como Bitext y Atril y que merecen todo nuestro apoyo. Creo que el futuro de los buscadores pasa en una correcta mezcla de democracia con análisis lingüistico.

Yo tengo un buscador democrático, Kratia.com, aunque no dispongo de todo el tiempo que me gustaría dedicarle. Creo que lo haré OpenSource y que todo el que quiera colaborar que colabore.

Hay que decir que Kratia no es el único buscador que permite a los usuarios influir en el contenido y poner comentarios, pero sí el más antiguo, de Enero del 2006, es decir, que se puede decir que la idea fué mia. Otros proyectos similares son:

www.url.com Octubre del 2006. De unos americanos.

www.airfind.net Diciembre del 2006. En Beta cerrada. De otro español, Sergio Sola.

Wikiasari Diciembre del 2006. En fase de estudio. Del creador de la Wikipedia Jimmy Wales.

Hay que decir que el anuncio del buscador de la wikipedia creó una conmoción en internet. Es lo que tiene ser grande y conocido.

Primer post en el nuevo blog

Bueno, después de mucho tiempo de tener el antiguo blog cerrado, me he animado a crear uno de nuevo, donde iré publicando lo que voy haciendo mis ideas, proyectos, o cualquier cosa que se me vaya ocurriendo. No esperéis que lo actualice mucho, pues soy bastante inconstante.

¡Saludos a todos!

« Entradas anteriores