Archive for the 'buscadores' Category

WikiaSearch, decepcionante

WikiaSearch finalmente ha visto la luz. Me esperaba más del proyecto del buscador social del fundador de la Wikipedia. Como muchos bloggers, webmasters y expertos ya han publicado, hay bastantes críticas y hablan de la decepción que ha supuesto su lanzamiento. A mi modo de ver, el error es tratar de crear un buscador desde cero, basado en Nutch, en vez de conseguir una alianza estratégica con un buscador grande, como Yahoo, Live o Exalead y conseguir resultados a través de una API. Para colmo, ¡no se pueden votar los resultados! ¿Qué sentido tiene un buscador social, en el que la parte social (aparte de registrarte y tener un perfil) está ausente?

Si tuviera que resumir los fallos y aciertos serían estos:

Aciertos:

- Integra una mini red social, puedes subir fotos, poner preferencias, intereses, hacer amigos, etc.

- Página de discusión sobre la búsqueda, junto con un mini artículo.

Fallos:

- Intentar crear un buscador desde cero. Un buscador de código abierto como Nutch no puede competir con uno de los grandes, y más si tienes que rastrear la internet entera, por lo menos a corto plazo. Y cuando lo consigan, si lo consiguen alguna vez, alguno de los grandes ya habrá incorporado las funciones sociales.

- Lanzamiento demasiado temprano. Lo han sacado a la luz estando todavía muy verde.

- Diseño web muy pobre y demasiada apariencia a un wiki reciclado.

- ¡No se puede votar ni añadir resultados!.

- Poca originalidad.

- Otros fallos que me los reservo.

Resumiento, el proyecto aún está muy verde. Es de agradecer que hayan cumplido los plazos para su lanzamiento, pero también es bastante decepcionante lo visto hasta ahora. Habrá que esperar cómo evoluciona con el tiempo.

En fin, visto lo visto me dan ganas de acabar de poner en marcha mis propias ideas.

Knol: otra basura más de Google

Cuando hace un par de días leí la noticia, lo primero que pensé fue: “vaya, estos de google parece que me han leído el pensamiento y se están poniendo las pilas”, pero después de leer un poco más me doy cuenta que no, que no tienen ni idea y que va a ser una basura más, al estilo googlepages o googlebase.

Para el que no sepa de qué va, le recomiendo que lea unos cuantos artículos y luego siga leyendo el post.

Ahora explico por qué creo que será un fracaso:

- Los artículos son individuales, es decir, tienen un solo autor y sólo él puede modificarlos o ampliarlos.

- No hay control editorial sobre los contenidos. La gente podrá valorarlos según su calidad, incluso comentarlos, pero todo tipo de contenido está permitido (¿también pornografía infantil?).

Dejando al lado el tema de la remuneración económica, me pregunto, ¿qué va a diferenciar a esto de un blog o de una web personal cualquiera? A los autores de la wikipedia les podrá gustar más o menos que cualquiera pueda modificar sus artículos o incluso que sean borrados porque alguien considere que no son relevantes o no mantienen un estándar de calidad, pero este control realmente cumple su función, y la calidad general de los artículos la wikipedia es excelente.

¿Quién va a impedir que en este nuevo engendro cualquiera publique spam, conenidos falsos, equivocados, publicidad, temas irrelevantes o simple basura? Si alguien se dedica borrar el spam (cosa que se hará obligada), ¿harán lo mismo con los contenidos que no lleguen a un mínimo de calidad? ¿quién fija ese mínimo?

En fin, que en Google sabrán manejar las máquinas, pero no tienen ni idea interactuar con personas.

Hay un patrón de proyectos suyos que han tenido éxito y otros que han fracasado:

Exitos

- El buscador (sobre todo en sus comienzos, ahora ya no tanto)

- Google Maps/Earth

- Adsense

- Gmail ¿?

Fracasos

- Google pages

- Google base

- Google answers

- Google video (tuvieron que comprar Youtube)

- Orkut

- Talk

- Atención al usuario/cliente

El patrón es el siguiente; ha tenido éxito todo lo que ha sido totalmente automático y sin intervención humana, y ha sido un fracaso lo que ha requerido interacción con humanos.

Los jefecillos de Google parece que se están poniendo nerviosos y se han dado cuenta de la amenaza que representa la wikipedia y su buscador (la misma idea que kratia), y parece que quieren eliminar la competencia, pero el tiro les va a salir por la culata. Por un lado, este nuevo proyecto no va a contar con la calidad ni cantidad de artículos de la wikipedia ni de lejos, y por otro lado, si comienzan llenar los resultados de su buscador con sus propios contenidos la calidad de éste va a caer en picado, además de la mala reputación que se van a labrar entre los webmasters.

Si algo tenía de bueno Google comparado con Yahoo o Msn, y por eso los webmasters lo adoraban, era por la cantidad de visitas que enviaba. Los grandes portales estilo Terra Yahoo o Msn se dedicaban a tratar de retener a los usuarios lo máximo posible, mientras que Google hacía todo lo contrario, los enviaba afuera rápidamente a lo que en principio eran las mejores webs. ¿Hemos vuelto a los tiempos de la web 1.0, la de los grandes portales que quieren retener a los usuarios y no dejarlos escapar? ¿Dónde ha quedado la libertad del usuario? ¿Les van a poner esposas para que no escapen?

En fin, que esto me está pareciendo el principio del fin.

La estupidez semántica

Llevaba algún tiempo queriendo publicar algo sobre la web semántica, hasta ahora no lo había hecho más que nada porque Angel María cree en ella, pero bueno, ahí va…

Esto de la web semántica se me antoja un sinsentido sin pies ni cabeza. Sería una estupidez más de las muchas que circulan por internet, si no fuera porque detrás de la iniciativa están ni más ni menos que el W3 Consortium y uno de los “padres” de internet, Tim Berners-Lee.

La idea de fondo es dotar a la web de “significado”, para que lo que publiquemos en internet sea más fácilmente entendible por los programas de inteligencia artificial de los buscadores. Es decir, dada la incompetencia e inhabilidad de los buscadores para entender lo que buscamos, se trata de que TODOS los webmasters y creadores de contenidos para la web añadan más información (metadatos) explicando el significado de lo que publican.

Ni qué decir tiene que es un fracaso cantado. Dados los escasos y ridículos frutos que han dado las numerosas iniciativas de crear una verdadera inteligencia artificial, la web semántica no es más que una chapuza para intentar ponerle las cosas más fáciles a los ordenadores. Es una iniciativa destinada al fracaso, no sólo por la imposibilidad de crear una verdadera inteligencia artificial, sino también por los enormes problemas que provocaría en uniformar los estándares, en definir la granularidad de los metadatos (es decir, hasta que profundidad llegamos explicando el significado de lo que publicamos), en contrarestar las técnicas SEO abusivas, la torpeza de los creadores de contenidos, etc, etc

Ahí afuera hay mucha gente que se cree que los ordenadores tienen más inteligencia de la que realmente tienen. La inteligencia artificial no es más que estupidez artificial, y NUNCA se podrá comparar a una inteligencia humana (por lo menos con la tecnología actual). Si no somos capaces de crear un ordenador que supere en inteligencia a un mosquito, ¿cómo nos atrevemos a pensar que se puede superar a un ser humano?

Usar Google es de idiotas

Una cosa que he conocido hace poco es la etimología de la palabra idiota:

IDIOTA

La palabra idiota proviene del griego ιδιωτης [leer: idiotes] para referirse aquel que no se ocupaba de los asuntos públicos, sino sólo de sus intereses privados. La raíz “idio” significa “propio” y es la misma que en “idioma” o en “idiosincrasia”.

Idiotas era como se designaba en la democracia ateniense a los ciudadanos que no se preocupaban de los asuntos públicos, los que no participaban en la vida política de la ciudad.

Google nos hace idiotas. Ellos nos dictan qué información vemos y qué no vemos. Ellos censuran.

¿Es eso lo que queremos para el futuro? ¿Una empresa con ánimo de lucro, que cotiza en bolsa, y que tiene que rendir cuentas a sus accionistas de los beneficios anuales, la que decida por nosotros lo que vemos y lo que no vemos? Si eso es el futuro, permitirme que os diga que es un futuro que apesta.

Actualización:  Como varias personas se han quejado, aclaro que con este post no prentendo ofender a nadie, sino más bien dar un punto de vista de una manera llamativa y quizá un tanto demagógica y visceral. Que nadie se sienta ofendido, es sólo una manera de llamar la atención.

El sucesor de Google: ¿Myspace?

Hoy quiero poner un post que seguramente le sorprenda a mucha gente. Creo que un posible candidato a rey de las búsquedas podría ser Myspace, la red social por excelencia.

Si mi idea de que los humanos son mejores que las máquinas en determinar la relevancia de los resultados de las búsquedas es correcta, un sitio que cuenta con más de 100 millones de usuarios registrados, creciendo a un ritmo de 230.000 nuevos usuarios al día puede ser un buen candidato.

Según esta noticia, un cerebro humano tendría 4.800 Gigaflops de capacidad de cálculo, o unos 5 Teraflops. Según este otro enlace tendría 10 Petaflops. Dejémoslo en 1 Petaflop.

Si una mínima parte de los usuarios de Myspace, pongamos 1 millón de usuarios se pusieran a mejorar su buscador, eso nos daría un equivalente a 1 Zettaflop por segundo de capacidad de cálculo. Dudo mucho que Google con sus granjas con más de 450.000 servidores puedan superar nunca esa capacidad de cálculo, y eso sin entrar en el asunto desentrañar el software que corre dentro de un cerebro humano.

Otro posible candidado sería la Wikipedia, pero como ya de hecho están en ello no hace falta que los nombre. Aquí una gráfica comparando el crecimiento de la Wikipedia con Myspace:

wikipedia-myspace.png

Los errores que cometí con Kratia

Kratia ya lleva un año de vida, y no ha despegado en su uso, sin embargo, la idea de hacer un buscador basado en la gente y no en algoritmos parece que ha calado hondo y están surgiendo numerosas iniciativas basadas en este concepto. Dos ejemplos son ChaChá, y Search Wikia.

ChaChá es un buscador con asistente humano, es decir, podemos hacer una búsqueda normal, y si lo requerimos, podemos pedir la ayuda de un asistente humano que hará las búsquedas por nosotros y nos ofrecerá los mejores resultados. El asistente humano se supone que utilizará algún otro buscador como Google, revisará los resultados, y sólo nos ofrecerá los que considere los mejores. El asistente humano nos determinará lo que es relevante y lo que no.

Search Wikia es el buscador que tiene en proyecto el fundador de la wikipedia. Muy interesante su entrevista en Information Week donde habla de las bases de su proyecto, y por qué cree que tendrá éxito donde Google falla. Muy interesante su lectura porque corrige los errores que cometí.

Bueno, volviendo al principio, los errores que creo que cometí son:

  • No pedir registro de usuarios. Este error es demasiado evidente, sabía que debía hacerlo. No lo hice por querer sacar el buscador demasiado rápido, y luego no lo añadí porque quería contar con el apoyo de inversores/socios para implementar todas las ideas que tenía en la cabeza y no desvelarlas todas en un principio. Me precipité en sacarlo, y luego he perdido demasiado tiempo en corregir los fallos.
  • Buscar inversores. Durante bastante tiempo he estado buscando inversores contándoles la idea del proyecto para ver si se animaban. Igual no lo he hecho bien, pero el caso es que no ha salido nada. Creo que debí haberme concentrado más en desarrollar en buscador y olvidarme de los inversores. Los inversores de capital riesgo no quieren riesgos, sólo van a lo seguro. Si el proyecto tiene éxito, ya vendrán.
  • No abrir un blog y un foro. Creo que debía haber abierto un blog y un foro en Kratia desde el comienzo, contar el con el feedback, el apoyo de los usuarios y crear comunidad es fundamental.
  • Pedir permiso a los “grandes” para usar sus resultados. Creo que este fué otro error. Si ya ofrecen la API, podía haberla usado y listo, si no les gusta lo que hago ya cortarán el grifo.
  • No hacerlo Open Source. Han habido numerosas personas que se han ofrecido a colaborar con el proyecto, rediseñando la web, mejorando el código, ofreciendo hacer traducciones, etc. Ha sido un error por mi parte no pensar en esta posibilidad desde el principio y tratar de hacerlo todo yo sólo. Cuanto más abierto el proyecto a la colaboración, mejor.
  • Falta de transparencia. Ese puede ser el resumen de todos los errores, falta de transparencia. Cuando un usuario vota un resultado, debería ser visible para todos los demás usuarios quién ha dado ese voto. Cada usuario debería tener su página de perfil donde poder consultar cuál ha sido su actividad, los comentarios que ha hecho, los votos que ha dado, etc. Además, de ofrecer más comunicación por mi parte en un blog, un foro, y liberar el código.
  • No mandar notas de prensa. Este fué otro de los errores. Al lanzar el buscador debía haber lanzado una campaña de notas de prensa para que los medios de comunicación se hicieran eco del proyecto.

De errores se aprende, espero no seguir cometiendolos a partir de ahora.

Hay que decir también que tengo en mente dos ideas que aún no he sacado a la luz y son bastante innovadoras:

  • Un sistema de publicidad contextual sin posibilidad de fraudes (por click o cualquier otro tipo).
  • Búsquedas realmente personalizadas. El buscador aprende de los gustos y preferencias y ofrece los resultados más relevantes a cada usuario.

Videos del 73ª Edición de Thursday Internet : Los Buscadores como puerta de acceso a la sociedad de la información

El pasado 25 de Enero tuvo lugar la 73 edición del Thursday Internet, organizado por Ildefonso Mayorgas, Rubén García, y Emilio Marquez. Esta vez tenía como título “Los buscadores como puerta de acceso a la sociedad de la información”. Estuvieron allí presentes gran cantidad de profesionales del sector y medios de comunicación. Estaban allí de ponentes Bernardo Hernández de Google, Diego Díaz de Yahoo!, Ismael El-qudsi de Live (Microsoft), Samuel Arenas de Ask y Antonio Valderrábanos de Bitext.

Fué bastante interesante, aunque no contaron mucho sobre las cosas que tienen reservadas para el futuro. Tuve la oportunidad de hablar un poco sobre Kratia, aquí os pongo dos videos:

Del evento se hicieron eco numerosos blogs:

La relevancia sólo puede ser determinada por la mente humana

Según la definición de relevancia en la Wikipedia

In computer science, and particularly in search engines, relevance is a numerical score assigned to a search result, representing how well the result meets the information need of the user that issued the search query. In many cases, a result’s relevance determines the order in which it is presented to the user.

Según la definición de la wikipedia, la relevancia es una medida numérica de lo bién que un resultado concuerda con la necesidad de información del usuario.

Es decir, la relevancia es un concepto subjetivo que tiene mucho que ver con la satisfacción del usuario. ¿Por qué no preguntarle al propio usuario? ¿Por qué ese empeño en obtener esa medida numérica sin contar para nada con la opinión del usuario?

Buscadores democráticos

Creo que el futuro de los buscadores está en los buscadores democráticos, y explico mis razones. Primera porque si de verdad se quiere ofrecer los mejores resultados a los usuarios, estos deberían poder indicar cuales son los mejores para ellos, y segundo y no menos importante, es que nos ahorramos p o l é m i c a s, como la que está surgiendo actualmente con la editorialización de los contenidos por parte de los buscadores.

El éxito de Google se ha basado en el algoritmo del PageRank, que era una manera de medir la popularidad de las webs en base al número de enlaces, haciendo una similitud entre un enlace y un voto.

El problema es que esta “democracia” de los enlaces no es una verdadera democracia. En esa democracia falsa de Google sólo votan los que tienen web y ponen enlaces, es decir, una minoría de todos los usuarios de internet, y además, una minoría interesada, pues esos mismos creadores de contenidos pueden estár mas interesados en obtener visitas para sus webs que en “votar” de una forma desinteresada. Y para más inri, no todos los enlaces tienen el mismo valor, además de que no hay límite en el número de enlaces que un webmaster pueda poner. La democracia es una persona, un voto; cualquier otra cosa no es democracia.

Existe otra tendencia, que dice que el futuro de los buscadores está en que estos entiendan en lenguaje natural. Creo que es muy necesario que se hagan avances en ese sentido; la usabilidad de los buscadores pasa por que entiendan las faltas ortográficas, sinónimos, y entiendan mínimamente lo que se pregunta, cosa que de momento no hacen. También son muy necesarios avances en la traducción automática de idiomas, que es algo que está muy relacionado, aunque es una tarea enormemente compleja. Hay empresas españolas que son referencias a nivel mundial en estos sentidos, como Bitext y Atril y que merecen todo nuestro apoyo. Creo que el futuro de los buscadores pasa en una correcta mezcla de democracia con análisis lingüistico.

Yo tengo un buscador democrático, Kratia.com, aunque no dispongo de todo el tiempo que me gustaría dedicarle. Creo que lo haré OpenSource y que todo el que quiera colaborar que colabore.

Hay que decir que Kratia no es el único buscador que permite a los usuarios influir en el contenido y poner comentarios, pero sí el más antiguo, de Enero del 2006, es decir, que se puede decir que la idea fué mia. Otros proyectos similares son:

www.url.com Octubre del 2006. De unos americanos.

www.airfind.net Diciembre del 2006. En Beta cerrada. De otro español, Sergio Sola.

Wikiasari Diciembre del 2006. En fase de estudio. Del creador de la Wikipedia Jimmy Wales.

Hay que decir que el anuncio del buscador de la wikipedia creó una conmoción en internet. Es lo que tiene ser grande y conocido.