Dossier Web Mining, la medición Web en buscadores.

Web Mining ¿Qué es?

Web Mining consiste en la exploración, tratamiento, análisis y búsqueda de la información en la Web, información que puede estar relacionada con el los contenidos de la Web, con el uso de esos contenidos o con la estructura de la Web.

Como su propio nombre lo indica está muy relacionado con la Web, podríamos decir que se trata de una minería de datos (Data Mining) adaptada y aplicada a un entorno Web donde los elementos a medir son diferentes de aquellos disponibles en el Data Mining, por tanto la aparición de Web Mining está ligada a la aparición de Internet.

En Web Mining es tan importante la extracción de los datos como el análisis de los mismos, ya que esta disciplina no se limita a analizar datos guardados en bases de datos otorgados por los mismos usuarios mediante formularios de registro, sino que su reto empieza con excavar y explorar información relacionada con el comportamiento de los usuarios en nuestra Web sin que sea necesario que se registren, por ejemplo sus preferencias de navegación, sus contenidos preferidos, el potencial servicio o producto que les podemos recomendar etc.

2) ¿Quiénes y para qué usan estas técnicas?

Las técnicas de Web Mining se usan de forma cotidiana y muchas veces bajo otras denominaciones, por ejemplo los Analistas Web analizan el comportamiento de los usuarios en nuestro sitio Web y eso formaría parte del Web Usage Mining, Los SEO´s analizamos la presencia de las keywords, la densidad y la posición de las palabras clave, la estructuración interna de nuestras páginas tocando así la denominada Web Content Mining y Data Construction Mining, también analizamos el uso de estos contenidos para potenciar y posicionar aquellos que más demanda generan.

Pero sin duda los más avanzados en este tema son los buscadores, que basan gran parte de su inteligencia en la minería de datos, y están volcados en analizar los contenidos de las páginas Webs (Data Content Mining) y las relaciones entre ellas (Data Construction Mining), intentando hacer del comportamiento de los usuarios una rica fuente de información para mejorar la relevancia de sus resultados.

3) Algún ejemplo concreto del uso de Web Mining por parte de los buscadores?

En realidad, podemos decir que Web Mining lo es casi todo en los motores de búsqueda, y en el futuro lo será aún más, los algoritmos de los buscadores lo miden todo:

  • Miden los links que apuntan hacia cada una de las páginas
  • Miden los contenidos y las palabras clave que aparecen en esas páginas
  • Lo que es más importante miden los clicks de los usuarios en sus resultados de búsqueda.

Este último factor (la medición de los clicks dentro de los SERP’ s) es ahora quizá el factor más importante para conseguir un buen posicionamiento en buscadores, las páginas que tienen más clicks en los resultados de búsqueda se ven premiados con una mejora de posicionamiento, este tema es muy interesante y podemos detallarlo en alguna de las preguntas a lo largo de la semana.

Por otro lado, es importante subrayar el tema de Los Logs que son una fuente de datos más valiosa para el SEO. Pese a que se habla poco de este tema, en realidad los logs de servidor que generan las visitas que tiene una página Web determinada constituye un fuente de información valiosa tanto para SEO como para medir el comportamiento de usuario.

  • Los logs para medir la experiencia de usuario.

Las versiones primitivas de medición de visitas, páginas vistas etc, se basaban en los logs, muchas de estas herramientas todavía se siguen instalando por defecto en cualquier servidor y nos dan información relacionada con el visitante, las páginas a las que acceden el país, la duración de la visita etc, parece que ahora esto está superado porque todos usamos Google Analytics (o similar) por su alta precisión, pero hace 10 años estas herramientas tenían todavía un importante papel.

  • Los logs para hacer un diagnóstico SEO.

A nivel SEO, los logs pueden contener una información muy importante, ya que cuando Google accede a nuestras páginas se identifica como “GoogleBot” y gracias a eso podemos hacer un rastreo total de lo que hace en nuestra Web.

  • Páginas rastreadas:

Podemos por ejemplo saber a qué páginas, categorías, secciones entra Google con más frecuencia, al mismo tiempo podemos ver aquellas que Google no rastrea lo que podría suponer algún problema (contenido de baja calidad, contenido duplicado, links en Ajax etc.)

  • Páginas con errores

Gracias a los logs podemos ver también los posibles errores de páginas no encontradas (4xx) o errores de servidor (5xx) que muchas veces son difíciles de detectar sobre todo en portales grandes, pues gracias a los ficheros de logs podemos detectarlos y arreglarlos, consiguiendo mejorar el SEO.

 

  • Dónde están los logs

Los logs se alojan en servidor, para analizarlos, hay que descargarlos del servidor y después visualizarlos con excel que nos permite filtrar por URL, IP, UserAgent etc.

4) ¿Qué avances estamos experimentando en minería de contenidos de la web?

Se han conseguido muchos avances y algunas ya se pueden notar en los SERP´s, por ejemplo sabemos que los sinónimos fueron lo primero en que trabajaron los buscadores, al principio la implementación de los sinónimos no parecía suponer un reto tecnológico importante puesto que se trataba de añadir condiciones a la base de datos estableciendo relaciones entre la palabra A y la palabra B, el ejemplo más evidente es el de “photos” y “pictures” puesto que una búsqueda en Google de una de estas palabras devuelve resultados que tienen la presencia de la otra.

Sin embargo los buscadores acabaron dándose cuenta de que no era tan sencillo, puesto que dos palabras puede que no sean sinónimos por si solas, pero que pasan a serlo cuando forman parte de un conjunto de palabras, y es ahí donde está la dificultad, por ejemplo Google tiene muchas interpretaciones de la palabra “GM”, puede tener 20 significados diferentes: General Motors, George Mason entre otros, por lo que es necesario tener en cuenta más elementos de la frase y del contexto para identificar el significado correcto.

El tema de los sinónimos podrían afectar hasta un 70% de las búsquedas en todos los idiomas, y requieren mucho trabajo, por eso, a pesar de que esta línea de interpretación del lenguaje humano ha avanzado mucho, todavía queda bastante por hacer, por ejemplo en castellano, los términos “funda” y “carcasa” no son sinónimos exactos, sin embargo pasan a serlo en las frases “carcasa para iPhone” y “funda para iPhone”, pero hoy Google sigue sin saber interpretarlos bien, la búsqueda de “funda para iPhone” sigue sin devolver resultados con el texto “carcasa para iPhone”.

Otros buscadores verticales como los inmobiliarios están usando Web Mining para mejorar sus resultados de búsqueda, es decir en algunos cuando buscas un piso en una zona determinada, si no tienen pisos en esta zona te recomiendan otros en zonas cercanas, otros buscadores de contenido musical guardan nuestras preferencias y a medida que vamos usando su plataforma, nos van recomendando temas que podrían gustarnos (del mismo género), esto es factible gracias al Web Mining, es decir combinando un buen seguimiento de nuestra actividad y una perfecta taxonomía de los contenidos (Por tipo: añadiendo tags de género, país, idioma, año de producción etc).

A nivel sintáctico, los buscadores trabajan en entender las frases como conjunto y no palabra por palabra, para ello es vital entender dónde empieza y dónde acaba una frase para que los robots puedan hacer un análisis sintáctico identificando así cual es el núcleo de una frase, es decir cual es la palabra en torno a la cual giran todas las demás, de esta forma los buscadores conseguirán saber las palabras cuya aparición es relevante y las palabras con aparición más fortuita y sin carga semántica, de ahí la importancia de escribir bien en SEO, separando un artículo en varios párrafos, y separando cada párrafo por comas y puntos, un contenido bien escrito tiene más posibilidades de posicionarse que un contenido mal escrito o traducido mediante herramientas automáticas.

5) ¿Crees que la inclusión de Microdatos es suficientemente recompensada por los buscadores como para que pase a fundamental a la hora de optimizar una web para mejorar su posicionamiento?, en la medida en que mejoren la comprensión de la relación semántica del contenido de una web por parte de los buscadores, ¿perderán valor los microdatos en el posicionamiento cómo lo perdió en su época las metas Description y Keyword por mostrar información sesgada?

El tema de los Rich Snippets siempre da mucho que hablar ya que, aunque los tengamos implementados, Google no siempre muestra estos resultados enriquecidos.

En muchas ocasiones, ello se debe a algún problema en la implementación (información insuficiente, mal tagueada, oculta al usuario etc.) en este sentido hay una página de Google para dar suporte a este tema:

http://support.google.com/webmasters/bin/answer.py?hl=es&answer=1093493

Pero aunque tengamos todo perfecto, Google se reserva el derecho a hacer el uso que le parezca de estos Rich Snippets, personalmente creo que hay un factor de confianza para aprobarlos, ya que muchos sitios web pueden manipularlos con el fin de conseguir visitas, lo que es considerado como Spam (ejemplos: mostrar estrellas de rating cuando nadie ha votado un contenido, emplear falsos comentarios etc.)

En todo caso, Google ha puesto un formulario para avisarle si hemos bien implementado Rich Snippets pero no hemos conseguido verlos en los SERP´s:

http://support.google.com/webmasters/bin/answer.py?hl=es&answer=1093493

6) ¿Éstas avances en en minería de contenidos de la web permiten a los buscadores entender las relaciones semánticas entre palabras clave?

Sin duda, se puede decir que los buscadores han aprendido mucho en esta línea, trabajando muchas veces con lingüistas para tratar de dar un salto significativo en la interpretación del lenguaje humano, pero la mejor aportación es la de los usuarios, hoy Google por ejemplo sabe que “Gran Hotel” es una serie de televisión y no se trata “un gran hotel” o hotel grande, eso es gracias a la medición de las búsquedas de los usuarios por un lado, y a la medición de la frecuencia de aparición de estos dos conceptos en la Web por otra (las dos palabras llegan a ser consideradas como una sola entidad porque siempre aparecen juntas). El ejemplo es de Nuño Valenzuela en el Search Congress 2012.

Aparte de esta labor de mejora basada en Web Mining, los buscadores están solicitando la ayuda de los creadores (Webmasters) y en ese sentido los 3 principales buscadores lanzaron schema.org, que es una iniciativa que pretende llegar a un nivel de estructuración de datos que permita entender bien el rol de cada palabra/concepto en un texto determinado, se trata de una capa nueva que se quiere añadir a los contenidos para que sean fácilmente interpretables y recuperables independientemente de la capa tecnológica de la programación y el diseño.

Se puede decir que el uso de los microdatos y microformatos ayudó en hacer que la Web se rastree y clasifique mejor en espera de se confirme el uso de las ontologías y la web semántica, pero Google busca soluciones más allá de los estándares debido a su limitado uso, hoy sabemos por ejemplo que no solo importan los contenidos sino también la posición donde estos aparecen, las primeras palabras con los que empieza una artículo pesan más (tienen más carga semántica) que las palabras que aparecen al final del mismo.

7) ¿Qué és y cómo se estructura una ontología?

La ontología es simplemente un esquema conceptual que define los términos que se emplean para describir un dominio determinado, las ontologías deben definir 3 términos en cada dominio que quieren describir:

  • Sujeto: Es el recurso que vayamos a describir.
  • Predicado: La propiedad o la relación que queremos establecer acerca del recurso
  • Objeto: Puede ser el valor de la propiedad,  o otro recurso con el que se quiere establecer una relación.

8) ¿Qué diferencias hay entre los microdatos por ejemplo RDF, FOAF o Schema?

Los microdatos definidos en shcema.org  vienen a ser una iniciativa propia fuera de la W3C que han tenido que lanzar  los tres principales buscadores para agilizar la estandarización de los dominios que eran críticos para ellos.

RDF (Resource Description Framework) es el lenguaje de descripción de ontologías usado por la W3C, mediante este lenguaje podemos dar cabida a un sinfín de ontologías y metadatos especializadas en cada dominio, tiene un conjunto de atributos añadidos para XHTML que se llaman RDFa.

FOAF es un proyecto dentro de la W3C que pretende describir relaciones entre personas (Friend Of A Friend) mediante RDF, se trata del proyecto con más éxito aunque hay muchos más proyectos que pretenden describir otras áreas del conocimiento humano.

Hay muchas ontologías que usan RDF, pero los buscadores piensan que los avances dentro de este dominio están yendo muy lentos, de ahí el lanzamiento de Schema.org como una versión mínima viable.

A nivel de SEO, es mejor usar Schema.org, pero el futuro sin duda es para RDFa.

9) ¿Qué és un N-grama y cómo ayuda a la interpretación del lenguaje humano?

“N-grama es una subsecuencia de N elementos dentro de una secuencia dada” (Wikipedia), se emplean en el procesamiento estadístico de varios campos del conocimiento entre ellas el lenguaje natural y el ADN humano.

En el caso del campo del procesamiento del lenguaje natural, un unigrama significa una secuencia compuesta de una sola unidad, bigrama se compone de 2 unidades, trigrama se compone de 3 unidades etc. Las unidades en nuestro caso podrían ser palabras, un trigrama sería una secuencia de 3 palabras.

Por ejemplo dentro de la frase: “Este éxito no es para tirar cohetes” cada palabra se puede entender por separado, pero google intentaría identificar los conjuntos semánticos indivisibles, ya que puede haber agrupaciones de 2, 3 o más palabras que son inseparables..  Google tiene que identificarlas, por ejemplo “tirar cohetes” no puede ser separado ya que carecería de sentido. El análisis que Google hace del lenguaje le permite saber que estas dos palabras cuando están juntas no pueden tener sentido aisladas.

¿Cómo sabemos que no se tienen que analizarlas por separado? Pues Google lo consigue mediante la comparación con los millones de documentos que tiene indexados, cuando una agrupación de 2 palabras que siempre aparecen juntas, eso significa que van juntas y no pueden tener significado de forma aislada.

Así pues, los n-gramas están usados por Google para entender mejor el lenguaje humano, por ejemplo la indexación de las palabras clave sueltas provoca la pérdida de las relaciones entre ellas, la frase: “quiero estudiar un master de posicionamiento en buscadores”, tiene las siguientes n-gramas (entre otras):

Quiero (unigrama)

Quiero estudiar (bigrama)

Quiero un (bigrama)

Quiero master (bigrama)

Quiero posicionamiento (bigrama)

Master Barcelona (bigrama)

Master en (bigrama)

Estudiar Barcelona (bigrama)

Etc.

El procesamiento de todas estas probabilidades de n-gramas hace que google tenga estadísticas precisas de frecuencia de aparición de un n-grama determinado, de esta forma Google podría saber por ejemplo que “quiero estudiar” y “master Barcelona” son n-gramas relevantes puesto que son de aparición frecuente en otros documentos que ya ha rastreado con anterioridad, mientras “quiero posicionamiento” no es relevante porque no es algo frecuente es su base de datos de n-gramas.  De esta forma Google puede identificar las palabras que constituyen el núcleo de un texto determinado y así entender mejor su temática.

El tema de Ngramas no podría sacar un poco del SEO ya que es bastante comlejo, generalmente no hay que entrar en ello para dominar el posicionamiento en buscadores, pero para saber más sobre este tema, en 2006 Google hizo publico un documento ZIP de 24 GB que contenía todas las  n-gramas encontradas procesando más de 1.000.000.000.000 de palabras en inglés: http://googleresearch.blogspot.com.es/2006/08/all-our-n-gram-are-belong-to-you.html

10) Como lingüista, ¿ves utópica una verdadera interpretación semántica a través de los n-gramas por parte de los buscadores? Sólo hay que testear con un poco de “malicia” Google Translate y nos damos cuenta (por suerte para los traductores profesionales) de lo lejos aún que está de dar traducciones a un nivel profesional. Es cierto que se va mejorando mucho, pero la riqueza las lenguas es infinita y está en constante evolución. ¿Qué opinas al respecto?

Es verdad que pretender que las máquinas entiendan perfectamente nuestro lenguaje puede ser mucho suponer, y que probablemente nunca será perfecto, pero si miramos hacia atrás, hay cosas que nadie pensaba que iban a ocurrir y al final están aquí.

Yo creo que aquí la información que damos los usuarios es la clave, Google tiene millones y millones de textos, y basando en eso puede saber cómo hablamos. Analizar toda esta información con métodos de Web Mining es el camino para que los robots mejoren su interpretación, aunque es cierto que es un camino largo, porque las lenguas son dinámicas y van cambiando

11) La minería de estructuras de la web ¿Se basa sólo en el Page Rank?

Las relaciones entre páginas no son usadas solo para el cálculo del Page Rank sino para interpretar relaciones semánticas y de confianza o credibilidad, también reflejan cercanía o similitud temática, por tanto es sano enlazar a otras webs similares a nosotros.

Estructuras semánticas: Google busca patrones de similitud usando los links, por ejemplo un grupo de páginas vinculadas entre sí podría significar que hablan de la misma área de conocimiento, o que son del mismo país, o del mismo autor o grupo editorial, estas relaciones permiten a Google una mejor geolocalización de los resultados y también una mayor relevancia de los mismos.

Estructuras de confianza: los hipervínculos  también dan señales de confianza a los buscadores, hace más de 10 años Google patentó el Trust Rank que es un sistema que mide la credibilidad de las páginas en función de lo cerca que están de otras páginas de confianza, por ejemplo una web enlazada directamente por CNN tendría una mejor puntuación que otra Web que está a 10 niveles de links de CNN.

12) ¿Están siendo usadas éstas técnicas actualmente en los buscadores? Háblanos de Google Cafeine…

Google Cafeine supuso un cambio importante no en el algoritmo sino en la infraestructura de Google y su escalabilidad, muchas de las implementaciones no podían ser puestos en marcha por su complejidad, como por ejemplo los n-gramas que requieren muchos recursos dada la complejidad del lenguaje humano en diferentes idiomas, personalmente creo que sin Cafeine Google no habría podido poner en marcha las actualizaciones Panda y Penguin.

Google Cafeine, no fue ningún cambio a nivel del algoritmo, sino que fue un cambio en infraestructura, digamos que Google estaba pensado de una forma diferente, y Cafeine es el cambio que le permitió seguir liderando el mundo de buscadores, la infraestructura de Cafeine se dice que es mucho más escalable y con resultados mucho más rápidos.

13) ¿Qué aspectos negativos plantea el Web Mining?. Hay quien ve con preocupación el uso que se pueda dar a los datos personales y privados de los usuarios.

El área de Web Mining que puede tener aspectos negativos es la de Data Usage Mining, el desafío que tiene esta área consiste en el anonimato de los datos, mientras los datos de comportamiento de usuarios se recolecten de forma anónima no creo que haya motivos de preocupación, de hecho recientemente Google cambió el protocolo de navegación de usuarios logeados a https, para no guardar sus palabras clave de búsqueda, e inmediatamente le siguió Firefox y creo que el camino va por ahí, a medida que las legislaciones avancen será más estricto cualquier análisis que queramos hacer en el sentido del uso de nuestra Web.

Excepto este punto el Web Mining es disciplina muy sana y muy importante para la mejora y optimización de nuestros servicios y productos, siempre que analice el comportamiento de las masas dentro del anonimato.

14) ¿Y los usuarios no logeados? ¿no es eso incoherente o es para forzar a los usuarios a aportar sus datos de contacto? Y, aún más, ¿es creíble Google con esta acción siendo que es un buscador famoso por rastrear absolutamente todo, hasta los correos electrónicos, para personalizar sus servicios?

Antes Google tenía la mayoría de las búsquedas cacheadas, es decir tenía una página lista para cuando alguien busca “viajes”, y no era una búsqueda en tiempo real porque sería una consulta lenta, con Cafeine Google es capaz no solo de sacar una página cacheada sino de efectuar una verdadera conexión a su base de datos, por tanto la información es más fresca.

Sobre las búsquedas de los logados, yo creo que Google no ha dejado de memorizarlas, sino simplemente ha dejado de compartir esta información con los demás mortales, ellos guardan prácticamente todo, de hecho si estás logado te personalizan los resultados en función de lo que has pulsado anteriormente, eso quiere decir que lo guardan.

Yo nunca he perdido de vista que Google es una empresa, no una ONG, y como tal no me creo todo lo que dice 🙂

15) En el ámbito académico ¿dónde se generan expertos en data mining o incluso web mining?

En Realidad Web Mining es un tema increíblemente grande, global y multidisciplinar, y como tal no conozco muchas universidades en España que se hayan aventurado en tratarlo, creo que requiere un alto grado de especialización para abordar estos temas que generalmente son más de investigación que de enseñanza.

Hay una asignatura en la Universidad Autónoma de Madrid con un enfoque más técnico de Web Mining, puedes ver su programa en este documento

Nuestro enfoque en este Master es diferente, ya que lo que nos interesa es el aspecto marketiniano de este tema, en concreto el aspecto de posicionamiento en buscadores.

Pero en Internet se puede encontrar bastante información acerca de este tema, si quieres ampliar conocimientos seguro que te va a resultar interesante:

Autor: admin

Homo sapiens interested in entrepreneurship, innovation, online business and Search Marketing.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *