Google, Bing & Co. - ¿Cómo funcionan los motores de búsqueda?

3/30/2022
Time reading time

¿Qué es un motor de búsqueda?

Un motor de búsqueda es un programa que busca contenido en el navegador. Este contenido se almacena en Internet o en una base de datos cerrada. Tras introducir una consulta de búsqueda mediante texto o, como es más habitual en estos días, mediante la voz, el motor de búsqueda ofrece una larga lista de resultados que apuntan a los documentos pertinentes.

Proceso general

Los motores de búsqueda no buscan en todo Internet, sino solo en una parte, es decir, en la World Wide Web que todos conocemos. Internet también incluye servicios como el correo electrónico, los chats, la telefonía por Internet y la transmisión de datos. En general, el proceso se puede dividir en tres pasos. Los sistemas son, por supuesto, mucho más complejos de lo que se describe en el siguiente artículo. Por lo tanto, puede considerar esto como una breve introducción al mundo de los motores de búsqueda. El primer paso es grabar. El motor de búsqueda recopila constantemente nueva información, con la ayuda de los llamados rastreadores. Estos se analizarán con más detalle más adelante. Una vez recopilada, la información se procesa e indexa. En este punto, todos los datos recopilados se procesan de tal manera que se puede crear un índice a partir de ellos. El índice es el núcleo de la búsqueda en la web. A esto le sigue el paso de proporcionar información. Aquí se busca el índice apropiado para cada solicitud.

¿Qué es un índice?

El índice es la base de datos de un operador de motores de búsqueda. Forma la estructura que necesita para una base de datos. Esto hace que la búsqueda y la clasificación de campos específicos sean más fáciles y rápidas. El índice resume todas las páginas anteriores que han sido procesadas por el propio motor de búsqueda. En este caso, procesado significa que el motor de búsqueda ha encontrado y analizado la página y ha guardado permanentemente el contenido relevante de la página. Puedes pensar en el índice como una base de datos muy grande. Contiene todo el contenido que ya se ha recopilado y el contenido que aún no se ha recopilado. Por lo tanto, el índice desempeña un papel extremadamente importante.

De la consulta de búsqueda al resultado

En nuestro caso, escribimos «WiFi para mi empresa» en la barra de búsqueda. Este paso es visible para nosotros como usuarios. Pero, ¿qué sucede después o cuando presionamos la tecla ENTER? En primer lugar, se debe buscar el centro de datos correcto. Los operadores de motores de búsqueda de todo el mundo poseen centros de datos con servidores en los que se almacena el índice. Como resultado, uno o más centros de datos que coincidan con la consulta de búsqueda se seleccionan inmediatamente en segundo plano. En este sentido, factores como la proximidad espacial, la velocidad y la tasa de utilización desempeñan un papel sumamente importante. La búsqueda posterior en el índice es otro paso invisible. En los principales motores de búsqueda como Google, Yahoo y Bing, etc., el índice está especialmente diseñado para consultas paralelas. Esto significa que cada servidor solo necesita realizar una parte de la consulta para que se pueda buscar más rápido en el índice. También es importante mencionar que un motor de búsqueda no busca la palabra específica, sino los patrones de las letras. Una vez realizado el historial de búsqueda y compilado un primer resultado de búsqueda, se debe realizar otra verificación. De hecho, puede ser que el usuario se haya comprometido o haya escrito términos que estén escritos juntos por separado. Estoy seguro de que tú mismo lo sabes. Si tienes prisa, es fácil decidirte y Google te ofrece la función «Querías decir». El motor de búsqueda puede entender esto y ofrece un término más adecuado si es necesario. Tras realizar una búsqueda en el índice, ahora es necesario buscar el documento correcto. Los servidores de índices se componen principalmente de palabras y direcciones. Apuntan a los llamados servidores de documentos. Los servidores de documentos contienen títulos, cadenas de texto y otros datos de los documentos guardados. Para acelerar un poco el proceso, puede almacenar en caché los resultados de las consultas de búsqueda frecuentes. Esto significa que no tiene que volver a buscar en el índice cada vez, sino que puede acceder a los datos almacenados en caché. En el último paso, la información de búsqueda debe mostrarse al usuario. Después de todo, queremos ver a primera vista los sitios web más importantes para el término de búsqueda introducido. El usuario suele hacer clic en uno de los diez primeros resultados de búsqueda. Después de todos estos pasos, como usuarios, ahora vemos una larga lista de resultados para nuestra consulta de búsqueda «WiFi para mi empresa». Como puede ver, muchos pasos complejos pero interesantes tienen lugar en 0,57 segundos. El motor de búsqueda no es una persona. Sin embargo, para que el motor de búsqueda pueda entender los documentos y preparar la información de manera adecuada, es necesario seguir los siguientes pasos: 1. NormalizaciónLa normalización de datos consiste en almacenar toda la información necesaria y relevante. Aquí se elimina toda la información innecesaria sobre la programación y el formato. Como resultado, el motor de búsqueda puede entender y analizar mejor el documento en los próximos pasos.2. TokenizaciónPara el motor de búsqueda, el documento entrante se compone de caracteres aleatorios. Para que pueda reconocer las palabras clave, es importante que pueda leer palabras individuales. Para ello, se utilizan separadores de palabras como espacios o caracteres especiales como # o +. Estos ayudan al motor de búsqueda a identificar los límites de las palabras.3. Convertir en minúsculasLas palabras individuales se convierten automáticamente a minúsculas, lo que resulta mucho más fácil para su posterior procesamiento, análisis y comparación.4. Detección de idiomaEl siguiente paso es el reconocimiento de voz. Si busca algo en alemán, por supuesto, también puede esperar resultados en alemán. Para ello, el motor de búsqueda utiliza varios sistemas para poder reconocer el idioma correcto. El idioma se identifica comparándolo con diccionarios y otros documentos.5. Reducción básica de forma mediante la derivación de palabrasLa derivación de palabras devuelve cada palabra a su forma básica. De esta manera, se pueden juntar palabras relacionadas. Como resultado, se guarda un formulario de palabras básico y todos los demás formularios están debajo de él. Esto resulta especialmente eficaz para el motor de búsqueda, ya que se reduce el volumen de documentos.6. Detener el análisis de palabrasEn este paso, se lleva a cabo el análisis de las palabras clave. Las palabras clave son palabras como con, tú, pero, con o nosotros. Para entender el significado del texto, estas palabras no son relevantes. Al compararlas con una lista de palabras clave, estas palabras se eliminan del motor de búsqueda. 7. Extracción y análisis de palabras claveAhora que el buscador ha identificado los términos relevantes para él mediante un tipo de filtro, ahora es importante comprobar los siguientes aspectos: Por un lado, se comprueba la ortografía y, por otro, se identifican los sinónimos y homónimos. La identificación de palabras clave también es importante para obtener un resultado correcto. Para que un término cuente como palabra clave, se deben cumplir los tres criterios siguientes:

  • Validez visual de las palabras: los términos deben servir como palabras clave relevantes. En consecuencia, deben excluirse las conjunciones y negaciones.
  • Validez de ponderación: La cuestión aquí es hasta qué punto el término clave es importante para el contenido del texto.
  • Validez del clúster: las palabras clave deben estar orientadas de manera que puedan vincularse a otros documentos.

ID de octava palabraEn el último paso, los términos reciben un WordID único. Por ejemplo, «WLAN para mi empresa» simplemente pasa a ser #6678, lo que ahorra espacio y tamaño al sistema porque el WordID es más corto.