El algoritmo de Google

Google nació como un proyecto universitario de Larry Page y Serguéi Brin. La compañía se fundó en 1998 y el 27 de septiembre de ese año estrenaron su motor de búsqueda en internet.

El nombre del buscador es un juego de palabras basado en el concepto matemático “gúgol”, que indica 10¹⁰⁰, una clara referencia a la magnitud del proyecto, cuyo objetivo era organizar la ingente cantidad de información en la red.

El proyecto comenzó a crecer. En el año 2000 lanzaron las primeras versiones de google.com en 10 idiomas diferentes. Ese mismo año pusieron en funcionamiento Adwords, el programa de anuncios de Google, que en la actualidad reporta el 90% de los ingresos de la empresa. En el año 2001 comenzaron a lanzar diferentes servicios como Google News, Google Maps, Google Calendar, Google Translate, Google Analytics, Google Drive, Gmail… En septiembre de 2008 lanzaron Google Chrome, su propio navegador. Ese mismo año también salió al mercado el primer móvil con sistema Android.

A pesar de todos los servicios que ofrece la empresa, Google nació como un buscador en Internet. Para ello utilizan un algoritmo de búsqueda llamado Page-Rank. Imaginemos que tenemos un conjunto de páginas enlazadas entre sí de la siguiente forma:

Podemos escribir este grafo en forma de tabla. La primera columna representa los nodos de salida, mientras que la primera fila indica los nodos de entrada.

	1	2	3	4
1	0	1/3	1/3	1/3
2	0	0	1/2	1/2
3	1	0	0	0
4	1/2	0	1/2	0

Esta tabla indica la probabilidad de ir a cada una de las diferentes páginas desde un nodo determinado a través de los enlaces. Sin embargo, internet no funciona exclusivamente a través de enlaces, sino que disponemos de una barra de navegación mediante la cual podemos dirigirnos a cualquier página sin necesidad de que aquella en la que estamos nos ofrezca el link correspondiente.

Supongamos que los usuarios acceden a una determinada página de la siguiente manera:

● El 85% de las veces a través de los links de la página en la que están.

● El 15% de las veces a través de la barra de direcciones. Teniendo en cuenta que ese porcentaje se reparte entre los otros 3 posibles nodos

Entonces la tabla quedaría de la siguiente forma:

	1	2	3	4
1	0	1/3·85/100+15/300	1/3·85/100+15/300	1/3·85/100+15/300
2	0+15/300	0	1/2·85/100+15/300	1/2·85/100+15/300
3	1·85/100+15/300	0+15/300	0	0+15/300
4	1/2·85/100+15/300	0+15/300	1/2·85/100+15/300	0

Que si lo operamos y simplificamos:

	1	2	3	4
1	0	1/3	1/3	1/3
2	1/20	0	19/40	19/40
3	9/10	1/20	0	1/20
4	19/40	1/20	19/40	0

Esta información nos puede ayudar a determinar cuál de las páginas es la más relevante. Para ello tendremos que resolver la siguiente ecuación matricial:

Cuya solución sería:

X₁=0,363

X₂=0,146

X₃=0,287

X₄=0,204

Esa es la importancia de cada nodo de la red, siendo el de mayor valor el de mayor importancia. En este caso, el nodo más importante es el nodo 1.

Este es a grandes rasgos el funcionamiento de Page-Rank, pero en el caso de Google lo hace con todas las páginas de la red.

Comentarios

Clara Grima10 de junio de 2020 a las 7:04
Muy bien :)
ResponderEliminar
Respuestas

Añadir comentario

Iñaki Aguirre Arteta, Máster en Cultura Científica

Buscar este blog

El algoritmo de Google

Etiquetas

Comentarios

Publicar un comentario

Entradas populares de este blog

Envases activos e inteligentes

Conocimiento y escritura

Escalas en el Universo