Cómo extraer entidades de una URL con OpenAI

Tabla de contenidos

La extracción de entidades es una técnica muy valorada por los profesionales del SEO porque ayuda a identificar palabras clave y frases relevantes para un sitio web. 

Mediante el análisis de las entidades dentro del contenido, un SEO, puede identificar palabras clave y frases relevantes desde el punto de vista semántico para que un contenido posicione mejor en los resultados de búsqueda de su nicho o industria.

Estas entidades clave ayudan a optimizar el contenido y mejorar la clasificación en los motores de búsqueda.

Porque facilitan la comprensión del texto por parte de los algoritmos.

Sin embargo, el proceso de análisis de entidades suele ser largo y costoso cuando se carece del acceso a las herramientas adecuadas.

Muchas de ellas son de pago y en cierto modo. también siguen un proceso manual.

Por eso, hemos creado un script basado en Python para emplear en Google Colab a modo de extractor de entidades aplicando la Inteligencia Artificial.

En las siguientes líneas te explicamos como ponerlo a trabajar para ti y en que consiste exactamente. 

Notas aclaratorias para antes de empezar:

La extracción de entidades es el proceso de identificar y extraer información específica o entidades de datos de texto no estructurados. Este proceso es más eficaz y preciso gracias al uso de la inteligencia artificial y el procesamiento del lenguaje natural. La extracción de entidades es una herramienta valiosa para el SEO, ya que ayuda a identificar palabras clave y frases relevantes y a mejorar la clasificación en los motores de búsqueda.

¿Qué es un extractor de entidades?

Un extractor de entidades es una herramienta del procesamiento del lenguaje natural (PLN) que permite identificar y clasificar entidades en un texto. 

Las entidades pueden ser personas, lugares, cosas, organizaciones y conceptos.

Esta tecnología puede identificar y extraer entidades específicas, como nombres, direcciones, fechas, etc., de diversas fuentes, como documentos de texto, redes sociales y páginas web

En SEO, la extracción de entidades es importante porque ayuda a los motores de búsqueda a entender mejor el contenido de una página web y a relacionarlo con las consultas de los usuarios.

Qué vas a necesitar para extraer las entidades de una URL

En realidad:

Para usar nuestro extractor de entidades, lo único que vas a necesitar son dos ingredientes:

  1. Una clave de API para utilizar la API de OpenAI. Puedes registrarte aquí para obtener una clave de API  
  2. La URL sobre la que quieres analizar el contenido para extraer las entidades
  3. Y por supuesto nuestro script. Sin el cual estaremos perdidos.
 

La ventaja de emplear nuestro script es que te va a permitir aprovechar los modelos IA entrenados por OpenAI, sin necesidad de entrenar tu propio modelo con machine learning o pedirle a chatGPT que te genere un script para cargarlo.

Como en este ejemplo:

				
					import openai
openai.api_key = "YOUR_API_KEY"

def extract_entities(text):
response = openai.Completion.create(
engine="davinci",
prompt=f"Extract entities from text: '{text}'",
max_tokens=1024,
n=1,
stop=None,
temperature=0.5,
)

entities = response.choices[0].text.strip()
return entities
				
			

Además, si sabes algo de Python podrás adaptar el mismo para realizar pequeños arreglos que te permitirán hacer análisis en masa de diferentes URL al mismo tiempo.

Todo esto seguro te va a ahorrar tiempo y dinero.

Cómo identifica entidades el script

Para extraer entidades nuestro script, emplea  las capacidades de procesamiento de lenguaje natural (NLP) de la API de OpenAI. Aplicando un pormpt diseñado para este propósito por  Álvaro Peña de Luna, y adaptado por Luis Fernández:

Así, cuando le proporcionas la URL y ejecutas el colab, este pone a trabajar y te proporciona:

  • 10 entidades y su tipología. 
  • Y el Salience score asociada a cada una. 

Es decir:

Todo lo necesario para mejorar la prominencia semántica del contenido en la URL proporcionada.

Funciones del script al descubierto:

En resumen, el script extrae entidades y nos da un Salience score de relevancia según el tipo de entidad a partir de una URL que le hemos proporcionado.

Además, con algunas modificaciones también es posible aplicarlo en masa y adaptarlo para ejecutar el mismo proceso a varias URLs empleando un CSV como import.

Pero como decimos para ello es necesario modificar el código. 

En el script, empleamos distintas librerías como BeautifulSub, Request y Trilofilatura para scrapear las URLs. 

Para ejecutarlo, hay que instalar las dependencias y meter la clave de la API de OpenAI. Luego, se introduce una URL y se obtienen las entidades con su tipo y el score. 

Dependiendo de la carga de los servidores de OpenAI, puede tardar en responder.

Así que ten paciencia. 

Sobre todo si lo ejecutas a la hora en que en EEUU están trabajando.

La diferencia principal con otros scripts, que puedes encontrar por ahí, es que el nuestro, para extraer las 10 entidades con mayor score, introduce el título y el texto de la página de forma automatizada

Sin que tengas que hacer nada más.

Resulta muy útil cuando estás realizando tareas de SEO semántico.

Ejecutando el script en Google Colab

Para ejecutar el extractor de entidades solo necesitas:

 

  1. instalar las dependencias necesarias 
  2. Introducir tu APIkey de OpenAI
  3. Pega la URL donde lo pide el Colab.
  4. Y pulsar la tecla intro de tu teclado

Es así de sencillo.

Pero si te has quedado con alguna duda de como, nuestro compañero Luis, te ha preparado un video corto que puedes consultar ahora justo aquí:

En el video de YouTube, Luis, te explica cada paso en detalle.

Ten en cuenta que si sabes Python es posible adaptar el código para analizar al mismo tiempo varias URL.

Algo de gran utilidad si debes analizar varias URL al mismo tiempo.

Recuerda: puedes descargar el Google Colab en el enlace de la sección de más arriba.

¿Cómo funciona la extracción de entidades con inteligencia artificial?

Nuestro extractor de entidades aprovecha los algoritmos de aprendizaje automático desarrollados por OpenAI para identificar y extraer entidades de un texto. 

Resumiendo mucho, el proceso consta de varios pasos:

  • Preprocesamiento de los datos de texto para eliminar el ruido y la información irrelevante.
  • Tokenización del texto en palabras o frases individuales
  • Identificación de las etiquetas de parte de habla (POS) de cada token.
  • Utilización de algoritmos de aprendizaje automático para clasificar cada token como entidad o no.
  • Agrupar las entidades en función de su tipo y contexto.

Al final obtienes las 10 entidades principales asociadas al texto de la URL cargada con una puntuación de prominencia o Salience Score en inglés:

Como puedes comprobar en la imagen de arriba.

Beneficios del Extractor de Entidades con IA:

El Extractor de Entidades con IA ofrece varios beneficios para los que nos dedicamos al SEO, entre ellos:

  1. Mayor precisión de datos estructurados: El extractor de entidades con IA puede identificar y extraer con precisión entidades de datos no estructurados, reduciendo el riesgo de errores y mejorando la precisión de los datos.
  2. Mejora de la eficiencia: Esta herramienta puede extraer entidades en muy poco tiempo, eliminando el esfuerzo necesario para la extracción manual de los datos.
  3. Personalización: El extractor de entidades con IA se puede personalizar para extraer entidades específicas de un dominio concreto, por lo que es ideal para empresas que manejan terminología específica de un sector.
  4. Escalabilidad: en realidad el script puede manejar grandes volúmenes de peticiones al emplear OpenAI, por lo que es ideal para SEOs que manejan cantidades importantes de URLs.

Casos de uso en SEO

Una herramienta de extracción de entidades con IA está diseñada para analizar e identificar entidades específicas, como personas, lugares y cosas, mencionadas en un texto

Nuestro script puede utilizarse de varias formas para mejorar la optimización de los motores de búsqueda (SEO), y estas son solo algunas ideas:

1. Investigación de palabras clave

Al analizar el texto y extraer entidades, una herramienta de extracción de entidades puede ayudar a identificar palabras clave relevantes para SEO. Esto puede ayudar a entender mejor la intención de búsqueda permitiendo optimizar el contenido en consecuencia.

2. Optimización del contenido

Una herramienta de extracción de entidades ayuda a identificar entidades fundamentales del contenido y garantizar que estén correctamente optimizadas para los motores de búsqueda. Por ejemplo, si un redactor está creando contenido sobre un producto específico, la herramienta puede extraer características fundamentales del producto y asegurarse de que se incluyen en el contenido.

3. Análisis de la competencia

Sin duda puedes emplear el extractor de entidades para analizar el contenido de tus competidores e identificar a qué entidades se dirigen. O incluso analizar los primeros resultados de una búsqueda. Con esto puedes obtener información valiosa sobre lo que está funcionando bien para posicionar y centrar sus esfuerzos de SEO.

4. Búsqueda semántica

Con el aumento de la importancia de la búsqueda semántica, que se centra en la comprensión de la intención detrás de una consulta de búsqueda, una herramienta de extracción de entidades puede ayudar a las empresas a optimizar su contenido para este tipo de búsquedas. Al identificar las entidades clave en el contenido, la herramienta permite crear contenidos que tengan mayor probabilidad de ser relevantes para las consultas de búsqueda.

En conclusión:

La extracción de entidades con IA es una potente herramienta para los profesionales del SEO. 

Al aprovechar las últimas tecnologías de IA, un SEO puede actuar con rapidez y precisión al incorporar palabras clave y frases importantes asociadas a un contenido para aumentar la relevancia al enriquecer el contexto semántico.

Esto permite, como hemos mencionado, optimizar contenidos con términos relacionados, entender que están utilizando nuestros competidores para posicionar sus contenidos en los resultados de búsqueda o incluso facilitar la labor de los algoritmos al contextualizar mejor una pieza de contenido.

Además, incorporar la extracción de entidades a tu estrategia SEO también puede ayudar a mantenerte por delante de la competencia, facilitando actualizar el contenido de la forma necesaria.

En definitiva, una herramienta de extracción de entidades con IA puede ser un activo valioso para las empresas que buscan mejorar sus esfuerzos de SEO.

 

Alvaro Peña de Luna
Head SEO y coCEO en iSocialWeb | + posts

Co-CEO y Head of SEO de iSocialWeb, una agencia especializada en SEO, SEM y CRO que gestiona más de +350M de visitas orgánicas al año y con una infraestructura 100% descentralizada.

Además de la empresa Virality Media, una empresa de proyectos propios con más de 150 Millones de visitas activas mensuales repartidos entre diferentes sectores e industrias.

Ingeniero de Sistemas de formación y SEO de vocación. Aprendiz incansable, fan de la IA y soñador de prompts.

¿Quieres mejorar tu proyecto?