Google responde si es mejor o no utilizar texto OCR en archivos PDF

Un profesional de SEO le preguntó a John Mueller durante una reunión sobre archivos PDF incrustados.

Su pregunta fue: su sitio utiliza iframes y un script para incrustar archivos PDF en sus páginas. ¿Hay alguna ventaja en tomar el texto OCR del PDF y pegarlo en los documentos HTML para SEO?

¿O Google simplemente analizará el contenido del PDF con el mismo peso y relevancia para indexar el contenido?

John explicó que esta pregunta lo desconcertó momentáneamente, porque parecía que querían tomar el texto del PDF y simplemente ocultarlo en HTML por razones de SEO. Y esto es algo que John no recomendaría hacer.

Si desea que el contenido sea indexable, dijo, entonces debe hacerlo visible en la página.

Eso es lo primero que diría con respecto a los archivos PDF.

Confirmó que Google intenta sacar el texto de los archivos PDF e indexarlo para los propios archivos PDF.

Desde una perspectiva práctica, lo que sucede con un PDF es que, como uno de los primeros pasos, Google lo convierte en una página HTML e intenta indexarlo como una página HTML.

Básicamente, lo que estás haciendo es crear un iframe y sería una página HTML indirecta.

Y, cuando se trata de iframes, Google tiene en cuenta este contenido para indexarlo dentro de esa página principal.

Leer:  11 ALTERNATIVAS MEJOR CONSTRUIDAS PARA AYUDARTE A ESPIAR A LOS COMPETIDORES

Pero también puede suceder que de todos modos indexen el PDF por separado. Desde ese punto de vista, es realmente difícil decir exactamente qué sucederá.

John le daría la vuelta a la pregunta y la formularía como “¿qué quieres que suceda?” Y si desea que sus páginas web normales se indexen con el contenido del archivo PDF, hágalo de modo que el contenido sea visible inmediatamente en la página HTML.

En lugar de incrustar el PDF como la pieza principal de contenido, haga que el contenido HTML sea la pieza principal y luego vincúlelo al archivo PDF.

Luego está la pregunta de si desea que esos archivos PDF se indexen por separado o no.

A veces es necesario indexar los archivos PDF por separado. Y si desea indexarlos por separado, vincularlos es excelente.

Si no desea indexarlos por separado, puede usar robots.txt para bloquear su indexación.

También puede utilizar el encabezado HTTP noindex de X-robots. Esto es un poco más complicado porque debes servirlo como encabezado para los archivos PDF.

Esto sucede aproximadamente en el minuto 17:30 del vídeo.

Transcripción del Hangout de John Mueller

Juan (pregunta)
Veamos aquí uno más técnico. Nuestro sitio web utiliza iframes y un script para incrustar archivos PDF en nuestras páginas de nuestro sitio web. ¿Hay alguna ventaja en tomar el texto OCR del PDF y pegarlo en algún lugar del HTML del documento con fines de SEO? ¿O Google simplemente analizará el contenido del PDF con el mismo peso y relevancia para indexar el contenido?

Leer:  Podcast off the record de búsqueda de Google: hablemos de UX y SEO

Juan (Respuesta)
Sí, por un momento estoy un poco desconcertado, porque parece que quieres tomar el texto del PDF y ocultarlo en el HTML para fines de SEO. Y eso es algo que definitivamente no recomendaría hacer. Si desea que el contenido sea indexable, hágalo visible en la página. Así que eso es lo primero que diría. Con respecto a los archivos PDF, intentamos sacar el texto de los archivos PDF e indexarlo para los propios archivos PDF. Desde un punto de vista práctico, lo que sucede con un PDF es que, como uno de los primeros pasos, lo convertimos en una página HTML e intentamos indexarla como una página HTML.

Básicamente, lo que estás haciendo es como… enmarcar una página HTML indirecta. Y cuando se trata de iframes, podemos tener en cuenta ese contenido para indexarlo dentro de la página principal. Pero también puede suceder que de todos modos indexemos el PDF por separado. Entonces, desde ese punto de vista, es muy difícil decir exactamente qué sucederá. Le daría la vuelta a la pregunta y la formularía como “¿qué quieres que pase?”

Y si desea que sus páginas web normales se indexen con el contenido del archivo PDF, hágalo de modo que ese contenido sea visible inmediatamente en la página HTML. Entonces, en lugar de incrustar el PDF como pieza principal de contenido, haga que el contenido HTML sea la pieza principal y vincúlelo al archivo PDF. Y luego surge la pregunta de si desea que esos archivos PDF se indexen por separado o no. A veces es necesario indexar los archivos PDF por separado. Y si desea indexarlos por separado, vincularlos es excelente.

Leer:  Cómo las contraseñas débiles lo exponen a graves riesgos de seguridad

Si no desea indexarlos por separado, también está bien usar robots.txt para bloquear su indexación. También puede utilizar el encabezado HTTP noindex X-robots. Es un poco más complicado porque tienes que servirlo como encabezado para los archivos PDF si quieres tener esos archivos PDF, como disponibles en el iframe, pero en realidad no indexados.

Nuevas Publicaciones:

Recomendamos