mayo 15, 2021

Trabaje de forma remota o «en la oficina»: lo que necesita saber sobre la dualidad de archivos

Piensa en tus archivos. Probablemente imagines el documento de Microsoft Word que estabas editando tal como aparece en la aplicación Microsoft Word. O puede pensar en un PDF como aparece en un visor como Adobe Reader, una presentación en PowerPoint, una hoja de cálculo en Excel o como un correo electrónico como aparece en Outlook.

Lo que ves en Microsoft Word, Adobe Reader, etc. No es la naturaleza completa de estos archivos. Todos estos archivos tienen una «doble naturaleza».

De hecho, estas vistas de aplicaciones nativas se parecen más a la punta del iceberg cuando se trata de la existencia de un formato de archivo binario alternativo. El formato binario de un archivo es el modo relevante cuando está en el disco duro, la red o el portal en línea.

El formato binario generalmente no se parece a lo que ve dentro de una aplicación asociada.

Por ejemplo, dentro de Microsoft Word, un documento suele ser fácil de leer en términos de oraciones y párrafos completos. En formato binario, puede ser difícil elegir incluso una sola palabra. Es posible que solo vea letras aleatorias flotando en un mar de códigos de aspecto incomprensible.

Mientras que un formato binario puede parecer un mar de incomprensible a simple vista, para un motor de búsqueda, un formato binario es más como una bola de cristal. Dentro de la bola de cristal no solo está lo que puedes ver en una vista de la aplicación asociada, sino mucho más.

¿Cómo analiza un motor de búsqueda un formato binario?

El primer paso para analizar un formato binario es identificar la especificación de formato binario correcta para aplicar. Las especificaciones binarias para «interpretar» un documento de OneNote son muy diferentes de las especificaciones binarias para «interpretar» un PDF.

PDF es muy diferente de las especificaciones binarias para «interpretar» un correo electrónico. Y estas especificaciones pueden estar más allá de la complejidad: se acercan a cientos de páginas de documentación técnica.

Una forma de identificar la especificación binaria correcta para aplicar sería mirar la extensión del nombre de archivo.

Si un nombre de archivo termina en .DOCX, se aplica la especificación de Microsoft Word y si termina en .PDF, se aplica la especificación de archivo PDF. ¿Qué sucede si alguien guardó sus archivos PDF con extensión .DOCX y archivos OneNote con extensión .PDF?

La forma más precisa de identificar la especificación relevante para aplicar a un archivo binario es mirar dentro del archivo binario. Al mirar dentro del archivo binario, puede determinar el tipo de formato, en lugar de mirar la extensión del nombre de archivo.

Con el tipo de formato correcto, independientemente de la extensión que alguien inserte en un documento de Microsoft Word, aún es posible aplicar el mecanismo de análisis correcto.

Primero: cuando se usa un motor de búsqueda como dtSearch: la extensión del nombre de archivo no afecta la capacidad de encontrar un archivo.

Muchas veces, es posible tener metadatos relativamente ocultos en una vista de la aplicación asociada. Esto significa que los datos no se mostrarán de manera predeterminada; debes hacer clic mucho para encontrar la información.

Sin embargo, para un motor de búsqueda, todo el texto y los datos están en el mismo nivel.

Segundo: La segunda sugerencia práctica relacionada con la doble naturaleza de los archivos y un motor de búsqueda es, por lo tanto, que no hay metadatos demasiado oscuros que el motor de búsqueda pueda encontrar fácilmente.

Tercero: El tercer consejo práctico es sobre el texto «negro sobre negro» o «blanco sobre blanco» o «rojo sobre rojo». Estos tipos de texto generalmente serán completamente invisibles en una vista de la aplicación asociada. Sin embargo, es tan evidente como cualquier otro texto de motor de búsqueda. Por lo tanto, la tercera sugerencia con respecto a la doble naturaleza de los archivos y un motor de búsqueda es que el contraste visual entre las palabras y el fondo dentro de una aplicación no importa para un motor de búsqueda.

El consejo final: La última sugerencia aquí es «específica de archivo» y se refiere a un subconjunto de archivos que llamaré PDF «solo imagen». «

A veces te encontrarás con un PDF donde intentas cortar y pegar el texto, pero no puedes, porque es solo una imagen de texto y en realidad no incluye una versión digital del texto.

Del mismo modo, al igual que una imagen, un motor de búsqueda ni siquiera verá el texto allí: el motor de búsqueda «ve» solo la imagen (junto con cualquier metadato).

Tenga en cuenta que un motor de búsqueda puede identificar específicamente PDF de «solo imagen». El motor de búsqueda marca la imagen para indicar que el archivo requiere reconocimiento óptico de caracteres o (OCR).

Recuerde que OCR es una aplicación separada, por ejemplo, una aplicación como Adobe Acrobat puede ejecutarse.

Una vez que se produce el reconocimiento óptico de caracteres (OCR), puede cortar y pegar el texto como desee y un motor de búsqueda encontrará «todo allí».

Crédito de la imagen: Ketut Subiyanto; Pexels

Elizabeth Thede

Elizabeth es la gerente de ventas de dtSearch. Abogada en prácticas, Elizabeth pasó muchos años en la industria del software. En casa, él cultiva muchas plantas y tiene un perro de rescate mal comportamiento pero muy lindo. Elizabeth también escribe artículos técnicos y es colaboradora habitual de The Price of Business, distribuida a nivel nacional por USA Business Radio, con artículos actuales en USA Daily Times y The Daily Blaze.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *