• Comunicaciones

OCR de vídeo más inteligente

La búsqueda de un sistema OCR de vídeo más inteligente comenzó hace muchos años. Pero en realidad todo empezó con el texto.

Los motores de búsqueda actuales han convertido la indexación de texto en una ciencia. Los modernos rastreadores web encuentran y registran hasta la última palabra escrita, y devuelven resultados con tal eficiencia que algunos expertos en eficiencia recomiendan que la gente abandone sus sistemas de archivo de correo electrónico y las barras de favoritos del navegador web y simplemente confíe en la búsqueda para encontrar lo que necesita.

Pero para la mayoría de las organizaciones, esa capacidad de búsqueda tan profunda está reservada exclusivamente para texto. El vídeo, en particular, sigue siendo una incógnita, limitada a metadatos introducidos manualmente, como títulos y etiquetas.

El reconocimiento óptico de caracteres (OCR) de vídeo es un problema que necesita solución.

Según un estudio de McKinsey e IDC, el trabajador del conocimiento promedio dedica casi el 20 % de su tiempo —prácticamente un día entero a la semana— a buscar la información que necesita para desempeñar su trabajo con eficacia. A medida que las empresas comparten cada vez más información mediante vídeo, este tiempo perdido no hará más que aumentar si no se implementa una solución de búsqueda de vídeo.

Por eso, hoy en día, cada vez más plataformas de vídeo amplían sus capacidades de búsqueda. Sin embargo, a medida que se expande el abanico de soluciones, resulta más difícil para las organizaciones orientarse. ¿Por qué? Porque no todos los buscadores de vídeo son iguales.

Forrester Research elogió recientemente Panopto como tener “el mejor soporte para búsqueda de video”. Es fácil ver por qué: nadie va más allá ni es más amplio que Panopto cuando se trata de búsqueda de videos.

Si un vídeo merece la pena grabarlo y almacenarlo, merece la pena encontrarlo. Necesitas funciones de búsqueda de vídeo que estén a la altura de las circunstancias. Las plataformas de vídeo modernas están encontrando formas creativas de indexar el contenido de los vídeos, descubriendo nuevas maneras de capturar metadatos, entradas de audio y contenido visual.

¿Qué funcionalidades debería tener un motor de búsqueda de vídeos?

Fundamentalmente, si una herramienta de búsqueda de vídeos va a indexar tus vídeos, debería ser capaz de encontrar y mostrar todas las palabras pronunciadas y mostradas en pantalla.

Si bien existen diversas estrategias técnicas para obtener esta información, suelen dividirse en dos grupos: automatizadas o manuales.

Indexación automatizada de vídeo mediante ASR y OCR.

La indexación automatizada de vídeo se basa en una o más tecnologías de vídeo inteligentes para capturar y analizar lo que sucede en el vídeo. Estas herramientas automatizadas suelen aplicarse al vídeo en el mismo instante en que se finaliza la grabación, lo que agiliza el proceso de indexación del contenido.

Los sistemas comunes de indexación automatizada de vídeo incluyen el reconocimiento automático de voz (ASR), el reconocimiento óptico de caracteres (OCR) y la ingesta de contenido de diapositivas. Estos tres sistemas realizan funciones muy diferentes, así que analicemos cada uno con más detalle.

  • El reconocimiento automático de voz (RAV) es una tecnología que identifica cada palabra pronunciada en una grabación. Una vez identificadas, las palabras se marcan con la hora y se añaden a un índice de búsqueda. Los usuarios pueden buscar las palabras, encontrar el momento exacto del vídeo en que se mencionaron y avanzar rápidamente hasta ese punto. Dado que muchos espectadores buscarán un momento específico basándose en una idea o frase que recuerden, el RAV resulta una herramienta increíblemente útil para cualquier buscador de vídeos.
  • El reconocimiento óptico de caracteres (OCR) es una tecnología que se utiliza para reconocer el texto que aparece en pantalla dentro de los vídeos. En las presentaciones modernas, es frecuente que el orador alterne entre diapositivas, contenido en directo en pantalla e incluso otros vídeos. Sin OCR, el texto que aparece en estas presentaciones no se puede indexar, ya que los motores de búsqueda como Google no reconocen el texto guardado como imagen. Sin embargo, la tecnología OCR está diseñada para identificar y descifrar esas palabras, lo que permite a los espectadores buscar prácticamente cualquier palabra que aparezca en pantalla en cualquier parte del vídeo.
  • La importación de contenido de diapositivas se refiere a la tecnología que importa e indexa las diapositivas de tu presentación de PowerPoint o Keynote cuando se utilizan en tu video. La importación de contenido se diferencia del OCR en que extrae programáticamente las cadenas de texto de las diapositivas, en lugar de tomar una foto de la diapositiva e intentar identificar las palabras. La importación de diapositivas también extrae información adicional que no se muestra en pantalla, como las notas del orador, para que tu equipo siempre pueda encontrar momentos precisos en el video basándose en cualquier palabra contenida en cualquier diapositiva.

Indexación manual de vídeos

Por otro lado, la indexación manual de vídeos se basa en la intervención humana que tiene lugar una vez finalizado el vídeo para ayudar a indexar el contenido del mismo.

La utilidad de los procesos de indexación manual varía según la cantidad de información que puedan añadir. Algunos procesos son bastante completos, otros, mucho más limitados. Veamos los dos métodos de entrada manual más comunes:

  • Los metadatos manuales se refieren a la información que se agrega a un archivo de video, como el título, el autor y una descripción. También se pueden agregar notas y comentarios del espectador. Estos son fundamentales para la búsqueda de videos, pero en el caso de videos corporativos —que suelen durar entre 30 y 60 minutos o más y abarcan diversos temas—, los metadatos manuales casi nunca proporcionan suficiente información para ser útiles por sí solos.
  • Las transcripciones son una solución más completa, que consiste simplemente en añadir una transcripción real a los archivos de vídeo para su indexación. La producción de transcripciones es un campo en constante evolución: si bien muchos servicios aún generan estos archivos manualmente, el proceso puede automatizarse. Independientemente del método de desarrollo, la calidad de la información es fundamental: las transcripciones completas serán más valiosas que las parciales, y aquellas que incluyan notas sobre el contenido mostrado en pantalla serán más valiosas que las que solo transcriben los diálogos.

¿Qué es mejor para la búsqueda de vídeos: la indexación automática o la manual?

La elección depende de tus necesidades. Los sistemas de indexación automática basados ​​en tecnología ofrecen resultados más rápidos y suelen aplicarse a todos los vídeos, pero su precisión no es del 100 % con ASR y OCR. Los métodos manuales, basados ​​en la intervención humana, como la transcripción, suelen ofrecer mayor precisión, pero requieren más tiempo y a menudo implican un coste adicional.

Afortunadamente, no tienes que elegir con Panopto .

Panopto La tecnología de búsqueda de vídeo Smart Search de es el motor de búsqueda de vídeo interno más completo del sector. Con Panopto Puedes buscar en tu biblioteca de vídeos de la misma manera que buscarías en internet o en tu correo electrónico.

  • Mediante cualquier palabra clave pronunciada en tus vídeos, con ASR
  • Por cualquier palabra que aparezca en pantalla o en cualquier otro lugar de su video, con OCR e ingesta de contenido de diapositivas,
  • Mediante metadatos tradicionales y avanzados, incluyendo etiquetas y títulos, notas y comentarios del espectador,
  • Y, opcionalmente, mediante transcripciones manuales completas de su contenido de vídeo.

¿Quieres saber más? Ponte en contacto con nuestro equipo para programar una demostración .