Annonce : Recherchez dans vos vidéos avec une plus grande précision
Dans l'entreprise et dans l'enseignement supérieur, le contenu vidéo qui ne peut pas être recherché a peu de valeur.
La majorité du contenu vidéo commercial et universitaire est de longue durée. Les réunions publiques sont souvent d'une durée de 30 à 60 minutes. Les cours magistraux enregistrés durent généralement une heure. Les vidéos de formation en ligne peuvent aller de 15 minutes à plus d'une heure. Selon Cisco, la vidéo longue durée représentait 64 % de l'ensemble du trafic vidéo en 2014, un chiffre qui devrait augmenter.
Avec les vidéos de longue durée, la recherche traditionnelle "à la YouTube" est insuffisante. Même si les vidéos sont largement balisées, la recherche de type YouTube ne peut aider les utilisateurs qu'à trouver le début de la vidéo. Elle ne les aide pas à trouver les points spécifiques dans la vidéo où leur terme de recherche apparaît réellement.
Trouver le contenu de la piste de discussion d'une vidéo et d'autres documents présentés est le défi de la recherche vidéo d'entreprise. C'est ce qui fait la valeur d'une vidéo de 15, 30 ou 60 minutes, car elle permet aux employés de rechercher et d'accéder rapidement au contenu aussi facilement qu'ils le feraient dans un courriel, un document ou une page Web.
En 2014, Panopto a lancé Smart Search pour remédier aux lacunes de l'indexation traditionnelle des vidéos. Smart Search indexe automatiquement les mots de la piste de parole du présentateur (un processus appelé reconnaissance automatique de la parole ou ASR) et tous les mots qui apparaissent dans la vidéo (un processus appelé reconnaissance optique de caractères ou OCR). L'OCR est particulièrement importante pour les vidéos commerciales et universitaires, qui comprennent généralement des documents de présentation formels ou des démonstrations à l'écran.
Aujourd'hui, nous sommes heureux d'annoncer une importante mise à jour de Smart Search. Dans les prochains jours, les clients du cloud Panopto remarqueront une amélioration significative de la qualité des résultats de recherche OCR.
Pour donner une idée de la précision du nouvel algorithme, nous avons créé deux tests. Le premier montre comment l'OCR de Panopto traite les textes dont la taille de police diminue progressivement. Sur un écran de 1920×1080, la reconnaissance des caractères était précise jusqu'à une police de 8 points.
Le deuxième test montre la précision de l'OCR de Panopto lorsque le rapport de contraste diminue. Dans ce cas, le rapport de contraste mesure la luminance entre le texte et le fond.
On s'attend à ce que la reconnaissance de texte fonctionne bien lorsque le texte est noir (RVB 0, 0, 0) et que l'arrière-plan est blanc (RVB 255, 255, 255). Cependant, plus la couleur du texte est claire, plus le rapport de contraste diminue. Il est donc plus difficile pour l'OCR de distinguer avec précision le texte de l'arrière-plan.
Dans notre test, nous avons utilisé une police de 16 points, qui est la taille par défaut des navigateurs Web de bureau. Nous avons commencé avec un rapport de contraste de 21 (texte noir sur fond blanc) et avons progressivement diminué le rapport de contraste jusqu'à 1,7 (RVB 200, 200, 200 sur fond blanc). À titre d'exemple, un rapport de contraste de 1,7 est bien inférieur aux Directives pour l'accessibilité aux contenus Web du W3C (WCAG 2.0), qui spécifient que la présentation du texte doit présenter un rapport de contraste d'au moins 4,5:1.
Pourtant, même à ce faible taux de contraste, le moteur OCR de Panopto a pu reconnaître avec précision 100 % du texte.