- 広報
より高度な動画OCR

より高性能な動画OCRの開発は、何年も前から始まっていました。しかし、その原点は、実はテキスト認識にあったのです。
今日の検索エンジンは、テキストのインデックス作成を科学的なレベルにまで高めています。最新のクローラーは、書かれた言葉の一語一語をすべて見つけ出し、記録します。その検索結果の表示は極めて効率的であるため、効率化の専門家の中には、メールの整理システムやウェブブラウザのお気に入りバーを廃止し、必要な情報を探す際には単に検索に頼るべきだと提言する者さえいます。
しかし、多くの組織において、そのような高度な検索機能はテキストのみに限定されています。特に動画に関しては、タイトルやタグといった手動で入力されたメタデータに依存する「ブラックボックス」の状態が続いています。
動画OCRは解決すべき課題である
マッキンゼーとIDCの調査によると、現在、知識労働者は業務を効率的に遂行するために必要な情報を検索するだけで、平均して時間の20%近く――つまり毎週ほぼ1日分――を費やしている。企業が動画を活用した情報共有をますます進める中、動画検索ソリューションを導入しなければ、こうした時間の浪費はさらに深刻化するばかりだ。
そのため、今日ではますます多くの動画プラットフォームが動画検索機能を拡充しています。しかし、ソリューションの選択肢が増えるにつれ、企業にとって適切な選択を行うことが難しくなってきています。なぜでしょうか?それは、すべての動画検索エンジンが同じように作られているわけではないからです。
フォレスター・リサーチは最近、Panopto 「動画検索機能において最高水準のサポートを提供している」Panopto 高く評価しました。その理由は明白です。Panopto 、Panopto 深く、かつ広範な機能を備えたソリューションは他にありません。
録画して保存する価値のある動画なら、検索する価値もあるはずです。その期待に応えられる動画検索機能が必要でしょう。最新の動画プラットフォームでは、動画内のコンテンツをインデックス化するための独創的な手法が模索されており、メタデータや音声入力、視覚的コンテンツを収集する新たな方法が次々と生み出されています。
では、動画検索エンジンにはどのような機能が必要なのでしょうか?
基本的に、動画検索ツールが動画をインデックス化するなら、音声で発せられた言葉や画面に表示された文字をすべて見つけ出し、検索結果として表示できるべきです。
この情報を取得するための技術的な手法は数多くありますが、それらは概ね「自動化」と「手動」の2つのグループに分類されます。
ASRおよびOCRを活用した動画の自動インデックス作成
自動動画インデックス作成は、1つ以上のインテリジェントな動画技術を活用して、動画内の状況を捕捉・判別します。こうした自動ツールは、多くの場合、録画が完了したその瞬間に動画に適用できるため、コンテンツのインデックス作成プロセスを迅速化します。
一般的な自動動画インデックス作成システムには、自動音声認識(ASR)、光学式文字認識(OCR)、およびスライドコンテンツの取り込みが含まれます。これら3つのシステムはそれぞれ全く異なる機能を持つため、それぞれについてもう少し詳しく見ていきましょう。
- 自動音声認識(ASR)は、録音された音声に含まれる各単語を識別するために使用される技術です。識別された単語にはタイムスタンプが付けられ、検索インデックスに追加されます。 これにより、ユーザーは発話された単語を検索し、その単語が言及された動画内の正確な瞬間を見つけ、その箇所まで早送りすることができます。多くの視聴者は、記憶しているアイデアやフレーズに基づいて特定の瞬間を検索するため、ASRは動画検索エンジンにおいて非常に有用な機能となります。
- 光学式文字認識(OCR)は、動画内の画面に表示されるテキストを認識するために使用される技術です。 今日のプレゼンテーションでは、講演者がスライドや画面上のライブコンテンツ、さらには他の動画へとシームレスに切り替えることがよくあります。OCRがなければ、こうしたプレゼンテーションの一部として表示されるテキストはインデックス化できません。なぜなら、Googleのような検索エンジンは、画像として保存されたテキストを認識できないからです。しかし、OCR技術はそうした文字を識別・解読するように設計されており、視聴者は動画内のどこに表示されていても、文字通りあらゆる単語を検索できるようになります。
- スライドコンテンツの取り込みとは、動画内で使用されるPowerPointやKeynoteのプレゼンテーションスライドそのものをインポートし、インデックス化する技術を指します。 コンテンツ取り込みは、スライドの写真を撮影して単語を識別しようとするOCRとは異なり、プログラムによってスライドから実際のテキスト文字列を抽出する点で異なります。また、スライド取り込みでは、スピーカーノートなど画面には表示されない追加情報も抽出されるため、チームはどのスライドに含まれるどの単語に基づいても、動画内の正確な瞬間をいつでも特定することができます。
動画の手動インデックス作成
一方、手動による動画インデックス作成は、動画コンテンツのインデックス作成を支援するために、動画の完成後に人間の手作業で行うものです。
手動によるインデックス作成プロセスの有用性は、追加できる情報の量によって異なります。非常に包括的なプロセスもあれば、はるかに限定的なものもあります。ここでは、最も一般的な2つの手動入力方法を見てみましょう:
- 手動で追加されたメタデータとは、タイトル、作成者、説明文など、動画ファイルに付加される情報を指します。視聴者によるメモやコメントもここに追加されることがあります。これらは動画検索の基盤となる要素ですが、30分から60分以上にも及び、多岐にわたるトピックを扱うビジネス動画の場合、手動で追加されたメタデータだけでは、それ単体で有用な説明として十分な情報を提供することはほとんどありません。
- 文字起こしは、より包括的なアプローチであり、インデックス作成のために実際の動画の文字起こしファイルを動画ファイルに追加するだけで行えます。 文字起こしの作成は進化し続けている分野です。多くのサービスでは依然として手作業で作成されていますが、このプロセスは自動化することも可能です。どのような方法で作成するにせよ、入力の質が極めて重要です。完全な文字起こしは不完全なものよりも価値が高く、画面に表示される内容に関する注釈が含まれている文字起こしは、単に台詞を読み上げただけのものよりも価値が高くなります。
動画検索には、自動インデックス作成と手動インデックス作成のどちらが適しているでしょうか?
どちらを選ぶかは、実際にはニーズ次第です。テクノロジーを活用した自動インデックス作成システムは、処理が速く、多くの場合、すべての動画に適用できますが、ASR(音声認識)やOCR(光学文字認識)の精度は100%ではありません。一方、文字起こしなどの手作業によるアプローチは、一般的に精度が高いですが、作成に時間がかかり、追加費用がかかることもよくあります。
幸いなことに、Panoptoならどちらかを選ばなくても済みます。
Panopto 「Smart Search」動画検索技術は、業界で最も包括的な動画内検索エンジンです。Panoptoを使えば、インターネットやメールを検索するのと同じように、動画ライブラリ内を検索することができます。
- 動画内で発話されたあらゆるキーワードを、ASR(音声認識)で検出
- 画面上や動画内のどこかに表示されるあらゆる文字について、OCRおよびスライドコンテンツ取り込み機能により、
- タグやタイトル、視聴者のメモやコメントなど、従来型および高度なメタデータによって、
- また、必要に応じて、動画コンテンツを完全に手作業で文字起こしすることも可能です。
さらに詳しく知りたいですか?デモのご予約は、弊社チームまでお問い合わせください。



