動画検索：ASR、OCR、文字起こしの仕組み |Panopto

より高性能な動画OCRの開発は、何年も前から始まっていました。しかし、その原点は、実はテキスト処理にあったのです。

今日の検索エンジンは、テキストのインデックス作成を科学的なレベルにまで高めています。最新のクローラーは、書かれた言葉の一語一語をすべて見つけ出し、記録します。その検索結果の表示は極めて効率的であるため、効率化の専門家の中には、メールの整理システムやウェブブラウザのお気に入りバーを廃止し、必要な情報を探す際には単に検索機能に頼るべきだと提言する者さえいます。

しかし、多くの組織において、そのような高度な検索機能はテキストのみに限定されています。特に動画に関しては、タイトルやタグといった手動で入力されたメタデータに依存する「ブラックボックス」の状態が続いています。

動画OCRは解決すべき課題である

マッキンゼーとIDCの調査によると、現在、知識労働者は業務を効率的に遂行するために必要な情報を検索するだけで、平均して時間の20％近く――つまり毎週ほぼ1日分――を費やしている。企業が動画を活用した情報共有をますます進める中、動画検索ソリューションを導入しなければ、こうした時間の浪費はさらに深刻化するだろう。

そのため、今日ではますます多くの動画プラットフォームが動画検索機能を拡充しています。しかし、ソリューションの選択肢が増えるにつれ、企業にとって適切な選択を行うことが難しくなってきています。なぜでしょうか？それは、すべての動画検索エンジンが同じように作られているわけではないからです。

フォレスター・リサーチは最近、Panopto 「動画検索機能において最高のサポートを提供する」Panopto 高く評価しました。その理由は明白です。Panopto 、Panopto 深く、かつ広範な機能を提供する企業は他にないからです。

録画して保存する価値のある動画なら、見つけ出す価値もあるはずです。その課題に見合う動画検索機能が必要となるでしょう。最新の動画プラットフォームでは、動画内のコンテンツをインデックス化するための独創的な手法が模索されており、メタデータや音声入力、視覚的コンテンツを収集する新たな方法が次々と生み出されています。

では、動画検索エンジンにはどのような機能が必要なのでしょうか？

基本的に、動画検索ツールが動画をインデックス化するのであれば、音声で発せられた言葉や画面に表示された文字をすべて見つけ出し、検索結果として表示できる必要があります。

この情報を取得するための技術的な手法は数多く存在しますが、それらは概ね「自動化」と「手動」の2つのグループに分類されます。

ASRおよびOCRを活用した動画の自動インデックス作成

自動動画インデックス作成は、1つ以上のインテリジェント動画技術を活用して、動画内で何が起きているかを捕捉・判別します。こうした自動ツールは、多くの場合、録画が完了したその瞬間に動画に適用できるため、コンテンツのインデックス作成プロセスを迅速化します。

一般的な自動動画インデックス作成システムには、自動音声認識（ASR）、光学式文字認識（OCR）、およびスライドコンテンツの取り込みが含まれます。これら3つのシステムはそれぞれ全く異なる機能を持つため、それぞれについてもう少し詳しく見ていきましょう。

自動音声認識（ASR）は、録音された音声に含まれる各単語を識別するための技術です。識別された単語にはタイムスタンプが付けられ、検索インデックスに追加されます。これにより、ユーザーは発話された単語を検索し、その単語が言及された動画内の正確な瞬間を見つけ、そのポイントまで早送りすることができます。多くの視聴者は、記憶しているアイデアやフレーズに基づいて特定の瞬間を検索するため、ASRは動画検索エンジンにおいて非常に有用な機能となります。
光学文字認識（OCR）は、動画内の画面に表示されるテキストを認識するために使用される技術です。今日のプレゼンテーションでは、講演者がスライドや画面上のライブコンテンツ、さらには他の動画の間を自由に行き来することがよくあります。OCRがなければ、こうしたプレゼンテーションの一部として表示されるテキストはインデックス化できません。なぜなら、Googleなどの検索エンジンは、画像として保存されたテキストを認識できないからです。しかし、OCR技術はそうした文字を識別・解読するように設計されており、視聴者は動画内のどこに表示される文字であっても、文字通りあらゆる単語を検索できるようになります。
スライドコンテンツの取り込みとは、動画内で使用されるPowerPointやKeynoteのプレゼンテーションスライドそのものをインポートし、インデックスを作成する技術を指します。コンテンツ取り込みは、スライドの写真を撮影して単語を識別しようとするOCRとは異なり、プログラムによってスライドから実際のテキスト文字列を抽出する点で異なります。また、スライド取り込みでは、スピーカーノートなど画面には表示されない追加情報も抽出されるため、チームはどのスライドに含まれる単語に基づいてでも、動画内の正確な瞬間をいつでも特定することができます。

動画の手動インデックス作成

一方、手動による動画インデックス作成は、動画コンテンツのインデックス作成を支援するために、動画の制作完了後に人的な作業を行うものです。

手動によるインデックス作成プロセスの有用性は、追加できる情報の量によって異なります。非常に包括的なプロセスもあれば、はるかに限定的なものもあります。ここでは、最も一般的な2つの手動入力方法を見てみましょう：

手動で追加されたメタデータとは、タイトル、作成者、説明文など、動画ファイルに付加される情報を指します。視聴者によるメモやコメントもここに追加されることがあります。これらは動画検索の基盤となる要素ですが、30分から60分以上にも及び、多岐にわたるトピックを扱うビジネス動画の場合、手動で追加されたメタデータだけでは、それ単体で有用な説明として十分な情報を提供することはほとんどありません。
文字起こしは、より包括的なアプローチであり、インデックス作成のために実際の動画の文字起こしデータを動画ファイルに追加するだけで完了します。文字起こしの作成は進化し続けている分野です。多くのサービスでは依然として手作業で行われていますが、このプロセスは自動化することも可能です。どのような方法で作成する場合でも、入力の質が極めて重要です。完全な文字起こしは不完全なものよりも価値が高く、画面に表示される内容に関する注釈が含まれている文字起こしは、単に台詞を読み上げただけのものよりも価値が高くなります。

動画検索には、自動インデックス作成と手動インデックス作成のどちらが適しているでしょうか？

どちらを選ぶかは、結局のところニーズ次第です。テクノロジーを活用した自動インデックス作成システムは、処理が速く、多くの場合、すべての動画に適用できますが、ASR（音声認識）やOCR（光学文字認識）の精度が100%とは限りません。一方、文字起こしなどの手作業によるアプローチは、一般的に精度が高いですが、作成に時間がかかり、追加費用が発生することもよくあります。

幸いなことに、Panoptoならどちらかを選ばなくても済みます。

Panopto 「Smart Search」動画検索技術は、業界で最も包括的な動画内検索エンジンです。Panoptoを使えば、インターネットやメールを検索するのと同じように、動画ライブラリ内を検索することができます。

動画内で発話されたあらゆるキーワードを、ASR（音声文字変換）で検出
画面上や動画内のどこかに表示されるあらゆる文字について、OCRおよびスライドコンテンツ取り込み機能により、
タグやタイトル、視聴者のメモやコメントなど、従来型および高度なメタデータにより、
また、ご希望に応じて、動画コンテンツの完全な手書き文字起こしも承ります。

さらに詳しく知りたい方は、ぜひ弊社チームまでご連絡いただき、デモのご予約をお願いいたします。

動画ナレッジプラットフォーム

Panopto 、御社にとって最適なソリューションでしょうか？

リソースセンター

Panoptoについて

より高度な動画OCR

動画OCRは解決すべき課題である

では、動画検索エンジンにはどのような機能が必要なのでしょうか？

ASRおよびOCRを活用した動画の自動インデックス作成

動画の手動インデックス作成

動画検索には、自動インデックス作成と手動インデックス作成のどちらが適しているでしょうか？

Panopto 動作をご覧ください

Panopto 動作をご覧になりませんか？

製品

機能

ソリューション

産業

ユースケース

サポート

会社