• 커뮤니케이션

더 스마트한 비디오 OCR

더 스마트한 영상 OCR 기술에 대한 연구는 수년 전부터 시작되었습니다. 하지만 그 모든 것은 사실 텍스트에서 시작되었습니다.

오늘날 검색 엔진은 텍스트 색인화를 정교한 기술로 발전시켰습니다. 최신 검색 크롤러는 글자로 된 모든 내용을 찾아내어 기록하며, 그 결과물을 매우 효율적으로 제공해 주기 때문에 일부 효율성 전문가들은 사람들이 이메일 분류 체계나 웹 브라우저의 즐겨찾기 기능을 포기하고, 필요한 정보를 찾기 위해 단순히 검색에만 의존할 것을 권장하고 있습니다.

하지만 대부분의 조직에서 이러한 심층 검색 기능은 텍스트에만 국한되어 있습니다. 특히 동영상은 여전히 ‘블랙박스’와 같아서, 제목이나 태그와 같은 수동으로 입력된 메타데이터에만 의존하고 있습니다.

동영상 OCR은 해결해야 할 과제입니다

맥킨지와 IDC의 연구에 따르면, 현재 지식 근로자들은 업무를 효율적으로 수행하는 데 필요한 정보를 찾는 데만 평균적으로 근무 시간의 20% 가까이, 즉 매주 거의 하루를 소비하고 있습니다. 기업들이 동영상을 통해 정보를 공유하는 비중이 점점 더 커짐에 따라, 동영상 검색 솔루션이 마련되지 않는다면 이러한 시간 낭비는 더욱 심해질 것입니다.

그렇기 때문에 오늘날 점점 더 많은 동영상 플랫폼이 동영상 검색 기능을 강화하고 있습니다. 하지만 솔루션의 종류가 늘어남에 따라 기업들이 이를 파악하기가 점점 더 어려워지고 있습니다. 왜일까요? 모든 동영상 검색 엔진이 똑같이 만들어지지는 않았기 때문입니다.

포레스터 리서치는 최근 Panopto “동영상 검색 지원이 가장 뛰어난” Panopto 선정했습니다. 그 이유는 분명합니다. 동영상 검색 Panopto 깊이 있고 폭넓은 기능을 제공하는 곳은 없기 때문입니다.

녹화하고 저장할 가치가 있는 영상이라면, 찾아낼 가치도 있습니다. 여러분은 이러한 과제를 훌륭히 수행할 수 있는 영상 검색 기능을 원하실 것입니다. 현대의 영상 플랫폼들은 이제 영상 내부의 콘텐츠를 색인화하는 창의적인 방법을 모색하고 있으며, 메타데이터, 오디오 입력 및 시각적 콘텐츠를 수집하는 새로운 방식을 찾아내고 있습니다.

그렇다면 동영상 검색 엔진은 어떤 기능을 갖추어야 할까요?

기본적으로, 동영상 검색 도구가 여러분의 동영상을 색인화하려면 화면에 표시되거나 음성으로 언급된 모든 단어를 찾아서 검색 결과에 포함시켜야 합니다.

이 정보를 얻기 위한 기술적 전략은 여러 가지가 있지만, 대체로 자동화 방식과 수동 방식이라는 두 가지 범주로 나뉩니다.

ASR 및 OCR을 통한 자동 동영상 인덱싱

자동 영상 색인화는 하나 이상의 지능형 영상 기술을 활용하여 영상 속 상황을 포착하고 식별합니다. 이러한 자동화 도구는 대개 녹화가 완료되는 즉시 영상에 적용될 수 있어, 콘텐츠 색인화 과정을 신속하게 진행할 수 있습니다.

일반적인 자동 영상 인덱싱 시스템으로는 자동 음성 인식(ASR), 광학 문자 인식(OCR), 슬라이드 콘텐츠 수집 등이 있습니다. 이 세 가지 시스템은 각각 매우 다른 기능을 수행하므로, 각각에 대해 좀 더 자세히 살펴보겠습니다.

  • 자동 음성 인식 (ASR)은 녹음된 음성에서 발화된 각 단어를 식별하는 데 사용되는 기술입니다. 단어가 식별되면 타임스탬프가 부여되고 검색 인덱스에 추가됩니다. 사용자는 음성 단어를 검색하여 해당 단어가 언급된 영상의 정확한 지점을 찾아내고, 그 지점으로 빠르게 이동할 수 있습니다. 많은 시청자가 기억하는 아이디어나 문구를 바탕으로 특정 장면을 검색할 것이므로, ASR은 영상 검색 엔진에서 매우 유용한 요소입니다.
  • 광학 문자 인식 (OCR)은 동영상 내 화면에 표시된 텍스트를 인식하는 데 사용되는 기술입니다. 오늘날의 현대적인 프레젠테이션에서는 발표자가 슬라이드, 실시간 화면 콘텐츠, 심지어 다른 동영상 사이를 자유롭게 전환하는 경우가 많습니다. OCR이 없다면, 이러한 프레젠테이션의 일부로 표시되는 텍스트는 색인화될 수 없습니다. 구글과 같은 검색 엔진은 이미지로 저장된 텍스트를 인식할 수 없기 때문입니다. 그러나 OCR 기술은 이러한 단어를 식별하고 해독하도록 설계되어 있어, 시청자가 동영상 내 화면 어디에나 나타나는 말 그대로 모든 단어를 검색할 수 있게 해줍니다.
  • 슬라이드 콘텐츠 수집이란, 동영상에 포함된 실제 PowerPoint 또는 Keynote 프레젠테이션 슬라이드를 가져와 색인화하는 기술을 말합니다. 콘텐츠 인제션은 슬라이드 사진을 촬영하여 단어를 식별하려는 OCR과 달리, 프로그래밍 방식으로 슬라이드에서 실제 텍스트 문자열을 추출한다는 점에서 다릅니다. 또한 슬라이드 인제션은 발표자 노트와 같이 화면에 표시되지 않는 추가 정보도 추출하므로, 팀은 슬라이드에 포함된 어떤 단어든 기반으로 동영상 내 정확한 순간을 항상 찾을 수 있습니다.

수동 동영상 색인 생성

반면, 수동 동영상 색인화는 동영상 콘텐츠에 색인을 부여하기 위해 동영상이 완성된 후 이루어지는 사람의 개입에 의존합니다.

수동 색인화 프로세스의 유용성은 추가할 수 있는 정보의 양에 따라 달라집니다. 어떤 프로세스는 상당히 포괄적인 반면, 다른 프로세스는 훨씬 더 제한적입니다. 가장 일반적인 두 가지 수동 입력 방식을 살펴보겠습니다:

  • 수동 메타데이터란 제목, 제작자, 설명 등 동영상 파일에 추가되는 정보를 말합니다. 시청자의 메모나 댓글도 여기에 포함될 수 있습니다. 이는 동영상 검색의 핵심 요소이지만, 30~60분 이상 길이에 다양한 주제를 다루는 비즈니스 동영상의 경우, 수동 메타데이터만으로는 유용한 정보를 제공하기에 턱없이 부족한 경우가 대부분입니다.
  • 대본은 더 포괄적인 접근 방식으로, 인덱싱을 위해 실제 동영상 대본을 동영상 파일에 단순히 첨부하는 방식으로 이루어집니다. 대본 제작은 지속적으로 발전하는 분야입니다. 많은 서비스가 여전히 수동으로 파일을 제작하고 있지만, 이 과정은 자동화될 수 있습니다. 어떤 방식으로 개발하든 입력 자료의 품질이 가장 중요합니다. 부분적인 대본보다 완전한 대본이 더 가치가 있으며, 화면에 표시된 내용에 대한 설명이 포함된 대본은 단순히 대사를 나열한 대본보다 더 높은 가치를 지닙니다.

동영상 검색에는 자동 색인화와 수동 색인화 중 어느 쪽이 더 나을까요?

선택은 전적으로 귀하의 필요에 달려 있습니다. 기술을 기반으로 하는 자동 인덱싱 시스템은 더 빠른 결과를 제공하며 대부분의 동영상에 적용할 수 있지만, ASR(음성 인식)과 OCR(광학 문자 인식)의 정확도는 100%가 아닙니다. 반면, 전사 작업과 같은 수동 방식은 일반적으로 정확도가 더 높지만 작업에 더 많은 시간이 소요되며 추가 비용이 발생할 수 있습니다.

다행히도, Panopto 사용한다면 둘 중 하나를 고를 필요가 없습니다.

Panopto ‘스마트 검색(Smart Search )’ 동영상 검색 기술은 업계에서 가장 포괄적인 동영상 내 검색 엔진입니다. Panopto 사용하면 인터넷이나 이메일을 검색하는 것과 동일한 방식으로 동영상 라이브러리를 검색할 수 있습니다.

  • 동영상에 포함된 모든 음성 키워드를 ASR을 통해
  • 화면이나 동영상 내 어디에나 표시되는 모든 텍스트를 OCR 및 슬라이드 콘텐츠 수집 기능을 통해,
  • 태그와 제목, 시청자 메모 및 댓글을 포함한 기존 및 고급 메타데이터를 통해,
  • 또한 원하신다면 동영상 콘텐츠를 완전히 수기로 전사해 드릴 수도 있습니다.

더 자세히 알고 싶으신가요? 저희 팀에 문의하여 데모 일정을 잡아보세요.