Informedia Digital Video Library 是一種以Video為data組成的library,
它使用了speech , Image and natural language understanding來對
Video進行處理,而主要的目標即是希望Video能夠以類似Text的檢索方法來
進行檢索.
因此,我們需要對Video所具有的資料進行分析.(也可說是video的metadata)
使用的一些技巧包含了:
Speech Recognition:
Speech Recognition就是藉由microphone or telephone來補捉acoustic signal,
並將其轉換成一個words的集合.
Closed Caption:
Closed Caption又稱CC字幕,是一種隱藏式的字幕,
在Closed Caption中,除了影片原本所需具有的對白之外,對一些動作的配樂,
也都會以文字加以描述,主要是為了在聽力上有所障礙的人士所做的一種呈現.
以下就是一個呈現Closed Caption的影片.
ref:http://commons.wikimedia.org/wiki/File:Closed_Caption_Demonstration_512k-Felix.ogg
Image Processing:
Image Processing主要的功能是在於:
1.determine scene boundaries
2.recognize faces.
3.allow for image similarity comparision
OCR(optical character recognition)
Optical character recognition 是一種用scan來進行轉換的技術,可以將手寫,
或者是印刷的字來轉換為machine-encode text.
Video OCR:
主要的目的是為了將Video中的文字擷取下來,再經由OCR辨識轉換為一般的文字檔,
user便可藉由一般Text的retrieval來找到此一Video的所在地.
-----------------------------------------------------------------------------------------------------------
在informedia system中,相對於text來說,query的種類可以更多樣化,
它可以使用language,video或是image來做為query.
另外它也可以以area做為selection,選擇要從哪個area進行retrieval.
Information Summaries:
Information Summaries包含了Text Summaries以及 Visual Summaries,
以news來說,若以Text Summaries來表示,可以使用topic 或是 title.
而Visual summaries則有thumbnail image , filmstrips and dynamic video skim.
(待續...)
留言列表