A Hybrid Approach for Iterative Image Retrieval with Keywords and Visual Features
簡志宇、陳穎平所提出,出自於國立交通大學資訊科學與工程研究所
--
摘要
在網路的時代下,使用者透過發展成熟的關鍵字搜尋QBK(Query by Keyword),就可以輕鬆的在網路上找到自己想要的答案,但資訊科技的日新月異,網路頻寬的提升以及數位影像的普及,使用者對資訊的需求也從傳統的文字檔案轉變成影像檔案,然而影像檔案的文字描述不能完全代表影像本身的內容,所以如何協助使用者從茫茫大海的影像資料庫中,找到想要的影像,就變成一項值得探討的課題。
由於影像本身不只是字串,所以這不是QBK可以完全解決的問題,因此以內容為主的影像檢索技術CBIR(Content-based Image Retrieval)逐漸被人討論與應用,如何把影像對應到正確的語意表達以及做出有效率的索引,是CBIR技術的兩大目標,可惜的是其技術到目前為止還有很多改善的空間。
QBK(Query by Keyword):
優點─從人類語意下去搜尋影像,分析影像周遭的註解與描述文字,可以完整反應人類語意。
缺點─影像內容對於檢索的影響可以說完全沒有,且影像的文字描述不能完全代表影像本身。
CBIR(Content-based Image Retrieval):
優點─直接擷取影像低階特徵值進行檢索,並且透過低階特徵值的組成來描述人類語意。
缺點─人類語意層次較直接擷取低階特徵值更為複雜許多,低階特徵值無法滿足影像的涵意。
舉個例子來說,影像中物品與空間的關係,類似的Color Histogram,分析所描述的語意和人類認定的不同,皆會產生樣式辨認的問題(Pattern recognition problem)。
--
方法
研究目的:綜合QBK和CBIR的優點,提出一個整合視覺特徵與關鍵字搜尋的影像檢索架構,希望能提供一個較接近人類語義且以影像內容為基礎的檢索系統。
整個系統有四個主要步驟:
‧Google Image Search
‧特徵擷取與正規化
‧影像分群
‧關鍵字擷取與建議
作者使用Google Image Search當做影像資料庫,當使用者透過QBK找到影像縮圖之後,在使用CBIR進行特徵擷取,從每個影像中取出8個特徵值,並以XML格式儲存,透過正規化的步驟,算出每張影像8個維度的正規距離,然後根據影像之間的正規距離和關鍵字出現的頻率,使用K-medoids演算法做影像分群,最後擷取分群之中出現頻率較高的關鍵字,提供關鍵字建議給使用者,讓使用者可以透過QBK做更進一步的搜尋,並得到更精確的搜尋成果。
實驗結果證實,雖然系統效率較為緩慢,但是經過反覆的特徵擷取和搜尋,能有效的把影像分群,並且提供使用者良好的關鍵字建議,讓使用者能更精確的找到自己想要的影像。
--
討論
此篇論文主要是結合兩種傳統的技術,延伸一種新的應用,並沒有顯著的新貢獻
然而就應用和商業考量而言,此篇論文提供了一些新的思維,如果我們結合不同的搜尋方法,是否可以得到更加有效的搜尋結果?
0 留言:
張貼留言