996's Photographic Life: Paper Report about Hybrid QBK and CBIR

整合關鍵字與視覺特徵的反覆式影像檢索系統
A Hybrid Approach for Iterative Image Retrieval with Keywords and Visual Features
簡志宇、陳穎平所提出，出自於國立交通大學資訊科學與工程研究所

--

摘要

在網路的時代下，使用者透過發展成熟的關鍵字搜尋QBK(Query by Keyword)，就可以輕鬆的在網路上找到自己想要的答案，但資訊科技的日新月異，網路頻寬的提升以及數位影像的普及，使用者對資訊的需求也從傳統的文字檔案轉變成影像檔案，然而影像檔案的文字描述不能完全代表影像本身的內容，所以如何協助使用者從茫茫大海的影像資料庫中，找到想要的影像，就變成一項值得探討的課題。

由於影像本身不只是字串，所以這不是QBK可以完全解決的問題，因此以內容為主的影像檢索技術CBIR(Content-based Image Retrieval)逐漸被人討論與應用，如何把影像對應到正確的語意表達以及做出有效率的索引，是CBIR技術的兩大目標，可惜的是其技術到目前為止還有很多改善的空間。

QBK(Query by Keyword)：
優點─從人類語意下去搜尋影像，分析影像周遭的註解與描述文字，可以完整反應人類語意。
缺點─影像內容對於檢索的影響可以說完全沒有，且影像的文字描述不能完全代表影像本身。

CBIR(Content-based Image Retrieval)：
優點─直接擷取影像低階特徵值進行檢索，並且透過低階特徵值的組成來描述人類語意。
缺點─人類語意層次較直接擷取低階特徵值更為複雜許多，低階特徵值無法滿足影像的涵意。

舉個例子來說，影像中物品與空間的關係，類似的Color Histogram，分析所描述的語意和人類認定的不同，皆會產生樣式辨認的問題(Pattern recognition problem)。

--

方法

研究目的：綜合QBK和CBIR的優點，提出一個整合視覺特徵與關鍵字搜尋的影像檢索架構，希望能提供一個較接近人類語義且以影像內容為基礎的檢索系統。

整個系統有四個主要步驟：
‧Google Image Search
‧特徵擷取與正規化
‧影像分群
‧關鍵字擷取與建議

作者使用Google Image Search當做影像資料庫，當使用者透過QBK找到影像縮圖之後，在使用CBIR進行特徵擷取，從每個影像中取出8個特徵值，並以XML格式儲存，透過正規化的步驟，算出每張影像8個維度的正規距離，然後根據影像之間的正規距離和關鍵字出現的頻率，使用K-medoids演算法做影像分群，最後擷取分群之中出現頻率較高的關鍵字，提供關鍵字建議給使用者，讓使用者可以透過QBK做更進一步的搜尋，並得到更精確的搜尋成果。

實驗結果證實，雖然系統效率較為緩慢，但是經過反覆的特徵擷取和搜尋，能有效的把影像分群，並且提供使用者良好的關鍵字建議，讓使用者能更精確的找到自己想要的影像。

--

討論

此篇論文主要是結合兩種傳統的技術，延伸一種新的應用，並沒有顯著的新貢獻

然而就應用和商業考量而言，此篇論文提供了一些新的思維，如果我們結合不同的搜尋方法，是否可以得到更加有效的搜尋結果？