2011年5月2日 星期一

SPR about Text Mining and Sentiment Analysis


Using text mining and sentiment analysis for online forums hotspot detection and forecast
Nan Li and Desheng Dash Wu所提出,發表於ELSEVIER'Decision Support Systems

--

摘要

In this paper, online forums hotspot detection and forecast are stuedied using sentiment analysis and text mining approaches.

Step:
‧Data collection and cleansing
‧Text sentiment calculation and marking
‧Hotspot detection

--

方法

K-means clustering (監督式學習)
K-Means是J. B. MacQueen於1967年所提出的分群演算法,必須事前設定群集的數量k,然後依循公式找到極大值,以達到分群的最佳化之目的。

SVM (非監督式學習)
SVM屬於一般化線性分類器。它也可以認為是提克洛夫規範化(Tikhonov Regularization)方法的一個特例。這種分類器的特點是它能夠同時最小化經驗誤差與最大化幾何邊緣區。


Data Structure:
‧The number of the topic posts
‧The average number of responses of topic posts
‧The average sentiment value of topic posts
‧The fraction of positive posts among all the topic posts
‧The fraction of negative posts among all the topic posts

使用以上的資料結構來做向量的分數計算,藉此偵測出 hotspot 的 forums

PS:這邊使用HowNet做positive和negative的標記

--

討論

此論文透過比較K-means和SVM兩種方法偵測出來的hotspot,來證明其評估的準確性
可以看出每個hotspot都會符合論文中所提出的資料結構。

值得思考的是,除了文中所提出的資料結構以外,是否還有其他的資料結構也算是hotspot?

而偵測到的hotspot又要如何有效的去利用?

0 留言:

張貼留言

Related Posts Plugin for WordPress, Blogger...