錢柜qg999_如何用深度學習模型,解決情感分析難題?

麥丁網 2019-11-12 16:10 閱讀164次

錢柜qg999_如何用深度學習模型,解決情感分析難題?

Meltwater通過機器學習提供情感分析已超過10年。第一批模型于2009年部署了英語和德語版本。今天,Meltwater in-house支持16種語言的模型。本博客文章討論了如何使用深度學習和反饋循環向全球3萬多個客戶大規模提供情感分析。

什么是情感分析?

情感分析是自然語言處理(NLP)中的一個領域,涉及從文本中識別和分類主觀意見[1]。情感分析的范圍從檢測情感(例如憤怒,幸福,恐懼)到諷刺和意圖(例如投訴,反饋,意見)。情感分析以其最簡單的形式為一段文本分配屬性(例如,正面,負面,中立)。

讓我們看幾個例子:

Acme 到目前為止,是我遇到過的最糟糕的公司。

這句話顯然表達了負面意見。情感由“最糟糕的公司”(情感短語 the sentiment phrase)承載,并指向“ Acme”(情感目標 the sentiment target)。

明天,Acme和NewCo將發布其最新收入數據

在這種情況下,我們只有關于“ Acme”和“ NewCo”的事實陳述。語句是中性的。

NewCo 在過去一年的創紀錄銷售數字和股市飆升的支持下,它成為第一個在其平臺上積累1萬億美元資產的養老金計劃。

這次,我們在積極的語義環境中使用了諸如“支持”,“創紀錄銷售”之類的短語,指的是“ NewCo” 。

Meltwater通過機器學習提供情感分析已超過10年。第一批模型于2009年部署了英語和德語版本。Meltwater現在擁有16種語言的in-house模型:阿拉伯語,中文,丹麥語,荷蘭語,芬蘭語,法語,印地語,意大利語,日語,韓語,挪威語,葡萄牙語,西班牙語和瑞典語。

我們的大多數客戶都通過媒體監控儀表板(圖1)或報告來分析情感趨勢。較大的客戶可以通過Fairhair.ai數據平臺以豐富文檔的形式訪問我們的數據。

錢柜qg999_如何用深度學習模型,解決情感分析難題?

圖1:Meltwater Media Intelligence媒體監測儀表板。

該產品的一個重要特征是,用戶能夠覆寫(override)算法分配的情感值。覆寫的情感屬性被索引為Meltwater的Elasticsearch集群中同一文檔的不同“版本”,在構建儀表盤和報告時,為客戶提供了他們的情感的個性化視圖(圖2)。

錢柜qg999_如何用深度學習模型,解決情感分析難題?

圖2:Meltwater的媒體情報內容流中的“情感屬性”覆寫下拉列表。

每個月,我們的客戶都會覆寫大約200,000個文檔中的情感值。每天有6,500個文檔!那么,為什么情感很難如此正確呢?

情感屬性分析的挑戰

人類語言的某些細微差別是挑戰性的來源之一。舉一些例子:

處理否定語義:

貴公司情況如何?還不錯!我對最新的財務狀況并不非常滿意 ……

我們在這里有三個句子,第一個是中性的,第二個是肯定的,但包含“錯”,通常在否定的上下文中使用,第三個是否定的,但包含“非常滿意”。

諷刺語義:用這樣的句子

今天又下雨了…… fun times!

盡管表達了“fun times”,但該文本可能是諷刺的,并表達了負面情感。

比較性語義:

我喜歡新的Acme手機,它們比NewCo的手機好得多。

這里的“愛”和“好得多”等表達帶有積極的情感,但是,對于“ NewCo”來說,評價卻是負面的。

取決于讀者角度的語境:

阿克梅警察局今天逮捕了8名涉嫌襲擊和搶劫的人員。該團伙幾個月來一直在恐嚇社區。

除單詞的含義外,以上所有內容都需要理解上下文。

一個必須解決的實際問題是精度和速度之間的權衡。Meltwater每天對大約4.5億個文檔進行情感分析,范圍從推文(平均長度約30個字符)到新聞和博客帖子(長度可達到600-700,000個字符)。每個文檔必須在20毫秒內處理。必須保證速度!

傳統的機器學習方法(如樸素貝葉斯(na?ve Bayes),邏輯回歸和支持向量機(SVM))因具有良好的可擴展性而被廣泛用于大規模的情感分析。現已證明深度學習 (DL)方法在各種NLP任務(包括情感分析)上都可以實現更高的準確性,但是,它們通常較慢,并且訓練和操作成本更高[2]。

“舊”方法:貝葉斯情感

到目前為止,Meltwater一直在使用多元樸素貝葉斯(na?ve Bayes)情感分類器。分類器需要一段文本并將其轉換為一個擁有特征值的矢量 (f1, f2,…, fn)。

然后,分類器計算最可能的情感正負屬性S j,即正,負或中性,前提是我們觀察到文本中的某些特征值。這通常寫為條件概率語句:

p(Sj | f1, f2,…, fn)

通過找到最大化下面的公式的S j,從而獲得概率最大的情感正負屬性。

log(p(Sj)+log(p(fi | Sj))

上一篇:錢柜777mg老虎機_怎樣挽回感情
下一篇:娛樂錢柜qg999_天津感情挽回十大排名