計(jì)算機(jī)應(yīng)用的基礎(chǔ)知識(shí):文本表示綜述及其改進(jìn)

字號(hào):

文本表示綜述及其改進(jìn)
    主要內(nèi)容:
    現(xiàn)階段文本表示的主要技術(shù)
    已有的工作對(duì)我們的啟發(fā)
    已有的改進(jìn)工作的介紹
    我們的改進(jìn)(可行性?)
    計(jì)算機(jī)如何解決文本分類問題?
    一個(gè)中文文本表現(xiàn)為一個(gè)由漢字和標(biāo)點(diǎn)符號(hào)組成的字符串,由字組成詞,由詞組成短語,進(jìn)而形成句、段、節(jié)、章、篇等結(jié)構(gòu)。
    自然語言理解
    借助統(tǒng)計(jì)學(xué)這個(gè)有力的工具
    現(xiàn)階段文本表示的主要技術(shù)
    向量空間模型
    特征項(xiàng)的粒度選擇
    預(yù)處理去除停用詞
    特征選擇
    特征項(xiàng)權(quán)重計(jì)算
    特征重構(gòu)
    VSM
    向量空間模型(Vector Space Model)Salton的概念
    文檔(Document)
    特征項(xiàng)(Term)
    特征項(xiàng)的權(quán)重(Term Weight)
    向量空間模型(VSM)
    相似度(Similarity)
    特征項(xiàng)的粒度
    字
     簡(jiǎn)單高效,國(guó)家標(biāo)準(zhǔn)GB2312-80 中定義的常用漢字為6763個(gè) .
     表示能力比較差,不能獨(dú)立地完整地表達(dá)語義信息。
    詞
     詞是最小的能夠獨(dú)立運(yùn)用的語言單位 .
     詞的個(gè)數(shù)在10萬個(gè)以上,面臨復(fù)雜的分詞問題
    特征項(xiàng)的粒度(2)
    短語特征
     和詞相比頻率更低,表現(xiàn)力更強(qiáng)
    概念特征
     “爸爸”=“父親”,在自動(dòng)文摘領(lǐng)域很有幫助
    N元組特征
     “中國(guó)人民銀行”
    2元組: 中 中國(guó) 國(guó)人 人民 民銀 銀行 行
     主要用于自動(dòng)糾錯(cuò).
    特征項(xiàng)的粒度(3)
    重復(fù)串特征?
     分詞程序的統(tǒng)計(jì)逼進(jìn)
    新的粒度?
    David Lewis的結(jié)論:
     單個(gè)word作為特征效果好于phrase和cluster of phrase以及cluster of words.
    phrase的低頻率和高同義性(synonymy)大大的影響其性能 ;(抵消了phrase的低歧義性的好處) 而cluster of words的效果不佳主要的原因應(yīng)該還是訓(xùn)練集不夠大的緣故 .
    預(yù)處理去除停用詞
    虛詞,助詞出現(xiàn)頻率高,對(duì)于表達(dá)意義的貢獻(xiàn)卻不大.
    如:“著” 、“了” 、“過” 、“的” 、“地” 、“得”
    統(tǒng)計(jì)詞頻時(shí)過濾掉這些停用詞.
    停用詞無用嗎?
    紅樓夢(mèng)作者考證
     李賢平 1987
    利用120回中每一回用的47個(gè)虛字(之,其,或,亦……,呀,嗎,咧,罷……;的,著,是,在,……;可,便,就,但,……,兒等)出現(xiàn)的頻率進(jìn)行聚類.
    前80回基本聚成一類,后40回聚類情況較零散.
    得出結(jié)論:
    前80回與后40回之間有交叉。
    前80回是曹雪芹據(jù)《石頭記》寫成,中間插入《風(fēng)月寶鑒》,還有一些別的增加成分。
    后40回是曹雪芹親友將曹雪芹的草稿整理而成,寶黛故事為一人所寫,賈府衰敗情景當(dāng)為另一人所寫。
    特征選擇
     目標(biāo)
    表達(dá)力強(qiáng)
    頻率較高
    區(qū)分度高
    合理的特征評(píng)價(jià)函數(shù)
    消除干擾,提高分類準(zhǔn)確率
    特征空間降維,減少運(yùn)算量
    特征選擇(2)
    文檔頻次 (DF)
     根據(jù)預(yù)先設(shè)定的閾值去除那些文檔頻次特別低和特別高的特征項(xiàng)。
     合理的閾值往往難以得到 !
    互信息(MI)
    出現(xiàn)頻率差異很大的特征項(xiàng)的互信息大小不具有可比性 !(即低頻特征具有較高的MI)
    同時(shí),訓(xùn)練集中不同類別相差較大時(shí),低頻詞也有較大MI.
    實(shí)踐證明,互信息方法是效果最差的特征選擇方法!
    特征選擇(3)
    χ2統(tǒng)計(jì)量:用于度量特征項(xiàng)w 和類別C 之間的獨(dú)立性
     對(duì)低頻特征項(xiàng)的區(qū)分效果也不好 !
    信息增益(IG):該特征項(xiàng)為整個(gè)分類所提供的信息量
     將長(zhǎng)文檔和短文檔視為等同.頻率信息.
    特征選擇性能比較:
    特征項(xiàng)權(quán)重計(jì)算
    布爾權(quán)重
    詞頻權(quán)重
    TFIDF權(quán)重(為什么?)
    權(quán)重計(jì)算(2)
    TFC權(quán)重: 對(duì)TFIDF進(jìn)行歸一化
    LTC權(quán)重:降低TF的作用(最常用)(不區(qū)分長(zhǎng)短文章)
    熵權(quán)重: (效果)
    特征重構(gòu)
    LSI:(Latent Semantic Indexing)
     一詞多義和多詞一義的等現(xiàn)象使得文本特征項(xiàng)向量中的不同分量之間互相關(guān)聯(lián).
     LSI 方法 通過矩陣奇異值分解(SVD),將特征項(xiàng)空間中的文本矩陣轉(zhuǎn)換成概念空間中的正交矩陣 ,概念空間中各個(gè)特征之間是相互獨(dú)立的.
     進(jìn)行奇異值分解過程中信息損失過大,因此在自動(dòng)文本分類問題中往往性能不佳!
    VSM潛在的問題:
    長(zhǎng)文檔(黃萱菁 )
     VSM把文檔看成是文檔空間的一個(gè)向量 ,實(shí)踐結(jié)果表明對(duì)長(zhǎng)文檔來說不適宜.長(zhǎng)文檔內(nèi)容比較豐富,必須對(duì)文檔長(zhǎng)度進(jìn)行正規(guī)化出現(xiàn)問題.解決的辦法是對(duì)長(zhǎng)文檔進(jìn)行分割。(如何定義“長(zhǎng)”?)
    特征項(xiàng)的獨(dú)立性假設(shè)
     如果我們把詞看做特征項(xiàng),那么詞之間的獨(dú)立性即意味著一個(gè)詞的上下文信息對(duì)于這個(gè)詞的信息沒有任何作用!這顯然是與人們的常識(shí)相違背的.
    思路啟發(fā) 1:特征項(xiàng)順序關(guān)系 (卜東波)
    中文文本由特征項(xiàng)的頻率及相互的順序表達(dá) .考慮順序信息,必然使用有向指針,使得文本變成復(fù)雜的圖結(jié)構(gòu) .由于難以定義合理的距離函數(shù)描述兩個(gè)由圖結(jié)構(gòu)表示的文本是否相似,因此不得不舍棄順序信息 .
    要盡可能的考慮特征項(xiàng)間的順序關(guān)系.
    思路啟發(fā) 2:上下文信息貢獻(xiàn) (魯松)
    引入信息增益方法確定上下文各位置的信息量后,構(gòu)造上下文位置信息量函數(shù),最終通過多項(xiàng)式積分確定85%信息量的上下文邊界,即漢語核心詞語最近距離[-8,+9]和英文[-16,+13]位置之間的上下文范圍。
    要盡可能的考慮特征項(xiàng)的上下文貢獻(xiàn).
    思路啟發(fā) 3:分類器集成
    分類器集成思想的提出:
     不同的分類算法往往適用于不同的特定問題,沒有的分類算法.
    希望把不同的方法綜合在一起,盡可能的減小錯(cuò)誤的發(fā)生.
    分類器集成(2)
    Condorcet陪審團(tuán)定律 (1785)
     對(duì)于二分問題,假設(shè)每一個(gè)分類器的錯(cuò)誤率都小于0.5,那么一組相互獨(dú)立分類器采用投票方式得到的分類結(jié)果,其錯(cuò)誤率將小于每個(gè)單個(gè)分類器的錯(cuò)誤率.
     設(shè)P=0.3,L=3,得到結(jié)果僅為0.216
     設(shè)P=0.3,L=5,得到結(jié)果僅為0.163
     …
     設(shè)P=0.3,L=21,得到結(jié)果僅為0.026
    分類器集成(3)
    前提條件是要證明不同的分類器之間具有獨(dú)立性(實(shí)際問題中常常轉(zhuǎn)化為不同分類器的錯(cuò)誤之間具有獨(dú)立性). 困難!
    實(shí)際情況中,分類器的準(zhǔn)確性和獨(dú)立性之間存在一個(gè)折中: 分類器越是準(zhǔn)確,他們間獨(dú)立性就越差!
    啟發(fā):采用投票方式的多次判別有利于提高分類的準(zhǔn)確性,(召回率??)但是分類器集成的方法卻效果不明顯.考慮用一個(gè)分類器對(duì)文檔的不同部分分塊判別,不同塊間的錯(cuò)誤相互獨(dú)立是一個(gè)比較容易令人接受的假設(shè).
    考慮了特征項(xiàng)間關(guān)系(context)的分類算法的介紹:
    最重要的是RIPPER算法(Cohen 1995)和sleeping-experts算法(Freund 1997).
    兩個(gè)算法的共同優(yōu)點(diǎn):
    分類算法是線性或者是亞線性的;
    文本的直接的表示方法:表示成有序特征項(xiàng)的鏈(完全不同于VSM的表示方式) ;
    特征項(xiàng)的context信息影響分類結(jié)果;
    context在分類器的訓(xùn)練過程同時(shí)生成,不需要額外的context生成算法.
    (在對(duì)于短文本分類問題中,詞頻不具有統(tǒng)計(jì)信息,更適于規(guī)則判定)
    RIPPER算法:
    RIPPER算法是一個(gè)松弛的規(guī)則匹配算法,context就是不同的規(guī)則.
    訓(xùn)練得到一個(gè)規(guī)則集合
    規(guī)則集合可以看做是若干個(gè)規(guī)則的析取(或)表達(dá)式
    每個(gè)規(guī)則是若干個(gè)特征項(xiàng)的合取(與)表達(dá)式
    每個(gè)規(guī)則的特征項(xiàng)之間是沒有次序的,每個(gè)特征項(xiàng)可以出現(xiàn)在文檔的任何地方
     規(guī)則總是和分類正相關(guān)的.
    RIPPER算法的基本思想 :
    訓(xùn)練過程分為兩部分 :
     根據(jù)貪心原則(greedy)采用啟發(fā)式方法(heuristics)利用信息增益的手段構(gòu)造一個(gè)最初的規(guī)則集合 ;
     通過一個(gè)優(yōu)化過程剪除(prune)規(guī)則集合并提高規(guī)則集合的準(zhǔn)確性.
    分類過程:
     文檔滿足某個(gè)規(guī)則就認(rèn)為它屬于該類.
    RIPPER算法的問題
    訓(xùn)練過程復(fù)雜(啟發(fā)式算法);
    新的文本表示方法,忽略了測(cè)試文檔中特征項(xiàng)的頻率信息;
    不考慮特征項(xiàng)在文檔中的位置,無法利用多次判別提高分類的準(zhǔn)確性了.
    如何調(diào)整規(guī)則的次序?
    sleeping-experts算法
    sleeping-experts是一個(gè)嚴(yán)格的規(guī)則匹配算法,context稱為稀疏短語(sparse phrase) .
    定義:一個(gè)有序的N個(gè)詞組成的鏈表,這N個(gè)詞不需要連續(xù)出現(xiàn)因此稱為稀疏短語.
    每個(gè)稀疏短語就是一個(gè)expert,如果滿足這個(gè)稀疏短語就是該expert做出了一個(gè)判定.
    sleeping-experts算法的基本思想
    同時(shí)滿足的N個(gè)experts之間不僅僅是簡(jiǎn)單的voting方法,而是利用對(duì)不同experts的效果的估計(jì)調(diào)整其加權(quán)系數(shù).
    訓(xùn)練過程中,疊代依次生成稀疏短語,若該稀疏短語對(duì)該類是起正向作用,則擴(kuò)大其加權(quán)系數(shù);反之,縮小其加權(quán)系數(shù).
    Sleeping-experts算法的問題
    Context定義過于嚴(yán)格?影響召回率?
    算法的簡(jiǎn)化?沒有特征選擇,直接生成稀疏矩陣,使得experts的數(shù)目極多!
    分類結(jié)果
    我們的想法:
    文章的傾向性判定.
    基于context(相對(duì)位置)的分類方法改進(jìn).
    文章的傾向性判定
    利用核心詞將文章分塊,以多次判定.
     準(zhǔn)確率提高,(召回率為平均召回率?)
    如何選取核心詞?
     表達(dá)力強(qiáng),頻率較高,區(qū)分度低(實(shí)詞?)
    方法:TFDF原則
     參數(shù)調(diào)整:
    對(duì)每一個(gè)“塊”的分類方法
    基于規(guī)則(更快)
     基于中高頻詞構(gòu)造規(guī)則.
     松弛的規(guī)則,保證一定的召回率;
     多次判定提高準(zhǔn)確率.
    SVM(更準(zhǔn))
    對(duì)伊拉克戰(zhàn)爭(zhēng)的傾向性
    手工建立訓(xùn)練集
    希望SVM直接分類,基于規(guī)則分塊分類,SVM分塊分類結(jié)果比較.
    基于context的分類方法
    用特征的組合代替原有的特征
     特征的組合可以反映特征間的序.
    組合特征出現(xiàn)的頻率將大大降低,不再具有統(tǒng)計(jì)意義,因此考慮將一個(gè)組合特征看做一個(gè)規(guī)則.
    sleeping-experts算法的簡(jiǎn)化和改進(jìn)
    稀疏短語內(nèi)部可以沒有次序關(guān)系.
    采用簡(jiǎn)單的voting方法,不考慮復(fù)雜的加權(quán)策略.