數(shù)據(jù)庫領(lǐng)域的一次革命
關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)模型及其理論是在上個世紀70年代由時任IBM研究員的E.F.Codd博士提出的。一開始它并沒有受到太多的重視,但是后來人們逐漸發(fā)現(xiàn)了其生命力所在,而它最終也成為了數(shù)據(jù)庫領(lǐng)域的一次革命。今天,它已從理論研究走向系統(tǒng)實現(xiàn),再到商業(yè)應用,占據(jù)了數(shù)據(jù)庫市場的主流地位。
DB2的前身,是E.F.Codd提出關(guān)系數(shù)據(jù)庫理論之后,在IBM的實驗室研究開發(fā)的一個關(guān)系數(shù)據(jù)庫系統(tǒng)原型System R(系統(tǒng)R)。系統(tǒng)R對關(guān)系數(shù)據(jù)庫模型的理論,SQL查詢語言,數(shù)據(jù)庫的體系結(jié)構(gòu),查詢處理與優(yōu)化,事務處理,分布式數(shù)據(jù)庫理論等進行了大量的實驗,發(fā)現(xiàn)并且解決了其中的許多關(guān)鍵問題。這個系統(tǒng)原型在推向市場的時候,就成為今天大家所熟知的DB2。在數(shù)據(jù)庫領(lǐng)域,這個貢獻比后來的任何貢獻都大,因為與傳統(tǒng)的層次、網(wǎng)狀數(shù)據(jù)庫相比,它開拓了一個全新的數(shù)據(jù)庫領(lǐng)域,是一次革命。
DB2在一些大型的商業(yè)應用當中,發(fā)揮了很大的作用。特別是IBM的主機系統(tǒng)上,二十世紀70年代后80年代初,在一些大型的應用中占主流地位。比如銀行和金融業(yè),它們對數(shù)據(jù)處理的要求非常迫切,在這種情況下,IBM DB2逐步介入。所以現(xiàn)在有不少大的應用,特別是在金融界和銀行中,跟IBM主機配套的數(shù)據(jù)庫基本上都是DB2。
隨著技術(shù)的進步,對數(shù)據(jù)處理的要求也越來越多、越來越高。它不再像過去那樣只是對數(shù)據(jù)的直接的使用,像普通的查詢、加減乘除和簡單統(tǒng)計等等。現(xiàn)在很重要的應用,就是把數(shù)據(jù)里面蘊含著的很多有價值的東西拿出來,就是所謂的數(shù)據(jù)挖掘。跟數(shù)據(jù)挖掘相關(guān)的就是數(shù)據(jù)倉庫,還有聯(lián)機事務分析OLAP。IBM在這個方面也作了很好的工作,比如它開發(fā)了數(shù)據(jù)倉庫的工具,聯(lián)機事務處理的工具,數(shù)據(jù)挖掘方面,也開發(fā)了一些有影響的工具。這是適應新的應用需求提出來的。在這些方面,市場的競爭是很激烈的。除了IBM的DB2以外,主要的數(shù)據(jù)庫廠商,在上述的幾個方面都有自己的產(chǎn)品。
新發(fā)展與分水嶺
數(shù)據(jù)庫現(xiàn)在的發(fā)展方向,是新近出現(xiàn)的將原有的關(guān)系數(shù)據(jù)庫與許多其它的功能,如電子郵件、個人通訊等等相結(jié)合的趨勢。而在企業(yè)自動化、電子政務等應用領(lǐng)域,人們相互進行的協(xié)同工作,也在與數(shù)據(jù)庫技術(shù)融合。比較熱門的研究領(lǐng)域還有XML數(shù)據(jù)庫技術(shù),它主要處理關(guān)系數(shù)據(jù)庫過去處理不了的半結(jié)構(gòu)化數(shù)據(jù),如文檔數(shù)據(jù),這跟傳統(tǒng)的關(guān)系數(shù)據(jù)庫是不一樣的。
我相信現(xiàn)在數(shù)據(jù)庫技術(shù)發(fā)展到了一個全新的階段,或者說是一個分水嶺的階段。這個分水嶺的標志就是數(shù)據(jù)庫所管理的數(shù)據(jù)發(fā)生了根本的變化,它的基本標志就是從過去僅僅管理由鍵盤輸入的數(shù)字、字符等簡單數(shù)據(jù),到今天必須管理由各種設(shè)備、裝置、計算所產(chǎn)生的多種類型的復雜數(shù)據(jù)。例如,圖形、圖像、視頻、音頻、電子圖書與檔案、Web網(wǎng)頁等等。這一變化給數(shù)據(jù)庫技術(shù)帶來了很多的挑戰(zhàn),需要我們研究許多新的問題。
從這個意義上說,關(guān)系數(shù)據(jù)庫是一種適合處理由鍵盤輸入的數(shù)據(jù)的數(shù)據(jù)庫技術(shù),而這一特點是由產(chǎn)生它的歷史條件所造成的。
今天,信息領(lǐng)域飛速的技術(shù)進步使進入計算機的數(shù)據(jù)發(fā)生了巨大的變化,鍵盤輸入的數(shù)據(jù)所處的統(tǒng)治地位正在讓位于其他形式輸入的數(shù)據(jù)?,F(xiàn)在,各種媒體的數(shù)據(jù)都可以數(shù)字化,進入計算機。例如,掃描的圖像,各種裝置和設(shè)備直接采集的數(shù)字化的內(nèi)容有照片、電視節(jié)目、電影、音樂、報紙、書、雜志等等,為了有所區(qū)別,我們不妨把它稱之為“后鍵盤”時代。
“后鍵盤”時代的上述變化對數(shù)據(jù)庫領(lǐng)域所產(chǎn)生的影響是多方位的,也是根本性的,關(guān)系數(shù)據(jù)庫已經(jīng)無法勝任這種變化了的應用需求,可以說它使數(shù)據(jù)庫技術(shù)的發(fā)展面臨一個新的分水嶺,我們必須尋求新的解決辦法。
首先,數(shù)據(jù)庫的一個基本問題就是要找到一個恰當?shù)臄?shù)據(jù)模型來表達它所管理的對象。關(guān)系數(shù)據(jù)庫的模型可以簡化為普通的表格,它對于表達鍵盤輸入的數(shù)據(jù)十分到位。但是,如果我們用表格表達一本書,而書里面有文字、圖形、圖像、數(shù)學公式,還有很多特定領(lǐng)域特殊的內(nèi)容,還要分成章節(jié),這對關(guān)系數(shù)據(jù)庫模型而言顯然是件十分困難的事情,它處理不了這么復雜的數(shù)據(jù)內(nèi)容與它們之間的結(jié)構(gòu)。
關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)模型及其理論是在上個世紀70年代由時任IBM研究員的E.F.Codd博士提出的。一開始它并沒有受到太多的重視,但是后來人們逐漸發(fā)現(xiàn)了其生命力所在,而它最終也成為了數(shù)據(jù)庫領(lǐng)域的一次革命。今天,它已從理論研究走向系統(tǒng)實現(xiàn),再到商業(yè)應用,占據(jù)了數(shù)據(jù)庫市場的主流地位。
DB2的前身,是E.F.Codd提出關(guān)系數(shù)據(jù)庫理論之后,在IBM的實驗室研究開發(fā)的一個關(guān)系數(shù)據(jù)庫系統(tǒng)原型System R(系統(tǒng)R)。系統(tǒng)R對關(guān)系數(shù)據(jù)庫模型的理論,SQL查詢語言,數(shù)據(jù)庫的體系結(jié)構(gòu),查詢處理與優(yōu)化,事務處理,分布式數(shù)據(jù)庫理論等進行了大量的實驗,發(fā)現(xiàn)并且解決了其中的許多關(guān)鍵問題。這個系統(tǒng)原型在推向市場的時候,就成為今天大家所熟知的DB2。在數(shù)據(jù)庫領(lǐng)域,這個貢獻比后來的任何貢獻都大,因為與傳統(tǒng)的層次、網(wǎng)狀數(shù)據(jù)庫相比,它開拓了一個全新的數(shù)據(jù)庫領(lǐng)域,是一次革命。
DB2在一些大型的商業(yè)應用當中,發(fā)揮了很大的作用。特別是IBM的主機系統(tǒng)上,二十世紀70年代后80年代初,在一些大型的應用中占主流地位。比如銀行和金融業(yè),它們對數(shù)據(jù)處理的要求非常迫切,在這種情況下,IBM DB2逐步介入。所以現(xiàn)在有不少大的應用,特別是在金融界和銀行中,跟IBM主機配套的數(shù)據(jù)庫基本上都是DB2。
隨著技術(shù)的進步,對數(shù)據(jù)處理的要求也越來越多、越來越高。它不再像過去那樣只是對數(shù)據(jù)的直接的使用,像普通的查詢、加減乘除和簡單統(tǒng)計等等。現(xiàn)在很重要的應用,就是把數(shù)據(jù)里面蘊含著的很多有價值的東西拿出來,就是所謂的數(shù)據(jù)挖掘。跟數(shù)據(jù)挖掘相關(guān)的就是數(shù)據(jù)倉庫,還有聯(lián)機事務分析OLAP。IBM在這個方面也作了很好的工作,比如它開發(fā)了數(shù)據(jù)倉庫的工具,聯(lián)機事務處理的工具,數(shù)據(jù)挖掘方面,也開發(fā)了一些有影響的工具。這是適應新的應用需求提出來的。在這些方面,市場的競爭是很激烈的。除了IBM的DB2以外,主要的數(shù)據(jù)庫廠商,在上述的幾個方面都有自己的產(chǎn)品。
新發(fā)展與分水嶺
數(shù)據(jù)庫現(xiàn)在的發(fā)展方向,是新近出現(xiàn)的將原有的關(guān)系數(shù)據(jù)庫與許多其它的功能,如電子郵件、個人通訊等等相結(jié)合的趨勢。而在企業(yè)自動化、電子政務等應用領(lǐng)域,人們相互進行的協(xié)同工作,也在與數(shù)據(jù)庫技術(shù)融合。比較熱門的研究領(lǐng)域還有XML數(shù)據(jù)庫技術(shù),它主要處理關(guān)系數(shù)據(jù)庫過去處理不了的半結(jié)構(gòu)化數(shù)據(jù),如文檔數(shù)據(jù),這跟傳統(tǒng)的關(guān)系數(shù)據(jù)庫是不一樣的。
我相信現(xiàn)在數(shù)據(jù)庫技術(shù)發(fā)展到了一個全新的階段,或者說是一個分水嶺的階段。這個分水嶺的標志就是數(shù)據(jù)庫所管理的數(shù)據(jù)發(fā)生了根本的變化,它的基本標志就是從過去僅僅管理由鍵盤輸入的數(shù)字、字符等簡單數(shù)據(jù),到今天必須管理由各種設(shè)備、裝置、計算所產(chǎn)生的多種類型的復雜數(shù)據(jù)。例如,圖形、圖像、視頻、音頻、電子圖書與檔案、Web網(wǎng)頁等等。這一變化給數(shù)據(jù)庫技術(shù)帶來了很多的挑戰(zhàn),需要我們研究許多新的問題。
從這個意義上說,關(guān)系數(shù)據(jù)庫是一種適合處理由鍵盤輸入的數(shù)據(jù)的數(shù)據(jù)庫技術(shù),而這一特點是由產(chǎn)生它的歷史條件所造成的。
今天,信息領(lǐng)域飛速的技術(shù)進步使進入計算機的數(shù)據(jù)發(fā)生了巨大的變化,鍵盤輸入的數(shù)據(jù)所處的統(tǒng)治地位正在讓位于其他形式輸入的數(shù)據(jù)?,F(xiàn)在,各種媒體的數(shù)據(jù)都可以數(shù)字化,進入計算機。例如,掃描的圖像,各種裝置和設(shè)備直接采集的數(shù)字化的內(nèi)容有照片、電視節(jié)目、電影、音樂、報紙、書、雜志等等,為了有所區(qū)別,我們不妨把它稱之為“后鍵盤”時代。
“后鍵盤”時代的上述變化對數(shù)據(jù)庫領(lǐng)域所產(chǎn)生的影響是多方位的,也是根本性的,關(guān)系數(shù)據(jù)庫已經(jīng)無法勝任這種變化了的應用需求,可以說它使數(shù)據(jù)庫技術(shù)的發(fā)展面臨一個新的分水嶺,我們必須尋求新的解決辦法。
首先,數(shù)據(jù)庫的一個基本問題就是要找到一個恰當?shù)臄?shù)據(jù)模型來表達它所管理的對象。關(guān)系數(shù)據(jù)庫的模型可以簡化為普通的表格,它對于表達鍵盤輸入的數(shù)據(jù)十分到位。但是,如果我們用表格表達一本書,而書里面有文字、圖形、圖像、數(shù)學公式,還有很多特定領(lǐng)域特殊的內(nèi)容,還要分成章節(jié),這對關(guān)系數(shù)據(jù)庫模型而言顯然是件十分困難的事情,它處理不了這么復雜的數(shù)據(jù)內(nèi)容與它們之間的結(jié)構(gòu)。

