XML文件解析器TXml

字號(hào)：小 中 大

前幾天看了開(kāi)源的XML文件解析器TinyXml，它是怎么實(shí)現(xiàn)解析的沒(méi)怎么看懂，于是決定自己實(shí)現(xiàn)一個(gè)，反正最近不忙。先命名為T(mén)Xml?，F(xiàn)在完成了解析和查詢功能，全部代碼加起來(lái)不到1000行，將會(huì)繼續(xù)完善它。源碼必共享
    先簡(jiǎn)單說(shuō)一下我的思路：
    1：讀取XML文件信息，并存入一個(gè)字符數(shù)組中；
    2：遍歷數(shù)組，將數(shù)組解析成一棵樹(shù)；
    3：以路徑的方式查詢和按屬性查詢；
    這個(gè)解析器最麻煩的地方就在怎么將字符數(shù)組解析成一顆樹(shù)。我們先看一下一個(gè)簡(jiǎn)單XML文件，他包括文件頭、節(jié)點(diǎn)、節(jié)點(diǎn)名稱(chēng)及節(jié)點(diǎn)值、屬性名稱(chēng)及屬性值，子節(jié)點(diǎn)、父節(jié)點(diǎn)、注釋等。
    <?xml version="1.0" encoding="utf-8" ?>
    
    <Items>
    <item name="chentaihan">89757</item>
    </Items>
    簡(jiǎn)單介紹一下解析的實(shí)現(xiàn)，不太好說(shuō)清楚，看代碼可能更容易理解一些。遞歸實(shí)現(xiàn)，每次都從一個(gè)節(jié)點(diǎn)開(kāi)始解析，就是從字符“<”開(kāi)始，到字符“>”結(jié)束，字符<后面就是節(jié)點(diǎn)的名稱(chēng)，之后的就是節(jié)點(diǎn)屬性，字符>后一個(gè)字符如果不是<，那就是節(jié)點(diǎn)的值，如果是字符<,可能是子節(jié)點(diǎn)也可能是這個(gè)節(jié)點(diǎn)結(jié)束了。遇到字符<開(kāi)始遞歸，空格和注釋直接被PASS。
    代碼如下:
    const char* TXmlParser::ParseContent(const char* p,XmlNode* baseNode)
    {
    if(p==NULL || !*p)
    return NULL;
    if(*p=='<')//開(kāi)始一個(gè)節(jié)點(diǎn)
    {
    bool isNote;
    p=SkipNote(p,isNote);//跳過(guò)注釋
    if(isNote) {//是注釋
    ParseContent(p,baseNode);
    return NULL;
    }
    if(*p=='/')//結(jié)束節(jié)點(diǎn)
    {
    while(p!=NULL && *p && *p!='>')
    {
    p++;
    }
    ++p=SkipWhiteSpace(p);
    ParseContent(p,baseNode->parent);//新節(jié)點(diǎn)
    }else{ //節(jié)點(diǎn)屬性
    string name;
    while(p!=NULL && *p && *p!='>' && *p!=' ' && *p!='/')
    {
    name.push_back(*p++);
    }
    XmlNode* node=new XmlNode(name,baseNode);
    baseNode->AppendNode(node);
    if(*p=='>')
    {
    ++p=SkipWhiteSpace(p);
    ParseContent(p,node);//新節(jié)點(diǎn)
    }else{
    p=GetAttr(p,node);
    if(*p=='/')
    {
    while(p!=NULL && *p && *p!='<')
    p++;
    ParseContent(p,baseNode);//新節(jié)點(diǎn)
    }else{
    ++p=SkipWhiteSpace(p);
    ParseContent(p,node);//新節(jié)點(diǎn)
    }
    }
    }
    }else{//節(jié)點(diǎn)的值
    GetNodeValue(p,baseNode);
    }
    }
    按路徑的方式查詢。利用兩個(gè)數(shù)組實(shí)現(xiàn)，假設(shè)這兩個(gè)數(shù)組分別為A,B；第一次查詢將結(jié)果存入數(shù)組A，將A作為數(shù)據(jù) 源，將查詢結(jié)果存入B，清除A中的數(shù)據(jù)，將B作為數(shù)據(jù)源，將查詢結(jié)果存入A，反復(fù)進(jìn)行，最后A,B中有一個(gè)就是查詢結(jié)果。當(dāng)然也可以用遞歸實(shí)現(xiàn)，我們都知道遞歸太深容易爆線程棧，且性能低。
    按屬性查詢。同樣沒(méi)有用遞歸實(shí)現(xiàn)，有個(gè)經(jīng)常出現(xiàn)的面試題：按層序打印一個(gè)棵樹(shù)。那么這里也是按層序查找，就是利用一個(gè)隊(duì)列，按根節(jié)點(diǎn)、根節(jié)點(diǎn)的直接子節(jié)點(diǎn)進(jìn)棧，一個(gè)個(gè)匹配，不匹配就出隊(duì)列。
    //根據(jù)屬性查詢--利用隊(duì)列按層序查詢
    XmlNode* XmlNode::SelectSingleNodeByAttr(const string& attrName,const string& attrValue,XmlNode* node)
    {
    if(node==NULL)
    return NULL;
    if(node->attribute!=NULL && (*node->attribute)[attrName]==attrValue)
    {
    return node;
    }
    queue<XmlNode*> list;
    for(int i=node->ChildCount()-1;i>=0;i--)
    {
    list.push((*node->childNodes)[i]);
    }
    while(list.size()>0)
    {
    XmlNode* tmpNode=list.front();
    if(tmpNode->attribute!=NULL && (*tmpNode->attribute)[attrName]==attrValue)
    {
    return tmpNode;
    }
    for(int i=tmpNode->ChildCount()-1;i>=0;i--)
    {
    list.push((*tmpNode->childNodes)[i]);
    }
    list.pop();
    }
    return NULL;
    }
    看了按屬性查找，我們就很容易知道，C#中ConfigurationManager讀取配置文件的大致實(shí)現(xiàn)，因?yàn)榕渲梦募芎?jiǎn)單，就是一個(gè)節(jié)點(diǎn)下面有多個(gè)節(jié)點(diǎn)，完全可以這樣實(shí)現(xiàn)，根節(jié)點(diǎn)基本可以無(wú)視，直接就是一個(gè)字典，KEY存key的值，VALUE存value的值，查找的時(shí)間復(fù)雜度就是 O(1)。
    簡(jiǎn)單測(cè)試：

XML文件解析器TXml

字號(hào)： 小 中 大

字號(hào)：小中大