2007年百度招聘真題

字號:

問題:
    一、 一個文本文件有多行,每行為一個URL。請編寫代碼,統(tǒng)計出URL中的文件名及出現(xiàn)次數(shù)。
    a) 文件名不包括域名、路徑和URL參數(shù),例如http://www.rs.com/n.op/q/rs?id=1中的文件名是rs。
    b) 部分URL可能沒有文件名,例如http://www.abc.com/,這類統(tǒng)計為“空文件名”。
    c) 出現(xiàn)在不同URL中的相同文件名視為同一文件名,例如http://www.ceshi.com/hi.php和ftp://ftp.cdef.com/hi.php為同一文件名
    文件內容示例如下:
    http://www.test.com/abc/de/fg.php?id=1&url=http://www.test.com/index.html
    http://www.ceshi.com/hi.jsp
    ftp://ftp.ceshi.com/hi.jsp
    http://www.hello.com/cw/hi.jsp?k=8
    http://www.hi.com/jk/l.html?id=1&s=a.html
    http://www.rs.com/n.op/q/rs?id=1
    http://www.abc.com/
    二、 一個簡單的論壇系統(tǒng),以數(shù)據庫儲存如下數(shù)據:
    用戶名,email,主頁,電話,聯(lián)系地址,發(fā)帖標題,發(fā)帖內容,回復標題,回復內容。
    每天論壇訪問量300萬左右,更新帖子10萬左右。
    請給出數(shù)據庫表結構設計,并結合范式簡要說明設計思路。
    三、 現(xiàn)有兩個文件,
    a)數(shù)據文件A,格式為:關鍵詞、IP地址、時間,記錄條數(shù)為1000萬左右,該文件是無序排列的。
    b)數(shù)據文件B是關鍵詞ID到關鍵詞的對應表文件,格式為:ID、關鍵詞,記錄條數(shù)在100萬左右,也是無序排列的。該對應表中的記錄是一一對應的,不存在ID或者關鍵詞重復的情況。
    要求將數(shù)據文件A對應的關鍵詞替換為B中的ID,生成新的數(shù)據文件C,數(shù)據文件C的格式為:關鍵詞ID、IP地址、時間。
    請設計一個程序,實現(xiàn)上述功能,并分析時間復雜度和空間復雜度。運行程序所使用的服務器的內存為1G,硬盤足夠大。(至少要給出關鍵算法和設計思路)