2007年百度招聘真題

字號：小 中 大

問題：
    一、一個文本文件有多行，每行為一個URL。請編寫代碼，統(tǒng)計出URL中的文件名及出現(xiàn)次數(shù)。
    a) 文件名不包括域名、路徑和URL參數(shù)，例如http://www.rs.com/n.op/q/rs?id=1中的文件名是rs。
    b) 部分URL可能沒有文件名，例如http://www.abc.com/，這類統(tǒng)計為“空文件名”。
    c) 出現(xiàn)在不同URL中的相同文件名視為同一文件名，例如http://www.ceshi.com/hi.php和ftp://ftp.cdef.com/hi.php為同一文件名
    文件內容示例如下：
    http://www.test.com/abc/de/fg.php?id=1&url=http://www.test.com/index.html
    http://www.ceshi.com/hi.jsp
    ftp://ftp.ceshi.com/hi.jsp
    http://www.hello.com/cw/hi.jsp?k=8
    http://www.hi.com/jk/l.html?id=1&s=a.html
    http://www.rs.com/n.op/q/rs?id=1
    http://www.abc.com/
    二、一個簡單的論壇系統(tǒng)，以數(shù)據庫儲存如下數(shù)據：
    用戶名，email，主頁，電話，聯(lián)系地址，發(fā)帖標題，發(fā)帖內容，回復標題，回復內容。
    每天論壇訪問量300萬左右，更新帖子10萬左右。
    請給出數(shù)據庫表結構設計，并結合范式簡要說明設計思路。
    三、現(xiàn)有兩個文件，
    a)數(shù)據文件A，格式為：關鍵詞、IP地址、時間，記錄條數(shù)為1000萬左右，該文件是無序排列的。
    b)數(shù)據文件B是關鍵詞ID到關鍵詞的對應表文件，格式為：ID、關鍵詞，記錄條數(shù)在100萬左右，也是無序排列的。該對應表中的記錄是一一對應的，不存在ID或者關鍵詞重復的情況。
    要求將數(shù)據文件A對應的關鍵詞替換為B中的ID，生成新的數(shù)據文件C，數(shù)據文件C的格式為：關鍵詞ID、IP地址、時間。
    請設計一個程序，實現(xiàn)上述功能，并分析時間復雜度和空間復雜度。運行程序所使用的服務器的內存為1G，硬盤足夠大。(至少要給出關鍵算法和設計思路)

2007年百度招聘真題

字號： 小 中 大

字號：小中大