搜索引擎建立網(wǎng)頁索引,處理的對象是文本文件。對于搜索引擎爬蟲來說,抓取下來的網(wǎng)頁包括各種格式,如html、圖片、doc、pdf,多媒體、動態(tài)網(wǎng)頁及其他格式等。這些文件抓取下來后,需要把這些文件中的文本信息提取出來。準確提取這些文檔的信息,一方面對搜索
……[查看詳情]Robots協(xié)議是Web站點和搜索引擎爬蟲交互的一種方式,Robots.txt是存放在站點根目錄下的一個純文本文件。該文件可以指定搜索引擎爬蟲只抓取指定的內(nèi)容,或者是禁止搜索引擎爬蟲抓取網(wǎng)站的部分或全部內(nèi)容。當一個搜索引擎爬蟲訪問一個站點時,它會首先檢查該站
……[查看詳情]Robots協(xié)議是Web站點和搜索引擎爬蟲交互的一種方式,Robots.txt是存放在站點根目錄下的一個純文本文件。該文件可以指定搜索引擎爬蟲只抓取指定的內(nèi)容,或者是禁止搜索引擎爬蟲抓取網(wǎng)站的部分或全部內(nèi)容。當一個搜索引擎爬蟲訪問一個站點時,它會首先檢查該站
……[查看詳情]DMOZ是國外權(quán)威的目錄搜索引擎,DMOZ對于搜索引擎優(yōu)化起到的作用一向被SEOer推崇。但是因為DMOZ收錄網(wǎng)站的時間過長,更新信息過慢,導(dǎo)致DMOZ所收錄的信息沒有及時呈現(xiàn)出來。DMOZ的中文類別的某些目錄,更是長期處于不更新狀態(tài)。 因為DMOZ是權(quán)威的目錄,它所
……[查看詳情]DMOZ是國外權(quán)威的目錄搜索引擎,DMOZ對于搜索引擎優(yōu)化起到的作用一向被SEOer推崇。但是因為DMOZ收錄網(wǎng)站的時間過長,更新信息過慢,導(dǎo)致DMOZ所收錄的信息沒有及時呈現(xiàn)出來。DMOZ的中文類別的某些目錄,更是長期處于不更新狀態(tài)。 因為DMOZ是權(quán)威的目錄,它所
……[查看詳情]網(wǎng)絡(luò)資源數(shù)量巨大,種類多樣。任何搜索引擎要采集所有的網(wǎng)絡(luò)資源,既不可能,也沒有必要。如何根據(jù)鏈接結(jié)構(gòu)及對網(wǎng)絡(luò)數(shù)據(jù)的分析確定適用的訪問策略,是信息采集的關(guān)鍵。常見的訪問策略包括常規(guī)遍歷算法和優(yōu)化遍歷算法兩類。 常規(guī)遍歷形式,通常包括廣度優(yōu)先算
……[查看詳情]網(wǎng)絡(luò)資源數(shù)量巨大,種類多樣。任何搜索引擎要采集所有的網(wǎng)絡(luò)資源,既不可能,也沒有必要。如何根據(jù)鏈接結(jié)構(gòu)及對網(wǎng)絡(luò)數(shù)據(jù)的分析確定適用的訪問策略,是信息采集的關(guān)鍵。常見的訪問策略包括常規(guī)遍歷算法和優(yōu)化遍歷算法兩類。 常規(guī)遍歷形式,通常包括廣度優(yōu)先算
……[查看詳情]搜索引擎的一個突出問題是,關(guān)鍵詞搜索返回的網(wǎng)絡(luò)資源數(shù)量過多,用戶很難完整地瀏覽,研究發(fā)現(xiàn),多數(shù)普通用戶在檢索時,只瀏覽前一、兩頁的網(wǎng)絡(luò)資源。因此如何在檢索結(jié)果提供時,將最符合檢索要求的資源在排列中靠前,成為提高檢準率的重要手段。針對這一情
……[查看詳情]搜索引擎的一個突出問題是,關(guān)鍵詞搜索返回的網(wǎng)絡(luò)資源數(shù)量過多,用戶很難完整地瀏覽,研究發(fā)現(xiàn),多數(shù)普通用戶在檢索時,只瀏覽前一、兩頁的網(wǎng)絡(luò)資源。因此如何在檢索結(jié)果提供時,將最符合檢索要求的資源在排列中靠前,成為提高檢準率的重要手段。針對這一情
……[查看詳情]搜索引擎如何鑒別鏡像網(wǎng)站 有一個客戶向思億歐咨詢說,2個同類型的站,產(chǎn)品一樣,主題風格一樣,不一樣的是結(jié)果,不同的系統(tǒng)生成靜態(tài)。谷歌會如何分出重要的那個網(wǎng)站? 從內(nèi)容上判斷 判斷某個網(wǎng)站內(nèi)容的豐富性、權(quán)威性、更新頻率等。哪一個網(wǎng)站的內(nèi)容比另外
……[查看詳情]搜索引擎如何鑒別鏡像網(wǎng)站 有一個客戶向思億歐咨詢說,2個同類型的站,產(chǎn)品一樣,主題風格一樣,不一樣的是結(jié)果,不同的系統(tǒng)生成靜態(tài)。谷歌會如何分出重要的那個網(wǎng)站? 從內(nèi)容上判斷 判斷某個網(wǎng)站內(nèi)容的豐富性、權(quán)威性、更新頻率等。哪一個網(wǎng)站的內(nèi)容比另外
……[查看詳情]雖然現(xiàn)代搜索引擎已經(jīng)取得了很大的成功,但是我們也應(yīng)當看到,現(xiàn)代搜索引擎仍然存在很多不足之處,主要表現(xiàn)為以下幾個方面: 首先,它缺乏信息收集和信息檢索的同步性。搜索引擎在檢索時依據(jù)的是利用爬蟲程序事先遍歷互聯(lián)網(wǎng)后得到的網(wǎng)頁索引信息,而由于遍歷
……[查看詳情]雖然現(xiàn)代搜索引擎已經(jīng)取得了很大的成功,但是我們也應(yīng)當看到,現(xiàn)代搜索引擎仍然存在很多不足之處,主要表現(xiàn)為以下幾個方面: 首先,它缺乏信息收集和信息檢索的同步性。搜索引擎在檢索時依據(jù)的是利用爬蟲程序事先遍歷互聯(lián)網(wǎng)后得到的網(wǎng)頁索引信息,而由于遍歷
……[查看詳情]不同的Web信息檢索系統(tǒng)在工作原理上各不一樣,下面就結(jié)合搜索引擎來具體說明一下一般Web信息檢索系統(tǒng)的特點。雖然各個搜索引擎的具體實現(xiàn)不盡相同,但一般包含爬蟲程序、分析程序、索引程序、檢索程序和用戶接口界面5個基本部分,而且大致的工作原理是相同的
……[查看詳情]不同的Web信息檢索系統(tǒng)在工作原理上各不一樣,下面就結(jié)合搜索引擎來具體說明一下一般Web信息檢索系統(tǒng)的特點。雖然各個搜索引擎的具體實現(xiàn)不盡相同,但一般包含爬蟲程序、分析程序、索引程序、檢索程序和用戶接口界面5個基本部分,而且大致的工作原理是相同的
……[查看詳情]