The Will Will Web

記載著 Will 在網路世界的學習心得與技術分享

Microsoft Search Server 2008 初體驗

今天我將 Microsoft Search Server 2008 Express 安裝起來玩玩看,結果是比想像中的還好用,首先是安裝過程很順利(不過一定要 Windows Server 2003 SP1 或 Windows Server 2008 才可以安裝),一次就安裝完成,然後照著 Getting started with Search Server 2008 文件一步一步設定也很快速的就成功的索引了我的部落格,以下是我今天的心得分享。

  1. 安裝過程筆記
    • 一定要用 Windows Server 2003 SP1 或 Windows Server 2008 才可以安裝
    • 安裝完後一定要先執行 Completing the SharePoint Products and Technologies Configuration Wizard 精靈,他會幫你安裝 SharePoint 與處理所有相關的設定。
  2. 設定爬蟲(Crawler)進行網站內容的索引
    • 首先要先建立一組 crawl rules 之後才能正確的抓取網頁內容

      Screenshot-080413-202953
    • 然後建立 content source 建立要進行索引的網站網址

      Screenshot-080413-203120

      Screenshot-080413-203207
      若你有勾選 Start full crawl of this content source 在按下 OK 鍵之後就會立即開始進行索引。
    • 最後去察看索引的進度 ( crawl log  )

      Screenshot-080413-203330
    • 備註:
      • 我在進行索引的時候發現Search Administration page 完全連不進去,且 mssearch.exe 與 sqlserver.exe 這兩個 Process 把我的 CPU 都給吃滿了,可見在 crawling 的時候主機的 loading 很重。不過 Search Server 有提供一個 Crawler Impact Rule 可供設定。

        Screenshot-080413-203441  (點選可放大)
      • Search Server 2008 預設內建了數十種檔案類型的索引,這是一般免費的 Search Engine 所比不上的,詳細清單可看 Plan to crawl content
  3. 測試「中文」搜尋
    • 一般來說「中文」的支援度與精準度是我最優先考量的因素,尤其是斷詞與斷字的部分,我進行了一下測試:
      • 搜尋:「絕佳拍檔」 ==> 成功
      • 搜尋:「佳拍」 ==> 失敗
      • 搜尋:「佳拍檔」 ==> 失敗
      • 搜尋:「不過當你不使用」 ==> 成功
      • 搜尋:「多奇」 ==> 成功
      • 搜尋:「日期格式很常用,但有些特殊的需求要計算出來還蠻麻煩了,底下這些是我之前記錄下來的一些小技巧,真的要寫的時候若一些 SQL 函數不熟還真不容易寫出來呢!」==> 成功
    • 我覺得微軟針對中文字索引時的斷詞、斷字部分下了不少功夫。
    • 雖然我做出了一些不合理的關鍵字找不到內容,不過我也擔心可能使用者在使用一些領域特有的「專有名詞」搜尋時會搜尋不到相關的結果。今天沒有足夠的時間進行測試,之後有時間或許可以進行更完整的測試。
    • 備註 (2008-04-14):
      • 我今天早上來公司重新搜尋了一次「佳拍」與「佳拍檔」已經搜尋到結果了!雖然不是很瞭解 Search Server 2008 關鍵字比對的邏輯,不過我猜想可能是內容中有用刮號的關係讓關鍵字被索引進去了。

相關連結