All posts tagged 'robots.txt' | The Will Will Web

The Will Will Web

記載著 Will 在網路世界的學習心得與技術分享

使用 PowerShell 在 IIS7 / IIS8 所有站台新增 robots.txt 檔案

還記得我去年寫過的【個資保護、Google Hacking 與 robots.txt 的關係與設定技巧】文章嗎?在公司內部的測試環境設定 robots.txt 非常重要,因為你必須阻止 Google 與各家搜尋引擎來到你的測試網站大肆搜索,否則那些開發到一半的網站、那些可能含有不完整的資訊,全部都會揭露給無心人與有心人知道。不過,無論我提過幾次這點重要性,總是有人會「忘記」在部署網站時順手加上這個檔案,三不五時的亡羊補牢其實也蠻讓人頭疼的,今天我寫了一支 PowerShell 指令檔,就是要來徹底解決這個問題。

... 繼續閱讀 ...

個資保護、Google Hacking 與 robots.txt 的關係與設定技巧

我想大部分人都應該知道 robots.txt 檔案的功用 (如果不知道可參考我之前的文章),因為 robots.txt 是給網頁爬蟲機器人 (Web Crawler) 看的,搜尋引擎要來抓網站網頁進行索引前,都會「禮貌性」的先抓取 robots.txt 檔案回去分析,若特定 URL 真的允許抓網頁回去才會繼續下載網頁,不過看這個檔案的 人類就不一定這麼有禮貌,讓駭客知道了你「不想被抓的目錄」後,反而讓駭客產生興趣,進而企圖攻擊這些你不想被知道的網頁路徑,所以選擇不將這些路徑放到 robots.txt 定義檔裡,然而,這觀念是正確的嗎?No!!! 請繼續看下去…

... 繼續閱讀 ...

從戰國策資訊外洩事件說明 robots.txt 定義檔與資安常識

今天從資安人雜誌的電子報中發現一則駭人聽聞的熱門新聞:『戰國策4,270筆資料外洩 Google全都露』。我上網研究了一下,果然還有許多非 Google 的搜尋引擎還殘留著快取住(Cached)完整的客戶資料與鉅細靡遺的訂單資訊,包括公司資訊、連絡人、電話、地址、身份證字號、購買了什麼服務、何時到期、折扣、帳號、密碼、.... 簡直什麼死人骨頭都在上面,這實在是太恐怖了,真無法想像這些資料落入詐騙集團手中後,這些客戶是何下場。

... 繼續閱讀 ...