Google即將開始深度Web索引

Google 從來都不會停止對信息的追求,去年共有100 Exabyte 的數據被 Google 消化(1Exabyte=1000000000Gigabyte)。據估計,仍有大量的在線數據是 Google 所無法獲取的,如那些未被索引的網頁,非文本內容,以及需要通過表單發布方可獲取的動態內容,即所謂的深度WebGoogle 近日在一篇博客文章中宣布,他們即將涉足這些深度Web數據。

在這篇博客文章中,Google 的 Jayant Madhavan 與 Alon Halevy 說,對于那些文本框,我們會從所在頁選擇一些詞匯填寫,對于選擇框與復選框,我們會從 HTML 中選擇一些值,一旦填寫好表單,我們會嘗試發布這個表單并對返回的合法,有意義的內容進行索引。

Google 同時強調,他們會一如既往地尊重 robots.txt 協議,任何在 robots.txt 被禁止的表單都不會被索引。

據估計,深度 Web 的規模是常規的公開 Web  的數倍,盡管在網絡中,有很多數據是  Google 不應涉足的,但表單可以讓 Google 在網絡中更進一步,Matt Cutts 指出,我們這樣做主要不是為了那些通過表單發布而返回的搜索結果,更多是為了發現一些通過常規手段所沒能發現的新鏈接。

需要指出的是,Google 只索引那些使用 GET 協議的表單,而不會嘗試去發布那些使用 POST協議 的表單,所以,你不必擔心自己的在線反饋表單收到一堆來自 Google 的垃圾信息。

本文國際來源:http://www.readwriteweb.com/archives/google_crawling_html_forms.php,中文翻譯來源:COMSHARP CMS 官方網站的行業新聞。





評論
...
發表評論


用戶


評論(不超過1000字)


 6 + 2 = ? 請將左邊的算術題的結果填寫到左邊的輸入框  


  發送給朋友| 打印友好
7 x 12 小時服務熱線
0532 - 83669660
微信: comsharp
QQ: 13885509
QQ: 592748664
Skype: comsharp