Top Ad unit 728 × 90

Những điều cần biết về GoogleBot

Để có thể SEO được web của các bạn thì các bạn cần hiểu được cơ chế tìm kiếm của các công cụ tìm kiếm nó hoạt động như thế nào?. Trong thế giới công nghệ có rất nhiều công cụ bot tìm kiếm như bing, yahoo, yandex, googlebot,... Và trong bài này mình sẽ giúp các bạn tìm hiểu công cụ tìm kiếm mạnh nhất bây giờ chính là GOOGLEBOT.

GoogleBot
GoogleBot

Mỗi lẫn nó đi qua trang của bạn cũng là một lần tải bản sao tại thời điểm đó. Nếu bạn muốn web của bạn được tìm thấy trong Google, để xếp thứ hạng tốt, tất cả các tài nguyên phải được truy cập bằng GOOGLEBOT.






Để có thể tìm hiểu được về nó thì các bạn cần hiểu nó là cái gì? Googlebot kết nối với trang web của bạn như thế nào? Biết cách nhận biết đang truy cập vào web của bạn, Cách chặn nó, Một số vấn đề về Spam và User-agent, Một số công cụ để các bạn có thể giao tiếp được với bot của Google, Cuối cùng là một số lỗi thường gặp.

  1. GoogleBot là gì?
  2. GoogleBot kết nối với web như thế nào
  3. Cách nhận biết GoogleBot đang truy cập vào web.
  4. Cách ngăn chặn truy cập của GoogleBot.
  5. Một số vấn đề về Spam - User-agent
  6. Một số công cụ giao tiếp
  7. Một số lỗi thường gặp

Chúng ta bắt đầu!

1. GoogleBot là gì?

Các bạn hiểu đơn giản là web Crawler được sử dụng bởi công ty Google có trụ sở tại Mỹ để tìm và lấy thông tin các trang web và cập nhật Google Index. Mỗi con GoogleBot có một địa chỉ IP riêng và thường xuyên được thay đổi.



2. GoogleBot kết nối với web như thế nào


Google Bot tìm kiếm các thông tin trên internet trong tất cả các trang như Facebook, thegioitrithuc.me, ... về máy của Google cập nhật Google Index. Đó là nơi mà các trang web được so sánh, đánh giá  và xếp hạng.
Mỗi lần nó đi qua là một lần tải bản sao tại thời điểm lúc đó.
Nếu bạn muốn được tìm thấy trong Google và được xếp thứ hạng tốt thì tất cả các trang web và tài nguyên đều phải được truy cập bằng googlebot.

3. Cách nhận biết Googlebot đang truy cập vào web của bạn


Googlebot phát hiện các website theo đường dẫn từ page sang page khác. Nhưng bot không thể nhìn thấy toàn bộ trang web, nó chỉ có thể thấy các phần riêng lẻ của trang đó và nó sẽ không lập chỉ mục. Nguyên nhân này cũng có thể do: Tài nguyên bị chặn bởi robots.txt, trang liên kết không thể đọc được hoặc không chính xác, URL hoạt động quá phức tạp …

Hầu hết những vấn đề này có thể được kiểm tra một cách nhanh chóng bằng cách sử dụng công cụ "fetch and render" hướng dẫn của Google có trong giao diện Google search console. Bạn nên xem xét các lỗi, thu thập dữ liệu thường xuyên để xác định bất kỳ vấn đề với trang web của bạn.



4. Cách ngăn chặn Googlebot

Gần như không thể chặn hết hoàn toàn sự “xâm nhập” của Googlebot vì có thể một người nào đó follow một đường dẫn từ web server của bạn đến một web server khác thì URL bí mật của bạn sẽ xuất hiện trong tag giới thiệu, và có thể được lưu lại và public bởi các web server khác. Tuy nhiên vẫn có một số cách khắc phục như sau:

- Sử dụng một tập tin robots.txt. Hướng dẫn robot trong siêu dữ liệu của trang web và tiêu đề của mọi người
- Sử dụng sơ đồ trang web
- Sử dụng Google tìm kiếm giao diện điều khiển

5. Các vấn đề với Spammer và User-agent

Googlebot thay đổi địa chỉ liên tục nên cách tốt nhất để xác định kết nối đến bot là sử dụng user-agent. Googlebot và các bot search engine khác đều bị chịu ảnh hưởng bởi nội dung cấu hình trong file robots.txt, ngoài một số trường hợp như: Report spam, paid link …

Nếu Feedfetcher có những hành động rõ ràng từ người sử dụng và tự đưa dữ liệu đến trang chủ Google không phải từ Googlebot nên Feedfetcher sẽ không chịu ảnh hưởng bởi file robots.txt.

Bạn có thể ngăn chặn việc này bằng cách gửi thông báo lỗi 401, 404 hoặc thông báo lỗi khác đến user-agent Feedfetcher-google.

6. Công cụ robots.txt tester tool giúp bạn kiểm tra file robots.txt

Chúng ta truy cập vào Search Console để thực hiện một cách nhanh chóng.
robots
robots.txt

Bạn Click và nút Gửi, mục đích việc này là chúng ta cập nhật lại robots.txt hiện tại.
robots.txt
Thêm web vào  Search Console

Các con số trong bảng được thể hiện như sau:

1. Click Gửi.
2. Kiểm tra xem có chữ Thành công!..
3. Tắt cửa sổ đi.
Bạn cần refresh lại trang web bằng cách bấm F5 hoặc chuột phải nhấn reload.
Bạn cần kiểm tra dòng lệnh của robots.txt bằng thao tác Kiểm tra.
googlebot
Kiểm tra sự hoạt của bot

Dòng màu xanh lá xuất hiện với chữ Được Phép ở góc phải như trên hình tức là bạn đang kết nối thành công đến Googlebot.

7. Một số lỗi thông thường

Googlebot không thể truy cập trang web của bạn:

-  Website bị lỗi 404 hoặc 500
- Website bị chặn bởi meta robot
- Trùng lặp với nội dung ngoài website
- Thời gian tải trang quá lâu
- Các trang chứa ít nội dung mà lại chứa nhiều quảng cáo
- Site map không được cập nhật thường xuyên
- Website bị block bởi robots.txt
- Trùng lặp với nội dung ngoài website
- …
lỗi 404
Lỗi 404

lỗi 500
Lỗi 500
 Lỗi 500
Lỗi URL Errors, robots.txt trong Google Webmaster Tool:

Nếu bạn thấy thông báo "Google couldn’t crawl your site because we were unable to access the robots.txt" hoặc bạn gặp trường hợp “Server error, Not found” hay Google không thể truy cập trang web của bạn do sự cố kết nối máy chủ. Bạn tìm cách khắc phục như sau:

- Kiểm tra trong file robots.txt của bạn xem có thư mục nào bị cấm mà google không thể tiến hành index các URL của các bạn.
- Kiểm tra hosting có chạy liên tục và không bị gián đoạn hay không. Nếu host bạn bị gián đoán (không uptime 100%) thì cũng có thể xảy ra lỗi trên.




Google bot luôn được xem trọng và vô cùng hữu ích trong việc quản lý các con bọ của Google, nếu sử dụng thành thạo, bạn có thể kiểm soát được luồng thông tin website cũng như bảo mật dữ liệu website không bị hiển thị trên Google.

Nhớ like share cho bạn bè, người thân cùng đọc nhé!

Chúc các bạn thành công!
Những điều cần biết về GoogleBot Reviewed by Thế Giới Tri Thức on tháng 12 01, 2017 Rating: 5

Không có nhận xét nào:

All Rights Reserved by THẾ GIỚI TRI THỨC © 2018
Thiết kế bởi: THẾ GIỚI TRI THỨC

Biểu mẫu liên hệ

Tên

Email *

Thông báo *

Được tạo bởi Blogger.