Bạn có biết khi nào thì trang web của bạn sẽ được xuất hiện trên Google, Yahoo và Bing chưa? Làm sao để các bộ máy tìm kiếm này biết được nó cần phải lập chỉ mục cho những liên kết nào trên trang web của bạn? Đó là nhờ vào sự chỉ dẫn của sơ đồ trang và tập tin robots.txt được lưu trữ trên trang web của bạn.
Tối ưu hóa tập tin robots.txt của Blogspot

Như vừa đề cập ở trên, mình đã nói đến sơ đồ trang trước khi đề cập đến tập tin robots.txt. Nhưng khi thiết lập blogspot, điều đầu tiên bạn cần nghĩ đến là phải giới hạn các cỗ máy tìm kiếm bằng tập tin này trước khi submit sitemap lên Google, Yahoo hoặc Bing. Để giúp các bạn SEO Blogspot tốt hơn, trong bài viết này mình sẽ giới thiệu về tập tin robots.txt, cách chỉnh sửa, tối ưu hóa và áp dụng cho Blogspot.

Robots.txt là gì?

Robots.txt là một tập tin ở dạng văn bản thuần. Nó được đặt chung với thư mục root của trang web. Ví dụ: http://www.domain.com/robots.txt. Nó giúp cho các webmaster linh hoạt hơn trong việc giới hạn cho phép hoặc không cho phép các bộ máy tìm kiếm (SE - Search Engine) lập chỉ mục cho trang web (gọi là index) những khu vực nội dung trong trang web đó.
Ví dụ:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Giải thích
  • User-agent: * : cho phép tất cả các bot của các bộ máy tìm kiếm lập chỉ mục trang web
  • Disallow: /wp-admin/: Ngăn chặn các bot lập chỉ mục cho thư mục /wp-admin/ và tất cả những gì thuộc thư mục này
  • Bonus: nếu như bạn muốn chặn không cho phép bất kỳ bộ máy tìm kiếm nào lập chỉ mục trang web bạn chỉ cần thêm vào dòng: "Disallow: /" trong tập tin này là OK.

robots.txt trong Blogspot

Người dùng Blogspot hoàn toàn có thể tùy biến tập tin Robots.txt sao cho phù hợp với nhu cầu sử dụng của mình. Để làm được điều này, bạn có thể đăng nhập vào Blogger, lựa chọn Blog cần chỉnh sửa. Di chuyển đến mục Settings > Search preferences > Crawlers and indexing > Custom robots.txt.

Có thể bạn không biết mình cần tùy biến những gì cho tập tin này, nên dưới đây mình sẽ chia sẻ cùng các bạn tập tin robots.txt mà vanthuong.com đang sử dụng.
User-agent: *
Disallow: /*?max-results=*
Disallow: /*?&max-results=*
Disallow: /*?updated-max=*
Disallow: /?m=0
Disallow: /*?m=0
Disallow: /search
Allow: /
Allow: /search/label/

Sitemap: http://www.vanthuong.com/sitemap.xml
Lưu ý: thay đổi www.vanthuong.com ở phần sitemap thành domain của blog của bạn nhé.

Ở đây, mình sẽ giới hạn và loại bỏ tất cả những kết quả tìm kiếm, phân trang để tránh bị trùng lặp nội dung khi Google thực hiện index cho blog của mình. Bên cạnh đó, các bạn có thể chú ý đến mục ?m=0, nó có nghĩa rằng mình không cho phép Google thực hiện index các liên kết này.
Lý do là một liên kết trên trang Blogspot của bạn được cung cấp ở 3 dạng link ví dụ như sau:
  • http://www.example.com/2016/10/bai-viet.html
  • http://www.example.com/2016/10/bai-viet.html?m=0
  • http://www.example.com/2016/10/bai-viet.html?m=1

Liên kết đầu tiên là liên kết bình thường của một bài viết mà bạn có thể thấy được khi truy cập vào blog. Liên kết thứ 2 là được sử dụng để yêu cầu trang web của bạn hiển thị giống như phiên bản Desktop khi ai đó truy cập bằng mobile. Và liên kết thứ 3 được sử dụng khi truy cập vào Blogspot trên các thiết bị di động. Mặc định các param m=0, m=1 sẽ được thêm vào khi sử dụng thiết bị di động truy cập vào Blogspot. Chính vì vậy, mà các bot của Google, Yahoo hoặc Bing cũng sẽ crawl các liên kết này luôn => Gây ra việc duplicate content khi SEO.

Dòng "Allow: /search/label/" được mình sử dụng để cho phép các bot lập chỉ mục cho các Label trên Blogspot của mình. Cái này cũng khá hữu ích bởi vì mình SEO luôn cả Label và đoạn mã tối ưu hóa Meta Tags cho SEO mà mình đã chia sẻ trước đó cũng đã bao gồm phần này.

Cuối cùng, mình yêu cầu các bộ máy tìm kiếm lập chỉ mục cho các bài viết được bao gồm trong tập tin sitemap.xml trên Blogspot của mình. Cái này được hỗ trợ sẵn và bạn không cần phải tùy chỉnh gì cả chỉ cần sử dụng thôi.

Lời kết

Bài viết này đơn giản chỉ có vậy thôi, mình hi vọng rằng nội dung mà mình vừa chia sẻ có ích đối với các bạn. Bên cạnh đó, nếu như bạn thấy việc mình tối ưu hóa tập tin robots.txt chưa tốt hoặc bạn có ý kiến khác hãy để lại bình luận nhé. Mình rất mong chờ được sự góp ý của các bạn để hoàn thiện bài viết này tốt hơn nữa. Chúc các bạn SEO thành công!