Huớng dẫn tạo file robots.txt trong website WordPress

Các bạn không biết cách tạo file robots.txt như thế nào, và nội dung file robots.txt ra sao, cũng như lợi ích của nó đối với việc seo website wordpress như thế nào? Hãy cùng nhau nghiên cứu bài viết dưới đây để nắm vững kiến thức liên quan đến file robots.txt nhé.

Các bạn không biết về file robots.txt?

Không ngạc nhiên vì đây là chỉ là file text nhỏ và mọi người thường không để ý đến nó.

Nhưng nếu các bạn hiểu về file robots.txt, Các bạn có thể tận dụng sức mạnh của file này để cải thiện SEO cho website.

Các bạn không có kiến thức kỹ thuật lập trình?

Không cần phải quá lo lắng?

Làm việc file robots.txt cũng không quá phức tạp. Chỉ cần biết vài dòng lệnh cơ bản là Các bạn đã có file robots.txt tối ưu rồi. 

Mình sẽ chỉ cho Các bạn cách chính xác để tạo và thay đổi file robots.txt mà bộ máy tìm kiếm sẽ yêu thích.

File robots.txt là gì? Và Cách sử dụng file robots.txt tối ưu cho SEO?

Đầu tiên chúng ta cùng xem file robots.txt là gì?

File robots.txt là một file text có tác dụng báo cho web robot (con bọ của bộ máy tìm kiếm) biết trang nào cần quét (crawl) và trang nào không cần quét trên website của Các bạn.

Về cơ bản:

Khi bộ máy tìm kiếm truy cập website của Các bạn để quét và đánh chỉ mục, nó sẽ kiểm tra file robots.txt đầu tiên.

File này sẽ cho bộ máy tìm kiếm biết cách quét và đánh chỉ mục website của Các bạn.

Đây là ví dụ một file robots.txt

vi-du-file-robots-txt
vi-du-file-robots-txt

Ý nghĩa file này như sau:

Dấu * sau User-agent có nghĩa là file robots.txt này sẽ áp dụng với tất cả web robot ghé thăm website.

Nét gạch chéo sau disallow bảo robot không ghé thăm bất cứ trang nào trên website.

Dĩ nhiên đây chỉ là ví dụ để cho Các bạn hình dung file robots.txt là như thế nào.

Khi tạo website Các bạn muốn robot của bộ máy tìm kiếm ghé thăm trang web do vậy website website có xếp hạng tốt.

Đây cũng là mục tiêu mà chúng ta cần tối ưu file robots.txt sao cho bộ máy tìm kiếm quét trang của Các bạn hợp lý nhất.

Các bạn cần biết rằng:

Website của Các bạn có rất nhiều trang. Do vậy bộ máy tìm kiếm có thể mất nhiều thời gian để quét trang.

Điều này có thể tác động xấu tới xếp hạng của Các bạn.

Vì sao?

Bởi bộ máy tìm kiếm Google có một khái niệm Các bạn cần biết. Đó là:

Ngân sách dò (crawl budget).

Ngân sách dò của Google bao gồm 2 thứ.

Đầu tiên đó là giới hạn tốc độ quét (crawl rate limit) như Google giải thích bên dưới:

Thứ hai là nhu cầu quét (crawl demand) như giải thích bên dưới:

Nói đơn giản ngân sách dò chính là số lượng URL mà Google bot có thể và muốn quét trên trang của Các bạn.

Hiểu được điều này có tác dụng quan trọng.

Các bạn sẽ biết cách giúp cho Googel có thể sử dụng ngân sách quét một cách không ngoan.

Nói dễ hiểu:

Các bạn nên để Google quét những trang có giá trị. Những trang Các bạn muốn có thứ hạng tốt.

Còn những trang không quan trọng tốt nhất Các bạn nên khóa lại.

Như vậy Google không còn mất thời gian để quét chúng.

Thực tế các bạn cần biết một vài yếu tố tác động xấu đến ngân sách quét

Chốt lại:

Chúng ta sẽ tối ưu file robots.txt để cho Google có thể quét và đánh chỉ mục trang của Các bạn một cách dễ dàng và thuận lợi. Do vậy website của Các bạn có thể cải thiện xếp hạng.

Cách tìm file robots.txt trên website của Các bạn

File robots.txt là file public do vậy Các bạn có thể dễ dàng kiểm tra file này trên bất kỳ website nào.

Đơn giản Các bạn chỉ cần thêm vào /robots.txt vào phần cuối.

Một mẹo hay: Các bạn có thể vào trang web lớn trong niche của Các bạn và nghiên cứu file robots để học tập theo. 

Có vài một tình huống xảy ra khi kiểm tra file robots.txt của một website:

Các bạn sẽ tìm thấy file robots.txt như bên dưới:

File robots.txt của 1 website wordpress

Các bạn sẽ tìm thấy một file trống: màn hình trắng

Các bạn sẽ gặp phải lỗi 404.

File robots.txt bị lỗi 404

Nếu Các bạn nhìn thấy file trống hoặc lỗi 404 Các bạn cần phải bắt tay vào tạo mới file robots.txt ngay.

Về cách tạo và chỉnh sửa file robots.txt. Các bạn có 3 lựa chọn:

Các bạn có thể tạo file robots.txt trên máy của Các bạn sử dụng một trình text editor đơn giản như Notepad hoặc Notepad++.

Nhớ đừng dùng Word để tạo file này vì phần mềm này sẽ chèn những ký tự không mong muốn.

Cách thứ hai Các bạn sử dụng File Manager để tạo và chỉnh sửa file này ngay trên host.

Và cách cuối cũng là cách mình đề xuất: Các bạn sử dụng công cụ tạo file robots.txt của Google Search Console. ​

Mình sẽ nói rõ cách tạo file robots.txt ở phần bên dưới.

Nhưng bây giờ mình muốn nói thêm cách tìm file robots.txt khi Các bạn kiểm tra thấy có một file bằng việc gắn /robots.txt.

Đi tới thư mục gốc của website sử dụng FTP hoặc File Manager. 

Đối với website WordPress, có lẽ Các bạn sẽ không tìm thấy một file robots.txt mặc dù kiểm tra bước trên cho ra một file hợp lệ.

Điều này bởi vì WordPRess đã tạo ra một file robots.txt ảo.

Trong tình huống này Các bạn cần tạo mới robots.txt trong thư mục gốc.

Tạo file robots.txt

Như mình đã nói Các bạn sử dụng công cụ tạo file robots.txt trong Google Search Console. 

Truy cập Google Search Console. Click vào website Các bạn muốn tạo file robots.txt. 

Đi tới Crawl -> robots.txt Tester.

File robots.txt trong Google Search Console

Các bạn nhập vào nội dung file robots.txt. Sau đó Các bạn click vào nút Submit.

Lúc này Các bạn sẽ nhìn thấy một popup hướng dẫn thêm:

Các bạn sẽ tải file robots.txt Các bạn vừa tạo. Sau đó upload lên thư mục gốc của website.

Tiếp theo click vào View uploadd version để đảm bảo file robots.txt đã chuẩn.

Sau đó Các bạn click vào nút Submit để thông báo cho Google. 

Như vậy Các bạn đã hình dung được cách tạo file robots.txt cho website ​

Còn bây giờ Các bạn đang thắc mắc Các bạn cần nhập gì trong file robots.txt?

Mình sẽ hướng dẫn Các bạn tạo một file robots.txt đơn giản. 

Trước khi bắt tay vào tạo file Các bạn cần tham khảo một chút cú pháp từ Google.

Đầu tiên Các bạn muốn bổ sung dấu * sau user-agent như thế này:

Tiếp theo, nhập vào Disallow: nhưng không đánh gì đằng sau như thế này:

Đây chính là file robots.txt cơ bản với ý nghĩa bảo bộ máy tìm kiếm truy cập tất cả các trang trong website của Các bạn

Chúng ta cần tối ưu file này cho SEO.

Như đã nói ở phần ngân sách quét, Các bạn cần thông báo cho bộ máy tìm kiếm không nên quét những khu vực của website mà Các bạn không muốn public.

Ví dụ đây là file robots.txt mặc định mà WordPress tạo ra khi Các bạn cài đặt WordPress

File này sẽ bảo với bộ máy tìm kiếm không quét phần wp-admin. Riêng file admin-ajax thì vẫn quét như bình thường. Lý do vì sao file này cần phải quét, Các bạn tham khảo ở đây.

Từ đây Các bạn có thể chủ động sử dụng dòng lệnh tương tự để ngăn không cho bộ máy tìm kiếm quét một số trang cụ thể.

Các bạn chỉ cần bổ sung dòng disallow giống như trang file robots ở trang này.

Giả sử Các bạn không muốn con bọ quét trang http://yourdomainname.com/page/ , Các bạn có thể bổ sung dòng lệnh như bên dưới.

Cái quan trọng:

Các bạn cần xác định những trang nào Các bạn cần ngăn bộ máy tìm kiếm ghé thăm.

Đây một là một vài gợi ý:

Nội dung trùng lặp. Có lẽ Các bạn cũng biết nội dung trùng lặp không tốt cho SEO. Nhưng vì lý do nào đó Các bạn có nội dung trùng lặp, Các bạn có thể bảo bộ máy tìm không quét những trang như vậy.

Trang cảm ơn. Một và nhà tiếp thị có xây dựng trang cảm ơn ở đó có thể chứa link ebook sau khi khách ghé thăm đăng ký email.

Nếu Các bạn cũng có trang như vậy, có lẽ Các bạn không muốn nó được đánh chỉ mục. Bởi vì trang này chỉ dành cho những người tham gia email list của Các bạn đúng không?

Có một điểm Các bạn cần biết:

Sử dụng dòng lệnh disallow không đồng nghĩa ngăn trang nào đó được đánh chỉ mục.

Về mặt lý thuyết Các bạn có thể disallow một trang, nhưng nó vẫn có thể được đánh chỉ mục.

Đó là lúc Các bạn cần lệnh noindex. Các bạn sử dụng lệnh noindex cùng với disallow để chắc chắn bộ máy tìm kiếm không ghé thăm và đánh chỉ mục trang Các bạn không mong muốn.

Đây là ví dụ của disallow và noindex trang thankyou:

Một chỉ lệnh nữa Các bạn cần biết đó là nofollow. Chỉ lệnh này bảo với bot rằng nó không cần quét link trên trang.

Chỉ lệnh này Các bạn không dùng trong file robots.txt mà đặt nó trong thẻ meta như thế này:

Tất nhiên Các bạn không cần động tay vào code. 

Nếu Các bạn đang sử dụng plugin Yoast SEO, Các bạn có thể hướng dẫn robot không đánh chỉ mục và quét link trên trang ở phần cấu hình nâng cao của bài viết.

Kiểm tra lại file robots.txt sau khi tạo

Ngay sau khi Các bạn đã tạo và tối ưu xong file robots.txt, Các bạn cần chắn chắn file hợp lệ.

Vậy bằng cách nào?

Các bạn lại tiếp tục sử dụng công cụ robots.txt miễn phí như trong Googe Search Console.

Nếu Các bạn đã sử dụng công cụ tạo file robots.txt của Google Search Console, có lẽ Các bạn không cần kiểm tra thêm.

Còn đây là cách kiểm tra lại file robots.txt Các bạn vừa tạo cho website của mình. ​

Ở trong trang quản trị của Google Search Console, đi tới Crawl -> robots.txt Tester

Nhập vào đường dẫn URL và click vào nút Test.

Nếu nút Test chuyển thành Allowed, điều đó nghĩa là file robots.txt của Các bạn hợp lệ.

Các bạn có thể đọc thêm về công cụ này ở đây.

Lời tổng kết

Việc tạo và sử dụng file robots.txt không phải là việc quá khó khăn đối với seoer cho dù người này không có nhiều kiến thức về lập trình, tuy vậy lợi ích của file robots.txt là rất rõ ràng và mang lại giá trị cao trong việc seo website. Nếu website của bạn chưa có file robots.txt, hãy làm ngay, tất cả những gì liên quan đến việc tạo file robots.txt có ngay trong bài viết bên trên, hãy làm theo là sẽ được, còn nếu vẫn còn gặp khó khăn, hãy gọi ngay cho chúng tôi theo số liên hệ hotline bên dưới, chúng tôi sẽ giúp bạn.

Nguồn – thuthuatwp.com