Robots.txt là yếu tố khá quan trọng mà bạn cần kiểm tra và tối ưu trong SEO. Bất cứ sai sót nhỏ nào trong cấu hình file robots.txt sẽ gây ra các vấn đề về SEO và tác động tiêu cực đến xếp hạng kết quả tìm kiếm. Vì vậy hãy tìm hiểu nó một cách rõ nhất để tránh các sự cố ngoài ý muốn. Hôm nay hãy cùng T-web tìm hiểu khái niệm cũng như cách tạo robots.txt cho website WordPress.

File robots.txt là gì?
File robots.txt là một tập tin văn bản đơn giản dưới dạng .txt. Tệp robots.txt là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn Website quy định về cách Robot Web (hoặc Robot của các công cụ tìm kiếm) thu thập các dữ liệu trên web, truy cập, index nội dung và cung cấp các nội dung đó cho người dùng.
REP cũng sẽ bao gồm các lệnh, ví dụ như Meta Robots, Page-Subdirectory, Site-Wide Instructions. Nó hướng dẫn và điều hướng các công cụ của Google xử lý các liên kết. Ví dụ như: Do-follow hoặc No-follow link.
Thực tế, việc tạo robots.txt WordPress sẽ giúp các nhà quản trị web chủ động, linh hoạt trong việc cho phép hoặc không cho phép các con bot của công cụ tìm kiếm Index một phần nào đó trong trang của họ.
Xem thêm: thêm favicon vào website
Vai trò của File robots.txt đối với website
Chặn con bọ từ google trong quá trình xây dựng web
Trong quá trình xây dựng website, khi tất cả mọi thứ chưa hoàn thiện như ý muốn. Đây là khoảng thời gian mà các nhà tạo lập cần ngăn cho con bọ Google để nó không index các nội dung chưa được hoàn thiện. Đặc biệt chỉ nên sử dụng File robots.txt trong quá trình thiết lập và xây dựng hệ thống. Vì nếu website của bạn đã hoạt động ổn định, việc chèn các đoạn mã này vào sẽ làm cho trang web của bạn không thể xuất hiện trên kết quả tìm kiếm.
Chèn Sitemap
Site được xem như một tấm bản đồ giúp cho google có thể khám phá ra các trang web của bạn. Nếu số lượng bài viết cần được index của trang web quá lớn nhưng trang web đó không có sitemap thì google không đủ tài nguyên để index hết tất cả. Đồng nghĩa với việc một số nội dung quan trọng sẽ không được xuất hiện.
Chặn bọ quét backlink
Hiện nay có 3 công cụ quét backlink phổ biến nhất là Moz, Majestic và Ahrefs. Các công cụ này có chức năng quét backlink của bất kỳ trang web nào. Lúc này, các robots.txt sẽ có công dụng ngăn chặn các công cụ quét backlink, khiến cho các đối thủ không thể phân tích backlink của mình.
Chặn các thư mục cần bảo mật
Các mã nguồn của website thường đều có các thư mục cần được bảo mật. Ví dụ: wp-includes, phpinfo.php, wp-admin, memcached, cgi-bin…
Những trang web này đảm bảo rằng không được index. Bởi một khi các nội dung này được công khai trên internet, các hacker sẽ có thể lấy cắp đi những thông tin quan trọng, thậm chí là tấn công vào hệ thống trang web của bạn. Công dụng của robots.txt sẽ giúp ngăn chặn việc google index các nội dung cần được bảo mật này.
Chặn các mã độc hại
Ngoài những phần mềm có thể giúp kiểm tra backlink vẫn còn một số phần mềm độc hại khác mà đối thủ có thể sử dụng. Có những con bọ được tạo ra dùng để sao chép nội dung của người khác. Hoặc các con bọ gửi quá nhiều và nhanh request tới máy chủ của bạn. Việc này khiến cho hệ thống của bạn bị hao phí băng thông và tài nguyên.
Chặn các con bọ đối với những trang thương mại điện tử
Các trang thương mại điện tử thường sẽ có một số tính năng đặc trưng cho người dùng. Chẳng hạn như tính năng đăng ký, đăng nhập, giỏ hàng, thanh toán, đánh giá sản phẩm,…những chức năng không thể thiếu của trang thương mại điện tử. Họ thường tạo ra các nội dung trùng lặp và những nội dung này sẽ không tốt cho việc SEO từ khóa. Vì thế, các bạn có thể sử dụng robots.txt để chặn các con bọ index những đường dẫn này.
Tìm hiểu thêm: rss là gì
Một số hạn chế của robots.txt
Trước khi tạo hay chỉnh sửa các tệp robots.txt, bạn nên tìm hiểu những hạn chế của phương pháp chặn URL này. Tùy thuộc vào mục đích sử dụng và tình huống của bạn, bạn nên cân nhắc những cơ chế để đảm bảo URL của bạn không được tìm trên web.
Một số công cụ tìm kiếm có thể sẽ không hỗ trợ các lệnh trong tệp robots.txt
Trình thu thập dữ liệu sẽ có quyền quyết định việc có nghe theo lệnh trong tệp này hay không. Googlebot và các trình thu thập dữ liệu website có uy tín sẽ tuân thủ theo các hướng dẫn của tệp robots.txt, tuy nhiên, sẽ có một số trình thu thập dữ liệu khác có thể không như vậy. Vì thế, nếu bạn muốn đảm bảo an toàn cho các thông tin của mình trước trình thu thập dữ liệu web, bạn nên tìm hiểu và dùng các phương thức chặn trình thu thập dữ liệu khác, chẳng hạn như bảo vệ các tệp thông tin riêng tư bằng mật khẩu trên máy chủ.
Mỗi trình thu thập dữ liệu sẽ phân tích cú pháp theo những cách riêng.
Một trình thu thập dữ liệu web có uy tín sẽ tuân theo các lệnh trong tệp robots.txt, tuy vậy, có thể mỗi trình thu thập dữ liệu lại có cách thức hoạt động riêng để diễn giải các lệnh. Bạn nên nắm được cú pháp thích hợp dành riêng cho từng trình thu thập dữ liệu web vì có một số trình thu thập có thể không hiểu được một số hướng dẫn nhất định.
Một trang bị tệp robots.txt chặn vẫn có thể được lập chỉ mục nếu có trang web khác liên kết đến trang đó.
Đối các nội dung bị tệp robots.txt chặn. Google sẽ không thu thập dữ liệu hoặc lập chỉ mục các nội dung đó, tuy nhiên, chúng tôi vẫn có thể tìm thấy và lập chỉ mục các nội dung bị tệp robots.txt chặn khi có những nơi khác liên kết đến URL đó. Kết quả cuối cùng là các URL và cũng có thể là cả những thông tin công khai khác như văn bản liên kết trong các đường liên kết trang vẫn xuất hiện trên kết quả tìm kiếm của Google. Để ngăn các URL của bạn xuất hiện trên các kết quả tìm kiếm của Google, hãy bảo vệ các các tệp đó trên máy chủ đặt mật khẩu, dùng thẻ meta no-index hoặc tiêu đề phản hồi hoặc có thể xóa toàn bộ trang.
Lợi ích khi sử dụng robots.txt?
Các tệp robots.txt sẽ kiểm soát các trình thu thập dữ liệu tìm đến các khu vực nhất định trên trang web của bạn. Điều này khá nguy hiểm nếu bạn vô tình ngăn Googlebot thu thập dữ liệu toàn bộ trang web của bạn, ngoài ra tệp robots.txt có thể rất tiện dụng.
Các trường hợp sử dụng robots.txt phổ biến:
- Chặn các nội dung trùng lặp xuất hiện trong SERPs (Lưu ý robot meta là lựa chọn tốt nhất trong trường hợp này.
- Giữ toàn bộ trang web ở chế độ riêng tư
- Giúp các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP công khai
- Chỉ định vị trí sitemap (sơ đồ trang web)
- Ngăn chặn công cụ tìm kiếm lập chỉ mục các tệp nhất định trong trang web của bạn (PDF, hình ảnh, văn bản,…)
- Chỉ định về độ trễ thu thập dữ liệu để ngăn trường hợp máy chỉ của bạn bị quá tải khi trình thu thập dữ liệu tải quá nhiều nội dung trong cùng một lúc
- Chặn tất cả các trình thu thập dữ liệu web từ tất cả các nội dung
- Cho phép trình thu thập dữ liệu truy cập vào tất cả các nội dung
- Chặn trình thu thập dữ liệu web cụ thể từ thư mục cụ thể
Những định dạng và các công cụ phổ biến của robots.txt
Các loại định dạng cơ bản của robots.txt
- User-agent: [user-agent name]
- Disallow: [URL string not to be crawled]
2 dòng này được xem là một tệp robots.txt hoàn chỉnh và đầy đủ – mặc dù một tệp robots có thể chứa nhiều dòng User-agent và chỉ thị của người dùng (có nghĩa là Disallow (không cho phép), Allow cho phép), thu thập dữ liệu trễ, v.v.).
Trong file robots.txt, mỗi bộ chỉ thị User-agent xuất hiện dưới dạng một bộ riêng biệt, được phân tách bằng các dấu ngắt dòng:

Ví dụ:
Msnbot, Discobot và Slurp đều được gọi cụ thể, vì thế các user-agent đó sẽ chỉ chú ý đến các chỉ thị trong các phần của tệp robots.txt. Tất cả các User-agent khác sẽ nghe theo các chỉ thị trong nhóm User-agent:
- buzzfeed.com khi muốn msnbot dừng chờ 120 mili giây sau mỗi lần crawl 1 trang web, và không được thu thập các chuỗi URL được liệt kê theo cú pháp
- Tất cả các user-agents (trừ msnbot, Discobot và Slurp) không được thu thập các URL có cú pháp đã được liệt kê
- Discobot sẽ không được phép thu thập bất kỳ URL nào của buzzfeed
- Slurp(user-agent của yahoo) sẽ phải chờ 4 mili giây sau mỗi lần thu thập trang, được thu thập tất cả các URL của Buzzfeed.com
Các user-agent được sử dụng phổ biến của công cụ tìm kiếm
Danh sách các user-agent bạn có thể dùng trong tệp robots.txt của mình để có thể khớp với các công cụ tìm kiếm được sử dụng phổ biến:
Ví dụ về robots.txt
Đây là một số ví dụ về robots.txt hoạt động cho trang một web www.example.com
URL tệp robots.txt: www.example.com/robots.txt
Công cụ tìm kiếm có 2 công việc chính như sau:
- Crawling: Thu thập các dữ liệu trên web để khám phá các nội dung
- Indexing: Lập chỉ mục các nội dung đã thu thập để nó có thể phục vụ cho những người tìm kiếm đang tìm kiếm ccas thông tin
Để có thể thu thập dữ liệu của trang web, công cụ tìm kiếm đi theo các liên kế và đi từ trang này sang các trang khác – cuối cùng, thu thập các dữ liệu qua hàng tỷ liên kết và trang web. Hành vi thu thập thông tin này đôi khi còn được gọi là Spidering.
Sau khi tìm đến một trang web, trước khi xem nó các trình thu thập thông tin sẽ tìm kiếm các tệp robots.txt. Nếu nó tìm thấy một tệp robots.txt, trình thu thập thông tin sẽ đọc tệp đó trước khi tiếp tục. Bởi vì các tệp robots.txt chứa các thông tin về cách công cụ tìm kiếm nên thu thập thông tin, các thông tin được tìm thấy ở đó sẽ hướng dẫn cho các trình thu thập thông tin trên hành động trên trang web cụ thể này.
Nếu tệp robots.txt không chứa bất kỳ chỉ thị nào, không cho phép hoạt động của các tác nhân người dùng (hay nếu trang web không có tệp robots.txt), trình thu thập dữ liệu sẽ tiến hành thu thập thông tin khác trên trang web.
Cách tạo File robots.txt chuẩn SEO
Sau khi kiểm tra bạn nhận ra website của mình không có tệp robots.txt hoặc bạn muốn thay đổi tệp robots.txt cho website của mình. Hãy cùng T-web tìm hiểu 3 cách tạo tệp robots.txt cho WordPress sau đây:
Sử dụng Yoast SEO
Bạn có thể chỉnh sửa và tạo file robots.txt cho WordPress trên chính WordPress Dashboard với các bước đơn giản. Hãy đăng nhập vào website của bạn, khi bạn đăng nhập vào bạn sẽ thấy giao diện của trang Dashboard.
Phía bên trái màn hình của bạn, nhấn vào SEO > Tools > File editor.
Tính năng file editor sẽ không xuất hiện nếu website WordPress của bạn vẫn chưa được kích hoạt trình quản lý chỉnh sửa file. Vậy nên hãy kích hoạt chúng thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin).
Lúc này bạn sẽ thấy mục robots.txt và .htaccess file – đây là nơi giúp bạn tạo file robots.txt.
Qua bộ Plugin All in One SEO
Ngoài ra bạn có thể sử dụng bộ plugin All in One SEO để có thể tạo file robots.txt WordPress một cách nhanh chóng. Đây là một Plugin tiện ích cho WordPress khá đơn giản và dễ sử dụng.
Để tạo file robots.txt WordPress, bạn cần đến phần giao diện chính của Plugin All in One SEO Pack. Chọn All in One SEO > Features Manager > Nhấp Active cho mục robots.txt
Vào lúc này, trên giao diện plugin All in One SEO sẽ xuất hiện nhiều tính năng thú vị:
Khi đó, mục robots.txt sẽ hiển thị như một tab mới trong thư mục lớn All in One SEO. Bạn có thể tạo lập và điều chỉnh file robots.txt WordPress tại đây.
Tuy nhiên, plugin này có một sự khác biệt so với plugin Yoast SEO. Plugin All in One SEO sẽ làm mờ đi thông tin của file robots.txt thay vì bạn có thể chỉnh sửa file như công cụ Yoast SEO. Việc này có thể khiến bạn hơi bị động một chút khi chỉnh sửa file robots.txt WordPress. Tuy nhiên, yếu tố này sẽ giúp bạn hạn chế các thiệt hại cho website của mình. Đặc biệt là một số Malware bots sẽ gây hại cho website mà bạn không ngờ tới.
Một số lưu ý về robots.txt
robots.txt phân biệt chữ hoa và chữ thường vì thế bạn hãy lưu ý tệp phải được đặt tên cách chính xác là robots.txt (Không phải là Robots.txt hoặc robots.TXT)
Để được tìm thấy, tệp robots.txt phải được đặt ở trong phần thư mục cấp cao nhất (root) của trang web.
Một số user-agent (robot) có thể chọn phương thức bỏ qua tệp robots.txt của bạn. Điều này khá phổ biến với các trình thu thập dữ liệu bất chính hơn như robots phần mềm độc hại hoặc người dọn dẹp địa chỉ email.
Mỗi một tên miền phụ trên một tên miền gốc sử dụng các tệp robots.txt riêng biệt. Việc này có nghĩa là cả blog.example.com và example.com nên có các tệp robots.txt riêng (tại blog.example.com/robots.txt và example.com/robots.txt).
Lời kết
Bạn đã biết được khái niệm robots.txt là gì hay chưa: Hãy kiểm tra xem website của bạn có file robots.txt. Tạo robot.txt cho website WordPress theo ý muốn và mục đích nhất định sẽ hỗ trợ các con bot google tìm kiếm thu thập dữ liệu và index trang web của bạn một cách nhanh chóng. Nếu bạn thích bài viết này của T-web hãy tiếp tục theo dõi các bài viết của mình nhé.
Những câu hỏi về robots.txt
Sự khác biệt giữa robots.txt và meta robot vs x-robot này là gì?
Robots.txt là một tệp văn bản thực tế, trong khi meta và x-robot chỉ là các chỉ thị meta. Và chúng thực hiện các chức năng khác nhau.
robots.txt ra lệnh cho hành vi thu thập dữ liệu trên trang web và các thư mục, trong khi meta và x-robot có thể ra lệnh hành vi lập chỉ mục cho từng trang riêng lẻ.
Tại sao file robots.txt lại quan trọng?
Các quản trị viên web sẽ không được hưởng lợi từ tệp robots.txt vì nó cho trình thu thập thông tin của các công cụ tìm kiếm biết được đâu là trang web cần được tập trung để lập chỉ mục. Điều này sẽ giúp cho các trang ít quan trong được bỏ qua và tập trung vào những trang quan trong nhất. Các quy tắc phù hợp cũng có thể giúp ngăn chặn bot lãng phí tài nguyên máy chủ của trang web của bạn.
Bạn có cần chỉnh sửa robots.txt không?
Người dùng nền tảng WordPress thông thường sẽ không cần sửa đổi nhiều tệp robots.txt. Tuy nhiên, bạn có thể thay đổi nếu có một bot nào đó gây ra các phiền phức hoặc nếu cần thiết phải thay đổi cách các công cụ tìm kiếm tương tác với một chủ đề hoặc plugin WordPress cụ thể hoặc thậm chí có thể tùy thuộc vào máy chủ lưu trữ web của bạn .