[HƯỚNG DẪN] 3 cách tạo tệp robots txt đơn giản cho WordPress

29/04/2022 11:09 am | Lượt xem : 4165

Tệp robots txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết có thể truy cập vào những URL nào trên trang web của bạn.
Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web; đây không phải là cơ chế để ẩn một trang web khỏi Google.
Để ẩn một trang web khỏi Google, hãy chặn lập chỉ mục bằng noindex hoặc bảo vệ trang đó bằng mật khẩu.
Vậy cụ thể tệp robots txt là gì, nguyên lý hoạt động như thế nào và làm sao để kiểm tra cũng như tạo tệp robots txt?
Cùng Tenten tìm hiểu trong bài viết ngày hôm nay nhé!

Contents

1. Tệp robots txt là gì?
2. Cú pháp của file robots txt
3. Công dụng của file robots txt
4. Định dạng cơ bản của một file robots txt chuẩn
5. Một số hạn chế của tệp robots txt
6. Cách kiểm tra file robots txt
- Kiểm tra tệp robots txt của bạn
7. Cách để tạo file robots txt WordPress nhanh và đơn giản

1. Tệp robots txt là gì?

Robots txt là gì

File robots txt là một tập tin văn bản đơn giản có dạng .txt.
Tệp này là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn Web quy định cách Robot Web (hoặc Robot của các công cụ tìm kiếm) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.
REP cũng bao gồm các lệnh như Meta Robots, Page-Subdirectory, Site-Wide Instructions. Nó hướng dẫn các công cụ của Google xử lý các liên kết. (ví dụ: Follow hay Nofollow link).
Trên thực tế, tạo robots txt WordPress giúp các nhà quản trị web linh hoạt, chủ động hơn trong việc cho phép hay không cho các con bot của công cụ Google Index một số phần nào đó trong trang của mình.

2. Cú pháp của file robots txt

Tất tần tật về robots txt

Các cú pháp được xem là ngôn ngữ riêng của các tập tin robots txt. Có 5 thuật ngữ phổ biến mà bạn sẽ bắt gặp trong một file robots txt. Chúng bao gồm:
User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
Disallow: Được sử dụng để thông báo cho các User-agent không thu thập bất kỳ dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng Disallow.
Allow (chỉ áp dụng cho bọ tìm kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
Crawl-delay: Thông báo cho các Web Crawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bọ tìm kiếm Googlebot không thừa nhận lệnh này. Bạn cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Ask, Bing và Yahoo.

3. Công dụng của file robots txt

Một số công dụng chủ yếu của tệp robots txt như thường được dùng để quản lý lưu lượng truy cập của trình thu nhập dữ liệu vào trang web hoặc dùng để ẩn một tệp khỏi Google.
Tùy thuộc vào các loại tệp mà ta có được những ảnh hưởng khác nhau của tệp robots txt lên các tệp như sau:

Trang web	Đối với các trang web (HTML, PDF hoặc các định dạng không phải nội dung phương tiện khác mà Google đọc được), bạn có thể dùng một tệp robots txt để quản lý lưu lượng thu thập dữ liệu nếu cho rằng máy chủ của bạn sẽ bị quá tải do số lượng yêu cầu của trình thu thập dữ liệu của Google. Bạn cũng có thể dùng tệp này để tránh thu thập dữ liệu các trang không quan trọng hoặc tương tự nhau trên trang web. Lưu ý: Đừng dùng tệp robots txt như một phương tiện để ẩn các trang web của bạn khỏi kết quả tìm kiếm trên Google. Nếu các trang khác trỏ đến trang của bạn kèm theo văn bản mô tả, Google vẫn có thể lập chỉ mục URL đó mà không cần truy cập trang. Nếu bạn muốn chặn trang của mình khỏi kết quả tìm kiếm, hãy dùng một phương thức khác, chẳng hạn như bảo vệ bằng mật khẩu hoặc dùng lệnh noindex. Nếu trang web của bạn bị chặn bằng một tệp robots txt thì URL của trang đó vẫn có thể xuất hiện trong kết quả tìm kiếm, nhưng kết quả tìm kiếm đó sẽ không có nội dung mô tả. Các tệp hình ảnh, tệp video, tệp PDF và các tệp không phải HTML khác sẽ bị loại trừ. Nếu bạn thấy kết quả tìm kiếm này cho trang của mình và muốn sửa kết quả, hãy xóa tệp robots txt đang chặn trang. Nếu bạn muốn ẩn hoàn toàn trang khỏi kết quả của Tìm kiếm, hãy sử dụng một phương thức khác.
Tệp đa phương tiện	Hãy dùng tệp robots txt để quản lý lưu lượng thu thập dữ liệu, đồng thời để ngăn các tệp hình ảnh, video và âm thanh xuất hiện trong kết quả tìm kiếm trên Google. Tệp này sẽ không ngăn các trang hoặc người dùng khác liên kết đến tệp hình ảnh, video hay âm thanh của bạn.
Tệp tài nguyên	Bạn có thể dùng tệp robots txt để chặn các tệp tài nguyên (chẳng hạn như hình ảnh, tập lệnh hoặc các tệp định kiểu không quan trọng) nếu cho rằng lệnh chặn này sẽ không ảnh hưởng đáng kể đến những trang có thể tải mà không cần những tài nguyên này. Tuy nhiên, nếu trình thu thập dữ liệu của Google khó có thể hiểu được trang của bạn khi thiếu những tài nguyên này, thì bạn đừng chặn. Nếu không, Google sẽ không thể phân tích chính xác những trang cần đến những tài nguyên đó.

Bên cạnh đó, việc tạo file robots txt cũng đem lại nhiều lợi ích tuyệt vời khác.
Việc tạo robots txt cho website giúp bạn kiểm soát việc truy cập của các con Bots đến các khu vực nhất định trên trang web.
Và điều này có thể vô cùng nguy hiểm nếu bạn vô tình sai một vài thao tác khiến Googlebot không thể index website của bạn.
Tuy nhiên, việc tạo file robots txt vẫn thật sự hữu ích bởi nhiều lí do:

Ngăn chặn nội dung trùng lặp (Duplicate Content) xuất hiện trong website (lưu ý rằng các Robot Meta thường là lựa chọn tốt hơn cho việc này)
Giữ một số phần của trang ở chế độ riêng tư
Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP
Chỉ định vị trí của Sitemap
Ngăn các công cụ của Google Index một số tệp nhất định trên trang web của bạn (hình ảnh, PDF, …)
Dùng lệnh Crawl-delay để cài đặt thời gian. Điều này sẽ ngăn việc máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.
Nếu bạn không muốn ngăn các Web Crawler tiến hành thu thập dữ liệu từ website thì bạn hoàn toàn không cần tạo robots txt.

4. Định dạng cơ bản của một file robots txt chuẩn

Để có thể nắm bắt rõ hơn về lại file này, sau đây là định dạng cơ bản của tệp robots txt:

User-agent:
Disallow:
Allow:
Crawl-delay:
Sitemap:

Tuy nhiên, bạn vẫn có thể lược bỏ các phần Crawl-delay và Sitemap. Đây là định dạng cơ bản của robots txt WordPress hoàn chỉnh.
Tuy nhiên trên thực tế thì file robots txt chứa nhiều dòng User-agent và nhiều chỉ thị của người dùng hơn.
Chẳng hạn như các dòng lệnh: Disallow, Allow, Crawl-delay, … Trong file robots txt, bạn chỉ định cho nhiều con bot khác nhau. Mỗi lệnh thường được viết riêng biệt cách nhau bởi 1 dòng.
Trong một file robots txt WordPress bạn có thể chỉ định nhiều lệnh cho các con bot bằng cách viết liên tục không cách dòng. Tuy nhiên trong trường hợp một file robots txt có nhiều lệnh đối với 1 loại bot thì mặc định bot sẽ làm theo lệnh được viết rõ và đầy đủ nhất.
Dạng của một file robots txt chuẩn
Để chặn tất cả các Web Crawler không được thu thập bất kỳ dữ liệu nào trên website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:

User-agent: *
Disallow: /

Để cho phép tất cả các trình thu thập thông tin truy cập vào tất cả các nội dung trên website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:

User-agent: *
Disallow:

Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) không thu thập bất kỳ trang nào có chứa chuỗi URL www.example.com/example-subfolder/. Chúng ta hãy sử dụng cú pháp sau:

User-agent: Googlebot
Disallow: /example-subfolder/

Để chặn trình thu thập thông tin của Bing (User-agent: Bing) tránh thu thập thông tin trên trang cụ thể tại www.example.com/example-subfolder/blocked-page. Chúng ta hãy sử dụng cú pháp sau:

User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html

Ví dụ cho file robots txt chuẩn
Dưới đây là ví dụ về tệp robots.txt hoạt động cho trang web www.example.com:

User-agent: *
Disallow: /wp-admin/
Allow: /
Sitemap: https://www.example.com/sitemap_index.xml

5. Một số hạn chế của tệp robots txt

Trước khi tạo hoặc chỉnh sửa tệp robots txt, bạn nên biết những hạn chế của phương pháp chặn URL này.
Tùy thuộc vào mục tiêu và tình huống của bạn, bạn nên cân nhắc những cơ chế khác để đảm bảo URL của bạn không tìm được trên web.
Một số công cụ tìm kiếm có thể không hỗ trợ các lệnh trong tệp robots txt.
Hướng dẫn trong các tệp robots txt không thể bắt một trình thu thập dữ liệu làm theo một hành vi cụ thể.
Trình thu thập dữ liệu có quyền quyết định việc có tuân theo lệnh trong tệp hay không. Googlebot và các trình thu thập dữ liệu web có uy tín khác tuân thủ hướng dẫn trong tệp robots txt, tuy nhiên, một số trình thu thập dữ liệu khác có thể không như vậy.
Vì vậy, nếu bạn muốn đảm bảo an toàn cho thông tin của mình trước các trình thu thập dữ liệu web, bạn nên dùng những phương thức chặn khác, chẳng hạn như bảo vệ các tệp riêng tư bằng mật khẩu trên máy chủ.
Mỗi trình thu thập dữ liệu sẽ phân tích cú pháp theo những cách riêng.
Các trình thu thập dữ liệu web có uy tín sẽ tuân theo các lệnh trong tệp robots txt, tuy nhiên, có thể mỗi trình thu thập dữ liệu lại có cách thức riêng để diễn giải các lệnh.
Bạn nên nắm được cú pháp thích hợp dành cho từng trình thu thập dữ liệu web vì một số trình thu thập có thể không hiểu được một số hướng dẫn nhất định.
Một trang bị tệp robots txt chặn vẫn có thể được lập chỉ mục nếu có trang web khác liên kết đến trang đó.
Google sẽ không thu thập dữ liệu hoặc lập chỉ mục nội dung bị tệp robots txt chặn, tuy nhiên, chúng tôi vẫn có thể tìm thấy và lập chỉ mục một URL bị tệp robots txt chặn khi có những nơi khác liên kết đến URL đó.
Kết quả là các địa chỉ URL và có thể là cả thông tin công khai khác như văn bản liên kết trong các đường liên kết đến trang vẫn sẽ xuất hiện trong kết quả tìm kiếm trên Google.
Để ngăn URL của bạn xuất hiện trong kết quả tìm kiếm trên Google, hãy bảo vệ các tệp trên máy chủ bằng mật khẩu, dùng thẻ meta noindex hoặc tiêu đề phản hồi hoặc xóa toàn bộ trang.

6. Cách kiểm tra file robots txt

Công cụ Trình kiểm tra robots.txt cho biết liệu tệp robots txt của bạn có chặn trình thu thập dữ liệu web của Google khỏi một số URL cụ thể trên trang web của bạn hay không.
Ví dụ, bạn có thể dùng công cụ này để kiểm tra xem trình thu thập dữ liệu Googlebot-Image có thể thu thập dữ liệu trên URL của một hình ảnh bạn muốn chặn khỏi kết quả của Google Hình ảnh hay không.
Mở Trình kiểm tra robots txt
Bạn có thể gửi URL đến công cụ Trình kiểm tra robots txt. Công cụ này hoạt động như khi Googlebot kiểm tra tệp robots txt của bạn và xác minh việc URL của bạn đã được chặn đúng cách.

Kiểm tra tệp robots txt của bạn

Mở công cụ kiểm tra cho trang web của bạn rồi đọc qua toàn bộ mã trong tệp robots txt để xác định vị trí của những cảnh báo về cú pháp và lỗi logic được đánh dấu. Số lượng cảnh báo về cú pháp và lỗi logic sẽ hiển thị ngay lập tức bên dưới trình chỉnh sửa.
Nhập URL của một trang trên trang web của bạn vào hộp văn bản ở cuối trang.
Chọn tác nhân người dùng mà bạn muốn mô phỏng trong danh sách thả xuống ở bên phải hộp văn bản.
Nhấp vào nút KIỂM TRA để kiểm tra quyền truy cập.
Kiểm tra xem nút KIỂM TRA giờ hiển thị ĐƯỢC CHẤP NHẬN hay BỊ CHẶN để tìm hiểu xem URL bạn nhập vào có bị chặn khỏi trình thu thập dữ liệu web của Google hay không.
Chỉnh sửa tệp trên trang và kiểm tra lại nếu cần thiết. Hãy lưu ý rằng những nội dung bạn chỉnh sửa trên trang này sẽ không được lưu vào trang web của bạn! Xem bước tiếp theo.
Sao chép nội dung chỉnh sửa của bạn vào tệp robots txt trên trang web của bạn. Công cụ này không làm thay đổi tệp thực tế trên trang web của bạn, nó chỉ kiểm tra bản sao được lưu trữ trong công cụ.

7. Cách để tạo file robots txt WordPress nhanh và đơn giản

Trước khi tìm hiểu 3 cách tạo file robots txt trên wordpress sao cho thật đơn giản, nhanh chóng, chúng ta cùng làm rõ trước một số nguyên tắc không thể bỏ lỡ trong việc tạo file robots txt này nhé

Để được các con bot tìm thấy thì các file robots txt WordPress phải được đặt trong các thư mục cấp cao nhất của trang web.
Txt phân biệt chữ hoa và chữ thường. Vì thế tệp phải được đặt tên là robots txt. (không phải Robots txt hay robots TXT, …)
Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào mục Disallow. Điều đó sẽ cản trở các công cụ nhìn nhận chính xác về giao diện blog hay website của bạn.
Một số User-agent chọn cách bỏ qua các file robots txt chuẩn của bạn. Điều này khá phổ biến với các User-agent bất chính như:
- Malware robots (bot của các đoạn mã độc hại)
- Các trình Scraping (quá trình tự thu thập thông tin) địa chỉ Email
Các tệp robots txt thường có sẵn và được công khai trên web. Bạn chỉ cần thêm /robots txt vào cuối bất kì Root Domain để xem các chỉ thị của trang web đó. Điều này có nghĩa là bất kì ai cũng thấy các trang bạn muốn hoặc không muốn crawl. Vì vậy đừng sử dụng các tệp này để ẩn thông tin cá nhân của người dùng.
Mỗi Subdomain trên một một Root Domain sẽ sử dụng các file robots txt riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com nên có các tệp robots txt riêng (blog.example.com/robots txt và example.com/robots txt). Tóm lại, đây được xem là cách tốt nhất để chỉ ra vị trí của bất kì sitemaps nào được liên kết với domain ở cuối tệp robots txt.

Bây giờ thì cùng tìm hiểu 3 cách tạo file robots txt nhanh gọn lại còn đáp ứng được đầy đủ các nguyên tắc trên nhé!

7.1. Sử dụng Yoast SEO

Bạn có thể chỉnh sửa hoặc tạo file robots txt cho WordPress trên chính WordPress Dashboard với vài bước đơn giản.
Đăng nhập vào website của bạn, khi đăng nhập vào bạn sẽ thấy giao diện của trang Dashboard.
Nhìn phía bên trái màn hình, click vào SEO > Tools > File editor.
Vào phần Tools của SEO
Bấm vào File Editor để bắt đầu tạo Robots txt
Tính năng file editor sẽ không xuất hiện nếu WordPress của bạn vẫn chưa được kích hoạt trình quản lý chỉnh sửa file. Do vậy hãy kích hoạt chúng thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin).
Lúc này bạn sẽ thấy mục robots txt và .htaccess file – đây là nơi giúp bạn tạo file robots.txt đấy.
Điều chỉnh và tạo file robots.txt trực tiếp trên Yoast SEO

7.2. Qua bộ Plugin All in One SEO

Hoặc bạn có thể sử dụng bộ Plugin All in One SEO để tạo file robots.txt WordPress nhanh chóng. Đây cũng là một plugin tiện ích cho WordPress – Đơn giản, dễ sử dụng.
Để tạo file robots txt WordPress, bạn phải đến giao diện chính của Plugin All in One SEO Pack. Chọn All in One SEO > Features Manager > Nhấp Active cho mục robots txt
Lúc này, trên giao diện sẽ xuất hiện nhiều tính năng thú vị:
Nhấn Activate để kích hoạt Robots.txt
Và khi đó, mục robots txt sẽ xuất hiện như một tab mới trong thư mục lớn All in One SEO. Bạn có thể tạo lập cũng như điều chỉnh file robots txt WordPress tại đây.
Tạo lập và điều chỉnh file robots.txt WordPress tại đây.
Tuy nhiên, bộ plugin này có một chút khác biệt so với Yoast SEO tôi vừa đề cập ở trên.
All in One SEO làm mờ đi thông tin của file robots txt thay vì bạn được chỉnh sửa file như công cụ Yoast SEO.
Điều này có thể khiến bạn hơi bị động một chút khi chỉnh sửa file robots txt WordPress.
Tuy nhiên, tích cực mà nói, yếu tố này sẽ giúp bạn hạn chế thiệt hại cho website của mình. Đặc biệt một số Malware bots sẽ gây hại cho website mà bạn không ngờ tới.

7.3. Tạo rồi upload file robots txt qua FTP

Nếu bạn không muốn sử dụng plugin để tạo file robots txt WordPress thì có 1 cách khác cho bạn – Tự tạo file robots txt thủ công cho WordPress của mình.
Upload file robots.txt qua FTP
Bạn chỉ mất vài phút để tạo file robots txt WordPress này bằng tay.
Sử dụng Notepad hoặc Textedit để tạo mẫu file robots txt WordPress theo quy tắc đã giới thiệu ở bên trên.
Sau đó upload file này qua FTP không cần sử dụng plugin, quá trình này rất đơn giản không tốn bạn quá nhiều thời gian.
Và đó là tất tần tật những thông tin bổ ích liên quan đến tệp robots txt và những ứng dụng tuyệt vời của nó.
Trên đây chính là 3 biện pháp phổ biến, nhanh gọn, hiệu quả, đáng được đề xuất nhiều nhất cho những ai đang tập tành tìm hiểu cách tạo dựng website và quản lý nó.
Chúc bạn sẽ sớm ngày thành công với wordpress của mình!