Tìm hiểu về Plugin Content Crawler

Plugin Content Crawler có hơn 200 cài đặt để cho phép bạn không chỉ truy xuất nội dung mà còn truy xuất chúng theo cách bạn muốn. Ví dụ: bạn có thể thay đổi HTML của các phần tử hiện có trong mã nguồn, xóa phần tử, thay đổi thuộc tính của phần tử, trao đổi giá trị của hai thuộc tính của một phần tử, tìm và thay thế bất kỳ thứ gì trong mã nguồn, gán các phần tử nhất định cho một mã ngắn và sử dụng chúng trong các mẫu, và nhiều hơn nữa. Chính vì vấn đề đó mình quyết định viết bài này để hướng dẫn các bạn cài đặt và cấu hình Plugin Content Crawler.

Plugin Content Crawler là gì?

Plugin Content Crawler là một plugin WordPress có thể thu thập thông tin (quét, lấy, truy xuất) nội dung từ hầu hết mọi trang web hiện có trên Internet. Nó sử dụng các bộ chọn CSS để định vị và truy xuất nội dung trong mã nguồn của trang web đích. Các bộ chọn CSS rất dễ học và rất hữu ích để định vị thông tin trong trang web đích. Plugin cũng đi kèm với Trình kiểm tra trực quan mà bạn có thể sử dụng để nhấp vào một phần tử để tìm bộ chọn CSS của nó. Công cụ này cũng có khả năng tìm một bộ chọn CSS để tìm các mục tương tự như mục bạn nhấp vào. Tính năng này khá hữu ích nếu bạn muốn truy xuất, ví dụ, tất cả các URL trong một trang danh mục.

Plugin Content Crawler hoạt động như thế nào?

Plugin Content Crawler hoạt động bằng cách sử dụng WP-Cron. Tính năng này của WordPress cho phép các plugin và chủ đề xác định các công việc nhất định sẽ được kích hoạt vào những thời điểm nhất định. Các công việc này được chạy ở chế độ nền. Plugin xác định các công việc để tự động thu thập thông tin, thu thập lại thông tin (cập nhật) và xóa bài đăng. Bằng cách này, plugin có thể chạy ở chế độ nền và tự động thực hiện tất cả các công việc của nó. Do đó, một WP-Cron hoạt động là một yêu cầu của plugin.

Plugin Content Crawler là gì?
Plugin Content Crawler là gì?

Những tiện ích của Plugin Content Crawler

Plugin Content Crawler sẽ phù hợp với các blog, các website bán hàng, các website review… Ứng dụng để xây dựng một trang web – website tin tức, website bán hàng – sản phẩm để lấy bài viết, sản phẩm về website của mình mà không mất nhiều thời gian để đăng từng bài/ sản phẩm.

Trình thu thập thông tin nội dung plugin
Trình thu thập thông tin nội dung plugin

Với khoảng trên 2000 lượt mua (tính đến tháng 6/2021) thì bạn cũng biết đây là 1 plugin hữu ích, tuyệt vời. Bạn muốn mua có thể mua trực tiếp tại Trang Chủ này nhé. Trong bài viết này anhlinhmkt xin chỉ ra những ưu điểm, cũng như những hạn chế khi sử dụng Plugin Content Crawler lấy dữ liệu tự động này.

Plugin Content Crawler trên evato
Plugin Content Crawler trên evato

Những đặc điểm chính Plugin Content Crawler

Lưu mọi chi tiết bài đăng bằng Plugin Content Crawler

Tiêu đề, đoạn trích, nội dung, thẻ, danh mục, slug, ngày tháng, meta tùy chỉnh, phân loại, từ khóa meta, mô tả meta, hình ảnh nổi bật, hình ảnh bài đăng, trạng thái… Tất cả mọi thứ.

Thu thập thông tin (quét, lấy, lưu) bài đăng

Sau khi cài đặt được định cấu hình, plugin sẽ tìm URL của các bài đăng và tự động thu thập dữ liệu chúng trong nền.

Xóa bài viết

Bạn muốn xóa các bài đăng cũ đã được thu thập thông tin? Plugin Content Crawler có thể xóa chúng tự động.

Lưu danh mục

Danh mục mục tiêu không tồn tại trong trang web của bạn? Không vấn đề gì. Plugin Content Crawler có thể tạo các danh mục mục tiêu cho bạn. Chỉ cần xác định các bộ chọn CSS để tìm tên danh mục. Chúng thậm chí có thể được tạo dưới dạng danh mục con.

Lưu các đơn vị phân loại

Lưu các giá trị phân loại bằng cách truy xuất chúng từ trang web đích hoặc nhập thủ công. Lưu chi tiết của các loại bài đăng tùy chỉnh dễ dàng hơn bao giờ hết.

Meta bài đăng tùy chỉnh

Lưu bất cứ thứ gì dưới dạng meta bài đăng tùy chỉnh. Bạn có thể sử dụng bộ chọn CSS hoặc chỉ nhập giá trị.

Bộ chọn thay thế

Bạn có thể viết các bộ chọn thay thế để lấy dữ liệu ngay cả khi trang web đích có các trang đăng được thiết kế khác nhau.

Các bài đăng được phân trang

Mục tiêu bài viết có nhiều hơn một trang? Đừng lo lắng. Bạn cũng có thể lưu các bài đăng được phân trang.

Loại bỏ các yếu tố không cần thiết

Đôi khi bạn cần phải loại bỏ một số yếu tố, chẳng hạn như quảng cáo, bình luận, bạn đặt tên cho nó. Chỉ cần viết bộ chọn CSS của nó và nó sẽ bị xóa.

Các loại bài đăng

Nó có thể là một bài đăng, một trang, một sản phẩm hoặc bất kỳ loại bài đăng nào khác có sẵn trong cài đặt WordPress của bạn.

Mật khẩu bảo vệ

Bạn có thể đặt mật khẩu cho các bài đăng để chỉ hiển thị chúng cho những người dùng có mật khẩu.

Kiểm tra mọi thứ một cách nhanh chóng

Kiểm tra thu thập thông tin bài đăng, thu thập URL, bộ chọn CSS, biểu thức chính quy, tìm và thay thế các tùy chọn và proxy một cách nhanh chóng. Bạn cũng có thể kích hoạt bộ nhớ đệm để thực hiện các bài kiểm tra nhanh hơn nhiều và giảm các yêu cầu được gửi đến trang web mục tiêu.

Công cụ

Bằng cách sử dụng các công cụ, bạn có thể lưu các bài đăng theo cách thủ công với URL của chúng, thu thập lại thông tin các bài đăng bằng ID của chúng hoặc xóa các URL đã được lưu.

Trạng thái bài đăng

Bạn có thể trực tiếp xuất bản các bài đăng đã lưu hoặc giữ chúng dưới dạng bản nháp để kiểm tra chúng trước khi xuất bản.

Lưu hình ảnh dưới dạng thư viện

Bạn có thể lưu hình ảnh trong trang đích dưới dạng thư viện và cung cấp mẫu cho mỗi hình ảnh để làm cho hình ảnh phù hợp với thư viện thư viện mà bạn sử dụng trên giao diện người dùng. Bạn cũng có thể lưu hình ảnh dưới dạng thư viện WooCommerce chỉ bằng cách chọn một hộp kiểm.

Ủy quyền

Sử dụng proxy hoặc các proxy để lấy nội dung từ các trang web mà IP của bạn không có quyền truy cập.

Thu thập thông tin bao nhiêu bài đăng bạn muốn

Bạn có thể đặt số lần các sự kiện CRON thu thập dữ liệu bài đăng hoặc thu thập URL sẽ chạy. Bằng cách này, bạn có thể lưu 100 bài viết mỗi phút. Chỉ cần cẩn thận và xem xét công suất máy chủ của bạn.

Nhận dữ liệu từ JSON

Khi bạn bật phân tích cú pháp JSON cho bộ chọn CSS, bạn có thể lấy các giá trị từ JSON một cách dễ dàng.

Bản dịch tự động

Sử dụng trí thông minh nhân tạo của Google Cloud Translate API, Microsoft Translator Text API, Yandex Translate API hoặc Amazon Translate API để tự động dịch các bài đăng. Lưu ý rằng đây là các dịch vụ trả phí, ngoại trừ Yandex Translate API. Những người trả phí cũng cung cấp dịch vụ miễn phí trong một khoảng thời gian giới hạn. Bạn có thể xem các trang định giá của họ để tìm hiểu thêm.

Kéo lại tự động

Sử dụng tính năng quay để tự động viết lại nội dung của các bài đăng được thu thập thông tin nhằm cải thiện việc tối ưu hóa công cụ tìm kiếm. Plugin Content Crawler hiện đang triển khai API Spin Rewriter và Türkçe Spin API, là các dịch vụ trả phí. Bạn có thể truy cập trang web của họ để tìm hiểu chi tiết về giá cả.

Kiểm tra bài trùng lặp

Plugin Content Crawler kiểm tra các bài đăng trùng lặp theo URL, tiêu đề bài đăng hoặc nội dung bài đăng. Nếu bạn đang sử dụng WooCommerce, các sản phẩm có SKU đã tồn tại được coi là trùng lặp và chúng sẽ không được thêm vào trang web của bạn.

Lưu các sản phẩm WooCommerce

Tiết kiệm giá, khoảng không quảng cáo, giao hàng, thuộc tính và các tùy chọn nâng cao. Bạn có thể lưu sản phẩm dưới dạng đơn giản hoặc sản phẩm bên ngoài. Bạn cũng có thể đặt các tùy chọn tệp có thể tải xuống và xác định sản phẩm là ảo. Các tùy chọn có sẵn cho các phiên bản WooCommerce lớn hơn hoặc bằng 3.3.

Xử lý các tập tin như một người chuyên nghiệp

Đổi tên, sao chép và di chuyển các tệp đã lưu một cách dễ dàng. Bạn cũng có thể xác định tiêu đề, mô tả, chú thích và văn bản thay thế cho các tệp phương tiện đã lưu bằng cách sử dụng các mẫu mà bạn có thể sử dụng bất kỳ mã ngắn nào. Cũng có thể đặt tên ngẫu nhiên cho các tệp đã lưu.

Lưu nhanh

Với nút lưu nhanh, bạn có thể lưu cài đặt nhanh hơn nhiều. Không cần đợi trang tải lại.

Lưu thuộc tính “srcset”

Khi các kích thước thay thế của hình ảnh đã lưu có sẵn, plugin sẽ gán chúng vào thuộc tính srcset của phần tử img để các trang của bạn sẽ tải nhanh hơn ở các kích thước màn hình khác nhau.

Cảnh báo

Tìm hiểu khi có vấn đề. Plugin Content Crawler sẽ hiển thị cho bạn thông tin chi tiết về lỗi để bạn có thể khắc phục ngay lập tức.

Điều hướng giữa các cài đặt dễ dàng

Sửa điều hướng lên đầu! Plugin Content Crawler lưu trữ vị trí của bạn trước khi chuyển sang tab mới và khôi phục vị trí trước đó của bạn khi bạn kích hoạt lại tab đó. Không còn bị lạc giữa các cài đặt.

Thêm URL vào cơ sở dữ liệu

Plugin Content Crawler thu thập URL tự động. Tuy nhiên, nếu bạn muốn nó chỉ thu thập thông tin các URL nhất định, bạn có thể thêm chúng vào cơ sở dữ liệu theo cách thủ công bằng cách sử dụng công cụ thu thập thông tin thủ công. Bằng cách này, các URL được chỉ định sẽ được tự động thu thập thông tin bằng cách sử dụng các tùy chọn lập lịch của bạn.

Nhập khẩu xuất khẩu

Bạn có thể nhập và xuất các cài đặt trang web một cách dễ dàng. Chỉ cần sao chép và dán mã được tạo bởi Plugin Content Crawler.

Bảng điều khiển chi tiết của Plugin Content Crawler

Xem những gì đang xảy ra trong nền. Các trang web đang hoạt động, số lượng bài đăng được thu thập thông tin, số lượng bài đăng được cập nhật, bài đăng được thu thập thông tin cuối cùng và cập nhật, URL được thêm lần cuối, sự kiện CRON lần cuối và tiếp theo, bài đăng và URL hiện đang được lưu…

Trên dây là bài viết cùng tìm hiểu về Plugin Content Crawler. Bạn muốn tìm hiểu về cách cài đặt và cấu hình Plugin Content Crawler thì xem bài viết Phía dưới của mình nhé. Chúc các bạn thành công.

Hướng dẫn cài đặt và cấu hình Plugin Content Crawler

Có bất kỳ câu hỏi nào các bạn cử để lại cho mình. Mình sẽ trả lời các bạn ngay nhé.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Gọi cho Lĩnh
Gọi cho anhlinhmkt

Nhắn Messenger
Nhắn tin Messenger

Chat Zalo
Chat Zalo

Gửi Mail
Gửi Mail