Vietspider Web Data Extractor 3.19

Giấy phép: Miễn phí ‎Kích cỡ tệp: 59.00 MB
‎Xếp hạng người dùng: 4.5/5 - ‎6 ‎Phiếu

Trình thu thập dữ liệu web là một chương trình tự động đi qua web bằng cách tải xuống các trang và theo các liên kết từ trang này sang trang khác. Mục đích chung của trình thu thập dữ liệu web là tải xuống bất kỳ trang web nào có thể được truy cập thông qua các liên kết. Quá trình này được gọi là thu thập dữ liệu web hoặc nhện. Nhiều trang web, đặc biệt là công cụ tìm kiếm, sử dụng nhện như một phương tiện cung cấp dữ liệu cập nhật. Trình thu thập dữ liệu web chủ yếu được sử dụng để tạo bản sao của tất cả các trang đã truy cập để xử lý sau này bởi một công cụ tìm kiếm sẽ lập chỉ mục các trang đã tải xuống để cung cấp tìm kiếm nhanh. Trình thu thập dữ liệu cũng có thể được sử dụng để tự động hóa các tác vụ bảo trì trên trang web, chẳng hạn như kiểm tra liên kết hoặc xác thực mã HTML. Ngoài ra, trình thu thập thông tin có thể được sử dụng để thu thập các loại thông tin cụ thể từ các trang Web, chẳng hạn như thu hoạch địa chỉ e-mail (thường là cho thư rác). Trình thu thập dữ liệu web là một loại bot hoặc tác nhân phần mềm. Nói chung, nó bắt đầu với một danh sách các URL để truy cập, được gọi là hạt giống. Khi trình thu thập dữ liệu truy cập các URL này, trình thu thập dữ liệu sẽ xác định tất cả các siêu liên kết trong trang và thêm chúng vào danh sách URL cần truy cập, được gọi là biên giới thu thập dữ liệu. URL từ biên giới được truy cập đệ quy theo một tập hợp các chính sách.

lịch sử phiên bản

  • Phiên bản 3.19 đăng trên 2012-01-15
    bản phát hành công khai đầu tiên

Chi tiết chương trình