wikipedia2XML 0.1

Giấy phép: Miễn phí ‎Kích cỡ tệp: N/A
‎Xếp hạng người dùng: 3.0/5 - ‎1 ‎Phiếu

Một tập hợp các kịch bản python để tạo và xử lý một corpus XML (một bộ sưu tập lớn các văn bản cho mục đích ngôn ngữ) từ một bãi chứa sao lưu cơ sở dữ liệu Wikipedia gốc. Nó bao gồm một phân tích cú pháp dựa trên biểu thức chính quy cho ngôn ngữ đánh dấu MediaWiki.

lịch sử phiên bản

  • Phiên bản 0.1 đăng trên 2008-04-01
    Một số bản sửa lỗi và cập nhật
  • Phiên bản 0.1 đăng trên 2008-04-01

Chi tiết chương trình