wikipedia2XML 0.1

Giấy phép: Miễn phí ‎Kích cỡ tệp: N/A
‎Xếp hạng người dùng: 3.0/5 - ‎1 ‎Phiếu

Về wikipedia2XML

Một tập hợp các kịch bản python để tạo và xử lý một corpus XML (một bộ sưu tập lớn các văn bản cho mục đích ngôn ngữ) từ một bãi chứa sao lưu cơ sở dữ liệu Wikipedia gốc. Nó bao gồm một phân tích cú pháp dựa trên biểu thức chính quy cho ngôn ngữ đánh dấu MediaWiki.