Chương trình theo wikipedia2xml.sf.net
-
wikipedia2XML Miễn phí
Một tập hợp các kịch bản python để tạo và xử lý một corpus XML (một bộ sưu tập lớn các văn bản cho mục đích ngôn ngữ) từ một bãi chứa sao lưu cơ sở dữ liệu Wikipedia gốc. Nó bao gồm một phân tích cú pháp dựa trên biểu thức ch