Word 文書からテキストの抽出

Office 2007 で標準文書形式として採用されている『Open Office XML』(OOXML) の文書からテキストのみを抽出するには,.docx で保存されたファイルの拡張子を .zip に変換し,word/document.xml に含まれるXML文書をパースすれば良し.

以下,Javaの例題.

.docx 文書から XML の文書(テキスト形式)を返す.
OOXML のパース部は省略.