XML

Word 文書からテキストの抽出

Office 2007 で標準文書形式として採用されている『Open Office XML』(OOXML) の文書からテキストのみを抽出するには,.docx で保存されたファイルの拡張子を .zip に変換し,word/document.xml に含まれるXML文書をパースすれば良し.以下,Javaの例題..do…

(http://a-gamyl.hp.infoseek.co.jp/Clang/cppxml.html) に例題をまとめました。 初心者には難解に感じましたが、DOMでのXMLの扱いはJavaや多言語でのプログラミングと同じような感じでした。 これで、いろいろ試せそうです。

XML,xerces-c の扱い

XML

C言語でXMLを扱うためのクラスorライブラリがないかと探していたのだけれど、なかなか使いやすいものが見つからない。Javaで初めてDOM、SAX等をさわって、結構簡単だな〜と思った印象がすべて吹き飛んだ感じ。MSXMLDownload MSXML 4.0 Service Pack 2 (Micro…