Wenn Sie Befehlszeilentools benötigen, die den Text aus Word-Dateien extrahieren, stehen Ihnen Antiword (.doc-Dateien) und docx2txt (.docx) nützliche Programme zur Verfügung.
In diesem Lernprogramm werden diese vier Anwendungen und deren Verwendung beschrieben. Wir werden die Installation auf mehreren der beliebtesten Linux-Distributionen durchführen, darunter Debian, Ubuntu, Fedora, OpenSUSE, CentOS und Arch Linux. Wir helfen auch bei der Installation der wichtigsten Microsoft TrueType-Schriftarten auf Ihrem Linux-System.
LibreOffice ist eine kostenlose Open Source-Produktivitätssuite, die regelmäßig gepflegt wird und regelmäßig aktualisiert wird. Sie ist kompatibel mit Microsoft Office-Anwendungen, einschließlich Microsoft Word. Sie können Ihre LibreOffice Writer-Dokumente im Format .doc oder .docx speichern und werden dann in Microsoft Word ordnungsgemäß geöffnet.
LibreOffice installieren
LibreOffice kann mit Ihrem Paketmanager installiert werden. Öffnen Sie zur Installation ein Terminal und verwenden Sie den folgenden für Ihr Betriebssystem geeigneten Befehl:
Debian 8, Ubuntu 15
sudo apt-get update & & sudo apt-get installieren libreoffice
Fedora 23
sudo dnf update && sudo dnf installiert libreoffice
OpenSUSE 10
sudo zypper refresh & & sudo zypper installieren libreoffice
CentOS 7
sudo yum update & & sudo yum installieren libreoffice
Arch Linux 2016
Sudo Pacman -Sy Libreoffice-frisch
Sobald LibreOffice installiert ist, sollte es im Anwendungsmenü Ihrer GUI angezeigt werden. Sie können es auch von einem Terminal aus mit dem Befehl ausführen:
libreoffice
AbiWord
AbiWord ist eine weitere kostenlose und Open-Source-Textverarbeitung. Es hat eine saubere, einfache Schnittstelle und wurde seit fast zwanzig Jahren entwickelt. Wie LibreOffice können Microsoft Word-DOC- und DOCX-Dateien geöffnet, bearbeitet und gespeichert werden. Im Gegensatz zu LibreOffice ist Abiword keine vollständige Office-Suite. Daher hat es einen geringeren Platzbedarf und verbraucht weniger Systemressourcen.
AbiWord installieren
Debian 8, Ubuntu 15
sudo apt-get upgrade & & sudo apt-get install abiword
Fedora 23
sudo dnf update && sudo dnf install abiword
OpenSUSE 10
sudo zypper refresh & & sudo zypper install abiword
CentOS 7
sudo yum update & & sudo yum install abiword
Arch Linux 2016
Pacman -Sy abiword
Antiword
Antiword ist ein Befehlszeilentool, das den Inhalt einer DOC-Datei in einfachen Text konvertieren kann.
Hinweis: Antiword konvertiert nur DOC-Dateien. Wenn Sie eine DOCX-Datei konvertieren müssen, finden Sie weitere Informationen unter docx2txt im nächsten Abschnitt.
Verwenden Sie Antiword
Wenn Sie antiword mit dem Namen einer Word-DOC-Datei ausführen, wird der Klartext der Datei in die Standardausgabe ausgegeben.
Antiword kann Tabellen sehr gut formatieren. Es hat auch Optionen, Bilder als PostScript-Objekte aufzunehmen und in PDF auszugeben.
Sie können die Ausgabe in eine Textdatei umleiten:
antiword file.doc> datei.txt
Wenn Sie es direkt in einem Texteditor öffnen möchten, können Sie den Text an vim weiterleiten:
antiword file.doc | vim -
oder pico:
antiword file.doc | Pico -
Antiword installieren
Debian 8, Ubuntu 15
sudo apt-get update & & sudo apt-get installieren antiword
Fedora 23
sudo dnf update && sudo dnf installiere antiword
OpenSUSE 10
sudo zypper refresh & & sudo zypper installieren antiword
CentOS 7
sudo yum update & & sudo yum installiere antiword
Docx2txt
Sudo Pacman -Sy Antiword
Docx2txt ist ein Befehlszeilentool, das DOCX-Dateien in einfachen Text konvertiert. (DOC-Dateien werden nicht konvertiert.)
Um den Inhalt einer DOCX-Datei auf dem Bildschirm des Terminals auszudrucken oder die Ausgabe in eine Datei umzuleiten, rufen Sie docx2txt auf und geben Sie einen Bindestrich als Namen der Ausgabedatei an. Beachten Sie in diesem Beispiel den Gedankenstrich am Ende des Befehls:
Verwenden Sie das Befehlsformular, um eine DOCX-Datei zu konvertieren und in eine Textdatei auszugeben:
docx2txt file.docx file.txt
oder:
docx2txt file.docx -> file.txt
Verwenden Sie das Befehlsformular, um den .docx-Text in vim zu öffnen:
docx2txt file.docx - | vim -
Um es in Nano zu öffnen:
docx2txt file.docx - | nano -
Um doc2txt zu installieren, befolgen Sie die Anweisungen für Ihre Linux-Version unten:
Debian 8
sudo apt-get update & & sudo apt-get install docx2txt
Ubuntu 15
sudo apt-get update & & sudo apt-get install docx2txt
Fedora 23
Fedoras Repositories bieten kein Paket für docx2txt an, aber Sie können es manuell installieren:
Laden Sie die Quelle von SourceForge unter //sourceforge.net/projects/docx2txt/ herunter. Extrahieren Sie das Archiv:
tar xzvf docx2txt-1.4.tgz
Sie müssen sicherstellen, dass Perl, Unzip und Make auf Ihrem System installiert sind. Installieren oder aktualisieren Sie diese Pakete jetzt:
sudo dnf update && sudo dnf install perl unzip make
Führen Sie dann als root-Benutzer make aus, um Folgendes zu installieren:
Sudo machen
Docx2txt wird jetzt als docx2txt.sh installiert. Um beispielsweise die Datei word-document.docx in eine Textdatei zu konvertieren, können Sie Folgendes ausführen:
docx2txt.sh word-document.docx
Die konvertierte Textdatei wird automatisch als word-document.txt gespeichert.
OpenSUSE 10
SUSE-Repositorys bieten kein Paket für docx2txt an. Sie können es jedoch von SourceForge unter //sourceforge.net/projects/docx2txt/ herunterladen. Extrahieren Sie das Archiv:
tar xzvf docx2txt-1.4.tgz
Sie müssen sicherstellen, dass Perl, Unzip und Make auf Ihrem System installiert sind. Installieren oder aktualisieren Sie diese Pakete jetzt:
sudo zypper update && sudo zypper installieren perl unzip make
Führen Sie dann make als root aus, um Folgendes zu installieren:
Sudo machen
Docx2txt wird jetzt als docx2txt.sh installiert. Um beispielsweise die Datei word-document.docx in eine Textdatei zu konvertieren, können Sie Folgendes ausführen:
docx2txt.sh word-document.docx
Die konvertierte Textdatei wird automatisch als word-document.txt gespeichert.
CentOS 7
CentOS-Repositorys bieten kein Paket für docx2txt an. Sie können es jedoch von SourceForge unter //sourceforge.net/projects/docx2txt/ herunterladen. Extrahieren Sie das Archiv:
tar xzvf docx2txt-1.4.tgz
Sie müssen sicherstellen, dass Perl, Unzip und Make auf Ihrem System installiert sind. Installieren oder aktualisieren Sie diese Pakete jetzt:
sudo yum update & & sudo yum install perl entpacken machen
Führen Sie dann make als root aus, um Folgendes zu installieren:
Sudo machen
Docx2txt wird jetzt als docx2txt.sh installiert. Um beispielsweise die Datei word-document.docx in eine Textdatei zu konvertieren, können Sie Folgendes ausführen:
docx2txt.sh word-document.docx
Die konvertierte Textdatei wird automatisch als word-document.txt gespeichert.
Arch Linux 2016
Sudo Pacman -Sy Docx2txt
Installieren von Microsoft-kompatiblen Schriftarten
Die wichtigsten Microsoft-Schriftarten sind unter Linux verfügbar. Sie sollten sie installieren, wenn Sie mit Microsoft Word-Dateien arbeiten möchten, insbesondere wenn sie auf einem Windows-System erstellt wurden. Die Kernschriften sind:
- Andale Mono
- Arial
- Arial schwarz
- Calabri
- Cambria
- Comic
- Kurier
- Auswirkung
- Mal
- Trebuchet
- Verdana
- Webdings
Gehen Sie folgendermaßen vor, um sie zu installieren:
Debian 8, Ubuntu 15
sudo apt-get update & & sudo apt-get installieren ttf-mscorefonts-installer
Fedora 23
Laden Sie das RPM-Paket des msttcore-Installationsprogramms von SourceForge herunter.
Installieren Sie die für die Installation erforderlichen Pakete:
sudo dnf update && sudo dnf installieren curl cabextract xorg-x11-font-utils fontconfig
Dann installieren Sie das lokale RPM-Paket:
sudo dnf install msttcore-fonts-installer-2.6-1.noarch.rpm
OpenSUSE 10
Laden Sie das RPM-Paket des msttcore-Installationsprogramms von SourceForge herunter.
Installieren Sie die für die Installation erforderlichen Pakete:
sudo zypper update & & sudo zypper install curl cabextract xorg-x11-font-utils fontconfig
Dann installieren Sie das lokale RPM-Paket:
sudo zypper install msttcore-fonts-installer-2.6-1.noarch.rpm
CentOS 7
Laden Sie das RPM-Paket des msttcore-Installationsprogramms von SourceForge herunter.
Installieren Sie die für die Installation erforderlichen Pakete:
sudo yum update && sudo yum install curl cabextract xorg-x11-font-utils fontconfig
Dann installieren Sie das lokale RPM-Paket:
sudo yum install msttcore-fonts-installer-2.6-1.noarch.rpm
Arch Linux 2016
Laden Sie das RPM-Paket des msttcore-Installationsprogramms von SourceForge herunter.
Installieren Sie die für die Installation erforderlichen Pakete:
pacman -Sy rpmextract x11-font-utils fontconfig
Extrahieren Sie den Inhalt des lokalen RPM-Pakets:
rpmextract.sh msttcore-fonts-installer-2.6-1.noarch.rpm
Dieser Befehl extrahiert den rohen Inhalt der RPM-Datei und erstellt zwei Verzeichnisse usw. und usr, die Ihren Verzeichnissen / etc und / usr entsprechen . Die Font-Dateien selbst befinden sich in usr / share / fonts / msttcore .