[gelöst] MS Word Import
Eingetragen von Fekete777 (34)
am 16.08.2011 - 11:10 Uhr in
am 16.08.2011 - 11:10 Uhr in
Hi!
Ich würde gerne wissen, ob es durch irgendwelche Tools bzw. Module möglich ist aus Microsoft Word Dokumenten, Nodes zu erstellen, um nicht auf die Möglichkeit von Copy&Paste zurückgreifen zu müssen, da ich über 2000 Dateien besitze.
Die Word-Dokumente sollen in Beiträge (Artikel) umgewandelt werden, nicht an Beiträge verknüpft werden.
Es wäre auch nicht schlecht, wenn besagtes Tool gleichzeitig auch kategorisieren könnte, ist aber nicht ein muss.
Hoffe auf baldige Antwort :)
MFG
Fekete777
- Anmelden oder Registrieren um Kommentare zu schreiben
hi fekete die idee dazu gabe
am 16.08.2011 - 11:27 Uhr
hi fekete
die idee dazu gabe wohl schonmal
http://drupal.org/node/236461
wurde aber nicht umgesezt
interesant ist vielleicht dieser kommentar dazu:
MS Word html is so ugly that even HTML tidy can't completely do the job, though. You probably need to do some clean up before HTML Tidy will wor
aber als pdf scheint das irgenwie zu gehen
als import in drupal als book
http://mapaspects.org/article/converting-word-doc-and-pdf-drupal-book-we...
gruss
stef
Danke, ich werde mir mal
am 16.08.2011 - 11:40 Uhr
Danke, ich werde mir mal anschauen was es da genau auf sich hat. :)
Noch eine weitere frage zu diesem thema: wo und als was genau (dateityp?) werden nodes für drupal gespeichert, eventuell kann ich ja selbst ein programm schreiben zum automatischen umwandeln und hochladen von nodes..
da hilft dir die drupal api
am 16.08.2011 - 12:22 Uhr
da hilft dir die drupal api weiter
drupal 6
http://api.drupal.org/api/drupal/includes--database.inc/group/database/6
und drupal 7
http://api.drupal.org/api/drupal/includes--database--database.inc/group/...
dort findest du alles was du brauchst
um in die datenbank zu schreiben
viel erfolg
stef
Import-Module
am 17.08.2011 - 11:12 Uhr
Es gibt eine Menge leistungsfähiger Import-Module für Drupal. Vielleicht kannst du deine Word-Dokumente in etwas Textbasiertes umwandeln und dann importieren. Schau mal unter Comparison of Content and User Import and Export Modules.
Gruß
Frank
Bitte Erledigtes im Betreff des ersten Postings als [gelöst] markieren. Danke!
Oke werd ich mir mal
am 17.08.2011 - 10:06 Uhr
Oke werd ich mir mal ansehen...
Meine Aufgabe ist allerdings, eine Möglichkeit zu finden, Beiträge aus dem Intranet in das Drupal CMS zu übertragen. Dies soll möglichst automatisch geschehen, da es ja schon wie gesagt bis zu 2 oder 3000 Beiträge sein können.
Diese Beiträge werden als HTML-Datei und als Word-Dokumente gespeichert und ich hab mir gedacht es wäre sicher einfacher aus einem Word-Dokument auszulesen und einen Node in Drupal einzufügen als eine HTML-Datei durchzugehen.
Bin ich richtig mit der Annahme, dass Beiträge bzw. Artikel in einer Datenbank gespeichert werden, also nicht als xml-File?
Feed API
am 17.08.2011 - 11:10 Uhr
Meine Aufgabe ist allerdings, eine Möglichkeit zu finden, Beiträge aus dem Intranet in das Drupal CMS zu übertragen. Dies soll möglichst automatisch geschehen, da es ja schon wie gesagt bis zu 2 oder 3000 Beiträge sein können.
Diese Beiträge werden als HTML-Datei und als Word-Dokumente gespeichert und ich hab mir gedacht es wäre sicher einfacher aus einem Word-Dokument auszulesen und einen Node in Drupal einzufügen als eine HTML-Datei durchzugehen.
Aha, also laufende Synchronisierung. Warum nicht das Intranet komplett auf Drupal umstellen? Ansonsten hab ich gehört, dass Leute mit der Feed API gute Erfahrungen gemacht haben.
EDIT:
Alt, aber interessant: DocImport API module
Bin ich richtig mit der Annahme, dass Beiträge bzw. Artikel in einer Datenbank gespeichert werden, also nicht als xml-File?
Jo, bei Drupal landet alles in der Datenbank. Vielleicht doch mal das eine oder andere Buch aus der http://www.drupalcenter.de/handbuch/buecherecke lesen ;-)
Gruß
Frank
Bitte Erledigtes im Betreff des ersten Postings als [gelöst] markieren. Danke!
genau die inhalte werden
am 17.08.2011 - 10:37 Uhr
genau
die inhalte werden nicht in einem xml gespeichert
sondern wie in der api ersichtlich in der
(mysql) tabelle 'node'
hier aber nur zb der titel, der (content) type
der inhalt selber wird in tabellen mit einem
'field_data' präfix gespeichert
für den body also 'field_data_body'
gruss
stef
ich werde mal versuchen feeds
am 23.08.2011 - 10:32 Uhr
ich werde mal versuchen feeds in kombination mit xpath parser zu probieren und mal schauen wie es so läuft
mit feeds scheint es zu funktionieren.. ich würde mal sagen gelöst
Lösung bitte skizzieren
am 23.08.2011 - 11:37 Uhr
mit feeds scheint es zu funktionieren.. ich würde mal sagen gelöst
Bitte die Lösung für andere Interessierte mal skizzieren. Vielen Dank!
Gruß
Frank
Bitte Erledigtes im Betreff des ersten Postings als [gelöst] markieren. Danke!
also für mich ist die lösung
am 23.08.2011 - 12:35 Uhr
also für mich ist die lösung folgende:
zuerst wandle ich die word-dokumente in xml-dokumente um mit titel und body, eventuell noch andere tags, wie man es halt braucht
anschließend lade ich auf einen public oder private ordner rauf
die xml-dateien werden dann mithilfe von "Feeds Directory Fetcher" und "Feeds XPath Parser" geholt
probleme hatte ich bis jetzt nur bei der richtigen uri für das verzeichnis
tja das wars auch schon
super sache! +1
am 23.08.2011 - 13:16 Uhr
super sache! +1
Word in XML umwandeln
am 23.08.2011 - 19:06 Uhr
Vielen Dank für die Anleitung!
Eine Frage hätte ich noch:
Machst du die XML-Umwandlung mit Word-Bordmitteln? Oder nutzt du direkt das neue XML-basierte DOCX-Format?
Gruß
Frank
Bitte Erledigtes im Betreff des ersten Postings als [gelöst] markieren. Danke!
Das hab ich noch nicht
am 24.08.2011 - 07:07 Uhr
Das hab ich noch nicht entschieden, aber ich glaube ich werde versuchen, dass ganze automatisiert mit Visual Basic zu machen, da es mit Word basierten Mitteln zu lange dauern würde.
Ich habe aber noch keinen Weg gefunden, wie ich den Body vom XML formatieren soll, da der XML-Parser nicht erkennt, dass innerhalb des -tags HTML-tags, jedenfalls denke ich es mir so, da sobald ein HTML-tag im -tag vorkommt, der Inhalt vom Beitrag einfach leer gelassen wird.
HTML innnerhalb von XML
am 24.08.2011 - 07:25 Uhr
Ich habe aber noch keinen Weg gefunden, wie ich den Body vom XML formatieren soll, da der XML-Parser nicht erkennt, dass innerhalb des -tags HTML-tags, jedenfalls denke ich es mir so, da sobald ein HTML-tag im -tag vorkommt, der Inhalt vom Beitrag einfach leer gelassen wird.
HTML innerhalb von XML ist immer etwas kniffelig. Du könntest den ganzen Inhalt in
<![CDATA[ ... ]]>
-Tags packen.Gruß
Frank
Bitte Erledigtes im Betreff des ersten Postings als [gelöst] markieren. Danke!
Nice, danke. :) Nun werde ich
am 24.08.2011 - 07:36 Uhr
Nice, danke. :)
Nun werde ich mal schauen, wie ich das ganze in VB umsetze :)
XML mit Visual Basic
am 24.08.2011 - 08:08 Uhr
Nur mal auf die Schnelle gegoogelt:
Und hier noch ein Link auf das nie richtig in die Gänge gekommene Word-Import-Modul: Microsoft Word resources, das inzwischen auf http://drupal.org/project/querypath verweist.
Gruß
Frank
Bitte Erledigtes im Betreff des ersten Postings als [gelöst] markieren. Danke!