Arbeiten mit GAWK-Skripten
AWK ist eine in Bezug auf
Zeichenkettenmanipulation extrem mächtige und effiziente Skriptsprache. Das mit
dem Plugin mitinstallierte GAWK.exe ist die GNU-Implementierung der
Programmiersprache AWK und wird von der Free Software Foundation gepflegt.
Wozu benötigt man Skripte?
lang=DE> Selten kommen die CSV-Daten in einer Form vor, die EC&T ohne
weitere Ergänzung 1:1 verarbeiten kann. Das ist nur der Fall, wenn man einen
EC&T-Export (siehe Datei-Menü) re-importiert. Z.B. wenn man eine CSV-Datei
von seinem Bankkonto hat, fehlt dort natürlich der MWSt.-Satz. GAWK erlaubt es
Regeln zu formulieren, mit denen man diese Information ergänzen kann und
minimiert den Aufwand für die manuelle Bearbeitung erheblich. GAWK kann also
Felder (bzw. Spalten) in die CSV-Datei einfügen, z.B. Belegnummer, die vorher,
um bei dem Beispiel Bankkonto zu bleiben, aus einem Verwendungszweck-Feld
herausextrahiert wurde – oder aber Felder zusammenfassen, z.B. wenn mehrere
Verwendungszweck-Felder vorhanden sind oder man den Kontoinhaber des
Gegenkontos und das Verwendungszweckfeld verschmelzen möchte.
Wie arbeitet GAWK?
lang=DE>GAWK verarbeitet die Eingabedatei (die CSV-Datei) zeilenweise und
zerlegt dabei die Felder entsprechend dem eingestellten Trennzeichen. Diese
Felder kann man im Skript mit $1, $2, $3 usw. ansprechen. $0 repräsentiert die
gesamte Eingabezeile. Das einfachste GAWK-Skript sieht so aus und macht nichts
anderes als die ursprüngliche Datei zu kopieren:
{ print $0 }
Möchte man nur die 3. und 4. Spalte aus einer
Datei extrahieren geht das folgendermaßen (Semikolon als Trennzeichen):
               { print $3 ";" $4
}
Korrekter wäre es hier, statt des ";"
ein FS einzufügen. Das steht für Feld-Separator. FS wird vom
Import-Plugin automatisch gesetzt und entspricht immer dem im Import-Dialog
angegebenen Trennzeichen. Es gibt noch andere voreingestellte Platzhalter, etwa
NF (number of fields) der der Anzahl der Felder der Zeile entspricht. $NF
würde also das letzte Feld der Zeile bezeichnen.
Die geschweiften Klammern { } bedeuten
das hier ein oder mehrere Befehle enthalten sind, die unbedingt auf jede Zeile
anzuwenden sind. Stände vor dem { eine Bedingung, etwa NF >= 4,
würden die in den Klammern befindlichen Befehle nur ausgeführt, wenn die
Bedingung erfüllt ist (in diesem Fall, wenn die Anzahl der Felder größer oder
gleich 4 ist).
Für Operationen, die nur am Anfang oder Ende
der Verarbeitung ausgeführt werden sollen, gibt es die Schlüsselwörter BEGIN
und END. Z.B. Kann man mit BEGIN vor der Verarbeitung der
Eingabedatei eine Kopfzeile ausgeben.
Einen Schönheitsfehler hat GAWK für deutsche
und österreichische Benutzer: Die interne Fließkommafunktion arbeitet mit dem
Dezimalpunkt. Möchte man also Berechnungen anstellen, muss das Komma immer
erstmal konvertiert werden, z.B.:
{
               netto
= $7;Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â # Netto-Betrag steht im 7.
Feld
               sub(/,/,
".", netto); Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â # Komma
durch Punkt ersetzen
               brutto
= netto * 1.19;Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â # Brutto-Betrag errechnen
               brutto
= sprintf("%.2f", brutto + 0.005);Â Â Â Â Â Â Â Â Â # auf 2 Stellen nach dem
Komma kürzen, dabei
lang=DE># kaufmännisch runden
               sub(/\./,
",", brutto);Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â # jetzt den Dezimalpunkt
wieder durchs Komma ersetzen
               print
netto ";" brutto                        # Ausgabe des Ergebnisses
}
In den sub Funktionen (steht für
Substitution, Ersetzen) ist der erste Parameter ein sogenannter regulärer
Ausdruck (auf englisch: regular expression). Damit können komplexe Suchmuster
angegeben werden. Suchte ich also eine 5-stellige Rechnungsnummer in einem
Verwendungszweck-Feld, würde das so aussehen:
BEGIN { print
"Verwendungszweck;Belegnummer" ; anzahl = 0 }
{
               position =
match($10, /R[0-9][0-9][0-9][0-9][0-9][^0-9]/)
               if (position
> 0)
lang=DE>{
                              belegnummer
= substr($10, position, 6);
lang=DE>anzahl = anzahl + 1;
lang=DE>}
               else
                              belegnummer
= "keine gefunden";
               print
$10 ";" belegnummer
}
END { print
";----------------------------------\nAnzahl gefundener
Rechnungsnummern;" anzahl }
match()
style='font-size:8.0pt;font-weight:normal'> gibt die Position der dem Muster
lang=DE style='font-size:8.0pt'>/R[0-9][0-9][0-9][0-9][0-9][^0-9]/
lang=DE style='font-size:8.0pt;font-weight:normal'> entspechen Zeichenkette
wieder (ein R mit 5 Ziffern, gefolgt von einem Zeichen, das keine Ziffer ist);
wenn diese nicht gefunden wurde ist position
lang=DE style='font-size:8.0pt;font-weight:normal'> gleich 0 und es wird
"keine gefunden" in die Belegnummernspalte eingetragen, ansonsten
wird die 6-stellige Zeichenkette an der gefundenen position extrahiert und
ausgegeben. Der Code veranschaulicht außerdem die Nutzung von
lang=DE style='font-size:8.0pt'>BEGIN und END
lang=DE style='font-size:8.0pt;font-weight:normal'>.
Fazit
Es erfordert ein wenig Einarbeitung in die
Sprache und insbesondere die regulären Ausdrücke mögen etwas abstrakt
erscheinen. Aber es wird jetzt wohl deutlich geworden sein wie viel
Zeiteinsparungspotenzial insbesondere bei einer großen Menge importierter Buchungsvorfälle
durch das Skripting möglich ist. Für eine umfassendere Darstellung der Sprache
(G)AWK sei auf folgende Links verwiesen:
http://www.ostc.de/awk.pdf
href="http://www-user.tu-chemnitz.de/~hot/unix_linux_werkzeugkasten/awk.html">http://www-user.tu-chemnitz.de/~hot/unix_linux_werkzeugkasten/awk.html
href="http://www.gnu.org/software/gawk/manual/gawk.html">http://www.gnu.org/software/gawk/manual/gawk.html
href="http://de.wikipedia.org/wiki/Awk">http://de.wikipedia.org/wiki/Awk
und vor allem:
href="http://www.easyct.de/fusion_forum/viewthread.php?forum_id=10&thread_id=1906">http://www.easyct.de/fusion_forum/viewthread.php?forum_id=10&thread_id=1906
|