Wie kann ich aus einer Datei mehrere Zählungen generieren, ohne sie mehrmals neu zu lesen?

Joe Fruchey

Ich habe große Dateien mit HTTP-Zugriffsprotokollen und versuche, Stundenzählungen für eine bestimmte Abfragezeichenfolge zu generieren. Natürlich ist die richtige Lösung, alles in Splunk oder Graylog oder so etwas zu werfen, aber ich kann das alles im Moment nicht für diesen einmaligen Deal einrichten.

Das schnelle und schmutzige ist:

for hour in 0{0..9} {10..23}
do
  grep $QUERY $FILE | egrep -c "^\S* $hour:"
  # or, alternately
  # egrep -c "^\S* $hour:.*$QUERY" $FILE
  # not sure which one's better
done

Aber diese Dateien haben durchschnittlich 15 bis 20 Millionen Zeilen, und ich möchte wirklich nicht jede Datei 24 Mal analysieren. Es wäre weitaus effizienter, die Datei zu analysieren und jede Instanz $hourauf einmal zu zählen. Gibt es eine Möglichkeit, dies zu erreichen?

joanis

Sie können grep bitten, den passenden Teil jeder Zeile mit auszugeben -ound dann uniq -cdie Ergebnisse zu zählen:

grep "$QUERY" "$FILE" | grep -o "^\S* [0-2][0-9]:" | sed 's/^\S* //' | uniq -c

Der sedBefehl dient dazu, nur die zweistellige Stunde und den Doppelpunkt beizubehalten, die Sie bei Bedarf auch mit einem anderen sed-Ausdruck entfernen können.

Vorsichtsmaßnahmen: Diese Lösung funktioniert mit GNU grep und GNU sed und erzeugt stundenlang keine Ausgabe anstelle von "0" ohne Protokolleinträge. Ein großes Lob an @EdMorton für den Hinweis auf diese Probleme in den Kommentaren und andere Probleme, die in der obigen Antwort behoben wurden.

Dieser Artikel stammt aus dem Internet. Bitte geben Sie beim Nachdruck die Quelle an.

Bei Verstößen wenden Sie sich bitte [email protected] Löschen.

bearbeiten am2021-01-15

Lass mich ein paar Worte sagen

0Kommentare

LoginNach der Teilnahme an der Überprüfung

Vorheriger Beitrag:Vim "No Swap File"

Wie kann ich eine Datei öffnen, lesen, schließen, aktualisieren, erneut öffnen und lesen, ohne sie in PHP zu aktualisieren?

Wie kann ich Bytes aus einer sehr schweren Datei lesen? Speichern Sie sie dann in einem String, z. B. .pdf .zip .xlsx-Dateien

TOP Liste

Artikel

Wie kann ich aus einer Datei mehrere Zählungen generieren, ohne sie mehrmals neu zu lesen?

Wie kann ich aus einer Datei mehrere Zählungen generieren, ohne sie mehrmals neu zu lesen?

So legen Sie mit dem Interface Builder unterschiedliche führende Speicherplätze für unterschiedliche Geräte fest

Wie konvertiere ich einen Vektor von Bytes (u8) in eine Zeichenfolge?

Wie kann ich in SCSS mehrere Klassen zu einer einzigen kombinieren?

Eclipse Oxygen - Projekte verschwinden

Wie konvertiert man einen Datenrahmen im langen Format in eine Liste mit einem geeigneten Format?

Wie kann ich den Kaskadenmodus global einstellen?

Wie erstelle ich einen neuen übergeordneten Knoten außerhalb der .ref (/ path) in der Firebase-Echtzeitdatenbank mithilfe von Cloud-Funktionen (Typescript)?

So erhalten Sie eine gleichmäßige Höhe für alle Eingabefelder

Python: Spalten mit demselben Namen zusammenführen, wobei der Mindestwert beibehalten wird

Speichern Sie ein MPAndroidChart-Diagramm in einem Bild, ohne es in einer Aktivität anzuzeigen

Gruppieren Sie Datenrahmenspalten nach ihrem Datum (die Spaltentitel enthalten) und fassen Sie die Instanzen von Einsen und Nullen in R . zusammen

ElasticSearch BulkShardRequest ist aufgrund von org.elasticsearch.common.util.concurrent.EsThreadPoolExecutor fehlgeschlagen

Tic Tac Toe-Spiel im React-Reset-Button funktioniert nicht

Tomcat - Leiten Sie den alten Kontextstamm zum neuen Kontextstamm um

Wie wählt man Unterschiede mit drei Tabellen aus?

Ärgerliches Problem mit yaml, das ich nicht lösen kann

Wie kann ich meine Tabelle abfragen, um sie in mySQL nach 2 Feldern zu gruppieren?

So berechnen Sie die Verfügbarkeit von Anwendungen (SLA)

Fügen Sie eine weitere Schaltfläche zu gwt Suggest Box hinzu

Modbus Python Schneider PM5300

Wie kann eine gleichmäßige Lastverteilung in ElasticSearch mit Indizes mit unterschiedlicher Anzahl von Shards erreicht werden?