PDA

Vollständige Version anzeigen : Daten randomisiert löschen


JaneFox
07.07.2015, 10:32
Liebe User,

ich habe eine Frage.

Ausgang:

Ich habe 20.000 Adressdaten. Schön einheitlich untereinander sortiert. Jede Zeile besteht aus: Name, Anschrift, PLZ, Stadt, Kundengruppe (A, B, C, D) Bundesland.

Folgende Aufgabe:

Ich muss randomisiert von jeder Stadt und jeder Kundengruppe (beide Bedingungen müssen also erfüllt sein) Daten löschen. Ich muss zwei Vorgaben beim Löschen machen:

1.) Lösche zwischen 3 - 5% der Adressen, egal welche, sofern du jede (!) Stadt erwischst
2.) Außer: Die Stadt hat nur weniger als 5 Adressen in der Kundengruppe. Dann zieh nur eine Adresse ab.
3.) Oder: Die Stadt hat weniger/gleich zwei Adressen in der Kundengruppe, dann zieh keine Adresse ab.

Wichtig ist also, dass ich es irgendwie hinbekomme, dass Excel durch alle Städte und Kundengruppen durchgeht und diese löscht. Dabei soll quasi im Zufallsprinzip entschieden werden, wieviele gelöscht werden, sofern es zwischen 3 und 5% sind.

So, wie bekomme ich das hin? :D

Grüße,
Jenny

aloys78
07.07.2015, 12:50
Hallo Jenny,
Lösche zwischen 3 - 5% der Adressen, egal welche, sofern du jede (!) Stadt erwischst
Grobe Plausibitätsprüfung: es gibt ca 2.000 Städte; sind alle vertreten, dann entfallen durchschnittlich 10 Adressen auf eine Stadt. Diese auf 4 Kundengruppen aufgeteilt, ergibt 2 - 3 Adressen pro Stadt und Kundengruppe. Davon 3- 5% zu löschen, ist dann nicht ganz so einfach.

Dein Datenbestand mag ganz anders aussehen; daher wäre es hilfreich, wenn Du einen repräsentativen Teil Deiner Datei hier hochladen würdest.

Gruß
Aloys

JaneFox
12.07.2015, 14:12
Hallo aloys78,

danke für deine Antwort.

Leider kann ich keine Daten hochladen, da es ja Kundendaten sind. :-(

Steffl72
12.07.2015, 14:15
Hallo,

dann anonymisiere die Daten.

Storax
12.07.2015, 14:23
Mal interessehalber, wofür soll so etwas gut sein?