PDA

Vollständige Version anzeigen : 2 Datenblätter miteinander auf Ähnlichkeit vergleichen


Unibengel
12.01.2014, 17:28
allo zusammen Smile

Ich habe folgendes Problem, welches ich auch noch nicht durch meine Suche hier im Forum lösen konnte.

Ich habe quantitativ Pressemitteilungen von Unternehmen und die Berichterstattung in einer Zeitung erhoben. Hierfür habe ich 7 unterschiedliche Variablen erhoben.
Nun möchte ich ein "matching" laufen lassen, d.h. die codierten Pressemitteilungen und Zeitungsartikel miteinander auf Ähnlichkeiten vergleichen. Je mehr Variablen übereinstimmen, desto eher die Wahrscheinlichkeit, dass der "Journalist" von der Pressemitteilung abgeschrieben hat - soweit die These.
Kann mir jemand sagen, womit das möglich wäre. Traumhaft wären natürlich eine Übereinstimmung nach %, allerdings kann ich so etwas ja schlecht programmieren.
Normalerweise weiß ich auch, dass so etwas eher eine Aufgabe für SPSS wäre, allerdings sind mir hier die neuronalen Netze für diese Aufgabe zu komplex.
In beiden Blättern werden folgende Variablen erhoben:

1 x Thematik I
1 x Thematik 2
1 x Thematik 3
1 x Thematik 4
2 x Name des Akteurs
1 x Unternehmen

Diese stehen in beiden Blättern. Da ich allerdings über 1400 Artikel und 500 Pressemitteilungen codiert habe, ist ein manuelles Vorgehen ein bisschen zu aufwendig bzw. zeitraubend.
also, könnt ihr mir helfen?

ebs17
12.01.2014, 17:53
Für Textanalyse sind Regular Expressions recht gut geeignet:
"Intelligente" Textanalyse (http://www.ms-office-forum.net/forum/showthread.php?t=256917)
In einem der hinteren Beiträge des Themas ist sogar ein Beispiel auf Matching, könnte also als gezielter Ansatz hergenommen werden. Eine Schleife über Deine Artikel bekommst Du sicher selber hin.

Unibengel
12.01.2014, 17:59
Oh, Danke!
Allerdings habe ich die Artikel schon codiert, d.h. es müsste nur ein reiner Check über Zahlen laufen (AKTEUR ist allerdings auch String)
Geht das auch damit?

lg,

ebs17
12.01.2014, 18:32
Wenn ich einen Blick in eine andere Ecke des Sternenhimmels werfe: Bei passender Struktur der "Codierungen" käme man mit einer SQL-Anweisung hin.

Unibengel
14.01.2014, 13:08
SQL-Anweisung?

Wie kann man sich das vorstellen?

EarlFred
14.01.2014, 14:22
Hallo,

als nur am Rande interessierter Mitleser:
Kannst Du, vielleicht anhand einer Mustermappe, den Begriff "codiert" mal in etwas konkret greifbares übersetzen?
Ich kann mir unter einer "codierten Pressemitteilung" nichts bzw. in heiterer Diskussionsrunde alles vorstellen - vermutlich aber nicht das, was in Deinem Falle vorliegt.
Wie dann die Auswertung aussieht / aussehen soll, erschließt sich dann womöglich auch etwas besser.

Grüße
EarlFred

Unibengel
14.01.2014, 22:14
also, um es einfach zu sagen:

sagen wir ich hab die Thematik in der Pressemitteilung mit H1 und J7 codiert (Buchstaben-Zahlen-System). Daneben noch welche Form von unternehmen (1-6) etc.

Nun habe ich das genau gleiche bei den Zeitungsartikeln erhoben. Auch hier die Thematik mit H1 und J7.

Nun möchte ich ein matching laufen assen, dass mir automatisch sagt: "Übrigens, der Zeitungsartikel 1267 hat in den Variablen eine hohe Ähnlichkeit mit der Pressemitteilung 0_0124.


So weit, so klar?

EarlFred
15.01.2014, 08:36
Hallo grußformelfreier Mensch,

So weit, so klar?
genauso klar wie Dir die Bedeutung des Wortes "konkret".

Grüße
EarlFred

Unibengel
17.01.2014, 15:34
Aha. Danke.