29.04.2014 Aufrufe

Präsentation - Landesregierung Nordrhein-Westfalen

Präsentation - Landesregierung Nordrhein-Westfalen

Präsentation - Landesregierung Nordrhein-Westfalen

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Zukunftsforum „Digitale Bürgerbeteiligung“<br />

Düsseldorf, 17.05.2013<br />

Parlamentsdebatten in 3D?!<br />

Prof. Dr. Andreas Blätte<br />

Juniorprofessur für Politikwissenschaft der Stiftung Zukunft NRW


Vom Versuch, Integrationsdiskurse<br />

sprachtechnologisch zu analysieren …<br />

Ein Netz der Schlagworte der Integrationspolitik<br />

hier: integrationspolitische Reden von CDU‐<br />

Abgeordneten im Landtag NRW in der 14. WP<br />

Berechnung von Schlagworten<br />

Berechnung des überzufällig häufigen gemeinsamen<br />

Auftretens von Schlagworten<br />

Die Visualisierung von „Knoten“ und „Kanten“:<br />

Farbe der Knoten ‐> Wortart<br />

Größer der Knoten ‐> Frequenz<br />

Stärke der Kanten ‐> Stärke des statistischen Tests


These: Die XMLifizierung von Plenarprotokollen<br />

kann demokratische Transparenz fördern.<br />

I. Was heißt das: „XML“ ‐ „Parlamentsprotokollkorpus“?<br />

II. Warum betreibt ein Politikwissenschaftler Sprachtechnologie?<br />

III. Wo steht das „PolMine“‐Projekt?<br />

IV. Wie kann und könnte man das alles nutzen?<br />

V. Wozu könnte das alles gut sein?


WAS<br />

IST „XML“ UND EIN „PARLAMENTSPROTOKOLLKORPUS“?


Ein Plenarprotokollkorpus:<br />

Das Ziel der „XMLifizierung“<br />

•Was ist ein Korpus?<br />

Eine Sammlung maschinell verarbeitbaren Texts<br />

• Auszeichnungssprache XML (Extensible Markup Language):<br />

Maschinelle Verarbeitung semistrukturierter Daten<br />

• Verwandte Projekte:<br />

Europarl‐Korpus | bundestagger.de | DutchParl (Marx et al.) |<br />

parlando.de (Scharloth/Bubenhofer)<br />

• PolMine‐Plenarprotokollkorpus:<br />

Plenarprotokolle aller BT‐ und LT‐Debatten aller Wahlperioden, in<br />

die der 01.01.2000 fällt


Was ist im Korpus annotiert?<br />

• Strukturelle Annotation<br />

Metainformationen: Ort, Bundesland, Wahlperiode,<br />

Sitzungsnummer, Datum<br />

Tagesordnungspunkte<br />

Redner: Funktion und Parteizugehörigkeit<br />

Zwischenrufe<br />

Absätze<br />

Sätze<br />

• Linguistische Annotation<br />

Wortform<br />

Part‐of‐Speech<br />

Lemma


Beispiel: Annotation eines Zwischenrufs<br />

<br />

Herzlich ADJD herzlich<br />

willkommen ADJD willkommen<br />

! $. !<br />

<br />

<br />

<br />

<br />

( $( (<br />

Heiterkeit NN Heiterkeit<br />

und KON und<br />

Beifall NN Beifall<br />

bei APPR bei<br />

SPD NE SPD<br />

und KON und<br />

CDU NE CDU<br />

) $( )<br />

<br />

<br />

<br />

<br />

Ich PPER ich<br />

begrüße VVFIN begrüßen<br />

die ART d<br />

Herrschaften NN Herrschaft


WO<br />

STEHT DAS POLMINE‐PROJEKT?


Automatisierung durch Reguläre Ausdrücke<br />

Rohdaten (PlPr)<br />

Brigitte Pothmer (BÜNDNIS 90/DIE GRÜNEN):<br />

Herr Präsident! Meine Damen und Herren! Um es gleich vorweg zu sagen: Meine<br />

Fraktion unterstützt die Angleichung der Regelsätze in West und Ost. Wir fordern das<br />

seit langem. […]<br />

(Beifall beim BÜNDNIS 90/DIE GRÜNEN – Klaus<br />

s/^(.*?)\s(.*?)://<br />

reguläre Ausdrücke<br />

Korpus (XML)<br />

<br />

Herr Präsident! Meine Damen und Herren! Um es gleich vorweg zu sagen: Meine Fraktion<br />

unterstützt die Angleichung der Regelsätze in West und Ost. Wir fordern das seit langem. […]<br />

<br />

Beifall beim BÜNDNIS 90/DIE GRÜNEN – Klaus Brandner [SPD]: Ein gemeinsamer Gesetzentwurf<br />

von Rot‐Grün!<br />

<br />

[…]


Aufbereitung des PolMine‐Plenarprotokollkorpus


PolMine‐Plenardebattenkorpora (PDK)<br />

•html‐Rohdaten<br />

Landtag <strong>Nordrhein</strong>‐<strong>Westfalen</strong> (06/2000 ‐ 05/2012)<br />

•txt‐Rohdaten<br />

Deutscher Bundestag (1996 ‐ 2008 und 2010‐2013)<br />

• pdf‐Rohdaten<br />

alle Landtage seit 2000<br />

Bundestag und Bundesrat seit 2000


Plenarprotokollkorpus [pdf]<br />

ab WP/Jahr Wahltag Protokolle<br />

Bund<br />

BT Deutscher Bundestag 14 27.09.1998 875<br />

BR Bundesrat ‐‐‐ 155<br />

Landtage<br />

BB Landtag Brandenburg 3 05.09.1999 227<br />

BE Abgeordnetenhaus Berlin 14 10.10.1999 228<br />

BW Landtag von Baden‐Württemberg 12 24.03.1996 378<br />

BYL Bayerischer Landtag 14 13.09.1998 359<br />

HB Bremische Bürgerschaft 15 06.06.1999 217<br />

HE Hessischer Landtag 15 07.02.1999 413<br />

HB Hamburgische Bürgerschaft 16 21.09.1997 363<br />

MV Landtag Mecklenburg‐Vorpommern 3 27.09.1998 314<br />

NI Landtag Niedersachsen 14 01.03.1998 370<br />

NW Landtag <strong>Nordrhein</strong>‐<strong>Westfalen</strong> 12 14.05.1995 486<br />

RP Landtag Rheinland‐Pfalz 13 24.03.1996 383<br />

SH Landtag Schleswig‐Holstein 14 24.03.1996 297<br />

SL Landtag des Saarlandes 12 05.09.1999 172<br />

SN Sächsischer Landtag 3 19.09.1999 318<br />

SN Landtag von Sachsen‐Anhalt 3 26.04.1998 267<br />

TH Thüringer Landtag 3 12.09.1999 322<br />

SUMME 6144


Plenarprotokollkorpus NRW [html]<br />

Zahl der Debatten<br />

Zahl der Token<br />

2005 138 927.716<br />

2006 281 2.383.422<br />

2007 333 2.400.118<br />

2008 324 2.091.586<br />

2009 324 2.386.793<br />

2010 264 2.036.921<br />

2011 313 2.505.233<br />

2012 32 234.115<br />

2005-2012 2.009 14.967.931<br />

• Klassifikation der Landtagsdebatten (online) verfügbar<br />

→ Unter- und Oberkategorien


WARUM<br />

MACHT EIN POLITIKWISSENSCHAFTLER SO ETWAS?


Bundestag und Landtage: Wo fallen mehr Worte?<br />

30.000.000<br />

25.000.000<br />

Wörter in Plenarprotokollen<br />

20.000.000<br />

15.000.000<br />

10.000.000<br />

Bundestag<br />

Summe Länder<br />

5.000.000<br />

0<br />

2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011<br />

Jahr


Der Wortumfang der Plenarprotokolle im Vergleich<br />

4.500.000<br />

durchschnittliche Zahl der Wörter pro Jahr<br />

4.000.000<br />

3.500.000<br />

3.000.000<br />

2.500.000<br />

2.000.000<br />

1.500.000<br />

1.000.000<br />

500.000<br />

0<br />

BT NW NI HE TH SN MV BW SH BYL BE BB HH HB RP ST SL BR


durchschnittl. Wortzahl pro Abgeordneter pro Jahr<br />

25000<br />

20000<br />

15000<br />

10000<br />

5000<br />

0<br />

MV TH SH HE SL SN BB HB NI RP BW HH ST NW BE BYL BT


Hirschman‐Herfindahl‐Index als Konzentrationsmaß:<br />

HHI<br />

Konzentrationsmessung / Auswertung<br />

N<br />

2<br />

a mit ai <br />

i 1<br />

i<br />

tf<br />

i<br />

/<br />

<br />

tf<br />

mit<br />

a<br />

i<br />

<br />

N<br />

<br />

x<br />

j 1<br />

i<br />

x<br />

j


Konzentration und Dezentrierung: Trends


Zielgruppenkonstruktionen:<br />

Kookurenzanalyse


WIE<br />

LÄSST SICH DAS NUTZEN?


Skizze Softwarearchitektur für Korpusanalyse<br />

Web-<br />

Applikationen<br />

(Grafische<br />

Benutzeroberfläc<br />

he)<br />

Rstudio<br />

Server<br />

shiny-<br />

Web-<br />

Applikationen<br />

PHP-Wrapper<br />

zu R-Funktionen<br />

CQPweb<br />

TXM<br />

Implementierung<br />

und Entwicklung<br />

statistischer<br />

Methoden der<br />

Korpusanalyse<br />

R<br />

polminer<br />

weitere Pakete<br />

rcqp (Interface zur CWB)<br />

Korpusverwaltung<br />

Korpusverwaltung:<br />

CWB/CQP<br />

indiziertes Korpus<br />

Korpora<br />

(XML, *.vrt)<br />

Korpus<br />

1<br />

Korpus<br />

2<br />

Korpus<br />

3


CQPweb als Graphische Benutzeroberfläche


WOZU<br />

KÖNNTE DAS GUT SEIN?


PolMine Quiz<br />

START


4. Von wem stammt der längste Satz<br />

in der 14. WP NRW ?<br />

A: B:<br />

Dr. Jürgen Rüttgers<br />

Prof. Dr. Andreas Pinkwart<br />

C: D:<br />

Armin Laschet<br />

Roswitha Müller-<br />

Piepenkötter


3. Wer zitiert am häufigsten Karl Marx<br />

in der 14. WP in NRW ?<br />

A: B:<br />

Dr. Helmut Linssen<br />

Norbert Römer<br />

C: D:<br />

Christian Lindner<br />

Dr. Michael Vesper


10. Wer ist der wortreichste Redner / die<br />

wortreichste Rednerin der 14. WP in NRW ?<br />

A: B:<br />

Hanelore Kraft<br />

Gerhard Papke<br />

C: D:<br />

Sylvia Löhrmann<br />

Armin Laschet


Szenario 2: (Komplexe) Suche im Volltext<br />

•Wer hat wann zuerst von „open government“ oder<br />

„open parliament“ gesprochen?<br />

„open“%c „government“%c | „open“%c „parliament“%c<br />

•Wo tauchen „Kugeln“ und „Jülich“ in einem Satz auf?<br />

„Kugeln“ []* „Jülich“ within s<br />

•Wie wird das Verhältnis von „Staat“ und „Markt“<br />

definiert?<br />

„Staat“ []* „Markt“ within s<br />

•Wie thematisieren Sprecher verschiedener<br />

Fraktionen die soziale Dimension der Energiewende?<br />

a:“sozial.*“ []* „Energie.*“::a.speaker_party=„FDP“


Szenario 3: Erschließung digitaler Materialien<br />

Was steckt in den<br />

Dokumenten?<br />

hier:<br />

Schlagwörter der<br />

integrationspolitischen<br />

Debatten 2005‐2012


Zur Diskussion gestellt<br />

•Die Chance: Datenzugriff XXL<br />

•Grenzen:<br />

– der Daten:<br />

Beschränkung auf Plenarprotokolle<br />

– der Technik:<br />

rechenintensive Korpusabfragen<br />

– der Benutzerfreundlichkeit:<br />

Sperrige Abfragesprache<br />

• Und: Wem nutzt das alles?


polmine.sowi.uni‐due.de | www.polmine.de


ANHANG


Linguistische Annotation<br />

Linguistische Informationen:<br />

‐ Flektierte Wortform (Token)<br />

‐ Wortart (Type)<br />

‐ Grundform des Wortes (Lemma)


Strukturelle Annotation: XML nach DTD<br />

Markierung des Anfangs einer Rede<br />

Markierung des Endes einer Rede

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!