Präsentation - Landesregierung Nordrhein-Westfalen
Präsentation - Landesregierung Nordrhein-Westfalen
Präsentation - Landesregierung Nordrhein-Westfalen
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Zukunftsforum „Digitale Bürgerbeteiligung“<br />
Düsseldorf, 17.05.2013<br />
Parlamentsdebatten in 3D?!<br />
Prof. Dr. Andreas Blätte<br />
Juniorprofessur für Politikwissenschaft der Stiftung Zukunft NRW
Vom Versuch, Integrationsdiskurse<br />
sprachtechnologisch zu analysieren …<br />
Ein Netz der Schlagworte der Integrationspolitik<br />
hier: integrationspolitische Reden von CDU‐<br />
Abgeordneten im Landtag NRW in der 14. WP<br />
Berechnung von Schlagworten<br />
Berechnung des überzufällig häufigen gemeinsamen<br />
Auftretens von Schlagworten<br />
Die Visualisierung von „Knoten“ und „Kanten“:<br />
Farbe der Knoten ‐> Wortart<br />
Größer der Knoten ‐> Frequenz<br />
Stärke der Kanten ‐> Stärke des statistischen Tests
These: Die XMLifizierung von Plenarprotokollen<br />
kann demokratische Transparenz fördern.<br />
I. Was heißt das: „XML“ ‐ „Parlamentsprotokollkorpus“?<br />
II. Warum betreibt ein Politikwissenschaftler Sprachtechnologie?<br />
III. Wo steht das „PolMine“‐Projekt?<br />
IV. Wie kann und könnte man das alles nutzen?<br />
V. Wozu könnte das alles gut sein?
WAS<br />
IST „XML“ UND EIN „PARLAMENTSPROTOKOLLKORPUS“?
Ein Plenarprotokollkorpus:<br />
Das Ziel der „XMLifizierung“<br />
•Was ist ein Korpus?<br />
Eine Sammlung maschinell verarbeitbaren Texts<br />
• Auszeichnungssprache XML (Extensible Markup Language):<br />
Maschinelle Verarbeitung semistrukturierter Daten<br />
• Verwandte Projekte:<br />
Europarl‐Korpus | bundestagger.de | DutchParl (Marx et al.) |<br />
parlando.de (Scharloth/Bubenhofer)<br />
• PolMine‐Plenarprotokollkorpus:<br />
Plenarprotokolle aller BT‐ und LT‐Debatten aller Wahlperioden, in<br />
die der 01.01.2000 fällt
Was ist im Korpus annotiert?<br />
• Strukturelle Annotation<br />
Metainformationen: Ort, Bundesland, Wahlperiode,<br />
Sitzungsnummer, Datum<br />
Tagesordnungspunkte<br />
Redner: Funktion und Parteizugehörigkeit<br />
Zwischenrufe<br />
Absätze<br />
Sätze<br />
• Linguistische Annotation<br />
Wortform<br />
Part‐of‐Speech<br />
Lemma
Beispiel: Annotation eines Zwischenrufs<br />
<br />
Herzlich ADJD herzlich<br />
willkommen ADJD willkommen<br />
! $. !<br />
<br />
<br />
<br />
<br />
( $( (<br />
Heiterkeit NN Heiterkeit<br />
und KON und<br />
Beifall NN Beifall<br />
bei APPR bei<br />
SPD NE SPD<br />
und KON und<br />
CDU NE CDU<br />
) $( )<br />
<br />
<br />
<br />
<br />
Ich PPER ich<br />
begrüße VVFIN begrüßen<br />
die ART d<br />
Herrschaften NN Herrschaft
WO<br />
STEHT DAS POLMINE‐PROJEKT?
Automatisierung durch Reguläre Ausdrücke<br />
Rohdaten (PlPr)<br />
Brigitte Pothmer (BÜNDNIS 90/DIE GRÜNEN):<br />
Herr Präsident! Meine Damen und Herren! Um es gleich vorweg zu sagen: Meine<br />
Fraktion unterstützt die Angleichung der Regelsätze in West und Ost. Wir fordern das<br />
seit langem. […]<br />
(Beifall beim BÜNDNIS 90/DIE GRÜNEN – Klaus<br />
s/^(.*?)\s(.*?)://<br />
reguläre Ausdrücke<br />
Korpus (XML)<br />
<br />
Herr Präsident! Meine Damen und Herren! Um es gleich vorweg zu sagen: Meine Fraktion<br />
unterstützt die Angleichung der Regelsätze in West und Ost. Wir fordern das seit langem. […]<br />
<br />
Beifall beim BÜNDNIS 90/DIE GRÜNEN – Klaus Brandner [SPD]: Ein gemeinsamer Gesetzentwurf<br />
von Rot‐Grün!<br />
<br />
[…]
Aufbereitung des PolMine‐Plenarprotokollkorpus
PolMine‐Plenardebattenkorpora (PDK)<br />
•html‐Rohdaten<br />
Landtag <strong>Nordrhein</strong>‐<strong>Westfalen</strong> (06/2000 ‐ 05/2012)<br />
•txt‐Rohdaten<br />
Deutscher Bundestag (1996 ‐ 2008 und 2010‐2013)<br />
• pdf‐Rohdaten<br />
alle Landtage seit 2000<br />
Bundestag und Bundesrat seit 2000
Plenarprotokollkorpus [pdf]<br />
ab WP/Jahr Wahltag Protokolle<br />
Bund<br />
BT Deutscher Bundestag 14 27.09.1998 875<br />
BR Bundesrat ‐‐‐ 155<br />
Landtage<br />
BB Landtag Brandenburg 3 05.09.1999 227<br />
BE Abgeordnetenhaus Berlin 14 10.10.1999 228<br />
BW Landtag von Baden‐Württemberg 12 24.03.1996 378<br />
BYL Bayerischer Landtag 14 13.09.1998 359<br />
HB Bremische Bürgerschaft 15 06.06.1999 217<br />
HE Hessischer Landtag 15 07.02.1999 413<br />
HB Hamburgische Bürgerschaft 16 21.09.1997 363<br />
MV Landtag Mecklenburg‐Vorpommern 3 27.09.1998 314<br />
NI Landtag Niedersachsen 14 01.03.1998 370<br />
NW Landtag <strong>Nordrhein</strong>‐<strong>Westfalen</strong> 12 14.05.1995 486<br />
RP Landtag Rheinland‐Pfalz 13 24.03.1996 383<br />
SH Landtag Schleswig‐Holstein 14 24.03.1996 297<br />
SL Landtag des Saarlandes 12 05.09.1999 172<br />
SN Sächsischer Landtag 3 19.09.1999 318<br />
SN Landtag von Sachsen‐Anhalt 3 26.04.1998 267<br />
TH Thüringer Landtag 3 12.09.1999 322<br />
SUMME 6144
Plenarprotokollkorpus NRW [html]<br />
Zahl der Debatten<br />
Zahl der Token<br />
2005 138 927.716<br />
2006 281 2.383.422<br />
2007 333 2.400.118<br />
2008 324 2.091.586<br />
2009 324 2.386.793<br />
2010 264 2.036.921<br />
2011 313 2.505.233<br />
2012 32 234.115<br />
2005-2012 2.009 14.967.931<br />
• Klassifikation der Landtagsdebatten (online) verfügbar<br />
→ Unter- und Oberkategorien
WARUM<br />
MACHT EIN POLITIKWISSENSCHAFTLER SO ETWAS?
Bundestag und Landtage: Wo fallen mehr Worte?<br />
30.000.000<br />
25.000.000<br />
Wörter in Plenarprotokollen<br />
20.000.000<br />
15.000.000<br />
10.000.000<br />
Bundestag<br />
Summe Länder<br />
5.000.000<br />
0<br />
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011<br />
Jahr
Der Wortumfang der Plenarprotokolle im Vergleich<br />
4.500.000<br />
durchschnittliche Zahl der Wörter pro Jahr<br />
4.000.000<br />
3.500.000<br />
3.000.000<br />
2.500.000<br />
2.000.000<br />
1.500.000<br />
1.000.000<br />
500.000<br />
0<br />
BT NW NI HE TH SN MV BW SH BYL BE BB HH HB RP ST SL BR
durchschnittl. Wortzahl pro Abgeordneter pro Jahr<br />
25000<br />
20000<br />
15000<br />
10000<br />
5000<br />
0<br />
MV TH SH HE SL SN BB HB NI RP BW HH ST NW BE BYL BT
Hirschman‐Herfindahl‐Index als Konzentrationsmaß:<br />
HHI<br />
Konzentrationsmessung / Auswertung<br />
N<br />
2<br />
a mit ai <br />
i 1<br />
i<br />
tf<br />
i<br />
/<br />
<br />
tf<br />
mit<br />
a<br />
i<br />
<br />
N<br />
<br />
x<br />
j 1<br />
i<br />
x<br />
j
Konzentration und Dezentrierung: Trends
Zielgruppenkonstruktionen:<br />
Kookurenzanalyse
WIE<br />
LÄSST SICH DAS NUTZEN?
Skizze Softwarearchitektur für Korpusanalyse<br />
Web-<br />
Applikationen<br />
(Grafische<br />
Benutzeroberfläc<br />
he)<br />
Rstudio<br />
Server<br />
shiny-<br />
Web-<br />
Applikationen<br />
PHP-Wrapper<br />
zu R-Funktionen<br />
CQPweb<br />
TXM<br />
Implementierung<br />
und Entwicklung<br />
statistischer<br />
Methoden der<br />
Korpusanalyse<br />
R<br />
polminer<br />
weitere Pakete<br />
rcqp (Interface zur CWB)<br />
Korpusverwaltung<br />
Korpusverwaltung:<br />
CWB/CQP<br />
indiziertes Korpus<br />
Korpora<br />
(XML, *.vrt)<br />
Korpus<br />
1<br />
Korpus<br />
2<br />
Korpus<br />
3
CQPweb als Graphische Benutzeroberfläche
WOZU<br />
KÖNNTE DAS GUT SEIN?
PolMine Quiz<br />
START
4. Von wem stammt der längste Satz<br />
in der 14. WP NRW ?<br />
A: B:<br />
Dr. Jürgen Rüttgers<br />
Prof. Dr. Andreas Pinkwart<br />
C: D:<br />
Armin Laschet<br />
Roswitha Müller-<br />
Piepenkötter
3. Wer zitiert am häufigsten Karl Marx<br />
in der 14. WP in NRW ?<br />
A: B:<br />
Dr. Helmut Linssen<br />
Norbert Römer<br />
C: D:<br />
Christian Lindner<br />
Dr. Michael Vesper
10. Wer ist der wortreichste Redner / die<br />
wortreichste Rednerin der 14. WP in NRW ?<br />
A: B:<br />
Hanelore Kraft<br />
Gerhard Papke<br />
C: D:<br />
Sylvia Löhrmann<br />
Armin Laschet
Szenario 2: (Komplexe) Suche im Volltext<br />
•Wer hat wann zuerst von „open government“ oder<br />
„open parliament“ gesprochen?<br />
„open“%c „government“%c | „open“%c „parliament“%c<br />
•Wo tauchen „Kugeln“ und „Jülich“ in einem Satz auf?<br />
„Kugeln“ []* „Jülich“ within s<br />
•Wie wird das Verhältnis von „Staat“ und „Markt“<br />
definiert?<br />
„Staat“ []* „Markt“ within s<br />
•Wie thematisieren Sprecher verschiedener<br />
Fraktionen die soziale Dimension der Energiewende?<br />
a:“sozial.*“ []* „Energie.*“::a.speaker_party=„FDP“
Szenario 3: Erschließung digitaler Materialien<br />
Was steckt in den<br />
Dokumenten?<br />
hier:<br />
Schlagwörter der<br />
integrationspolitischen<br />
Debatten 2005‐2012
Zur Diskussion gestellt<br />
•Die Chance: Datenzugriff XXL<br />
•Grenzen:<br />
– der Daten:<br />
Beschränkung auf Plenarprotokolle<br />
– der Technik:<br />
rechenintensive Korpusabfragen<br />
– der Benutzerfreundlichkeit:<br />
Sperrige Abfragesprache<br />
• Und: Wem nutzt das alles?
polmine.sowi.uni‐due.de | www.polmine.de
ANHANG
Linguistische Annotation<br />
Linguistische Informationen:<br />
‐ Flektierte Wortform (Token)<br />
‐ Wortart (Type)<br />
‐ Grundform des Wortes (Lemma)
Strukturelle Annotation: XML nach DTD<br />
Markierung des Anfangs einer Rede<br />
Markierung des Endes einer Rede