Informationsextraktion aus Stellenanzeigen im Web für die ...

Informationsextraktion aus Stellenanzeigen im Web für die ... Informationsextraktion aus Stellenanzeigen im Web für die ...

e.uni.magdeburg.de
von e.uni.magdeburg.de Mehr von diesem Publisher
22.11.2013 Aufrufe

Einführung Die Webanwendung shuccle Informationsextraktion aus Stellenanzeigen Ausblick und Literatur Informationsextraktion aus Stellenanzeigen im Web für die Webanwendung shuccle Ronny Harbich Otto-von-Guericke-Universität 23. April 2009 1/32 Ronny Harbich Informationsextraktion aus Stellenanzeigen im Web

Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

<strong>Informationsextraktion</strong> <strong>aus</strong><br />

<strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong> <strong>für</strong> <strong>die</strong><br />

<strong>Web</strong>anwendung shuccle<br />

Ronny Harbich<br />

Otto-von-Guericke-Universität<br />

23. April 2009<br />

1/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Übersicht<br />

1 Einführung<br />

2 Die <strong>Web</strong>anwendung shuccle<br />

Allgemeines zu shuccle<br />

Kompetenz- und Suchprofile<br />

Finden relevanter <strong>Stellenanzeigen</strong><br />

3 <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

4 Ausblick und Literatur<br />

2/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Einführung<br />

Unternehmen veröffentlichen <strong>Stellenanzeigen</strong> auf ihren<br />

<strong>Web</strong>sites.<br />

Die <strong>Web</strong>anwendung shuccle (gesprochen: ”<br />

schackel“) von<br />

H.-D. Kreft et al. unterstützt Bewerber be<strong>im</strong> Finden<br />

relevanter Stellenangebote.<br />

Informationen <strong>aus</strong> <strong>Stellenanzeigen</strong> müssen <strong>für</strong> shuccle<br />

automatisch extrahiert werden.<br />

3/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Übersicht<br />

Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Allgemeines zu shuccle<br />

Kompetenz- und Suchprofile<br />

Finden relevanter <strong>Stellenanzeigen</strong><br />

1 Einführung<br />

2 Die <strong>Web</strong>anwendung shuccle<br />

Allgemeines zu shuccle<br />

Kompetenz- und Suchprofile<br />

Finden relevanter <strong>Stellenanzeigen</strong><br />

3 <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

4 Ausblick und Literatur<br />

4/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Allgemeines zu shuccle<br />

Allgemeines zu shuccle<br />

Kompetenz- und Suchprofile<br />

Finden relevanter <strong>Stellenanzeigen</strong><br />

shuccle (http://www.shuccle.de/) bietet zwei<br />

grundlegende Dinge:<br />

1 Menschen können über sog. Kompetenzprofile <strong>die</strong> zu ihren<br />

Kenntnissen und Fähigkeiten st<strong>im</strong>migen Arbeitsplätze finden.<br />

2 Unternehmen können Stellenangebote über sog. Suchprofile<br />

veröffentlichen.<br />

5/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Kompetenz- und Suchprofile<br />

Allgemeines zu shuccle<br />

Kompetenz- und Suchprofile<br />

Finden relevanter <strong>Stellenanzeigen</strong><br />

Kompetenzen: Alle Fähigkeiten<br />

und Kenntnisse eines Menschen,<br />

z. B. Englischkenntnis, Diplom<br />

in Maschinenbau, Angeln oder<br />

Zuverlässigkeit.<br />

Kompetenzprofil: Auflistung<br />

aller (bewerteten) Kompetenzen<br />

eines Benutzers.<br />

Suchprofil: Auflistung aller in<br />

einer Stellenanzeige in shuccle<br />

verlangten Kompetenzen. Ist<br />

Gegenstück zu Kompetenzprofil.<br />

Kompetenzprofil eines Benutzers<br />

Diplom in Maschinenbau<br />

Team-Fähigkeit<br />

Englischkenntnisse<br />

Profile st<strong>im</strong>men überein<br />

2.000 €<br />

pro Monat<br />

1.000 €<br />

pro Monat<br />

800 €<br />

pro Monat<br />

Gehalt: 3.800 € pro Monat<br />

Suchprofil einer Stellenanzeige eines Unternehmens<br />

Diplom in Maschinenbau<br />

Team-Fähigkeit<br />

Englischkenntnisse<br />

1.800 €<br />

pro Monat<br />

1.200 €<br />

pro Monat<br />

700 €<br />

pro Monat<br />

Gehalt: 3.700 € pro Monat<br />

6/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Allgemeines zu shuccle<br />

Kompetenz- und Suchprofile<br />

Finden relevanter <strong>Stellenanzeigen</strong><br />

Finden relevanter <strong>Stellenanzeigen</strong><br />

Kompetenzprofil eines Benutzers wird mit allen<br />

Suchprofilen verglichen.<br />

Kompetenzen <strong>im</strong> Kompetenzprofil st<strong>im</strong>men mit<br />

denen eines Suchprofils überein ⇒ Benutzer wird<br />

zugehöriges Stellenangebot angezeigt.<br />

Funktioniert auch umgekehrt ⇒ Unternehmen<br />

finden selbst Mitarbeiter.<br />

Kompetenzprofil eines Benutzers<br />

2.000 €<br />

Diplom in Maschinenbau<br />

pro Monat<br />

1.000 €<br />

Team-Fähigkeit<br />

pro Monat<br />

800 €<br />

Englischkenntnisse<br />

pro Monat<br />

Gehalt: 3.800 € pro Monat<br />

Profile st<strong>im</strong>men überein<br />

Suchprofil einer Stellenanzeige eines Unternehmens<br />

1.800 €<br />

Diplom in Maschinenbau<br />

pro Monat<br />

1.200 €<br />

Team-Fähigkeit<br />

pro Monat<br />

700 €<br />

Englischkenntnisse<br />

pro Monat<br />

Gehalt: 3.700 € pro Monat<br />

Fazit<br />

Textuelle <strong>Stellenanzeigen</strong> werden nicht auf eingegebene<br />

Begriffe hin durchsucht.<br />

Stellenangebote werden über Abgleichen von Such- und<br />

Kompetenzprofilen angezeigt.<br />

7/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Übersicht<br />

Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

1 Einführung<br />

2 Die <strong>Web</strong>anwendung shuccle<br />

Allgemeines zu shuccle<br />

Kompetenz- und Suchprofile<br />

Finden relevanter <strong>Stellenanzeigen</strong><br />

3 <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

4 Ausblick und Literatur<br />

8/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anforderungen<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Name<br />

Unternehmen<br />

Standort<br />

1<br />

Berufsbezeichnung<br />

Von shuccle geforderte<br />

Daten bezüglich<br />

<strong>Stellenanzeigen</strong> (Auszug).<br />

Telefonnummer<br />

<strong>Web</strong>site<br />

(URL)<br />

stellt bereit<br />

n<br />

Stellenanzeige<br />

1<br />

besitzt<br />

Aufgaben<br />

Qualifikation<br />

Ansprechpartner<br />

Gehalt<br />

1<br />

Quelle<br />

(URL)<br />

Suchprofil<br />

Kompetenzen<br />

9/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Impressen in Unternehmens-<strong>Web</strong>sites<br />

Impressum<br />

Informationen <strong>für</strong><br />

Datenstruktur<br />

Unternehmen“ <strong>im</strong><br />

”<br />

Impressum vorhanden.<br />

Unternehmens-<strong>Web</strong>site<br />

muss nach § 5 und § 6 des<br />

Teleme<strong>die</strong>ngesetzes<br />

Impressum haben.<br />

shuccle AG i.G.<br />

Hans-Diedrich Kreft (Vorstand)<br />

Ecksweg 4<br />

21521 Dassendorf<br />

Postfach 1226 in 21452 Reinbek<br />

Amtsgericht Lübeck: HRB 393 SB<br />

Umsatzsteuer-<br />

Identifikationsnummer:<br />

DE135118331<br />

Tel.: +49 40 728128 14<br />

Fax: +49 40 728128 10<br />

E-Mail: info@shuccle.de<br />

10/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

<strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Computerlinguist (w/m)<br />

Wir suchen ab sofort einen Computerlinguisten (w/m), der uns bei unserem innovativen <strong>Web</strong>-Projekt shuccle<br />

unterstützt. Was genau shuccle <strong>für</strong> ein Projekt ist und welche Ziele wir verfolgen, ist unter http://www.shuccle.<br />

de/ zu erfahren.<br />

Ihre Qualifikation:<br />

Abgeschlossenes Studium der Computerlinguistik.<br />

Gute Englischkenntnis ist ein muss.<br />

Grundlegendes Wissen in <strong>Informationsextraktion</strong> oder fokussiertem <strong>Web</strong>crawling wäre vorteilhaft.<br />

Haben Sie Erfahrungen in Unitex? Wenn ja, dann sind Sie unser/e Frau/Mann! Wenn nicht, dann<br />

werden Sie Unitex bei uns kennen lernen.<br />

Ihre Aufgaben:<br />

Sie unterstützen uns zunächst bei der Extraktion von <strong>für</strong> uns relevante Informationen <strong>aus</strong><br />

<strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>.<br />

Weitere Aufgaben könnten sich dann <strong>im</strong> Bereich des <strong>Web</strong>crawlings nach <strong>Stellenanzeigen</strong> ergeben.<br />

Unser Angebot: Lernen Sie <strong>die</strong> Zusammenarbeit in einem dynamischen und offenen Team kennen. Sie werden von<br />

uns in unserem System der <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong> eingearbeitet. Keine Sorge: Es gibt<br />

noch genügend Raum <strong>für</strong> eigene Ideen und Innovationen in <strong>die</strong>sem Bereich.<br />

Bitte bewerben Sie sich bei Herrn Ronny Harbich unter ronny.harbich@shuccle.de oder unter Tel. 1234567890.<br />

Bitte geben Sie bei Ihrer Bewerbung <strong>die</strong> Kennziffer B4785X an.<br />

shuccle AG i.G.<br />

Albert-Einstein-Str. 4<br />

20359 Hamburg<br />

11/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

<strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Abbildung zeigt Stellenanzeige, <strong>die</strong> vom Aufbau her stark<br />

strukturiert ist (Listenform).<br />

Mehrzahl der <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong> scheint derart<br />

gegliedert.<br />

Informationen <strong>für</strong> Datenstrukturen Stellenanzeige“ und<br />

”<br />

Suchprofil“ vorhanden.<br />

”<br />

12/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Übersicht<br />

Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

<br />

<br />

<br />

Anzeige<br />

<br />

<br />

<br />

Hallo<br />

<br />

<br />

HTML-Dokument zu Text-<br />

Dokument normalisieren<br />

Markieren von strukturellen<br />

Textbereichen <strong>im</strong> Text-<br />

Dokument<br />

Satzenden <strong>im</strong> Text-<br />

Dokument markieren<br />

Einzelne Wörter und<br />

Zeichen <strong>im</strong> Text-Dokument<br />

erkennen<br />

Wörterbücher auf Wörter<br />

anwenden<br />

Grammatiken auf Text-<br />

Dokument anwenden;<br />

Phrasen werden markiert<br />

Markierte<br />

Phrasen <strong>aus</strong><br />

Text-Dokument<br />

in Datenbank<br />

einfügen<br />

13/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Unitex<br />

Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Einzelne Verarbeitungsschritte werden mit Software Unitex<br />

durchgeführt.<br />

Unitex ist open source (GNU Lesser General Public License)<br />

⇒ kostenfreie Nutzung.<br />

Unitex wurde bereits bei ähnlichem Projekt erfolgreich<br />

verwendet [BG07].<br />

http://www-igm.univ-mlv.fr/~unitex/<br />

14/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

HTML- zu Text-Dokument<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

<br />

<br />

<br />

<br />

<br />

Stellenanzeige<br />

<br />

<br />

<br />

Computerlinguist (w/m)<br />

Wir suchen ab sofort ...<br />

Ihre Qualifikation:<br />

<br />

Abgeschlossenes Studium der ...<br />

<br />

Ihre Aufgaben:<br />

<br />

Sie unterstützen uns ...<br />

<br />

Unser Angebot: Lernen Sie ...<br />

<br />

shuccle AG i.G.Albert−Einstein−Str. 4...<br />

<br />

<br />

<br />

15/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

HTML- zu Text-Dokument<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Stellenanzeige in Form eines HTML-Dokuments wird zu<br />

Text-Dokument konvertiert.<br />

Konvertierungsschritte (vereinfacht dargestellt):<br />

1 Nur HTML-Text zwischen Tags ...<br />

betrachten.<br />

2 Skriptbereiche , Formularbereiche und<br />

Kommentare entfernen.<br />

3 Listeneinträge durch Bindestrich und Leerzeichen -␣<br />

ersetzen.<br />

4 Tags wie , , <strong>die</strong> Zeilenumbruch verursachen,<br />

durch Zeilenumbruch ersetzen.<br />

5 Übrige Tags löschen und Character references durch Zeichen<br />

ersetzen (z. B. &ndash; durch –)<br />

6 Bereinigung: Folgen von Leerräume durch einzelnes<br />

Leerzeichen ersetzen und Folgen von Zeilenumbrüche durch<br />

einzelnen Zeilenumbruch ersetzen.<br />

16/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

HTML- zu Text-Dokument<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Computerlinguist (w/m)<br />

Wir suchen ab sofort einen Computerlinguisten (w/m), der uns bei unserem innovativen <strong>Web</strong>-Projekt shuccle<br />

unterstützt. Was genau shuccle <strong>für</strong> ein Projekt ist und welche Ziele wir verfolgen, ist unter http://www.shuccle.<br />

de/ zu erfahren.<br />

Ihre Qualifikation:<br />

- Abgeschlossenes Studium der Computerlinguistik.<br />

- Gute Englischkenntnis ist ein muss.<br />

- Grundlegendes Wissen in <strong>Informationsextraktion</strong> oder fokussiertem <strong>Web</strong>crawling wäre vorteilhaft.<br />

- Haben Sie Erfahrungen in Unitex? Wenn ja, dann sind Sie unser/e Frau/Mann! Wenn nicht, dann werden Sie<br />

Unitex bei uns kennen lernen.<br />

Ihre Aufgaben:<br />

- Sie unterstützen uns zunächst bei der Extraktion von <strong>für</strong> uns relevante Informationen <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong><br />

<strong>Web</strong>.<br />

- Weitere Aufgaben könnten sich dann <strong>im</strong> Bereich des <strong>Web</strong>crawlings nach <strong>Stellenanzeigen</strong> ergeben.<br />

Unser Angebot:<br />

Lernen Sie <strong>die</strong> Zusammenarbeit in einem dynamischen und offenen Team kennen. Sie werden von uns in unserem<br />

System der <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong> eingearbeitet. Keine Sorge: Es gibt noch genügend<br />

Raum <strong>für</strong> eigene Ideen und Innovationen in <strong>die</strong>sem Bereich.<br />

Bitte bewerben Sie sich bei Herrn Ronny Harbich unter ronny.harbich@shuccle.de oder unter Tel. 1234567890.<br />

Bitte geben Sie bei Ihrer Bewerbung <strong>die</strong> Kennziffer B4785X an.<br />

shuccle AG i.G.<br />

Albert-Einstein-Str. 4<br />

20359 Hamburg<br />

Zu Text-Dokument konvertierte Stellenanzeige <strong>aus</strong> dem <strong>Web</strong>.<br />

17/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Markieren struktureller Textbereiche<br />

Computerlinguist (w/m){S}<br />

Wir suchen ab sofort einen Computerlinguisten (w/m), der uns bei unserem innovativen <strong>Web</strong>-Projekt shuccle unterstützt.{S}<br />

Was genau shuccle <strong>für</strong> ein Projekt ist und welche Ziele wir verfolgen, ist unter http://www.shuccle.de/<br />

zu erfahren.{S}<br />

Ihre Qualifikation:{S}<br />

- Abgeschlossenes Studium der Computerlinguistik.{S}<br />

- Gute Englischkenntnis ist ein muss.{S}<br />

- Grundlegendes Wissen in <strong>Informationsextraktion</strong> oder fokussiertem <strong>Web</strong>crawling wäre vorteilhaft.{S}<br />

- Haben Sie Erfahrungen in Unitex?{S} Wenn ja, dann sind Sie unser/e Frau/Mann!{S} Wenn nicht, dann werden<br />

Sie Unitex bei uns kennen lernen.{S}<br />

Ihre Aufgaben:{S}<br />

- Sie unterstützen uns zunächst bei der Extraktion von <strong>für</strong> uns relevante Informationen <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

<strong>im</strong> <strong>Web</strong>.{S}<br />

- Weitere Aufgaben könnten sich dann <strong>im</strong> Bereich des <strong>Web</strong>crawlings nach <strong>Stellenanzeigen</strong> ergeben.{S}<br />

Unser Angebot:<br />

Lernen Sie <strong>die</strong> Zusammenarbeit in einem dynamischen und offenen Team kennen.{S}<br />

Sie werden von uns in unserem System der <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong> eingearbeitet.{S}<br />

Keine Sorge: Es gibt noch genügend Raum <strong>für</strong> eigene Ideen und Innovationen in <strong>die</strong>sem Bereich.{S}<br />

Bitte bewerben Sie sich bei Herrn Ronny Harbich unter ronny.harbich@shuccle.de oder unter Tel.<br />

1234567890.{S} Bitte geben Sie bei Ihrer Bewerbung <strong>die</strong> Kennziffer B4785X an.{S}<br />

shuccle AG i.G.{S}<br />

Albert-Einstein-Str. 4{S}<br />

20359 Hamburg{S}<br />

18/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Markieren struktureller Textbereiche<br />

Anfänge struktureller Textbereiche werden durch typische<br />

Phrasen erkannt, z. B. ”<br />

Ihr Profil:“.<br />

Enden von Textbereichen werden anhand der Listenform<br />

erkannt oder anhand nachfolgender Textbereiche.<br />

19/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Erkennen von Satzenden<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Satzenden sind mit {S} markiert Siehe Abbildung .<br />

Satzendenerkennung wichtig, z. B. Punkt bei Prof.“ <strong>im</strong> Satz<br />

”<br />

Prof. Einstein war klug.“ ist nicht Satzende, sondern Teil<br />

”<br />

einer Abkürzung. Prof.“ lässt sich in Wörterbuch finden,<br />

”<br />

Prof“ nicht.<br />

”<br />

Markieren von Satzenden ist Bestandteil von Unitex.<br />

20/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Erkennen von Wörtern<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Unitex n<strong>im</strong>mt alle Wörter <strong>aus</strong> Text in Liste auf.<br />

Ist aufgrund zuvor durchgeführter Satzendenidentifizierung<br />

leicht.<br />

Wird <strong>für</strong> Finden von Wörter in Wörterbüchern benötigt.<br />

21/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anwenden von Wörterbüchern<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Für jedes Wort <strong>aus</strong> Liste bzw. Text wird Eintrag in<br />

Wörterbüchern gesucht.<br />

Wörterbücher enthalten ungebeugte Wörter und gebeugte.<br />

Klassifizierte Wörter werden später in Graphen verwendet<br />

Beispiel: Wörterbucheintrag<br />

Computerlinguisten,Computerlinguist.N:mp<br />

Flektiertes Nomen (N) ”<br />

Computerlinguisten“ steht in der Form<br />

männlich (m), plural (p).<br />

22/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anwenden von Grammatiken<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Computerlinguist (w/m){S}<br />

Wir suchen ab sofort einen Computerlinguisten (w/m), der uns bei unserem innovativen<br />

<strong>Web</strong>-Projekt shuccle unterstützt.{S} Was genau shuccle <strong>für</strong> ein Projekt ist und welche Ziele wir verfolgen, ist<br />

unter http://www.shuccle.de/ zu erfahren.{S}<br />

Ihre Qualifikation:{S}<br />

- Abgeschlossenes Studium der Computerlinguistik.{S}<br />

- Gute Englischkenntnis ist ein muss.{S}<br />

- Grundlegendes Wissen in <strong>Informationsextraktion</strong> oder fokussiertem <strong>Web</strong>crawling<br />

wäre vorteilhaft.{S}<br />

- Haben Sie Erfahrungen in Unitex?{S} Wenn ja, dann sind Sie unser/e Frau/-<br />

Mann!{S} Wenn nicht, dann werden Sie Unitex bei uns kennen lernen.{S}<br />

Ihre Aufgaben:{S}<br />

- Sie unterstützen . . . <br />

Unser Angebot:<br />

Lernen Sie <strong>die</strong> Zusammenarbeit in einem dynamischen . . . <br />

Bitte bewerben Sie sich bei Herrn Ronny Harbich<br />

unter ronny.harbich@shuccle.de oder unter Tel. 1234567890.{S} Bitte geben Sie bei Ihrer Bewerbung <strong>die</strong> Kennziffer B4785X an.{S}<br />

shuccle AG i.G.{S}<br />

Albert-Einstein-Str. 4{S}<br />

20359 Hamburg{S}<br />

23/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anwenden von Grammatiken<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Siehe Stellenanzeige<br />

24/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anwenden von Grammatiken<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Wörterbuch der Städtenamen kommt <strong>im</strong> Graphen zum<br />

Einsatz.<br />

Siehe Stellenanzeige<br />

25/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anwenden von Grammatiken<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Große Variabilität der Kompetenzphrasen.<br />

Phrasen werden in Wörterbuch aufgenommen und auf formale<br />

Kompetenzen abgebildet.<br />

Zukünftiges, genaues Stu<strong>die</strong>ren der Kompetenzphrasen<br />

notwendig, um passende Grammatiken zu erstellen.<br />

Siehe Stellenanzeige<br />

26/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Markierte Phrasen in Datenbank einfügen<br />

Mit Tags markiertes Dokument wird mittels XML-Parsers<br />

verarbeitet.<br />

Text zwischen Tags wird <strong>aus</strong>gelesen.<br />

Ausgelesene Daten werden über Datenstrukturen in Datenbank<br />

von shuccle eingefügt.<br />

27/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Evaluierung des<br />

<strong>Informationsextraktion</strong>ssystems<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Keine statistische Prüfung von Trefferquote (recall) und<br />

Genauigkeit (precision) vorgenommen.<br />

Konvertierung von HTML- zu-Text-Dokument funktioniert<br />

soweit fehlerfrei; invalider HTML-Code evtl. problematisch.<br />

Markieren struktureller Textbereiche funktioniert gut <strong>für</strong> viele<br />

<strong>Stellenanzeigen</strong>; von Anfangsphrasen abhängig.<br />

Erkennen von Satzenden wird von Unitex <strong>aus</strong>geführt; keine<br />

Fehler festgestellt.<br />

Wörterbücher müssen generell erweitert werden; Städtenamen<br />

aber z. B. schon vollständig.<br />

Gute Ergebnisse bei Grammatiken, <strong>die</strong> z. B. Telefonnummern<br />

oder Kennziffern beschreiben; Kompetenzerkennung dagegen<br />

schlecht.<br />

28/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Evaluierung des<br />

<strong>Informationsextraktion</strong>ssystems<br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

Fazit<br />

<strong>Informationsextraktion</strong>ssystem ist <strong>für</strong> praktischen Einsatz bereits<br />

geeignet. Manuelles prüfen aber notwendig.<br />

29/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Übersicht<br />

1 Einführung<br />

2 Die <strong>Web</strong>anwendung shuccle<br />

Allgemeines zu shuccle<br />

Kompetenz- und Suchprofile<br />

Finden relevanter <strong>Stellenanzeigen</strong><br />

3 <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Anforderungen<br />

Impressen u. <strong>Stellenanzeigen</strong> in Unternehmens-<strong>Web</strong>sites<br />

Umsetzung des <strong>Informationsextraktion</strong>ssystems<br />

Evaluierung des <strong>Informationsextraktion</strong>ssystems<br />

4 Ausblick und Literatur<br />

30/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Ausblick<br />

Nicht nur <strong>Informationsextraktion</strong> <strong>aus</strong> HTML-Dokumente,<br />

sondern z. B. auch <strong>aus</strong> PDFs.<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> Lebensläufe zur automatischen<br />

Erstellung von Benutzerprofilen.<br />

Zusammenarbeit mit Arbeitsgruppe um Prof. Guenthner am<br />

Centrum <strong>für</strong> Informations- und Sprachverarbeitung (CIS) der<br />

Ludwig-Max<strong>im</strong>ilians-Universität München; beschäftigt sich<br />

ebenfalls mit <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong>.<br />

31/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>


Einführung<br />

Die <strong>Web</strong>anwendung shuccle<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong><br />

Ausblick und Literatur<br />

Literatur<br />

Bsiri, Sandra ; Geierhos, Michaela:<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> Internet.<br />

In: LWA’07 Tagungsband (2007), 229–236.<br />

ISBN 978–3–86010–907–6<br />

Ronny Harbich:<br />

<strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong> <strong>für</strong> <strong>die</strong><br />

<strong>Web</strong>anwendung shuccle<br />

Stu<strong>die</strong>narbeit, 2009<br />

32/32 Ronny Harbich <strong>Informationsextraktion</strong> <strong>aus</strong> <strong>Stellenanzeigen</strong> <strong>im</strong> <strong>Web</strong>

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!