Proseminar "Suchmaschinen" SS 2012
Dr. Klaus Berberich, Dr. Martin Theobald
Inhalt
Im Rahmen dieses Proseminars beschäftigen wir uns mit der Funktionsweise moderner Suchmaschinen wie Google oder Bing. Wir werden u.a. folgenden Fragen nachgehen:
- Welche Faktoren beeinflussen die Suchergebnisse?
- Wie können Anfragen in Sekundenschnelle beantwortet werden?
- Was wissen Suchmaschinen über ihre Benutzer?
Die Vortragsthemen basieren auf englischsprachigen Forschungsartikeln, welche in wissenschaftlichen Konferenzen wie WWW, CIKM, WSDM oder SIGIR erschienen sind.
Organisation
- Wöchentlich am Donnerstag 14:15-15:45 Uhr im Raum 023 des Gebäudes E1.4 (MPII)
- Anmeldung zum Proseminar erst nach dem Kick-Off am 19.04.2012 möglich
Kriterien zur Scheinvergabe
- Regelmäßige Teilnahme und aktive Mitarbeit am Proseminar. Bei Krankheit bitte vorab per E-Mail abmelden.
- Vortrag von 40-45 Minuten in Deutsch oder Englisch. Im Anschluss 10-15 Minuten Diskussion.
- Moderation des Vortrags eines anderen Teilnehmers.
- Bericht von 6-8 Seiten in Deutsch oder Englisch, einzureichen vier Wochen nach dem Vortrag. [Vorlage]
Agenda
-
19.04.2012 (Kick-Off & Registrierung)
-
26.04.2012 (Einführungsvorlesung)
-
03.05.2012 (Benutzerverhalten)
- Ingmar Weber und Carlos Castillo: The demographics of web search, SIGIR 2010, [Paper]
- Vortragender: Christian Wolff / Moderator: Daniel Braun / Tutor: Klaus Berberich
- [Folien] [Bericht]
- Ingmar Weber und Alejandro Jaimes: Who uses web search for what: and how, WSDM 2011 , [Paper]
- Vortragender: Philipp Flotho / Moderator: Daniel Schild / Tutor: Johannes Hoffart
- [Folien] [Bericht]
-
10.05.2012 (Dynamik & Evolution)
- Eytan Adar, Jaime Teevan, Susan T. Dumais und Jonathan L. Elsass: The web changes everything: understanding the dynamics of web content, WSDM 2009, [Paper]
- Vortragender: Christian Schlinkmann / Moderator: Christoph Hirtz / Tutor: Maximilian Dylla
- [Folien] [Bericht]
-
17.05.2012 Christi Himmelfahrt
-
24.05.2012 (Spam)
- Alexandros Ntoulas, Marc Najork, Mark Manasse und Dennis Fetterly: Detecting spam web pages through content analysis, WWW 2006, [Paper]
- Vortragender: Helge Dombrowski / Moderator: Heiko Jenal / Tutor: Klaus Berberich
- [Folien] [Bericht]
- Carlos Castillo, Debora Donato, Aristides Gionis, Vanessa Murdock und Fabrizio Silvestri: Know your neighbors: web spam detection using the web topology, SIGIR 2007, [Paper]
- Vortragender: Daniel Spanier / Moderator: Andreas Busche / Tutor: Stephan Seufert
- [Folien] [Bericht]
-
31.05.2012 (Duplikate)
- Martin Theobald, Jonathan Siddharth und Andreas Paepcke: SpotSigs: Robust and efficient near duplicate detection in large web collections, SIGIR 2008, [Paper]
- Vortragender: Stefan Fey / Moderator: Christian Wolff / Tutor: Martin Theobald
- [Folien] [Bericht]
-
14.06.2012 (Crawler)
- Hsin-Tsang Lee, Derek Leonard, Xiaoming Wang und Dmitri Loguinov: IRLbot: scaling to 6 billion pages and beyond, WWW 2008, [Paper]
- Vortragender: Oliver Schranz / Moderator: Philipp Flotho / Tutor: Tom Crecelius
- [Folien] [Bericht]
- Christopher Olston und Sandeep Pandey: Recrawl scheduling based on information longevity, WWW 2008, [Paper]
- Vortragender: David Waldeck / Moderator: Christian Schlinkmann / Tutor: Martin Theobald
- [Folien] [Bericht]
-
21.06.2012 (Indexierung)
- Stefan Büttcher, Charles L. A. Clarke und Brad Lushman: Hybrid index maintenance for growing text collections, SIGIR 2006, [Paper]
- Vortragender: Johannes Lahann / Moderator: Helge Dombrowski / Tutor: Martin Theobald
- [Folien] [Bericht]
- Nicholas Lester, Alistair Moffat und Justin Zobel: Fast on-line index construction by geometric partitioning, CIKM 2005, [Paper]
- Vortragende: Lisa Detzler / Moderator: Daniel Spanier / Tutor: Klaus Berberich
- [Folien] [Bericht]
-
28.06.2012 (Anfragebearbeitung)
- Andrei Z. Broder and David Carmel and Michael Herscovici and Aya Soffer and Jason Y. Zien: Efficient query evaluation using a two-level retrieval process, CIKM 2003, [Paper]
- Vortragender: Curd Becker / Moderator: Stefan Fey / Tutor: Martin Theobald
- [Folien] [Bericht]
-
05.07.2012 (Personalisierung)
- Qiaozhu Mei und Kenneth Ward Church: Entropy of search logs: how hard is search? with personalization? with backoff?, WSDM 2008, [Paper]
- Vortragender: Daniel Braun / Moderator: Oliver Schranz / Tutor: Klaus Berberich
- [Folien] [Bericht]
- Nicolaas Matthijs und Filip Radlinski: Personalizing web search using long term browsing history, WSDM 2011, [Paper]
- Vortragender: Daniel Schild / Moderator: David Waldeck / Tutor: Martin Theobald
- [Folien] [Bericht]
-
12.07.2012 (Diversifizierung)
- Rodrygo L. T. Santos, Craig Macdonald und Iadh Ounis: Selectively diversifying web search results, CIKM 2010, [Paper]
- Vortragender: Christoph Hirtz / Moderator: Johannes Lahann / Tutor: Martin Theobald
- [Folien] [Bericht]
-
19.07.2012 (Verticals)
- Arnd Christian König, Michael Gamon und Qiang Wu: Click-through prediction for news queries, SIGIR 2009, [Paper]
- Vortragender: Heiko Jenal / Moderatorin: Lisa Detzler / Tutor: Klaus Berberich
- [Folien] [Bericht]
-
26.07.2012 (Evaluation)
- Mark Sanderson, Monica Lestari Paramita, Paul Clough und Evangelos Kanoulas: Do user preferences and evaluation measures line up?, SIGIR 2010, [Paper]
- Vortragender: Andreas Busche / Moderator: Curd Becker / Tutor: Klaus Berberich
- [Folien] [Bericht]
Literatur
- W. B. Croft, D. Metzler und T. Strohman: Search Engines - Information Retrieval in Practice, Pearson Education, 2010. [Website]
- C. D. Manning, P. Raghavan und H. Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008. [Website]
- R. Baeza-Yates und B. Ribeiro-Neto: Modern Information Retrieval, Addison Wesley, 2011. [Website]
- J. Zobel und A. Moffat: Inverted files for text search engines, ACM Comput. Surv. 38(2), 2006. [Paper]
- S. Brin und L. Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine, Computer Networks 30(1-7), 1998. [Paper]
- A. Arasu, J. Cho, H. Garcia-Molina, A. Paepcke und S. Raghavan: Searching the Web, ACM TOIT 1(1), 2001. [Paper]
- J. Dean: Challenges in Building Large-Scale Information Retrieval Systems, WSDM 2009. [Folien]