Overview
Fachportal der Sprach- und Literaturwissenschaften in der Schweiz

Corpora

Schweizer Textkorpus

Das Schweizer Textkorpus ist ein ausgewogenes Referenzkorpus für die deutsche Standardsprache des 20. Jahrhunderts in der Schweiz in der Grösse von 20 Millionen Textwörtern.

Zum Schweizer Textkorpus

SwissCorpora

Das Ziel des SwissCorpora-Projekts ist es, die juristische Situation hinsichtlich der Benutzung von Internetkorpora zu klären und dauerhafte Empfehlungen in Bezug auf Aufbau, gemeinsame Nutzung und Gebrauch von elektronischen Sprachdaten (Korpora) auszuarbeiten.

Webseite SwissCorpora-Projekt

Das Digitale Wörterbuch der Deutschen Sprache (DWDS)

Das Digitale Wörterbuch der deutschen Sprache ist ein Wortauskunftssystem zur deutschen Sprache in Geschichte und Gegenwart. Es umfasst über 410.000 lexikografisch geprüfte Einträge aus fünf Wörterbuchquellen, 1,8 Milliarden Korpusbelege aus 15 Korpora sowie statistische Wortprofile und Wortverlaufskurven.

Zum DWDS

Deutsches Referenzkorpus (DeReKo)

Das Deutsche Referenzkorpus ist die weltweit größte Sammlung deutschsprachiger Korpora als empirische Basis für die linguistische Forschung.

Zum DeReKo/Cosmas II

British National Corpus (BNC)

The British National Corpus (BNC) is a 100 million word collection of samples of written and spoken language from a wide range of sources, designed to represent a wide cross-section of British English from the later part of the 20th century, both spoken and written. The latest edition is the BNC XML Edition, released in 2007.

BNC

Corpus of Contemporary American English (COCA)

The Corpus of Contemporary American English (COCA) is the largest freely-available corpus of English, and the only large and balanced corpus of American English.
The corpus contains more than 450 million words of text and is equally divided among spoken, fiction, popular magazines, newspapers, and academic texts. It includes 20 million words each year from 1990-2012 and the corpus is also updated regularly (the most recent texts are from Summer 2012).

COCA

Corpus of Global Web-Based English (GloWbE)

The Corpus of Global Web-Based English (GloWbE) is composed of 1.9 billion words from 1.8 million web pages in 20 different English-speaking countries. The corpus was created by Mark Davies of Brigham Young University, and it was released in 2013.

GloWbE (pronounced like "globe") is related to other large corpora that we have created, including the 450 million word Corpus of Contemporary American English (COCA) and the 400 million word Corpus of Historical American English (COHA). Together, these three corpora allow researchers to examine variation in English -- by dialect, genre, and over time -- in ways that are not possible with any other large corpora of English.

GloWbE

Corpus of Historical American English (COHA)

The Corpus of Historical American English (COHA) is the largest structured corpus of historical English. The corpus was created by Mark Davies of Brigham Young University.

COHA allows you to quickly and easily search more than 400 million words of text of American English from 1810 to 2009. You can see how words, phrases and grammatical constructions have increased or decreased in frequency, how words have changed meaning over time, and how stylistic changes have taken place in the language.

COHA

Corpus français - Université de Leipzig

Le Corpus français est une base de données composée de près de 37 millions de phrases, soit environ 700 millions de mots. Le corpus, dédié à l'étude du français contemporain écrit, est composé de trois parties:

- Informations tirées de journaux francophones (plus de 19 millions de phrases)
- Pages web (plus de 11 millions de phrases)
- Wikipédia (près de 6 millions de phrases)

Corpus français

Centre National des Ressources Textuelles et Lexicales (CNRTL)

Le CNRTL propose et documente des corpus librement accessibles dont les corpus Frantext libre de droits et DEDE (DEscriptions DEfinies). Progressivement, les données sont converties en TEI et enrichies par des annotations linguistiques. Le CNRTL offre également la possibilité de téléchargement du lexique MORPHALOU (Lexique Morphologique Ouvert du Français) ainsi que l'accès à un ensemble de dictionnaires anciens et modernes.

CNRTL

Corpus Oral de français de Suisse Romande

OFROM est un corpus transcrit orthographiquement dans Praat, développé sous la direction de Mathieu Avanzi, Marie-José Béguelin et Federica Diémoz à l’université de Neuchâtel. Il s’agit du premier corpus abritant uniquement du français parlé en Suisse romande.

Corpus OFROM

Base de données «Naissance de la critique dramatique»

La base de données « Naissance de la critique dramatique » offre près de 1500 extraits de textes du XVIIe siècle évoquant les œuvres théâtrales sous l’angle de la perception que peut en avoir un spectateur, un lecteur, ou tout particulier qui prétend s’en faire l’écho.

Les documents publiés à ce jour offrent la possibilité d’identifier et d’analyser sur un corpus large les supports, les termes, les acteurs, les destinataires et les dates ainsi que les enjeux de ces discours, qui ouvrent à une redéfinition de la critique du théâtre par les spectateurs.

Ce site est l’une des réalisations du projet de recherche « Naissance de la critique dramatique » (dir. Lise Michel et Claude Bourqui) développé avec un financement du Fonds National Suisse de la recherche scientifique à l’Université de Lausanne et à l’Université de Fribourg pour la période 2013-2016.

Site web base de données « Naissance de la critique dramatique »

Slavistische Korpuslinguistik

Auf dieser Seite des Instituts für Slavische Sprachen und Literaturen der Universitäten Bern und Fribourg finden Sie Links zu verschiedenen Korpora. Z.B. den polnischen Nationlkorpus, den kroatischen Nationalkorpus, den tschechischen Nationalkorpus, den slovakischen Nationalkorpus und weitere.

Zur Slavistischen Korpuslinguistik