Pour tester les hypothèses avancées par la linguistique cognitive, il n’y a pas d’instrument plus efficace que le corpus. L’échantillonnage représentatif (Laplace 1814) est une technique qui permet d’examiner des corpus plus réduits, et ainsi plus abordables, et d’en généraliser les résultats à un cadre d’échantillonnage plus large. Or, un échantillon n’est pas pertinent à une hypothèse s’il n’est pas tiré d’un cadre d’échantillonnage qui soit lui-même pertinent à l’hypothèse.Dans mon projet doctoral (Grieve-Smith 2009) j’ai employé le corpus FRANTEXT (CNRTL 2018) pour tester l’hypothèse selon laquelle l’extension analogique d’une construction dépend de sa fréquence de type (Bybee 1995). J’ai comparé les textes théâtraux dans FRANTEXT pour les années 1800-1815 avec un nouveau Corpus de la Scène Parisienne, un échantillon tiré du catalogue de Wicks (1950 et seq.). Dans ce nouveau corpus, les négations de phrase déclarative se forment avec ne … pas dans 73,9 % des instances, tandis que dans FRANTEXT elles ne se forment avec ne … pas que dans 50,5 % des occurrences, une différence qui montre un biais en faveur de la langue littéraire dans FRANTEXT. Pour une évaluation adéquate des théories basées sur l’usage concernant le changement linguistique, il faudra un corpus contenant des textes représentatifs de la langue sur un siècle au minimum.