Jibba Jabba
There must be some signal in all that noise…
Natural Language Text Classifier
This is a demonstration of a Natural Language Processing (NLP) algorithm to determine the natural language (English, French, etc) that a document is written in.
I leaned of this algorithm from Louis Monier, who said he originally used this in AltaVista. The algorithm seems to be ~90% accurate with 100 or more characters of text, and is no more accurate after ~2000 characters. It's currently limited to 11 common European languages, but could be trained to identify more.
To try the code, either enter a URL or the text of a document below and click 'Submit'.
Test Links for known languages:
en
nl
fr
de
it
pt
es
Test Links for unknown languages:
pl
ru
ja
Input
Википедия — свободная энциклопедия Заглавная страница Материал из Википедии — свободной энциклопедии Стабильная версия была проверена 2 сентября 2010. Имеются непроверенные изменения в шаблонах или файлах. Перейти к: навигация, поиск Добро пожаловать в Википедию, свободную энциклопедию, которую может редактировать каждый. Сейчас в Википедии 583 131 статья на русском языке. География Искусство История Музыка Наука Общество Персоналии Религия Спорт Техника Философия Все порталы Как создать статью (вводный курс) Справка Система рубрикации Пресса о Википедии Избранная статья Т-28 — трёхбашенный советский средний танк межвоенного периода. Разработан в 1930—1932 годах инженерами танко-тракторного конструкторского бюро ВОАО под общим руководством С. А. Гинзбурга. Т-28 является первым в СССР средним танком, запущенным в массовое производство. В период с 1933 по 1940 год ленинградским Кировским заводом было выпущено 503 экземпляра Т-28. Т-28 представлял собой трёхбашенный средний танк классической компоновки, с пушечно-пулемётным вооружением и противопульным бронированием, и предназначался для поддержки пе...
Output
The natural language is not en, with margin of confidence 0.500. (Took 2.355 milliseconds.)
The natural language is it, with confidence 0.000. (Took 14.672 milliseconds.)
Note: Natural languages known about are (it, fr, de, sv, fi, es, pt, el, da, nl, en) and confidence ranges from 0.0 to 1.0.