Jibba Jabba
There must be some signal in all that noise…
Natural Language Text Classifier
This is a demonstration of a Natural Language Processing (NLP) algorithm to determine the natural language (English, French, etc) that a document is written in.
I leaned of this algorithm from Louis Monier, who said he originally used this in AltaVista. The algorithm seems to be ~90% accurate with 100 or more characters of text, and is no more accurate after ~2000 characters. It's currently limited to 11 common European languages, but could be trained to identify more.
To try the code, either enter a URL or the text of a document below and click 'Submit'.
Test Links for known languages:
en
nl
fr
de
it
pt
es
Test Links for unknown languages:
pl
ru
ja
Input
Wikipedia, l'enciclopedia libera Pagina principale Da Wikipedia, l'enciclopedia libera. Vai a: Navigazione, cerca Benvenuti su Wikipedia l'enciclopedia libera con 724.285 voci in italiano FAQ · Citare Wikipedia · Donazioni · Not Italian? it-0? Click here Cosa posso fare? - modifica Esplorare l'enciclopedia (portali) Collaborare al progetto (progetti) Cerca tra le voci - modifica Comunità - modifica Vuoi partecipare? Registrati, leggi le linee guida e rispetta la wikiquette Vuoi provare? Modifica questa pagina di prova o leggi come scrivere una voce Serve aiuto? Cerca nelle istruzioni o, se non trovi chiarimenti, chiedi allo sportello informazioni Se vuoi, scrivi cosa pensi di Wikipedia Per domande, osservazioni o comunicazioni generali su it.wiki, scrivi al Bar L'indirizzo ufficiale di Wikipedia in italiano è it.wikipedia.org Sommario Scienze matematiche, fisiche e naturali Arte · Letteratura · Arti visive e performative Scienze umane e sociali · Attività umane Società · Costume · Persone Tecnologia e scienze applicate Indice alfabetico e alternativo (Aa - Zz) Novità segnala una novità - modifica Ultime notizie: it.wiki supera le 720.000 voci il Wikipediano: riassunto delle novità in it.wiki Voci nuove in evidenza: Adriano Bausola · Diopoldo di Acerra · Lasco Lascondor · Sistema bismarckiano Da tradurre questa settimana: Gomito del tennista da en:Tennis elbow e Diritti degli indigeni da en:Indigenous rights Sono nati i nuovi portali su: Leonardo da Vinci • Gatti • Cani • Anfibi • Agro nocerino sarnese Vetrina - modifica Heroes è una serie televisiva serializzata di fantascienza prodotta dalla NBC Universal in collaborazione con la Taiwild Productions e girata prevalentemente a Los Angeles, in California. Negli Stati Uniti, paese di origine della serie, è stata trasmessa sul canale televisivo NBC a partire dal 25 settembre 2006, mentre in Italia è approdata il 2 settembre 2007 su Italia 1. Da gennaio 2008 è andata in onda anche su Steel di Premium Gallery, dove è stata trasmessa in p...
Output
The natural language is not en, with margin of confidence 0.035. (Took 23.000 milliseconds.)
The natural language is it, with confidence 0.185. (Took 16.975 milliseconds.)
Note: Natural languages known about are (it, fr, de, sv, fi, es, pt, el, da, nl, en) and confidence ranges from 0.0 to 1.0.