Jibba Jabba
There must be some signal in all that noise…
Natural Language Text Classifier
This is a demonstration of a Natural Language Processing (NLP) algorithm to determine the natural language (English, French, etc) that a document is written in.
I leaned of this algorithm from Louis Monier, who said he originally used this in AltaVista. The algorithm seems to be ~90% accurate with 100 or more characters of text, and is no more accurate after ~2000 characters. It's currently limited to 11 common European languages, but could be trained to identify more.
To try the code, either enter a URL or the text of a document below and click 'Submit'.
Test Links for known languages:
en
nl
fr
de
it
pt
es
Test Links for unknown languages:
pl
ru
ja
Input
Wikipedia, la enciclopedia libre Wikipedia:Portada De Wikipedia, la enciclopedia libre Saltar a navegación, búsqueda Bienvenidos a Wikipedia, la enciclopedia de contenido libre que todos pueden editar. Acceso seguro Acceso WAP (alternativo) Contacto Donaciones Libro de visitas 00:16 UTC – jueves, 9 de septiembre de 2010. 644.064 artículos en español. Participación y comunidad ¿Cómo colaborar? Bienvenida Primeros pasos Tutorial Contenidos de ayuda Café Preguntas frecuentes Los cinco pilares Búsquedas y consultas Índice de categorías Todas las categorías Índice alfabético Todos los artículos Portales temáticos Explorar Wikipedia Artículo destacado Los Poemas sinfónicos son una serie de trece obras orquestales del compositor húngaro Franz Liszt y que están numerados como S.95–107 en el catálogo de Humphrey Searle. Los primeros doce fueron compuestos entre 1848 y 1858, aunque parte del material usado fue ideado con anterioridad; y el último, Von der Wiege bis zum Grabe («De la cuna a la tumba»), después de 1882. Estas obras ayudaron a establecer el género de la música programática orquestal (composiciones escritas para ilustrar proyectos extramusicales derivados de una obra teatral, un poema, una pintura u obras de la naturaleza). Sirvieron de inspiración para los poemas sinfónicos de Bedřich Smetana, Antonín Dvořák y Richard Strauss, entre otros. La intención de Liszt para estas obras con un único movimiento, según el musicólogo Hugh MacDonald, fue «mostrar la lógica tradicional del pensamiento sinfónico». En otras palabras, el compositor quería que estas obras mostraran una complejidad en la interacción de sus temas similar a la que habitualmente está reservada para el movimiento de apertura en la sinfonía tradicional; esta sección principal era considerada normalmente como la más importante en el conjunto más amplio de la sinfonía, en términos de logros académicos y de arquitectura musical. Al mismo tiempo, quería incorporar la capacidad de la ...
Output
The natural language is not en, with margin of confidence 0.115. (Took 10.422 milliseconds.)
The natural language is es, with confidence 0.111. (Took 24.450 milliseconds.)
Note: Natural languages known about are (it, fr, de, sv, fi, es, pt, el, da, nl, en) and confidence ranges from 0.0 to 1.0.