Обработка естественного языка — это область лингвистики, компьютерных наук и искусственного интеллекта, связанная с взаимодействием компьютеров и человеческого языка, в частности с тем, как программировать компьютеры для обработки и анализа больших объемов данных естественного языка. Википедия
Обработка естественного языка объясняет, что в НЛП машины учат читать и интерпретировать текст так же, как это делают люди. NLP признано «приложением для анализа текста и распознавания речи». Эта человеческая способность интерпретировать текст пригодится для анализа больших объемов текстовых данных. Технология может точно извлекать информацию и идеи, содержащиеся в документах, а также классифицировать и организовывать сами документы.
В сегодняшней статье мы поговорим о пяти проектах НЛП, которые помогут улучшить ваши навыки в области науки о данных и обработки изображений.
Примечание. В этой статье мы поговорим о некоторых не очень удачных, но действительно хороших проектах НЛП с открытым исходным кодом, которые вы можете использовать в своих проектах. Чтобы узнать больше о каждом из них, я рекомендую перейти по ссылке, указанной в проекте.
Бонус
Наборы данных. Крупнейший центр готовых к использованию наборов данных НЛП для моделей машинного обучения с быстрыми, простыми в использовании и эффективными инструментами обработки данных.
Обучение — это не только повышение компетентности в своей работе. Это гораздо больше. Datacamp позволяет мне учиться без ограничений.
Datacampпредоставляет вам гибкость, необходимую для прохождения курсов в свободное время и изучения основных навыков, необходимых для перехода к успешной карьере.
Datacamp научил меня быстро улавливать новые идеи и применять их к реальным проблемам. Пока я был на этапе обучения, Datacamp зацепил меня всем, что происходит на курсах, от содержания курсов и отзывов ассистентов до встреч и твитов профессора.
Вот некоторые из моих любимых курсов, которые я настоятельно рекомендую вам изучать, когда это соответствует вашему графику и настроению. Вы можете напрямую применить концепции и навыки, полученные на этих курсах, в новом увлекательном проекте на работе или в университете.
- Data-scientist-with-python
- Data-scientist-with-r
- Ученый-машинное обучение-с-r
- Ученый-машинное обучение-с-питоном
- Машинное обучение для всех
- Наука о данных для всех
- Data-engineer-with-python
- Дата-аналитик-с-питоном
- Основы больших данных через pyspark
Возвращаясь к теме —
1. Берт как сервис
Медведь как сервис — это сервис кодирования предложений для преобразования предложения переменной длины в вектор фиксированной длины для пользователей Python.
BERT — это модель НЛП, разработанная Google для предобучения языковых представлений. Он использует огромное количество открытых текстовых данных, общедоступных в Интернете, и обучается без присмотра. Предварительное обучение модели BERT — довольно дорогая, но Процедура для каждого языка. К счастью, Google выпустил несколько предварительно обученных моделей, где можно скачать отсюда.
Кодирование/внедрение предложений – это основная задача, необходимая во многих приложениях NLP, например, анализ тональности, классификация текста. Цель состоит в том, чтобы представить предложение переменной длины в векторе фиксированной длины, например. hello world
до [0.1, 0.3, 0.9]
. Каждый элемент вектора должен кодировать некоторую семантику исходного предложения.
Наконец, bert-as-service
использует BERT в качестве кодировщика предложений и размещает его как службу через ZeroMQ, что позволяет отображать предложения в представления фиксированной длины всего за две строки кода.
Что делает его особенным?
- современный
- прост в использовании
- быстро
- масштабируемый
- надежно
2. Текстовый блок
Textblobэто библиотека Python (2 и 3) для обработки текстовых данных. Он предоставляет простой API для погружения в общие задачи обработки естественного языка (NLP).
Простая Pythonic-библиотека обработки текста «Textblob» известна тем, что:
- Анализ настроений
- пометка частей речи
- извлечение словосочетаний
- перевод
- и многое другое.
TextBlob стоит на гигантских плечах NLTK и pattern и прекрасно сочетается с ними обоими.
Особенности, которые он предлагает:
- Извлечение словосочетаний
- Пометка частей речи
- Анализ настроений
- Классификация (наивный байесовский анализ, дерево решений)
- Токенизация (разделение текста на слова и предложения)
- Частоты слов и фраз
- Анализ
- n граммов
- Склонение слова (множественное и единственное число) и лемматизация
- Правописание
- Добавить новые модели или языки с помощью расширений
- Интеграция с WordNet
3. Шифей
Cipheyэто библиотека, которая автоматически расшифровывает шифрование без знания ключа или шифра, декодирует кодировки, и взламывает хэши.
Это полностью автоматизированный инструмент дешифрования/декодирования/взлома, в котором вы вводите зашифрованный текст и получаете расшифрованный текст обратно с помощью обработки естественного языка и искусственного интеллекта, а также здравого смысла.
Может возникнуть вопрос Какой тип шифрования?
В этом-то и дело. Вы не знаете, вы просто знаете, что он, возможно, зашифрован. Ciphey все сделает за вас. Ciphey может решить большинство проблем за 3 секунды или меньше.
Ciphey призван стать инструментом для автоматизации большого количества операций расшифровки и декодирования, таких как множественное базовое кодирование , классические шифры, хэши или более совершенная криптография.
Если вы мало что знаете о криптографии или хотите быстро проверить зашифрованный текст, прежде чем работать над ним самостоятельно, Ciphey для вас.
Почему Сифи?
- 50+ шифровок/кодировок
- Специально созданный искусственный интеллект с расширенным поиском (AuSearch) для ответа на вопрос «какое шифрование использовалось?»
- Собственный модуль обработки естественного языка
- Многоязычная поддержка
- Поддерживает шифрование и хеширование
4. Доккано
Doccano – это инструмент для создания текстовых аннотаций с открытым исходным кодом, предназначенный для специалистов по машинному обучению.
Он предоставляет функции аннотаций для классификации текста, маркировки последовательностей и последовательностей задач. Таким образом, вы можете создавать размеченные данные. дляанализа тональности, распознавания именованных сущностей, суммирования текста и т. д.. Просто создайте проект, загрузите данные и начните комментировать. Вы можете создать набор данных за несколько часов.
Функции
- Совместная аннотация
- Многоязычная поддержка
- Мобильная поддержка
- Поддержка эмодзи
- Темная тема
- RESTful API
5. Ленивое НЛП
LazyNLP — это библиотека с открытым исходным кодом для очистки и очистки веб-страниц для создания массивных наборов данных.
Простая библиотека, которая позволяет вам сканировать, очищать и дедуплицировать веб-страницы для создания массивных одноязычных наборов данных. Используя эту библиотеку, вы сможете создавать наборы данных большего размера, чем тот, который используется OpenAI для GPT-2.
Эта библиотека использует Python 3 и использует URL-адреса веб-страниц для загрузки набора данных путем очистки.
6. Текст
Textractэто библиотека с открытым исходным кодом дляизвлечения текста из любого документа без всякойсуеты и суеты. Этот пакет предоставляет единый интерфейс для извлечения содержимого из файлов любого типа без какой-либо ненужной разметки.
Если вам понравилось читать эту статью, я уверен, что мы разделяем схожие интересы и работаем/будем работать в схожих отраслях. Итак, подключаемся через LinkedIn и Github. Пожалуйста, не стесняйтесь отправить запрос на контакт!