Обработка естественного языка — это область лингвистики, компьютерных наук и искусственного интеллекта, связанная с взаимодействием компьютеров и человеческого языка, в частности с тем, как программировать компьютеры для обработки и анализа больших объемов данных естественного языка. Википедия

Обработка естественного языка объясняет, что в НЛП машины учат читать и интерпретировать текст так же, как это делают люди. NLP признано «приложением для анализа текста и распознавания речи». Эта человеческая способность интерпретировать текст пригодится для анализа больших объемов текстовых данных. Технология может точно извлекать информацию и идеи, содержащиеся в документах, а также классифицировать и организовывать сами документы.

В сегодняшней статье мы поговорим о пяти проектах НЛП, которые помогут улучшить ваши навыки в области науки о данных и обработки изображений.

Примечание. В этой статье мы поговорим о некоторых не очень удачных, но действительно хороших проектах НЛП с открытым исходным кодом, которые вы можете использовать в своих проектах. Чтобы узнать больше о каждом из них, я рекомендую перейти по ссылке, указанной в проекте.

Бонус

Наборы данных. Крупнейший центр готовых к использованию наборов данных НЛП для моделей машинного обучения с быстрыми, простыми в использовании и эффективными инструментами обработки данных.

Репозиторий Github

Документация

Обучение — это не только повышение компетентности в своей работе. Это гораздо больше. Datacamp позволяет мне учиться без ограничений.

Datacampпредоставляет вам гибкость, необходимую для прохождения курсов в свободное время и изучения основных навыков, необходимых для перехода к успешной карьере.

Datacamp научил меня быстро улавливать новые идеи и применять их к реальным проблемам. Пока я был на этапе обучения, Datacamp зацепил меня всем, что происходит на курсах, от содержания курсов и отзывов ассистентов до встреч и твитов профессора.

Вот некоторые из моих любимых курсов, которые я настоятельно рекомендую вам изучать, когда это соответствует вашему графику и настроению. Вы можете напрямую применить концепции и навыки, полученные на этих курсах, в новом увлекательном проекте на работе или в университете.

  1. Data-scientist-with-python
  2. Data-scientist-with-r
  3. Ученый-машинное обучение-с-r
  4. Ученый-машинное обучение-с-питоном
  5. Машинное обучение для всех
  6. Наука о данных для всех
  7. Data-engineer-with-python
  8. Дата-аналитик-с-питоном
  9. Основы больших данных через pyspark

Возвращаясь к теме —

1. Берт как сервис

Гитхаб

Официальная документация

Медведь как сервис — это сервис кодирования предложений для преобразования предложения переменной длины в вектор фиксированной длины для пользователей Python.

BERT — это модель НЛП, разработанная Google для предобучения языковых представлений. Он использует огромное количество открытых текстовых данных, общедоступных в Интернете, и обучается без присмотра. Предварительное обучение модели BERT — довольно дорогая, но Процедура для каждого языка. К счастью, Google выпустил несколько предварительно обученных моделей, где можно скачать отсюда.

Кодирование/внедрение предложений – это основная задача, необходимая во многих приложениях NLP, например, анализ тональности, классификация текста. Цель состоит в том, чтобы представить предложение переменной длины в векторе фиксированной длины, например. hello world до [0.1, 0.3, 0.9]. Каждый элемент вектора должен кодировать некоторую семантику исходного предложения.

Наконец, bert-as-service использует BERT в качестве кодировщика предложений и размещает его как службу через ZeroMQ, что позволяет отображать предложения в представления фиксированной длины всего за две строки кода.

Что делает его особенным?

  • современный
  • прост в использовании
  • быстро
  • масштабируемый
  • надежно

2. Текстовый блок

Гитхаб

Официальная документация

Textblobэто библиотека Python (2 и 3) для обработки текстовых данных. Он предоставляет простой API для погружения в общие задачи обработки естественного языка (NLP).

Простая Pythonic-библиотека обработки текста «Textblob» известна тем, что:

  • Анализ настроений
  • пометка частей речи
  • извлечение словосочетаний
  • перевод
  • и многое другое.

TextBlob стоит на гигантских плечах NLTK и pattern и прекрасно сочетается с ними обоими.

Особенности, которые он предлагает:

  • Извлечение словосочетаний
  • Пометка частей речи
  • Анализ настроений
  • Классификация (наивный байесовский анализ, дерево решений)
  • Токенизация (разделение текста на слова и предложения)
  • Частоты слов и фраз
  • Анализ
  • n граммов
  • Склонение слова (множественное и единственное число) и лемматизация
  • Правописание
  • Добавить новые модели или языки с помощью расширений
  • Интеграция с WordNet

3. Шифей

Гитхаб

Cipheyэто библиотека, которая автоматически расшифровывает шифрование без знания ключа или шифра, декодирует кодировки, и взламывает хэши.

Это полностью автоматизированный инструмент дешифрования/декодирования/взлома, в котором вы вводите зашифрованный текст и получаете расшифрованный текст обратно с помощью обработки естественного языка и искусственного интеллекта, а также здравого смысла.

Может возникнуть вопрос Какой тип шифрования?

В этом-то и дело. Вы не знаете, вы просто знаете, что он, возможно, зашифрован. Ciphey все сделает за вас. Ciphey может решить большинство проблем за 3 секунды или меньше.

Ciphey призван стать инструментом для автоматизации большого количества операций расшифровки и декодирования, таких как множественное базовое кодирование , классические шифры, хэши или более совершенная криптография.

Если вы мало что знаете о криптографии или хотите быстро проверить зашифрованный текст, прежде чем работать над ним самостоятельно, Ciphey для вас.

Почему Сифи?

  • 50+ шифровок/кодировок
  • Специально созданный искусственный интеллект с расширенным поиском (AuSearch) для ответа на вопрос «какое шифрование использовалось?»
  • Собственный модуль обработки естественного языка
  • Многоязычная поддержка
  • Поддерживает шифрование и хеширование

4. Доккано

Гитхаб

Официальная документация

Doccano – это инструмент для создания текстовых аннотаций с открытым исходным кодом, предназначенный для специалистов по машинному обучению.

Он предоставляет функции аннотаций для классификации текста, маркировки последовательностей и последовательностей задач. Таким образом, вы можете создавать размеченные данные. дляанализа тональности, распознавания именованных сущностей, суммирования текста и т. д.. Просто создайте проект, загрузите данные и начните комментировать. Вы можете создать набор данных за несколько часов.

Функции

  • Совместная аннотация
  • Многоязычная поддержка
  • Мобильная поддержка
  • Поддержка эмодзи
  • Темная тема
  • RESTful API

5. Ленивое НЛП

Гитхаб

LazyNLP — это библиотека с открытым исходным кодом для очистки и очистки веб-страниц для создания массивных наборов данных.

Простая библиотека, которая позволяет вам сканировать, очищать и дедуплицировать веб-страницы для создания массивных одноязычных наборов данных. Используя эту библиотеку, вы сможете создавать наборы данных большего размера, чем тот, который используется OpenAI для GPT-2.

Эта библиотека использует Python 3 и использует URL-адреса веб-страниц для загрузки набора данных путем очистки.

6. Текст

Гитхаб

Официальная документация

Textractэто библиотека с открытым исходным кодом дляизвлечения текста из любого документа без всякойсуеты и суеты. Этот пакет предоставляет единый интерфейс для извлечения содержимого из файлов любого типа без какой-либо ненужной разметки.

Если вам понравилось читать эту статью, я уверен, что мы разделяем схожие интересы и работаем/будем работать в схожих отраслях. Итак, подключаемся через LinkedIn и Github. Пожалуйста, не стесняйтесь отправить запрос на контакт!