Как наш ИИ понимает немецкое налоговое законодательство — часть вторая

Управление знаниями является важной темой для всех налоговых консалтинговых и аудиторских фирм. Подсчитано, что налоговые органы ежегодно тратят миллионы часов работы на исследования, проводимые традиционным способом. Специалисты по налогам должны понимать, обрабатывать и запоминать огромное количество постоянно меняющейся информации. И хотя это может показаться не так при первом взгляде на юридические тексты и административные инструкции, эта работа основана на анализе естественного языка.

Машинное обучение и НЛП как инструменты для интеллектуального понимания текста

Именно здесь вступают в действие методы обработки естественного языка (NLP), с помощью которых алгоритм обучается читать и понимать текст. НЛП использует не статический набор методов, а набор постоянно развивающихся подходов. При этом методы машинного обучения используются для постоянного повышения точности попаданий.

И что это на самом деле означает? Небольшой выбор методов обработки естественного языка

Поскольку искусственный интеллект и машинное обучение становятся все более и более популярными модными словечками, которые часто используются для описания процедур, несколько не связанных с ИИ, в этой статье мы хотели бы дать краткий, не исчерпывающий обзор некоторых методов НЛП. мы используем в Taxy.io.

Семантический сетевой анализ

Рассматривая обширную основную и дополнительную литературу по налоговому праву, первым шагом является изучение того, какие параграфы литературы и смежные области связаны между собой, например, перекрестными ссылками. За этим подходом стоят процедуры, основанные на правилах, плюс — и здесь в дело вступает искусственный интеллект — машинное обучение, поэтому алгоритм распознает, что имеется в виду, даже в случае, например, орфографических ошибок.

Далее мы можем рассчитать важность ссылок. Обращая внимание на немецкое налоговое право, можно заметить, что в литературе «Abgabenordnung» (AO; Налоговый кодекс) имеет особое значение. Поскольку это так называемый основной закон о налогах, это понимание очевидно с первого взгляда. При более подробном рассмотрении контекста сетевого анализа для «Abgabenordnung» бросается в глаза, что, в частности, § 370 AO упоминается очень часто; данная статья посвящена теме уклонения от уплаты налогов.

Если вы хотите узнать больше о результатах нашего сетевого анализа, обратитесь к статье наших соучредителей Даниэля Кирха и Свена Вебера.

Классификация текстов

Переходя от наблюдения за сетью к конкретным текстам, классификация текстов, среди прочего, играет важную роль в обработке естественного языка. Тексты относятся к определенным категориям, например, электронные письма могут быть классифицированы как спам или не спам, или оценки клиентов как положительные или отрицательные с помощью анализа настроений. Тексты также могут быть отнесены к определенным предметным областям. Применительно к налоговому праву это означает, что наши алгоритмы, специально доработанные с помощью методов обучения с учителем, могут распознавать, какие темы налогового права освещаются в том или ином тексте, и автоматически относить их, например, к предметной области НДС или процессуальное право.

В нашей следующей статье из этой серии мы расскажем, какие еще методы использует наш ИИ для понимания налогового законодательства Германии.