Preview

Философские проблемы информационных технологий и киберпространства

Расширенный поиск

Метод семантического сравнения нечеткой информации при проверке текстов на наличие плагиата

https://doi.org/10.17726/philIT.2015.10.2.004.89

Аннотация

В статье проанализированы известные системы анализа текстов на наличие плагиата. Предложен новый метод лингвистического анализа, который определяет латентные ассоциативно-семантические зависимости во множестве документов. Данный метод позволяет: частично устранять омонимию, полисемию и синонимию; исправлять слова, написанные с орфографическими и техническими ошибками; учитывать синтаксические отношения, логику построения терм в контексте предметной сферы. Разработанный алгоритм семантического сравнения нечеткой текстовой информации (исходный текст, представленный для проверки на естественном языке в произвольной форме, с вариантами текстов, имеющихся в локальных базах данных, и контентом Интернета) предусматривает автоматическую конвертацию исходного текста на естественном языке к внутрисистемному виду, экстракцию лексических единиц текста с последующим осуществлением морфологического, синтаксического, семантического и прагматического анализа. Применение разработанного алгоритма позволяет устранять ошибки, которые могут быть в исходном тексте (неправильные окончания, нестандартные сокращения и т.д.), определять принадлежность исходного текста к определенной предметной области, выявлять степень семантического сходства исходного текста, формировать общую оценку степени сходства текстов по комплексному показателю. Применение такого подхода будет повышать достоверность и обоснованность вывода о наличии плагиата в документах.

Об авторах

О. И. Комарницкая
Национальная академия Государственной пограничной службы Украины
Россия


И. И. Комарницкая
Национальная академия Государственной пограничной службы Украины
Россия


Список литературы

1. Шостак И.В., Груздо И.В. Компьютеризация процесса выявления плагиата в студенческих работах // Сборник научных трудов Военного института Киевского национального университета имени Тараса Шевченко. Киев, 2013. Вып. 41. - С. 99-109

2. Лупаренко Л.А. Данные сравнительного анализа инструментов поиска текстового плагиата (сравнительные таблицы) // Информационные технологии и средства обучения. 2014. Т. 40. № 2

3. Шарапов Р.В., Шарапова Е.В. Система проверки текстов на заимствования из других источников // Труды 13-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». - RCDL’2011, Воронеж, Россия, 2011. - С. 121-126

4. Резанова З.И., Романов А.С., Мещеряков Р.В. О выборе признаков текста, релевантных в автороведческой экспертной деятельности // Вестник Томского государственного университета. Филология. 2013. № 6(26). - С. 38-52

5. Ширяев М.А., Мустакимов В. Plagiatinform избавит от плагиата в научных работах // Educational Technology & Society. 2008. № 11(1). - С. 367-374. (

6. Неелова Н.В., Сычугов А.А. Сравнение результатов детектирования дублей методом шинглов и методом Джаккарда // Вестник РГРТУ. 2010. № 4. Вып. 34). - С. 72-78

7. Дягилев В.В., Цхай А.А., Бутаков С.В. Архитектура сервиса определения плагиата, исключающая возможность нарушения авторских прав // Вестник НГУ. Серия: Информационные технологии. Барнаул, 2011. Том 9. Вып. 3. - С. 26-29

8. Шахрай С.М., Аристер Н.И., Тедеев О.О. О плагиате в произведениях науки (диссертациях на соискание ученой степени): научно-методическое пособие. М.: МИИ, 2014. - 176 с

9. Broder A. On the resemblance and containment of documents // Compression and Complexity of Sequences (SEQUENCES’97). IEEE Computer Society, 1998. - P. 21-29. 10. Большой толковый словарь современного украинского языка. Киев: Ирпень; ВТФ «Перун», 2005. - С. 977

10. Stein B., Koppel M. Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection PAN’07 (англ.) // ACM SIGIR Forum. 2011. - Р. 68-71.

11. Мартыненко Г.Я. Основы стилеметрии. Л.: Изд-во ЛГУ, 1988. - 176 с.

12. Комарницкая О.И. Совершенствование алгоритма латентно-семантического анализа нечеткой текстовой информации // Современный научный вестник. 2014. № 29(225). Серия: Филологические науки. Белгород: Руснаучкнига, 2014. - С. 58-62

13. Катеринчук И.С., Кулик В.Н., Комарницкая О.И. Интеллектуальная автоматизированная система контроля знаний: лингвистическая подсистема // Информационные технологии в образовании: сборник научных трудов. Вып. 7. Херсон: Изд-во ХГУ, 2010. - С. 33-39


Рецензия

Для цитирования:


Комарницкая О.И., Комарницкая И.И. Метод семантического сравнения нечеткой информации при проверке текстов на наличие плагиата. Философские проблемы информационных технологий и киберпространства. 2015;(2):127-139. https://doi.org/10.17726/philIT.2015.10.2.004.89

For citation:


Komarnitskaya O.I., Komarnitskaya I.I. METHOD OF THE SEMANTIC COMPARISON OF FUZZY INFORMATION ON TEXT PLAGIARISM. Philosophical Problems of IT & Cyberspace (PhilIT&C). 2015;(2):127-139. (In Russ.) https://doi.org/10.17726/philIT.2015.10.2.004.89

Просмотров: 132


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2305-3763 (Online)