Почему трансформеры не мыслят, как люди?
https://doi.org/10.17726/philIT.2024.2.6
Аннотация
Большие языковые модели в виде чат-ботов очень правдоподобно имитируют диалог как всезнающий собеседник и поэтому получили широкое распространение. Но даже в чат-боте Google Gemini не советуют доверять тому, что напишет чат-бот, и просят проверять его ответы. В данном обзоре будут проанализированы различные типы ошибок LLM, такие как проклятие инверсии, обработка чисел и др., чтобы выявить их причины. Такой анализ привел к выводу об общих причинах ошибок, заключающихся в том, что трансформеры не обладают глубокой аналогией, абстракцией и избирательностью контента, учитываемого в вычислении ответа (inference). Но наиболее важным выводом является то, что трансформеры, как и другие нейросети, построены по концепции обработки входного сигнала, что создает сильную зависимость от нерелевантной информации, которую не может компенсировать слой внимания трансформера. Концепция нейросетей была заложена в 1950-х идеей перцептрона Ф. Розенблата и не учитывала тех достижений когнитивной психологии, которые появились позже. Согласно же конструктивистской парадигме, входной слой (или перцепция) является только способом проверки правильности сконструированной предиктивной модели для возможных ситуаций. Это же служит причиной самой большой проблемы трансформеров, называемой галлюцинациями. И устранение ее возможно только при изменении архитектуры нейросети, а не за счет большего количества данных в обучении.
Ключевые слова
Список литературы
1. Robison K. OpenAI cofounder Ilya Sutskever says the way AI is built is about to change // The Verge, Dec 14, 2024. https://www.theverge.com/2024/12/13/24320811/what-ilya-sutskever-sees-openai-model-datatraining.
2. Найссер У. Познание и реальность. М.: Прогресс, 1981. С. 42-43. 230 с.
3. Mitchell M. How do we know how smart ai systems are? // Science, 381(6654). https://www.science.org/doi/10.1126/science.adj5957.
4. Nezhurina M. Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models. https://arxiv.org/html/2406.02061v1#bib.bib12, 04 Jun 2024.
5. Лурия А. Р. Основы нейропсихологии: учеб. пособие. М.:Издательский центр «Академия», 2003. 384 с., с. 123-126. (
6. Berglund L. and etc. The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”. https://arxiv.org/abs/2309.12288, 26 May 2024.
7. Hagag B. Discover What Every Neuron in the Llama Model Does // Towards Data Science. https://towardsdatascience.com/-0927524e4807, Oct 25, 2024.
8. Хомяков А. Б., Чижик П. Новый способ нахождения аналогов как возможность исследования языка, мышления и построения систем искусственного интеллекта // Философские проблемы информационных технологий и киберпространства. 2024. № 1. С. 77-88. https://doi.org/10.17726/philIT.2024.1.5.
9. De La Cruz R. Frank Rosenblatt’s Perceptron, Birth of The Neural Network // Medium. https://medium.com/@robdelacruz/frank-rosenblattsperceptron-19fcce9d627f, 1 November 2023.
10. Tiehen J. Perception as controlled hallucination // ResearchGate.org. https://www.researchgate.net/publication/359601789_Perception_as_controlled_hallucination march 2022.
11. Хоффман Д. Как нас обманывают органы чувств. М.: АСТ, 2022.
Рецензия
Для цитирования:
Хомяков А.Б. Почему трансформеры не мыслят, как люди? Философские проблемы информационных технологий и киберпространства. 2024;(2):87-98. https://doi.org/10.17726/philIT.2024.2.6
For citation:
Khomyakov A.B. Why don’t transformers think like humans? Philosophical Problems of IT & Cyberspace (PhilIT&C). 2024;(2):87-98. (In Russ.) https://doi.org/10.17726/philIT.2024.2.6