4차 산업 혁명으로 인해 촉발된 산업 전반의 Digital Transformation으로 인공지능 기반 서비스가 보편화되고, 이러한 서비스를 제공하기 위해 필요한 대규모의 연산량을 효율적으로 처리하기위한 인공지능 반도체에 대한 관심이 전세계적으로 늘어나고 있다. 한편, 정보통신기술의 발달로 텍스트 중심의 데이터가 급격하게 증가하면서, 이러한 문서에서 의미 있는 주제를 찾기 위한 텍스트마이닝 관련 연구가 지속되고 있다. 최근까지 LDA 가 가장 일반적으로 활용되는 토픽 모델링 방법론이었으나, 머신 러닝이 토픽모델링에 응용되기 시작하면서, 기존 방법의 단점을 보완하여 정확도를 높이려는 시도들이 이루어지고 있다. 대표적으로 2021년, BERT기반 임베딩 처리와 클래스 기반 TF-IDF등을 활용하여 일관된 토픽을 생성하는 BERTopic 기술이 제안되었는데, 기존 통계기반 토픽모델링 방법론들에 대비하여 높은 주제 일관성과 다양성을 보이는 것으로 확인되었다. 본 논문의 연구 목적은 인공지능 반도체와 관련된 기술 특허와 논문데이터를 객관적인 방법론으로 분석하여 기술 토픽을 제시하고, 이를 바탕으로 인공지능 반도체 산업의 다양한 연구 주체에 시사점을 제공하는 것이다. 이에, 본 연구에서는 기존 토픽 모델링 방법 대비 단점을 개선하여 2021년 제시된 BERTopic을 이용하여 토픽 모델링을 실행하여 인공지능 반도체 관련 연구의 토픽들을 탐색하고자 하였다. 인공지능 반도체 관련 선행연구 및 실무에서 적용되는 기준을 적용하여 인공지능 반도체를 분류해 낼 수 있는 핵심 키워드를 도출하고, 해당 키워드로 WIPSon(특허), Web of Science(논문)를 통해 특허와 논문에 대한 데이터를 추출하였다. 한국,미국,유럽의 특허 2,256건을 모델링하여 총 48개의 토픽이 생성되었고, 상위 10개의 토픽 별 주요 단어를 기반으로 토픽을 도출해내었다. 또한 Web of Science를 통해 검색된 총 1,112개의 논문에 대해 토픽 모델링을 수행하였고, 총 40개의 토픽이 생성되었다. 상위 10개의 토픽별 주요 단어를 기반으로 토픽을 도출해내었다. 본 연구는 그동안 연구되어 오지 않았으나 중요성이 커지고 있는, 인공지능 반도체 산업에 대해 새로운 토픽모델링 방법론을 적용하여 기술 및 연구 동향을 도출해내었다는 점에 있어 학문적 의의를 가진다. 나아가, 이를 통해 인공지능 반도체 산업에서 주로 연구되고 있는 기술적 토픽에 대해 제시하였다는 점에서 실무적 의의를 가진다. 반면 인공지능 반도체 산업의 전체에 대해 거시적으로 접근하였다는 한계를 가지고 있으며, 인공지능 반도체 산업이 성숙해진 시점에 충분한 데이터를 바탕으로 구체적인 기술 별 토픽모델링을 수행한다면 실제 인공지능 반도체에 사용되는 기술 별 트렌드를 도출해 낼 수 있을 것이다.
Artificial intelligence-based services are increasingly widespread as a result of the Fourth Industrial Revolution''s industry-wide digital transformation, and interest in artificial intelligence semiconductors to effectively process the large-scale computation necessary to provide these services is rising globally. In the meantime, research on text mining, which identifies significant subjects in massive data, has continued as information and communication technology has led to a rapid increase in text-oriented data. The most widely used topic modeling methodology up until recently was LDA. However, as topic modeling started to incorporate machine learning, attempts are being made to enhance the limitations of existing approaches and increase accuracy. Representatively, in 2021, BERTopic technology was proposed to generate consistent topics using BERT-based embedding processing and class-based TF-IDF, which was confirmed to show high topic consistency and diversity compared to existing statistical-based topic modeling methodologies.
The purpose of this paper is to present technology topics by analyzing patents and research data related to AI semiconductor industry with objective methodology, and to provide implications to various research subjects in the AI semiconductor industry. To overcome the drawbacks of the current topic modeling method, this study used topic modeling using BERTopic, which was presented in 2021, in an attempt to explore topics of AI semiconductor-related research.
Applying the standards used in prior research and practice pertaining to AI semiconductors, essential keywords for searching related data that can categorize AI Semiconductor were defined, and data on patents and articles was extracted from WIPSon (patent) and Web of Science (Article). A total of 48 topics were generated by modeling 2,256 patents in Korea, the United States, and Europe, and topics were derived based on the main words of the top 10 topics. Furthermore, 1,112 publications that were retrieved from the Web of Science were given, which created 40 topics. And the research topic was derived based on the main words of the top 10 topics.
The use of a novel topic modeling methodology to the AI semiconductor sector, which is growing in importance, has allowed this study to derive technology and research trends. But it has a certain limitation in that it takes a macro approach to the entire AI Semiconductor industry; however, when the industry matures, topic modeling for specific technology with sufficient data, will derive trends for each technology used practically.
그림 차례 ……………………………………………………………………………… iii표 차례 …………………………………………………………………………………… iv국문 요약 ………………………………………………………………………………… v제 1장 서론 ……………………………………………………………………………… 11.1. 연구의 배경 ……………………………………………………………………… 11.2. 연구의 목적 ……………………………………………………………………… 71.3. 연구의 방법 및 범위 …………………………………………………………… 8제 2장 이론적 배경 …………………………………………………………………… 82.1. 인공지능 반도체 개념 및 기술에 관한 선행연구 ………………………… 82.1.1. 인공지능 반도체 개념에 관한 선행연구 ………………………………82.1.2. 인공지능 반도체 기술 트렌드에 관한 선행연구 ………………………102.1.3. 인공지능 반도체 개념 및 기술에 관한 선행연구 결과 ……………122.2. 정량 데이터를 통해 기술 동향을 파악한 선행연구……………………… 142.2.1. 논문데이터를 통해 기술 동향을 파악한 선행연구…………………… 142.2.2. 특허를 통해 기술 동향을 파악한 선행연구…………………………… 152.2.3. 정량 데이터를 통해 기술 동향을 파악한 선행연구 결과 ………… 172.3. 텍스트 마이닝 관련 선행 연구 …………………………………………… 182.3.1. 텍스트 마이닝 관련 선행 연구 …………………………………………182.3.2. 토픽 모델링 방법론 관련 선행 연구 ……………………………………222.3.3. BERTopic ……………………………………………………………………26제 3장 연구문제 및 방법 ………………………………………………………………313.1. 연구 문제 …………………………………………………………………………313.2. 연구 방법 ……………………………………………………………………… 323.2.1. 연구 프레임 워크 ……………………………………………………… 323.2.2. 데이터 수집 ……………………………………………………………… 293.2.3. 토픽 모델링 수행 절차 ………………………………………………… 34제 4장 연구결과 …………………………………………………………………… 374.1. 인공지능 반도체 기술 토픽 ………………………………………………… 374.2. 인공지능 반도체 연구 토픽 ……………………………………………… 42제 5장 결론 …………………………………………………………………………… 495.1. 연구의 시사점 ………………………………………………………………… 495.2. 연구의 한계 및 제언 ………………………………………………………… 51참고문헌 ………………………………………………………………………………… 55부록 ……………………………………………………………………………………… 60영문 요약 ……………………………………………………………………………… 64