본문 바로가기

학습 내용 정리/Computer Science

(10)
String Tokenizer vs split split = 토큰화에 대한 생각을 항해 잡담방에 올렸다. 그 뒤 재밌는 질문을 받게 되었다. 그러면 StringToken방식이랑 split메서드에 차이도 크게 있을까요?? 혹은 split메서드는 배열을 따로 받아 사용하는데 메모리관점에서 비효율적인게 아닐까요?? 궁금해서 댓글 남겨요! 질문에 답변 드리기 위해 조사한 결과를 기록한다. 안녕하세요 __ 님 :) 토큰화 방식은 필요에 따라 다른 메서드를 활용하면 좋을 것 같다고 생각합니다. 조사한 내용을 공유 드립니다! StringTokenizer는 빈 문자열을 토큰으로 인식하지 않지만 split는 빈 문자열을 토큰으로 인식하는 차이가 있습니다. StringTokenizer는 결과값이 문자열이라면 split는 결과 값이 문자열 배열입니다. 따라서 Strin..
LLM 대형 언어 모델 (거대 언어 모델) LLM이란? 대형 언어 모델(Large language model, LLM) 또는 거대 언어 모델은 수많은 파라미터(보통 수십억 웨이트 이상)를 보유한 인공신경망으로 구성되는 언어 모델이다. 자기 지도 학습이나 반자기지도학습을 사용하여 레이블링되지 않은 상당한 양의 텍스트로 훈련된다. LLM은 2018년 즈음에 모습을 드러냈으며 다양한 작업을 위해 수행된다. 이전의 특정 작업의 특수한 지도 학습 모델의 훈련 패러다임에서 벗어나 자연어 처리 연구로 초점이 옮겨졌다. 대규모 언어 모델(LLM) 은 AI 챗봇 기술을 가능하게 하는 요소이며 많은 화제를 불러일으키고 있는 주제 중 하나다. 대규모 언어 모델(LLM)의 작동 방식은 크게 3가지 로 나뉘고 있다. 토큰화, 트랜스포머 모델, 프롬프트 등. LLM의 작..
웹 호환성 (Cross Browsing) 웹 호환성 (크로스 브라우징) 웹 브라우저 버전, 종류와 관계없는 웹사이트 접근 웹 호환성은 표준 웹 기술을 사용하여 운영체제, 브라우저 등 어느 한쪽으로 최적화되거나 종속되지 않도록 공통 요소를 사용하여 웹 페이지를 제작하는 기법으로 웹 사이트 사용 시 운영체제 및 브라우저 간 동일한 결과가 나오도록 의미하는 웹 상호운용성의 개념에 웹 표준의 준수를 포함하는 개념이다. ※ 출처 윤석찬, IE, 넷스케이프, 오페라, 사파리와 함게 하는 Cross Browsing 가이드, 2005, 한국소프트웨어진흥원 이영재, 특징: 공개소프트웨어 자치단체 홈페이지 엡 호환성 확보방안, 자치정보조합, Vol.44, 2007 웹 호환성 준수 내용 웹 표준 준수를 통한 브라우저 호환성 확보 - HTML, CSS 문법 준수 -..
웹표준 (Web Standards) 웹표준 웹 표준이란 브라우저 종류 및 버전에 따른 기능 차이에 대하여 호환이 가능하도록 제시된 표준이다. 다른 기종 혹은 플랫폼에 따라 달리 구현되는 기술을 동일하게 구현함과 동시에 어느 한쪽에 최적화되어 치우치지 않도록 공통요소를 사용하여 웹 페이지를 제작하는 기법을 의미한다. 표준화 단체인 W3C(World Wide Consortium)가 권고한 표준안에 따라 웹사이트를 작성할 때 이용하는 HTML, CSS, JavaScript 등에 대한 규정을 담고 있다. 웹 표준의 목적 웹사이트에 접속한 사용자가 어떠한 운영체제나 브라우저를 사용하더라도 동일한 결과를 보이게 하는 것이다. (웹의 사용성 및 접근성 보장) 웹 표준 준수 이유 국내 웹의 현실은 특정 브라우저와 사용자 등의 이용환경과 비표준 페이지 및..
웹 접근성 (Web Accessibility) 웹 접근성 장애인, 고령자 등 모든 사용자가 어떠한 기술이나 환경에서도 전문적인 능력 없이 웹사이트에서 제공하는 모든 정보를 동등하게 접근하고 이해할 수 있는 권리입니다. 되도록이면 이미지를 사용하지 말고 소스 코드에 내용을 그대로 담는 것이 권장되며, 부득이하게 이미지를 사용할 경우 반드시 이 이미지가 어떤 내용인지 설명을 추가해야 한다. 한국형 웹콘텐츠 접근성 지침 2.1 주요 내용 (24개 검사 항목) 원칙 1 인식의 용이성 (Perceivable) : 모든 콘텐츠는 사용자가 인식할 수 있어야 한다. 1.1.1 (적절한 대체 텍스트 제공) 텍스트 아닌 콘텐츠는 그 의미나 용도를 이해할 수 있도록 대체 텍스트를 제공해야 한다. 1.2.1 (자막 제공) 멀티미디어 콘텐츠에는 자막, 원고 또는 수화를 제..
시간 복잡도 시간 복잡도 계산법 : 빅오 표기법 O(1)는 일정한 복잡도(constant complexity)라고 하며, 입력값이 증가하더라도 시간이 늘어나지 않는다. O(n)은 선형 복잡도(linear complexity)라고 부르며, 입력값이 증가함에 따라 시간 또한 같은 비율로 증가하는 것을 의미한다. O(log n)은 로그 복잡도(logarithmic complexity)라고 부르며, Big-O표기법중 O(1) 다음으로 빠른 시간 복잡도를 가집니다. O(n^2)은 2차 복잡도(quadratic complexity)라고 부르며, 입력값이 증가함에 따라 시간이 n의 제곱수의 비율로 증가하는 것을 의미합니다. O(2^n)은 기하급수적 복잡도(exponential complexity)라고 부르며, Big-O 표기법 ..
공간 복잡도 공간복잡도 : 프로그램을 실행 및 완료하는데 필요한 저장공간의 양 좋은 프로그램은 실행 시간도 짧고, 저장 공간도 적게 쓰는 프로그램 (=알고리즘) 통상 둘 다를 만족시키기는 어려움 시간과 공간은 반비례적 경향이 있음 최근 대용량 시스템이 보편화되면서, 공간 복잡도보다는 시간 복잡도가 우선 그래서! 알고리즘은 시간 복잡도가 중심 하지만, 공간 복잡도는 기본이기 때문에 기본이 안되서 떨어지는 경우도 많습니다! 총 필요 저장 공간 고정 공간 (알고리즘과 무관한 공간): 코드 저장 공간, 단순 변수 및 상수 가변 공간 (알고리즘 실행과 관련있는 공간): 실행 중 동적으로 필요한 공간 S(P) = c + Sp(n) c: 고정 공간 𝑆𝑝(𝑛)Sp(n): 가변 공간 고정 공간은 상수이므로 공간 복잡도는 가변 공간에..
자료와 자료구조 1. 텍스트 자료의 표현 ASCII : 7비트로 구성되며, 각각의 비트 조합은 128개의 고유한 문자를 나타냅니다. 유니코드 : 유니코드에 먼저 등록된 영어와 숫자같은 문자는 1byte , 그뒤에 등록된 문자는 4byte와 같이 차별적 혹은 가변적으로 할당하는 방법을 택했습니다. 2. 숫자 자료의 표현 부호 없는 정수, 부호 있는 정수, 실수 (부동 소수점 표현 방식) 3. 선형/비선형 자료 구조 4. 선형 자료구조 4-1. 배열 [ 배열의 특징 ] 순서가 있습니다. (메모리 순서대로) 연속된 공간을 '미리' 정해서 사용해야 합니다. (확정된 메모리 공간을 할당받아 써야 하므로) N번째 데이터에 접근하기 위해 복잡한 과정 필요없이 그냥 덧셈과 곱셈 한번이면 가능합니다. (n번째 데이터 접근 : 시작 주소..