각각의 리소스를 분류하기 위해 모든 데이터는 그것만의 표준화된 이름을 가지고 있다. (식별 값)

  • 책의 ISBN 번호
  • 버스의 노선 번호
  • 은행 계좌의 번호
  • 사람의 주민등록번호 등

 

리소스

RFC 2396 - Uniform Resource Identifiers (URI): Generic Syntax

모든 리소스가 일종의 표준 이름을 준수하기에 식별 값을 기준으로 쉽게 공유하고 접근할 수 있다.

 

URL은 인터넷의 리소스를 가리키는 표준이름이다.

 

인터넷의 리소스 탐색하기

URL은 리소스의 위치를 가리키며, 이것을 이용해 리소스를 찾고 사용하며 공유할 수 있다.

사용자는 브라우저에 URL을 입력하고 브라우저는 화면 뒤에서 사용자가 원하는 리소스를 얻기 위해 적절한 프로토콜을 사용하여 메세지를 전송한다.

 

URL 은 통합 자원 식별자 혹은 URI 라고 불리는 일반화된 부류의 부분집합이다.

출처 :https://danielmiessler.com/study/difference-between-uri-url/

 

URI 는 URL 과 URN으로 구성된 종합적인 개념이며, 리소스를 접근하는 방식에 따라 분류를 나눈다.

 

스킴은 사용될 프로토콜을 나타내고, 서버 위치는 해당 서버의 주소, 호스트명, 리소스 위치는 리소스 명과 내부

디렉터리 위치를 나타낸다.

 

Scheme : 스킴

주어진 리소스에 어떻게 접근하는지 알려주는 중요한 정보이다.

이것은 클라이언트가 어떤 프로토콜을 사용하여 리소스를 요청해야하는지 알려주는 역할을한다.

 

호스트와 포트

애플리케이션이 인터넷에 있는 리소스를 찾으려면, 리소스를 호스팅하고 있는 장비와 그 장비 내에서 접근할 수 있는 서버가 어디에 있는지 알아야한다

 

호스트와 포트는 그 두가지 정보를 제공해준다.

포트값이 지정되지 않았을 경우, 기본 값인 80을 사용하게 된다.

 

사용자 이름과 비밀번호

많은 서버가 데이터 접근을 허용하기 전에 인증 처리를 우선적으로 진행하게끔 설계되어 있다.

사용자의 이름과 비밀번호는 서버에 등록되어 관리되면서 기존 정보와 비교되어 동일한 경우에만 데이터를 제공해준다.

 

경로

리소스가 서버의 어디에 있는지 알려준다.

경로를 잘 살펴보면 계층적 파일 시스템과 유사한 구조를 가지고 있음을 알 수 있다.

 

파라미터

많은 스킴이 리소스에 대한 호스트 및 경로 정보만으로는 찾지 못한다.

서버가 어떤 포트를 열어놓고 있는지, 어떤 정보를 요구하는 지 등의 다른 정보들을 제공하여야 한다.

 

URL의 파라미터는 애플리케이션이 서버에 정확한 요청을 하기 위해 필요한 입력 파라미터를 받는데 사용하게 되는데, Key:Value 형식으로 URL에 기술되어 제공된다.

 

질의 문자열

데이터베이스와 같은 서비스들은 요청받을 리소스의 형식의 범위를 좁히기 위해 질문이나 질의를 받을 수 있다.

? 으로 시작되며 각 Key 와 Value 는 = 으로 대입되고 &으로 구분되어 있다.

ex) ?item=12731&color=blue

 

프래그먼트

HTML 같은 리소스 형식들은 본래의 수준보다 더 작게 나뉠 수 있다.

 

질문이 포함된 하나의 큰 텍스트 문서가 있을 경우, 그 리소스에 대한 URL은 해당 문서를 가르키지만 프래그먼트를 통해서 해당 문서 내부의 특정한 값을 가르킬 수 있다.

 

프래그먼트는 URL 문자 오른쪽에 # 구분자 이후에 오게된다.

ex) tools.html#drills

 

단축 URL

웹 클라이언트는 몇몇 단축 URL을 인식하고 사용한다. 상대 URL은 리소스 안에 있는 리소스를 간결하게 기술하는데

사용할 수 있다. 많은 브라우저가 사용자가 기억하는 URL 일부를 입력하면 나머지 부분을 자동으로 입력해주는 URL

자동 확장을 지원한다.

 

상대 URL

URL은 상대 URL과 절대 URL로 나뉘게 된다.

앞서 나왔던 URL들은 리소스에 접근할 수 있는 모든 정보를 포함한 절대 URL 이다.

 

상대 URL로 리소스에 접근하는데 필요한 모든 정보를 얻기 위해서는 기저(base)라고 하는 다른 URL을 사용해야 한다.

 

어떠한 HTML 문서에서 사용되는

<a href="./login.html"/>

이러한 형식의 URL을 상대 URL 이라고 하며, 현재 접근한 URL 이 Base URL이 된다.

 

즉 현재 URL 정보에서 링크 정보를 통해 추가적인 접근을 할 수 있는 것이다.

 

URL의 확장

어떤 브라우저들은 URL을 입력한 다음이나, 입력하고 있는 동안에 자동으로 URL을 확장해준다.

이는 사용자가 좀 더 빠르게 URL을 작성할 수 있게끔 지원하는 기능이다.

  • 호스트 명 확장

    naver만을 입력하면 www. 와 .com을 붙여서 www.naver.com 의 형태를 만들어주게 된다.

    몇몇 브라우저는 해당단어를 포함한 사이트를 찾지 못한다면, 몇 가지의 URL을 추가로 제시한다.

  • 히스토리 확장

    과거에 사용자가 방문했던 URL 기록을 저장하여 유사한 단어가 나왔을 경우 완전한 URL들을 불러와 선택하게 해준다.

 

안전하지 않은 문자

URL은 호환성을 위하여, 허용되지 않은 문자(이진 데이터, 알파벳 외의 문자 등)를 포함한 URL이 전송되는 경우 이스케이프라는 기능을 사용하여 인코딩하게끔 지원한다.

 

URL 문자 집합

컴퓨터 시스템의 기본 문자 집합은 보통 영어 중심으로 설정되어 있다. (ASC II 등)

영어를 제외한 비 라틴어, 유럽의 언어 등을 지원하기 위해서 URL에 이스케이프 문자열을 사용할 수 있도록 설계하였으며, 호환성을 지킬 수 있게 되었다.

 

스킴의 종류

  • http
  • https
  • mailto - 이메일 주소를 가리킨다.
  • ftp - FTP 서버에 있는 파일을 다운, 업로드, 컨텐츠 목록을 불러오는 등의 행위에서 사용된다.
  • rtsp, trspu - 실시간 스트리밍 프로토콜의 약자이며, 오디오, 비디오와 같은 미디어 리소스이다.
  • file - 주어진 호스트 기기에서 바로 접근할 수 있는 파일들을 나타낸다. (로컬 디스크, 네트워크..)
  • news - 특정한 문서나 뉴스 그룹에 접근하는데 사용된다.
  • telnet - 대화형 서비스에 접근하는데 사용된다.

등이 있다.

'Book! > HTTP 완벽 가이드' 카테고리의 다른 글

1장 HTTP 개관  (1) 2020.12.11

전 세계의 브라우저, 서버, 웹 애플리케이션은 모두 HTTP를 통해 서로 대화한다

 

HTTP : 인터넷의 멀티미디어 배달부

HTTP 는 신뢰성 있는 데이터 전송 프로토콜을 사용하기 때문에, 데이터가 지구 반대편에서 오더라도 전송 중 손상되거나 꼬이지 않음을 보장한다. 이 덕분에 사용자는 인터넷에서 얻는 정보가 손상된 게 아닌지 염려하지 않아도 된다.

 

웹 클라이언트와 서버

웹 컨텐츠는 서버에 존재한다. 서버는 보통 HTTP 프로토콜로 의사소통하기 때문에 HTTP 서버라고 부르기도 한다. 웹 서버는 인터넷의 데이터를 저장하고 클라이언트가 요청한 데이터를 제공한다.

웹 클라이언트

  • 크롬
  • 익스플로러
  • 사파리 등

 

리소스

웹 서버는 "리소스"라는 것을 관리하고 제공한다.

리소스란?

  • 웹 서버의 정적 파일 (HTML, Text, Word, PPT, JPEG, PNG, AVI....)

  • 웹 서버의 동적 콘텐츠 (라이브 스트리밍, 주식 거래 API 결과, 검색 엔진, 물품 거래 결과..)

    WAS에서 요청에 따라 생성되는 데이터

즉 리소스는 웹에 콘텐츠를 제공하는 모든 것을 의미한다.

 

미디어 타입

인터넷은 수많은 데이터 타입을 다룬다. 이것을 MIME라는 데이터 포맷 라벨을 붙이고 관리하는데, 이 포맷은 사실 각기 다른 전자메일 시스템 간의 메시지 전송시 호환성을 위해 설계되었다.

 

Primary Object Type / Specific Sub Type 구조로 이루어져 있다.

웹 서버는 모든 HTTP 데이터에 MIME 타입을 붙이고 관리하게 된다.

  • image/jpeg

  • image/gif

  • text/html

  • text/plain

  • audio/mpeg

  • application/....

    ... 등

 

URI

서버 리소스 이름은 URI (Uniform Resource Identifier)이라는 식별자로 관리된다.

클라이언트는 URI를 이용하여 어떠한 리소스를 선택하고 이용할 수 있다.

예)

http://www.joes-hardware.com/specials/saw-blade.gif

URI의 종류에는 두 가지가 존재한다.

  • URL
  • URN

 

URL (Uniform Resource Locator)

리소스 식별자의 가장 흔한 형태이다.

URL은 특정 서버의 한 리소스에 대한 구체적인 위치를 서술한다.

URL 리소스의 정확한 위치와 접근방법을 보여주는 예

대부분의 URL은 세 부분으로 이루어진 표준 포맷을 따른다.

  • scheme : 리소스에 접근하기 위해 사용되는 프로토콜을 서술한다. (http://)
  • 서버의 인터넷 주소 (www.oreilly.com)
  • 접근할 서버의 리소스 (index.html,. gif...)

오늘날 대부분의 URI는 URL이며, 통상적인 관례로는 URI를 URL과 같은 의미로 사용한다고 한다.

 

URN (Uniform Resource Name)

콘텐츠를 이루는 한 리소스에 대해, 그 리소스의 위치에 영향받지 않는 유일무이한 이름 역할을 한다. 이 URN은 리소스의 위치가 변경되더라도 문제없이 접근, 동작할 수 있게 한다.

  • 리소스의 이름이 변하지 않고 유지되는 동안 접근할 수 있다.

 

트랜잭션

HTTP 트랜잭션은 요청 명령과 응답 결과로 구성되어 있다.

  • 요청 명령 : 클라이언트에서 서버로 보내는 상황
  • 응답 결과 : 서버에서 클라이언트로 보내는 상황

HTTP 트랜잭션과 관련된 상호작용은 HTTP 메시지라고 불리는 데이터를 통해 이루어진다.

참고 : https://developer.mozilla.org/en-US/docs/Web/HTTP/Messages#:~:text=HTTP messages are how data, and span over multiple lines.

 

메서드

HTTP는 HTTP 메서드라고 불리는 여러 가지 종류의 요청 명령을 지원한다.

모든 HTTP 메시지는 한 개의 HTTP 메서드를 가지게 된다.

 

HTTP request methods

 

HTTP 메서드는 서버에게 어떠한 동작을 해야 하는지 알려주는 역할을 한다.

  • GET → GetMapping
  • POST → PostMapping
  • Delete
  • Update
  • HEAD 등

 

상태 코드

모든 HTTP 응답 메시지는 상태 코드와 함께 반환된다.

HTTP response status codes

상태 코드는 클라이언트에게 요청이 성공했는지 아니면 추가 조치가 필요한지 알려주는 숫자 값이다.

  • 200 OK
  • 302 Redirect
  • 404 Not Found 등

상태 코드는 숫자 값 : 사유 구절의 형태로 클라이언트에게 제공된다.

  • 200 OK
  • 200 Document attached
  • 200 Success 등

 

웹 페이지는 여러 객체로 이루어질 수 있다.

Application은 보통 하나의 작업을 수행하기 위해 여러 HTTP 트랜잭션을 수행한다.

시작적으로 여러 콘텐츠를 가진 웹 페이지가 있다 가정하였을 떼 다수의 트랜잭션이 진행된다.

  • HTML 뼈대를 하나의 트랜잭션으로 가져온 뒤
  • 첨부된 이미지, 그래픽, 자바 애플릿 등의 파일을 위해 추가적으로 트랜잭션을 수행한다.

 

메시지

HTTP 요청과 응답 메시지 구조를 살짝 들여다보자.

HTTP Message는 단순한 줄 단위의 문자열이다. 이진 형식이 아닌 일반 텍스트이기 때문에 사람이 읽고 쓰는 것이 쉽다.

 

참고 : http://www.icodeguru.com/dotnet/core.c.sharp.and.dot.net/0131472275/ch17lev1sec1.html

 

클라이언트가 서버로 보내는 HTTP 메시지를 요청 메시지, 반대로 서버가 클라이언트에게 보내는 것을 응답 메시지라고 부른다.

 

 

메시지 구조

  • 시작 줄 - Request line

    요청이라면 무엇을 해야 하는지 응답이라면 무슨 일이 일어났는지 알려준다.

  • 헤더

    시작줄 이후로는 0개 이후의 헤더 필드가 이어지게 된다.

    각 헤더 필드는 : 를 기준으로 구분되어 있는 하나의 이름과 값으로 구성된다.

  • 본문

    어떤 종류의 데이터든 들어갈 수 있는 공간이다.

    요청, 응답 본문이 해당 부분에 작성되며, 각종 타입의 이진 데이터, 텍스트를 포함할 수 있다.

 

TCP 커넥션

HTTP 메시지는 TCP 커넥션을 통하여 이동하게 된다.

 

TCP/IP

HTTP는 Application 계층의 프로토콜이다. HTTP는 네트워크 통신의 핵심적인 세부사항에 대해 신경 쓰지 않는다. 대신 TCP/IP라는 프로토콜에게 전송 등에 대한 처리를 위임한다.

 

TCP는 다음과 같은 기능을 제공한다.

  • 오류 없는 데이터의 전송
  • 순서에 맞는 전달 (데이터는 언제나 보낸 순서대로 도착한다)
  • 조각나지 않는 데이터 스트림 (언제든 어떤 크기로든 보낼 수 있다.)

TCP/IP는 TCP와 IP가 층을 이루는, 패킷 교환 네트워크 프로토콜의 집합이다.

TCP/IP는 각 네트워크와 하드웨어의 특성을 숨기고, 어떤 종류의 디바이스든 간에 서로 신뢰성 있는 의사소통을 하게 해 준다.

 

일단 TCP 커넥션이 맺어지면, 클라이언트와 서버 간의 교환되는 메시지가 없어지거나 손상되거나 순서가 뒤바뀌어 수신되는 일은 결코 없다.

 

접속, IP 주소 그리고 포트번호

HTTP 클라이언트가 서버에 메시지를 전송할 수 있게 되기 전에, 인터넷 프로토콜 주소와 포트번호를 사용해 클라이언트와 서버 사이에 TCP/IP 커넥션을 맺어야 한다.

 

TCP에서는 서버 컴퓨터에 대한 IP 주소와 그 서버에서 실행 중인 프로그램이 사용 중인 포트번호가 필요하다. 그리고 그것을 알기 위해 URL을 사용한다.

 

HTTP URL에 포트번호가 빠진 경우에는 80을 기본값으로 사용하여 접근한다.

  1. 웹 브라우저는 URL에서 호스트 명을 추출한다.
  2. 서버의 호스트 명을 IP로 변환한다
  3. URL에서 포트번호를 추출한다. (존재하는 경우)
  4. 웹 브라우저가 해당 정보를 가지고 서버와 TCP 커넥션을 맺는다. (3 way handshake)
  5. 웹 브라우저는 서버에 HTTP 요청을 보낸다.
  6. 서버는 웹 브라우저에게 HTTP 응답을 돌려준다.
  7. 커넥션이 닫히면 웹 브라우저는 문서를 보여준다. (4 way handshake)

 

프로토콜 버전

  • HTTP/0.9

    GET 메서드만을 지원하고 MIME 타입이나, 헤더, 버전 번호를 지원하지 않는다.

  • HTTP/1.0

    버전 번호, 헤더, 추가 메서드, MIME 객체 처리를 추가하였다.

  • HTTP/1.0+

    공식적인 기능은 아니지만 KEEP-ALIVE 커넥션, 가상 호스팅, 프락시 연결 등을 지원하였다.

    유명한 웹 클라이언트, 서버에 의해 확장된 HTTP/1.0 등을 칭한다.

  • HTTP/1.1

    HTTP 설계의 구조적 결함 조정, 두드러진 성능 최적화, 잘못된 기능 제거에 집중하였다.

    그 외에도 앞서 추가했던 KEEP-ALIVE 등 기능들을 공식적으로 지원하였다.

  • HTTP/2.0

    HTTP/2

    HTTP 1.1 버전의 성능을 개선하기 위해 구글의 SPDY 프로토콜을 기반으로 설계한 버전이다.

 

웹의 구성요소

 

HTTP 프록시 서버

클라이언트와 서버 사이에 위치한 HTTP 중개자

웹의 보안, Application 통합, 성능 최적화를 위한 중요한 구성 요소이다.

 

주로 모든 HTTP 요청을 받아 서버에 전달한다.

모든 웹 트래픽 흐름 속에서 신뢰할 만한 중개 역할을 수행한다.

요청과 응답을 필터링한다. (바이러스 검출, 성인 콘텐츠 차단 등)

 

 

웹 캐시, 캐시 프락시

많이 찾는 웹페이지를 클라이언트 가까이에 보관하는 HTTP 창고이다.

문서들 중 자주 접근하는 것의 사본을 저장하여 다음 요청 시에 캐시 된 문서를 제공한다.

 

HTTP는 캐시를 효율적으로 동작하게 하고 캐시된 콘텐츠를 최신의 버전으로 유지하면서 동시에 프라이버시도 보호하기 위한 많은 기능을 정의한다.

 

 

게이트웨이

다른 Application과 연결된 특별한 웹 서버이다.

주로 HTTP 트래픽을 다른 프로토콜로 변환하기 위해 사용한다.

 

게이트웨이는 언제나 스스로가 리소스를 갖고 있는 서버인 것처럼 요청을 다룬다.

클라이언트는 자신이 게이트웨이 통신하고 있음을 알아채지 못한다.

 

 

터널

HTTP 통신 전달만을 책임지는 특별한 프락시이다.

두 커넥션 사이에서 데이터를 전달하는 HTTP Application이다.

 

HTTP 터널은 주로 비 HTTP 데이터를 하나 이상의 HTTP 커넥션을 통해 그대로 전송해준다.

대표적인 활용 예로는 암호화된 SSL 트래픽을 HTTP 커넥션으로 전송함으로써 웹 트래픽만 허용하는 방화벽을 통과시키는 것이 있다.

 

 

에이전트

자동화된 HTTP 요청을 만드는 준지능적 웹 클라이언트이다.

웹 브라우저를 포함하며, 스파이더(크롤링)나 웹 로봇 등도 하나의 에이전트이다.

 

 

도서

http://www.yes24.com/Product/Goods/15381085?pid=136927&ReturnURL=http://www.yes24.com&

'Book! > HTTP 완벽 가이드' 카테고리의 다른 글

2장 URL과 리소스  (0) 2020.12.12

+ Recent posts