질문과 답변

Q. md5 메시지 요약 함수란?

md는 message disgest의 약자이다. md 함수는 해시 함수의 일종인데, f(원본 메시지) = (해당 메시지의 요약)인 것.
원본 메시지는 임의의 길이를 가질 수 있지만, 요약인 해시값은 고정 크기를 갖는다.
md 계열 함수들은 Rivest라는 사람이 만들었으며, md2, md4, md5를 거쳐서 발전했다.
- SHA(Secure Hash Algorithm, 안전한 해시 알고리즘)함수들 역시 md4에 기반한다.
md2는 초기의 8비트 컴퓨터에 최적화되어 있는 8비트 버전이고, md4, md5는 32비트에 최적화되어 있다.
현재는 md5 알고리즘의 암호학적 취약성이 발견되었기 때문에, SHA-1과 같은 다른 알고리즘을 사용할 것이 권장된다.
자세한 알고리즘의 동작은 위키백과를 참고할 것.

ref: 정보통신용어기술해설 http://www.ktword.co.kr/abbr_view.php/abbr_view.php?nav=2&id=960&m_temp1=1071 ref: 위키백과 https://ko.wikipedia.org/wiki/MD5

URI에 대한 요청이, DNS를 거쳐서 최종적으로는 ip 주소로 변환되 날아가기 때문.

ref: (HeadLess란? 부분 참) https://beomi.github.io/gb-crawling/posts/2017-09-28-HowToMakeWebCrawler-Headless-Chrome.html

ref: Google의 페이지 랭크 알고리즘 https://sungmooncho.com/2012/08/26/pagerank/

기본적인 개념은 논문처럼 피인용수가 높으면 그 페이지는 좋은 페이지라고 생각하는 것이다.
단순히 피인용 숫자만 더한다고 생각해보자. Rank(특정 페이지) = Rank(특페를 인용한 페이지1) + Rank(특페를 인용한 페이지2) + Rank(너무 길다 페이지3) + ... Rank(페이지n).
어떤 논문은 논문 1000개를 인용할 수도 있고, 어떤 논문은 논문 1개만 인용했을 수도 있다. 그런데도 각각의 인용 1개가 같은 가중치를 가지나? 아니다.
Rank를 정규화한다. 정규화한다는 것은 Rank(페이지) / (해당 페이지가 인용한 페이지 갯수) (이걸 F(페이지)라고 하자)
랭킹이 높은 페이지들이 인용을 많이 할수록 해당 페이지도 랭킹이 올라간다.
식이 Rank(특정 페이지) = F(걔 인용한 다른 페이지) + F(다른 페이지2) + ... + F(다른 페이지3)
근데 사람들이 무한히 클릭만 하고 있지는 않고, 언젠가는 만족하고 멈추지 않는가? 그니까 그 페이지에 링크가 걸려 있어도 꼭 누르지 않을 수도 있다. 그래서 링크 누를 확률인 damping factor라는 것을 곱해준다. (ref 참고)

Last updated 5 years ago

Was this helpful?