독서/머신러닝 11

밑바닥부터 시작하는 딥러닝 4

밑바닥부터 시작하는 딥러닝 4권. 강화학습의 기초를 설명하는 책이다. 왜 진작 밑바닥 시리즈를 읽지 않았는지 안타까움이 생길 정도로 단계적으로 이해하기 쉽게 설명하는 책이었다. 이 책을 통해서 겨우, 강화학습을 좀 이해하게 되었다. 지도학습 : 정답지로 배우는 학습비지도 학습 : 데이터로 배우는 학습강화학습 : '행동'과 '보상'(보상은 정답이 아니다)을 통해 trial & error로 배우는 학습. . 시간순서가 없을 때실행횟수가 추가될 때 1/n만큼의 증분으로 표현되는 Qn의 수식을 주목하자.1/n을 임의의 알파로 바꿀수도 있으며, 그러면 그것은 동일가중이 아닌 기하적인 가중치를 의미하게 된다. 이것이 일반적으로 사용되는 증분형태의 가치/Q함수 수식이다. 벨만 방정식앞에서는 시간 순서가 없었으나, 이..

독서/머신러닝 2024.09.16

통계학입문

통계수업을 듣기전에 보면 아주 좋을 책이다. 이 책을 통해 배운 것은 다음과 같다. 표본의 평균과 분산을 통해 모평균을 추정할 수 있다 표본갯수가 30개 이상인 경우 중심극한정리에 따라 표본은 N(모평균,표본분산/n)인 정규분포이므로, 모평균의 신뢰구간을 구할 수 있다. 카이제곱곱분포를 통해 모분산을 추정할 수 있다 카이제곱분포는 표준정규분포 값 z를 제곱한 것들 합한 값들의 분포이다. 변수의 갯수는 곧 자유도 n이 된다. 표본데이터를 X^2로 표준화시키는 과정은 아래와 같이 나타낼 수 있다. s는 표본의 표준편차이므로 n-1을 곱해주면 편차를 제곱한 것만 남고, 모분산으로 나누어주면 이것은 z^2의 행태가 되어 카이제곱분포를 따른다.저렇게 구한 카이제곱갑을 통해서 우리는 모분산을 추정해 볼 수 있다. ..

독서/머신러닝 2024.05.24

벌거벗은 통계학

의미과 쓰임새를 제대로 설명하는 수학통계 관련 도서를 만나기는 참으로 어렵다. 이 책은 중심극한정리에 한정해서는 그걸 해낸 좋은 책이다. 그 밖의 내용들도 그런대로 볼만하다. 중심극한정리란?모수에서 임의의 샘플 n개(30개 이상)를 뽑았을 때 각 샘플군들의 평균은 정규분포를 따르고, 표준오차는 s/sqrt(n)다. 중심극한정리의 의미모수전체를 실험하기 어렵기 때문에 샘플을 통해 통계를 계산한다. 중심극한정리에서 샘플군들은 정규분포를 따르므로, 표준오차 s/sqrt(n)를 통해서 신뢰구간을 구할 수 있다.  ± 1시그마 구간에는 정규분포는 68%가 존재한다. 샘플 x의 평균값은 68%의 신뢰하에, x - σ 비율의 표준오차이항분포의 E(x) = np, V(x) = npq이다. 이를 비율로 바꾸면 n으로 나..

독서/머신러닝 2024.05.23

파이썬 라이브러리를 활용한 머신러닝

설명하되 설명하지 않는 책. 간추려지고 응축된 설명과 예제를 보여주는 scikit-learn 함수매뉴얼 같은 책이다. 이해를 원한다면 반드시 중간중간에 다른 자료들을 찾아봐야 하며, 사실은 다른 책을 보는 게 낫다. 이 책을 추천한 캐글마스터 이유한 님도 '이 책을 읽고 나면 내가 무엇을 모르는지 알게 된다'라고 했었는데.. 과연 맞는 말이다. 나는 제대로 모델을 이해하기전에 활용부터 해보는 방식을 불편해하는 편이라 읽는 과정이 더 고통스러웠다. 사실 간략한 소개 수준인 이 책 정도의 깊이라면 scikit-learn 매뉴얼을 읽어도 비슷한 설명과 코드가 있다. 하지만 매뉴얼들을 정말로 다 읽어내기는 쉽지 않다는 점에서, 그래도 이 책이 매뉴얼보다는 장점이 있다. 고통을 참으며 끝까지 읽어보면 '아 전체적..

독서/머신러닝 2024.05.11

쉽게 시작하는 캐글 데이터 분석

실제 모델을 개발하는 고달픔을 조금 경험할 수 있었던 책. 개발자의 고단함이라고 해야하나... 이 책을 통해 배운 것은 아래와 같다. data preprocessing 어떻게 pandas data frame을 쉽고 효율적으로 처리해낼 수 있을 것인가. 좀 오래된 책이라 그런지 몰라도 이 책에서 최선은 sklearn.preprocessing이다. 답을 찾아가는 과정에서 찾은 python의 dtale이라는 시각화 라이브러리, 주피터 노트북을 vscode py파일에서 #%% 구문을 활용해서 접근하는 방법, 내가 몰라서 나쁘다 생각했던 주피터(코랩주소 뒤에 github주소 이어붙이기, 현재셀까지 실행 : Ctrl+F8), 이런 잡스러운 지식들을 이 책을 읽어가며 익히게 되었다. 고전적인 머신러닝 기법들 with..

독서/머신러닝 2024.04.07

케라스 창시자에게 배우는 딥러닝

2주에 걸쳐서 생각보다 빨리 읽었다. 케라스는 현시점에서는 점점 묻혀가는 툴이 되어가고 있지만, 케라스를 만든 프랑소와 슐레의 이 책은 충분히 가치가 있다. 모든 것을 설명하려는 과욕을 부리지 않으며, 필요한 부분은 직관을 사용하여 명쾌하게 설명한다. 너무 지나치듯 설명하고 넘어가는 텍스트 모델들은 조금 아쉬움이 남지만 전체적으로 너무 좋았던 책이다. 이 책을 통해서 배운 것은 1.딥러닝은 표현(representation)을 바꾸는 일 2. 메니폴드 가설 -딥러닝이 효과 있는 이유 :고차원의 세계는 저차원의 합 3. 딥러닝 학습과정 :과소적합 ->파라미터 늘리기 ->과적합->적합 :hold out/k fold/drop out 등 학습테크닉 4.시계열에 주로 사용되는 lstm, transformer 등의 ..

독서/머신러닝 2024.03.26

파이토치 딥러닝 마스터

무려 한달동안 읽은 책이다. 완독하였음이 감개무량하지만, 13장 이후 일부 제대로 이해 못한 부분도 있어서 개운한 느낌은 아니다. 컴퓨터 용량과 성능의 한계로 100GB 이상의 데이터, GPU연산 테스트를 충분히 하지 못했다(이 책의 github 소스코드에 문제가 있었을 가능성도 있다) 이책을 통해 배운 점은 1. 파트1을 통해 파이토치와 딥러닝 모델에 대해 이해도를 높힐 수 있었다. 파이토치의 실제 주요 개발자 중 하나인 저자 루카 안티가(파트1만 루카가 썼다)의 내공을 느낄 수 있다. 이 책의 진가이다. 2.파트2를 통해서 실제 머신러닝 개발자들이 업무를 진행하는 방식을 간접체험할 수 있었다. 머신러닝 실무의 진입장벽은 생각보다 높지 않은 것 같다. 3.파이썬 문법들 이 책의 아쉬운 점은 1. 이 책..

독서/머신러닝 2024.03.09

그로킹딥러닝

2주에 걸쳐서 힘들게 읽었다. 책 중반까지는 이렇게 직관적이고 친절한 책이 없었으나... 그 이후(아마도 8장)에는 탐정처럼 빈곳을 채워나가는 느낌으로 읽었다. 이책을 가로막는 장벽은 다음과 같다. 1.numpy 배열, 행렬연산에 대한 이해도 2.지나친 생략(다른 자료들 참고 필요) 3.코드오류(ch8 211 page indent 오류) 하지만 배운 것도 매우 많고 저자에게 진심으로 고마움을 느끼기도 했다. 특히 이 책의 정수라고 한다면 딥러닝 프레임워크들이 결국은 자동미분기라는 것을 직관적으로 그리고 코드를 통해 이해시켜준다는 점이다. *역전파의 직관적 이해 *CNN의 레이어 이해 *RNN, LSTM에 대한 이해 *pytorch framework에 대한 이해 *딥러닝에 대한 자신감

독서/머신러닝 2024.02.09