본문 바로가기
반응형

DATA Science50

쿼리 줄이기 spotify api 를 통해 mysql db에 삽입하려고 한다. if artist_raw['name'] == params['q']: artist.update( { 'id': artist_raw['id'], 'name': artist_raw['name'], 'followers': artist_raw['followers']['total'], 'popularity': artist_raw['popularity'], 'url': artist_raw['external_urls']['spotify'], 'image_url': artist_raw['images'][0]['url'] } ) query = """ INSERT INTO artists (id, name, followers, popularity, url, i.. 2021. 6. 23.
mysql window cmd에서 실행 및 aws 로 접속 mysql 설치후 C:\Program Files\MySQL\MySQL Server 8.0\bin 경로를 환경변수에 넣어주면 실행이된다 나같은 경우는 workbench여서 안됐었다... mysql server를 따로 설치해줘야한다. 그리고 접속이 잘되는 모습이다. 2021. 6. 23.
에러 핸들링 try: r = requests.get("https://api.spotify.com/v1/search", params=params, headers=headers) except: logging.error(r.text) sys.exit(1) r = requests.get("https://api.spotify.com/v1/search", params=params, headers=headers) if r.status_code != 200: logging.error(r.text) if r.status_code == 429: retry_after = json.loads(r.headers)['Retry-After'] time.sleep(int(retry_after)) r = requests.get("https://a.. 2021. 6. 23.
spotify api 설정 및 간단한 검색 spotify 가입후 dashboard에들어가서 api id, secret key를 획득하자 https://developer.spotify.com/dashboard/applications My Dashboard | Spotify for Developers Create and manage Spotify Applications to use the Spotify Web API. Obtain credentials to authenticate with Spotify and fetch metadata. developer.spotify.com https://developer.spotify.com/documentation/general/guides/authorization-guide/ Authorization Guid.. 2021. 6. 22.
AWS cli 설치 및 설정(profile 설정하여 관리) 목차 https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-install.html Installing, updating, and uninstalling the AWS CLI - AWS Command Line Interface Thanks for letting us know this page needs work. We're sorry we let you down. If you've got a moment, please tell us how we can make the documentation better. docs.aws.amazon.com 여기보면 설치 방법이 나와있다 version 1, 2 가 있는데 한가지만 설치하자(차이는 2는 최신기능 사용,1은 최.. 2021. 6. 22.
엔드 투 엔드 아키텍처 예시 통신 종단점에 유지되는 네트워크 설계 방법입니다. 이 원칙은 게이트웨이 및 라우터 와 같이 클라이언트와 끝점 사이의 중간 지점에 존재하는 기능과 대조됩니다 . 이 방법에서 중간 노드 는 데이터를 무작위로 전달합니다. 기능이 끝점에만 존재하기 때문에 차별이 없으면 기능 장애 없이 중간 노드를 다른 노드로 교체할 수 있습니다. 여기서 서비스를 찾아보면 S3 : 빅데이터 저장소 (DB는 너무 비용적으로 많이듬) amazon emr : spark에 최적화된 서버 redshift : RDB중 하나 분석에 특화된 DB, presto 엔진위에 서버리스 프레임워크 아래는 Netflix의 AWS 아키텍처이다. 대부분 보면 데이터를 수집하여 저장후 가공하여 DB 저장하거나 또 처리를 하여 보여주거나 이용하는것을 볼수 있다.. 2021. 6. 21.
데이터 파이프라인 한장소에서 다른장소로 옮기는 것 ex. db db API db 필요한 경우 데이터 소스들로부터 데이터를 생성 저장하는기 위해 데이터에서 추가적인 가치를 창출할때 데이터 사일로 - 데이터가 부서별로 고립되어 있을때 통합시키려고 할때 클라우드 환경으로 데이터 저장할때 Data silo: 데이터사일로는 한 조직 내 정보의 집합이지만, 조직 내 다른 부서는 접근할 수 없는 분리된 정보를 의미한다 Scalability: 데이터가 기하급수적으로 늘어났을때도 작동하는가? Stability: 에러, 데이터 플로우 등 다양한 모니터링 관리 Security: 데이터 이동간 보안에 대한 리스크는 무엇인가 2021. 6. 21.
데이터 시스템의 옵션들(Nosql, 병렬처리시스템, serverless) NoSql 구조화를 안해도 되며, 스키마가 sql에 비해 더 적다 NoSQL 데이터베이스에서는 데이터의 액세스 및 관리를 위해 다양한 데이터 모델을 사용 Scale out highly scalable, less expensive maintain 큰 테이터 볼륨, 짧은 지연 시간과 유연한 데이터 모델이 필요한 애플리케이션에 최적화되었으며, 이는 다른 데이터베이스의 데이터 일관성 제약 일부를 완화 사용해야하는 이유 유연성과 확장성을 비롯해 고성능의 매우 기능적인 데이터베이스를 필요로 하는 모바일, 웹이나 게이밍과 같은 다양한 현대적인 애플리케이션에 적합하기 때문이다. 유연성: NoSQL 데이터베이스는 일반적으로 유연한 스키마를 제공하여 보다 빠르고 반복적인 개발을 가능하게 해줍니다. 이같은 유연한 데이터 모.. 2021. 6. 21.
데이터 아키텍처 설계시 고려사항 1. 비용대비 비지니스 임팩트가 가장 높은 데이터 확보 2. 데이터 거버넌스 데이터 거버넌스란 데이터의 보안, 개인정보 보호, 정확성, 가용성, 사용성을 보장하기 위해 수행하는 모든 작업 원칙 - 데이터 유지관리하기 위한 원칙(보안,품질,변경관리) 조직 - 데이터를 관리할 조직의 역할과 책임(데이터 관리자, 데이터 아키텍쳐) 프로세스 - 데이터 관리를 위한 시스템(작업절차,모니터 및 측정) 3. 특정 기술 및 솔루션에 얽매여져 있지 않고 새로운 테크를 빠르게 적용할 수 있는지 4. 실시간 데이터 핸들링이 가능한지 5. 보안 6. 셀프 서비스 환경 구축 데이터 엔지니어가 작업할 수 있는 확장성 없는 데이터 분석환경이 있어야 한다고 한다 ex. BI Tools, QuerySystem fof Analysis... 2021. 6. 17.
적응형 선형뉴런과 학습의 수렴 아달린 - 퍼셉트론의 향상된 버전 연속함수로 비용 함수를 정의하고 최소화하는 핵심 개념을 보여준다. 아달린 규칙(위드로우-호프 규칙)과 퍼셉트론의 가장 큰 차이점은 가중치를 업데이트 하는데 퍼셉트론처럼 단위 함수 대신 선형 활성화 함수를 사용하는 것이다. 선형 활성화 함수 ϕ(z)는 최종입력과 동일한 함수이다. 아딜린 알고리즘은 진짜 클래스 레이블과 선형 활성화 함수의 실수 출력 값을 비교하여 모델의 오차를 계산하고 가중치를 업데이트 한다. 퍼셉트론은 진짜 클래스 레이블과 예측클래스끼리만 비교한다. 경사하강법으로 비용 함수최소화 지도 학습 알고리즘의 핵심 구성 요소는 학습 과정 동안 최적화하기 위해 정의한 목적함수이다. 보통 비용함수가 목적 함수가 된다. 비용 함수 — 실수를 최소화하기 위해 학습자가 행.. 2021. 6. 10.
구글 머신러닝 수업전 필요사항 Pandas 시작하기 머신러닝 단기집중과정의 프로그램 실습에서는 Pandas 라이브러리를 사용하여 데이터 세트를 조작합니다. Pandas에 익숙하지 않으면 실습에 사용된 주요 Pandas 기능을 설명하는 Pandas 간단 소개 가이드를 완료하시기 바랍니다. 낮은 수준의 TensorFlow 기본 사항 머신러닝 단기집중과정의 프로그래밍 실습에서는 고급 tf.estimator API를 사용하여 모델을 구성합니다. 처음부터 TensorFlow 모델을 구성하려면 다음 가이드를 완료하세요. TensorFlow Hello World: 낮은 수준의 TensorFlow 코딩된 'Hello World'입니다. TensorFlow 프로그래밍 개념: TensorFlow 애플리케이션의 기본 구성요소인 텐서, 작업, 그래프, 세.. 2021. 6. 3.
머신러닝 규칙 머신러닝 엔지니어링 실무지침서 Martin Zinkevich 본 문서의 목적은 머신러닝에 관한 기초 지식을 갖춘 독자들이 Google의 머신러닝 관련 권장사항을 참고할 수 있도록 돕는 것으로, Google C++ 스타일 가이드 등의 인기 있는 실무 프로그래밍 가이드처럼 머신러닝에 관한 스타일을 제시합니다. 머신러닝 수업을 들은 적이 있거나 머신러닝 모델을 개발하거나 다뤄본 경험이 있다면 이 문서를 읽는 데 필요한 배경 지식을 갖춘 것입니다. 용어 효과적인 머신러닝을 논하는 본 문서에서는 다음과 같은 용어가 반복적으로 사용됩니다. 인스턴스: 예측하려는 대상물을 의미합니다. 예를 들어 웹페이지를 '고양이와 관련됨' 혹은 '고양이와 무관함'으로 분류하려는 경우 이 웹페이지가 인스턴스가 될 수 있습니다. 라벨:.. 2021. 6. 3.
반응형