(사)정보화사회실천연합
카테고리

빅데이터, 공공데이터

빅데이터의 역설

Xiao-Li Meng의 2018년에 발표한 "빅데이터의 통계적 낙원과 역설 (I)"에 관한 논문은 빅데이터 설정의 불확실성을 정량화하는 매력적인 접근법을 제시하고 있다. 다음은 이러한 아이디어 중 일부를 적용한 극단적인 예와 함께 요약한 내용입니다. 편향된 샘플의 데이터는 신뢰하면 안된다! 그러나 현실 세계에서는 공식적인 무작위 표본 추출 계획에 따라 수집된 데이터셋은 거의 다루지…

머신 러닝을 위한 데이터 검증

검증 과정은 무엇이 잘못됐는지 직접 찾아내지 못하지만, 그 과정은 때때로 우리에게 모델의 안정성에 문제가 있다는 것을 보여줄 수 있다. 데이터는 머신 러닝의 근원입니다. 기계 학습 및 딥 러닝 모델이 아무리 강력하더라도, 나쁜 데이터로 우리가 원하는 것을 결코 할 수 없다. 랜덤 노이즈 (즉, 패턴을 보기 어려운 데이터 포인트), 특정 범주형 변수 의 낮은 빈도, 대상 범주의…

빅데이터 분석에 필요한 데이터 크기

데이터 분석의 전통적인 학문은 통계학이다. 통계학은 모집단의 성질을 파악하기 위하여 표본을 가지고 분석하여 모집단의 모수를 추정 및 검증하는 분석 기법이다. 통계적 분석은 모집단 전체를 조사하는 비용에 비하여 적은 비용으로 효율적으로 결과를 얻을 수 있는 분석 방법으로서 다양한 분야에서 보편적으로 활용되고 있다. 그러다 빅데이터 시대의 도래로 다양하고 대량의 데이터를 이용하여 그…

과기정통부가 추진한 10개 빅데이터 플랫폼 URL 정보

과기정통부가 공공과 민간이 협업하여 활용도 높은 양질의 데이터를 생산·구축을 위하여 구축된 10개 빅데이터 플랫폼 o 통신 빅데이터 플랫폼: bdp.kt.co.kr o 교통 빅데이터 플랫폼: diamond-e.kr o 문화 빅데이터 플랫폼: culture.go.kr/bigdata o 환경 빅데이터 플랫폼: envbigdata.kr o 중소기업 빅데이터 플랫폼:…

빅데이터 분석모델 특성

빅데이터는 다양하고 대량의 데이터 자체를 지칭하나 오늘날 빅데이터가 중요하게 여기는 것은 데이터 자체가 아니라 데이터를 통하여 다양한 문제를 해결하는데 원천이라는 점에서 그 중요성을 가진다. 이는 빅데이터의 특성으로 통찰력(insight)을 찾기 위해서는 정보의 수집뿐만 아니라 이를 분석하는 기술이 중요한 요인으로 자리 잡고 있다. 과거 분석기술은 개념적 지식화 모델인…