(사)정보화사회실천연합
카테고리

SW 기술

빅데이터의 역설

Xiao-Li Meng의 2018년에 발표한 "빅데이터의 통계적 낙원과 역설 (I)"에 관한 논문은 빅데이터 설정의 불확실성을 정량화하는 매력적인 접근법을 제시하고 있다. 다음은 이러한 아이디어 중 일부를 적용한 극단적인 예와 함께 요약한 내용입니다. 편향된 샘플의 데이터는 신뢰하면 안된다! 그러나 현실 세계에서는 공식적인 무작위 표본 추출 계획에 따라 수집된 데이터셋은 거의 다루지…

머신 러닝을 위한 데이터 검증

검증 과정은 무엇이 잘못됐는지 직접 찾아내지 못하지만, 그 과정은 때때로 우리에게 모델의 안정성에 문제가 있다는 것을 보여줄 수 있다. 데이터는 머신 러닝의 근원입니다. 기계 학습 및 딥 러닝 모델이 아무리 강력하더라도, 나쁜 데이터로 우리가 원하는 것을 결코 할 수 없다. 랜덤 노이즈 (즉, 패턴을 보기 어려운 데이터 포인트), 특정 범주형 변수 의 낮은 빈도, 대상 범주의…

빅데이터 분석에 필요한 데이터 크기

데이터 분석의 전통적인 학문은 통계학이다. 통계학은 모집단의 성질을 파악하기 위하여 표본을 가지고 분석하여 모집단의 모수를 추정 및 검증하는 분석 기법이다. 통계적 분석은 모집단 전체를 조사하는 비용에 비하여 적은 비용으로 효율적으로 결과를 얻을 수 있는 분석 방법으로서 다양한 분야에서 보편적으로 활용되고 있다. 그러다 빅데이터 시대의 도래로 다양하고 대량의 데이터를 이용하여 그…

과기정통부가 추진한 10개 빅데이터 플랫폼 URL 정보

과기정통부가 공공과 민간이 협업하여 활용도 높은 양질의 데이터를 생산·구축을 위하여 구축된 10개 빅데이터 플랫폼 o 통신 빅데이터 플랫폼: bdp.kt.co.kr o 교통 빅데이터 플랫폼: diamond-e.kr o 문화 빅데이터 플랫폼: culture.go.kr/bigdata o 환경 빅데이터 플랫폼: envbigdata.kr o 중소기업 빅데이터 플랫폼:…

소프트웨어 개발보안 가이드 KISA 2019

소프트웨어 개발보안 가이드는 소프트웨어 보안의 목표는 성공적인 사업을 운영하기 위한 정보 자원의 기밀성, 무결성, 가용성을 유지하는 것이다. 이러한 목표를 달성하기 위해서 보안통제 기능의 구현이 요구되며, 이 가이드에서는 소프트웨어의 취약점을 완화시킬 수 있는 소프트웨어의 각 개발 단계별 기술적 통제항목에 중점을 두고 있다. 개발자와 공격자의 접근방식은 기본적으로 차이가 있다. 개발자는…