□참고
▶tensorflow 홈페이지 예제
▶tensorflow에서 제공되는 file data read 기능들을 사용해 보자.
|
□sample
|
□Test
1.읽을 파일 N개 filenames_queue = tf.train.string_input_producer(['/home/ksu/sample.csv']) 2.제목인 첫 줄은 생략 reader = tf.TextLineReader(skip_header_lines = 1) key, value = reader.read(filenames_queue) 3.데이터가 없을 시 채워줄 Default값 설정 record_defaults = [ [""], [""], [""], [""], [""], ["True"], ["0"]] 4.field_delim로 콤마로 구분해서 데이터 읽음 col1, col2, col3, col4, col5, col6, col7 = tf.decode_csv(value, record_defaults=record_defaults, field_delim=',') 5.원하는 컬럼 선택 후 Pack feature = tf.stack([col1, col5, col6]) 6.실행 with tf.Session() as sess: coord = tf.train.Coordinator() threads = tf.train.start_queue_runners(coord=coord) //예제의 한 개의 파일에서 데이터 3개중 2개만 읽음 for i in range(2): //col7이 Label example, label = sess.run([feature, col7]) print("label : ",label, " feature : ", example )
coord.request_stop()
|
□결과
▶선택한 1,5, 6 번째 정보들 만으로 feature 생성 ▶없는 데이터들의 경우 지정한 default값 입력
|
'spark - python - R' 카테고리의 다른 글
sparksql 이용하여 mysql 데이터를 csv파일로 생성 (0) | 2018.04.20 |
---|---|
scala + java + maven project packge (0) | 2018.02.21 |
[python]tensorflow cnn cat vs dog 해보기 (1) | 2017.10.23 |
[python]그림 파일 읽고 데이터 처리 (0) | 2017.09.20 |
[python]tensorflow clustering kmeans 해보기 (0) | 2017.09.20 |